what does it mean for llms when the web has been strip-mined clean, content providers have locked their doors, and there’s barely a trickle of new data to scrape?
ai公司未经许可从互联网上获取数据的行为日益引起关注。封锁robots.txt或服务条款对爬虫无效。在许多国家,网络爬虫是合法的,但有限制。为ai训练而爬取受赢家斗地主的版权保护的内容可能是合法的,但赢家斗地主的版权仍适用于被爬取的数据。ai爬取狂潮导致了信任破裂、人工生成内容的限制、法律纠纷以及对小型网站的财务压力。由于爬取导致数据稀缺,可能会导致ai知识匮乏。在ai生成的数据上训练ai模型可能导致模型崩溃。ai社区需要找到创新赢家斗地主的解决方案,以避免数据匮乏的ai领域。如果只有巨头公司能够承担爬取成本,将导致知识差距和权力集中。将内容授权给科技巨头限制了小公司的资源。ai的未来岌岌可危,公平获取数据对于创新和竞争至关重要。
