百度限制谷歌和必应抓取内容用于AI训练

中国互联网搜索提供商百度已更新了其类似维基百科的百度百科服务，以防止谷歌和微软必应抓取其内容。

这一变化在百度百科的robots.txt文件的最新更新中被观察到，该文件拒绝了Googlebot和Bingbot爬虫的访问。

根据Wayback Machine的数据，这一变化发生在8月8日。此前，谷歌和必应搜索引擎被允许索引百度百科的中央存储库，该存储库包含近3000万条条目，尽管网站上的某些目标子域名受到限制。

百度的这一举动是在对用于训练人工智能模型和应用程序的大型数据集需求日益增加的背景下进行的。此举跟随其他公司采取类似措施以保护其在线内容。今年7月，Reddit阻止了各种搜索引擎（除了谷歌）索引其帖子和讨论。谷歌与Reddit一样，与Reddit达成了数据访问的财务协议，以训练其人工智能服务。

据消息来源称，在过去一年中，微软考虑限制对互联网搜索数据的访问，以防止竞争对手搜索引擎运营商使用这些数据；这对那些将数据用于聊天机器人和生成性人工智能服务的公司尤其相关。

与此同时，中文维基百科的143万条条目仍然可以被搜索引擎爬虫访问。《南华早报》进行的一项调查发现，百度百科的条目仍然出现在必应和谷歌的搜索结果中。也许搜索引擎继续使用较旧的缓存内容。

这样的举动是在全球生成性人工智能开发者越来越多地与内容出版商合作，以获取其项目所需的高质量内容的背景下出现的。例如，OpenAI最近与《时代》杂志签署了一项协议，以访问该杂志自创刊以来的整个档案。类似的合作关系于四月与《金融时报》达成。

百度限制主要搜索引擎访问其百度百科内容的决定突显了数据在人工智能时代日益重要的地位。随着公司在人工智能开发上进行大量投资，大型策划数据集的价值显著增加。这导致在线平台在管理其内容访问方面发生了转变，许多平台选择限制或货币化对其数据的访问。

随着人工智能行业的不断发展，更多公司可能会重新评估其数据共享政策，可能导致信息在互联网上的索引和访问方式进一步变化。

(照片由 Kelli McClintock 提供)

想了解更多关于人工智能和大数据的信息吗？ 请查看人工智能与大数据博览会，该博览会将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办，包括智能自动化会议、区块链博览会、数字化转型周和网络安全与云博览会。

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里。

相关文章