OpenAI：AI训练中无法避免的受版权保护的数据

OpenAI本周在英国议会委员会上大胆宣称，如果不使用大量受版权保护的数据，开发当今领先的人工智能系统将是“不可能的”。

该公司认为，像ChatGPT这样的先进人工智能工具需要如此广泛的训练，遵守版权法将是完全不可行的。

OpenAI在书面证词中表示，由于版权法的广泛适用和受保护的在线内容的普遍存在，“几乎每一种人类表达形式”都将无法用于训练数据。从新闻文章到论坛评论再到数字图像，很少有在线内容可以自由合法地利用。

根据OpenAI的说法，试图在避免版权侵权的同时创建能力强大的人工智能将会失败：“将训练数据限制在公共领域的书籍和一百多年前的绘画作品上…将无法提供满足当今公民需求的人工智能系统。”

尽管OpenAI辩称其做法合规，但承认可能需要与出版商建立合作伙伴关系和补偿计划，以“支持和赋权创作者”。但该公司并未表示其打算大幅限制其对在线数据的收集，包括付费新闻和文学作品。

这一立场使OpenAI面临多起诉讼，包括来自《纽约时报》指控版权侵犯。

尽管如此，OpenAI似乎不愿意从根本上改变其数据收集和训练过程，因为自我限制的版权限制将带来“不可能的”约束。该公司希望依靠对公平使用规定的广泛解释，合法地利用大量受版权保护的数据。

随着先进的人工智能继续展示出模仿人类表达的神奇能力，法律专家预计将围绕系统内在设计为吸收大量受保护的文本、媒体和其他创作产出的侵权问题展开激烈的法庭战斗。

目前，OpenAI正在押注反对版权极端主义者，支持几乎无限制的复制来推动持续的人工智能发展。

想要从行业领导者那里了解更多关于人工智能和大数据的知识吗？请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个全面的活动与Digital Transformation Week和Cyber Security & Cloud Expo同期举办。

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会，请点击这里。

相关文章