美国圣克拉拉大学法学院教授埃里克·戈德曼认为,诉讼浪潮才刚刚开始,“第二波和第三波”即将到来,而这将定义人工智能的未来。
人工智能公司辩解称,使用受版权保护的作品来培训人工智能是合理的——这参考了美国版权法中“转换性使用”的概念,如果材料以一种“变革性”的方式改变,就会创造一个例外。
美国正在爆发一场“数据起义”,好莱坞、艺术家、作家、社交媒体公司和手机版机构都是反抗者。
一切的矛头都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它们被指在未经许可或提供补偿的前提下,非法利用内容创作者的作品训练大型语言模型。
这场“数据起义”的核心是一种新的认识,即在线信息——故事、艺术品、手机版文章、网络帖子和照片可能具有重要的未开发价值。在互联网上抓取公开内容的做法由来已久,大多数采取这种做法的公司和非营利组织都会公开披露。但在ChatGPT发布之前,数据所有者对此并不太了解,也不认为这是一个特别严重的问题。现在,当公众了解了更多关于AI训练的基础知识后,这种情况发生了变化。
“这是数据价值的根本性重塑。”Nomic公司的创始人兼首席执行官布兰登·杜德斯塔特(Brandon Duderstadt)在接受媒体采访时说,“以前,人们通过让所有人都能访问数据并投放广告来获得数据价值。而现在,人们认为要保护好自己的数据。”
浪潮迭起
最近几个月,Reddit和推特等社交媒体公司、《纽约时报》和美国全国广播公司(NBC)等手机版机构、科幻作家保罗·特伦布雷(Paul Tremblay)和女演员莎拉·西尔弗曼(Sarah Silverman)等纷纷发采取行动,反对他们的作品和数据被人工智能擅自收集。这一系列举动被美国媒体称为“数据起义(Data Revolt)”。
上周,西尔弗曼向OpenAI和Meta公司提起诉讼,指控他们在训练数据时使用其著作的盗版内容,因为这两家公司的聊天机器人可以准确地总结其书中的内容。此外,包括乔迪·皮科特(Jodi Picoult)、玛格丽特·阿特伍德(Margaret Atwood)和阮越清(Viet Thanh Nguyen)在内的5000多名作家签署了一份请愿书,要求科技公司在使用他们的书作为训练数据时,要征得他们的许可,并给予他们署名和补偿。
为了保护自己的作品,作家和艺术家们采取了不同的抗议方式。有的选择锁定作品,不让人工智能获取;有的选择抵制发布人工智能生成内容的网站;有的则选择编写一些颠覆性的内容,来干扰人工智能的学习。
7月13日,拥有16万会员的好莱坞三大工会之一SAG-AFTRA宣布罢工,在此之前,美国编剧工会已经罢工70多天。《纽约时报》称,这次大罢工使价值1340亿美元的美国影视业陷入停顿,SAG-AFTRA工会要求流媒体巨头为他们提供更公平的利润分配和更好的工作条件,并要求制片公司保证不会以AI和电脑生成面孔和声音来替代演员。
与此同时,一些手机版机构也在抵制人工智能。6月,在关于使用生成型人工智能的内部备忘录中,《纽约时报》表示,“人工智能公司应该尊重我们的知识产权。”同月,在代表在线出版商利益的贸易组织Digital Content Next发布的一份声明中,《纽约时报》和《华盛顿邮报》等在线出版商认为,使用受版权保护的手机版文章作为人工智能的训练数据具有潜在风险和法律问题,它们呼吁人工智能公司尊重出版商的知识产权和创作劳动。
社交媒体公司也纷纷表明立场。今年4月,社交手机版网站Reddit表示,它希望对访问其应用程序编程接口(API)的第三方收费。Reddit首席执行官史蒂夫·霍夫曼(Steve Hoffman)表示,他的公司“不需要把所有价值都免费提供给世界上最大的一些公司。”7月,推特所有者埃隆·马斯克(Elon Musk)也表示,一些公司和组织“非法”大量抓取推特的数据,为了应对“极端的数据抓取和系统操纵”,推特决定限制个人账户可以查看的推文数量。
这场“数据起义”也包括“诉讼浪潮”,一些人工智能公司由于数据隐私问题受到多次起诉。去年11月,一群程序员对微软和OpenAI发起集体诉讼,称这两家公司使用其代码训练人工智能编程助手,侵犯了他们的版权。今年6月,总部位于洛杉矶的克拉克森律师事务所向OpenAI和微软发起起诉书长达151页的集体诉讼,指出OpenAI如何从未成年人那里收集数据,并称网络抓取侵犯了版权法,构成了“盗窃”。此后,该事务所又对谷歌提起了类似的诉讼。
美国圣克拉拉大学法学院教授埃里克·戈德曼(Eric Goldman)在接受媒体采访时说,这起诉讼的论点过于宽泛,不太可能被法院接受。但他认为,诉讼浪潮才刚刚开始,“第二波和第三波”即将到来,而这将定义人工智能的未来。
法律争议
OpenAI的ChatGPT和Dall-E、谷歌的Bard、Stability AI的Stable Diffusion等生成式AI都是基于从互联网上抓取的海量手机版文章、书籍、图片、视频和博客文章进行训练的,其中很多公开内容都受版权保护。
今年3月,OpenAI发布了一份对该机构主要语言模型的分析手机版,显示训练数据的文本部分使用了来自手机版网站、维基百科和一个盗版书籍数据库(LibGen)的数据,目前,该盗版书籍数据库已被美国司法部查封。
7月13日,美国联邦贸易委员会(FTC)向OpenAI发送了一份20页的文件,要求OpenAI提供有关其人工智能模型的风险管理、数据安全和信息审核的记录,以调查其是否侵犯了消费者权利。
但在公开露面和对诉讼的回应中,人工智能公司辩解称,使用受版权保护的作品来培训人工智能是合理的——这参考了美国版权法中“转换性使用”的概念,如果材料以一种“变革性”的方式改变,就会创造一个例外。
“人工智能模型基本上是在从所有的信息中学习。这就像一个学生在图书馆读书,然后学习如何写作和阅读。”谷歌全球事务总裁肯特·沃克(Kent Walker)在一次采访中说,“与此同时,你必须确保没有复制别人的作品,也没有做一些侵犯版权的事情。”
谷歌的总法律顾问哈利玛·德莱恩·普拉多(Halimah DeLaine Prado)向媒体表示:“多年来,所有人都很清楚,我们会使用来自公共来源的数据——比如发布到开放网络和公共数据集的信息,来训练谷歌翻译等服务背后的人工智能模型。”她指出,“美国法律支持利用公共信息来创造新的有益用途,我们期待着驳斥这些毫无根据的说法。”
迈阿密大学研究知识产权法的教授安德烈斯·索维基(Andres Sawicki)在接受采访时说,有一些可能有利于科技公司的先例,比如1992年美国上诉法院的裁决,允许公司对其他公司的软件代码进行逆向工程来设计竞争产品。但许多人表示,对于大型公司利用创造者的工作来制造新的赚钱工具,直觉上这是不公平的。“关于生成式人工智能的问题真的很难给出答案。”他说。
迈阿密大学版权法教授杰西卡·D·利特曼·索维基(Jessica D. Litman Sawicki)表示,合理使用原则(Fair use)是对人工智能公司的一种有力辩护,因为人工智能模型的大多数输出内容并不明确地类似于某个特定人类的作品。但她认为,如果起诉人工智能公司的创作者能够展示足够多与他们作品非常相似的人工智能输出的例子,他们就会有充分的理由认为,他们的版权正在受到侵犯。
人工智能公司开始应对
索维基表示,人工智能公司可以通过在产品中安装过滤器(filters)来避免这种情况,以确保它们不会生成任何与现有作品太相似的内容。例如,视频网站YouTube已经使用相关技术,检测并自动删除上传到其网站的受版权保护的作品。从理论上讲,人工智能公司也可以建立算法,发现与现有艺术、音乐或写作作品高度相似的输出。
这场“数据起义”从长期来看可能无法掀起波澜。像谷歌和微软这样的科技巨头已经拥有了海量的专有数据,并且有能力获取更多数据。但是,随着内容获取变得越来越困难,人工智能的规模也在缩小。那些想要与大公司抗衡的新兴企业和非营利机构可能无法得到足够的数据来训练他们的系统。
就在7月初,加州大学伯克利分校计算机明升体育app教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。
一些公司也正在以合作态度应对这股浪潮。OpenAI在一份声明中表示,“我们尊重创意人员和作者的权利,并期待继续与他们合作,以保护他们的利益。”7月14日,美联社同意将1985年以后的手机版报道档案授权给OpenAI,同时也将利用OpenAI的技术和产品。
谷歌也在一份声明中表示,它参与了关于出版商未来如何管理其内容的谈判。该公司表示:“我们相信,每个人都能从一个充满活力的内容生态系统中受益。”
人工智能公司HuggingFace的首席伦理明升体育app家玛格丽特·米切尔(Margaret Mitchell)在接受媒体采访时表示,“整个数据收集系统都需要改变,不幸的是,它需要通过诉讼来实现,但这往往是推动科技公司进行改变的方式。”她说,如果OpenAI因为诉讼或新规定而在年底前完全下架其中一款产品,她不会感到惊讶。
(原标题:美国爆发“数据起义”:好莱坞文学界手机版界和社交媒体反抗AI)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。