「证据」终於来了。7 月 OpenAI 和 Meta 被美国作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 控告,指两家公司未经作者同意,就把他们的书拿来当材料训练大模型。
▲ 演员、作者Sarah Silverman和自传。(Source:Michael Kovac / FilmMagic)
证据在哪?
OpenAI案件,原告输入提示词後,ChatGPT能摘要整本书。Meta案件,Meta大模型LLaMA论文就写着,训练资料包括EleutherAI整理的「The Pile」素材,The Pile又含「Books3」资料库,内容正是网路盗版图书库Bibliotik数据。由此可见,当时原告的证据还相对间接。
直到现在,作家和工程师Alex Reisner揭露,Meta大模型背後到底都盗用了哪些作家的书。意外的是,这些「证据」一直都在我们眼前,却一直没人看到,这是为什麽?甚至侵权素材的制造者,还一直坚持说这是「正义」之举。
17万本盗版书
Alex Reisner的「大专案」起於好奇心:
今年夏天,Reisner开始在GitHub和Hugging Face等社群找答案,最终找到了The Pile。然而下载The Pile也不代表可以知道Books3有什麽书。因The Pile有800G,大到一般文字编辑器根本没法看。Reisner写了一系列程式才能抓取Books3的资料。
没想到找到的资料没有任何有书名、作者名等标签资料,一切都只是「文本」。於是Reisner又另外写了一个程式抓取ISBN编号(国际标准书号),并将这些数据和其他网路书库比对,以辨别Books3收录的书籍。
最後他找到19万个ISBN,辨识出17万个书名(实际数量可能略少这数字,因是同一本书不同版),另外2万个编码无法找到书名。这些书约三分之一是虚构作品,三分之二非虚构作品,来自大大小小出版社出版品。
能找到的书包括开头提告OpenAI和Meta的三位作家,可说是Meta LLaMA以盗版书当作训练材料的直接证据了。其他还有《我的天才女友》作者埃琳娜·费兰特、《女仆的故事》作者玛格丽特·爱特伍、史蒂芬‧金、村上春树、知名美食作家麦可·波伦、惊悚小说家詹姆斯·布兰登·派特森等许多作品。
除了名作家作品,Reisner还在Books3找到「山达基教」创办人拉法叶·罗纳德·贺伯特102本低俗小说、90本信奉「年轻地球创造论」的牧师约翰·F·麦克阿瑟的书,以及「外星人创造论」支持者艾利希·冯·丹尼肯多部作品。
Reisner指出,虽然Books3资料库在AI社群以外认知度不高,但在圈内颇受欢迎,因「可以下载,但要找到来源有难度,想浏览和分析也同样很有挑战性」。像Reisner大费周章写程式分析比对,还撰文投书媒体更是首次。同时AI圈对Books3也是心照不宣维护,因以Books3创造者的话说,这是确保生成式AI发展不会被大公司垄断的重要资源。
「盗火者」还是「窃贼」?
Books3创造者、独立开发者Shawn Presser对Reisner说。
Presser一开始做Books3,就是为了提供所有开发者「OpenAI等级训练资料」。2020年Presser下载Bibliotik副本,再改写骇客Aaron Swartz十多年前的程式,将所有ePub格式图书转成纯文字──更适合大模型的格式。资料库部分书籍版权资料遗失,Presser称是转换造成的意外,并非刻意为之。
Books3之名也呼应OpenAI提过的「Books1」和「Books2」。2020年时OpenAI论文指出,GPT-3的训练资料库包括两个基於网路书籍合集,人们推测OpenAI的Books1来自「古腾堡计画」(Project Gutenberg)──专门收集版权过期的图书。Books2内容是什麽一直无人知晓,有人从资料量猜是类似Bibliotik或Libgen的网路盗版图书。
除了书籍,GPT-3还用了其他数据,如维基百科和其他网路文字,这也是为什麽EleutherAI整合的The Pile也同样含大量资料,如维基百科、YouTube影片字幕、欧洲议会档案和速记等。即便如此,书籍高品质文本仍很重要。
Meta曾表示,一开始LlaMA-65B大模型表现没有很好,因「书籍及学术论文量有限」。MIT和康乃尔大学合作论文也指出,书籍在大模型训练资料库「对下游表现有最强正面效果」,所以会在Meta後来推出的LlaMA 2资料库看到The Pile和Books3。
这也是为什麽Books3最近因丹麦反盗版组织Rights Alliance投诉侵权被下架後,Presser却愤慨不平。他觉得所有牟利大公司私下都用侵权内容训练大模型,但他们不公开训练资料来源,所以没人能告他们,Books3被下架,但他是希望让大模型更开放和有更高透明度而主动公开资料来源。
Presser说不能让财大气粗的大公司垄断这种重塑文化的重要技术,而是要让所有人都有资源建立自己的大模型:
至於把ChatGPT告到下架,也不是完全不可能。
人人都在告AI巨头
知名作家官司也许能引起更多关注,但拥有把ChatGPT告到「重建」潜力的,却是传统新闻媒体。上周NPR报导知情人士消息,《纽约时报》也考虑提告OpenAI。前几周《纽约时报》一直和OpenAI就授权内容谈判,但进展不太顺利,故《纽约时报》开始考虑提告OpenAI侵权。
美国联邦版权法规定,每项「蓄意」侵权行为最高可罚15万美元,以《纽约时报》的海量文章计算,最终罚金会高到「对任何公司都很致命」。除此以外,如果法官判定OpenAI的确非法以《纽约时报》文章训练大模型,法院可以命令OpenAI销毁ChatGPT资料库,强制仅能用已获授权内容训练ChatGPT。
无论原告是《纽约时报》还是各创作者,官司(或潜在官司)能否胜诉,关键都在AI巨头是否能把无告知使用说成「合理使用」──即特定情况,允许不经许可使用特定作品,如教学、评论、研究和报导等。支持「合理使用」的人有两个论点:
- 生成式AI并不会重现书籍本身,而是创造新内容。
- 新内容不会损害原本作品的市场。
纽约大学科技法律与政策诊所负责人Jason Schultz称,图书盗用方面,这论点颇有力,但《纽约时报》律师坚持,OpenAI报章新闻使用并不符合「合理使用」。假如使用者能用AI聊天机器人取得片段资讯,就不会去找原始新闻阅读,有可能成为新闻的替代品,影响原有市场。
中国网红樊百乐指出,智慧财产权法并非一成不变,但核心却很坚定:繁荣创作市场,如果连估值数百亿美元的AI公司都能不付一毛钱版权费,免费把作家耗费数年心血创作的作品拿去牟利,甚至盗用训练出能取代作家的工具,对创作者无疑是致命打击。Presser谈到的「资讯不公平」问题,也不应是侵犯创作者权利的藉口。
版权问题终究是决定AI能走多远的关键因素。范德堡大学知识产权计画联席主任Daniel Gervais认为:
这只是下阶段的开始。最後整理部分进行中AI公司侵权官司,供读者参考。
(本文由 爱范儿 授权转载;首图来源:Image by Freepik)