17 万本盗版书是「ChatGPT 们」变聪明的秘密

「证据」终於来了。7 月 OpenAI 和 Meta 被美国作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 控告，指两家公司未经作者同意，就把他们的书拿来当材料训练大模型。

▲ 演员、作者Sarah Silverman和自传。（Source：Michael Kovac / FilmMagic）

证据在哪？

OpenAI案件，原告输入提示词後，ChatGPT能摘要整本书。Meta案件，Meta大模型LLaMA论文就写着，训练资料包括EleutherAI整理的「The Pile」素材，The Pile又含「Books3」资料库，内容正是网路盗版图书库Bibliotik数据。由此可见，当时原告的证据还相对间接。

直到现在，作家和工程师Alex Reisner揭露，Meta大模型背後到底都盗用了哪些作家的书。意外的是，这些「证据」一直都在我们眼前，却一直没人看到，这是为什麽？甚至侵权素材的制造者，还一直坚持说这是「正义」之举。

17万本盗版书

Alex Reisner的「大专案」起於好奇心：

今年夏天，Reisner开始在GitHub和Hugging Face等社群找答案，最终找到了The Pile。然而下载The Pile也不代表可以知道Books3有什麽书。因The Pile有800G，大到一般文字编辑器根本没法看。Reisner写了一系列程式才能抓取Books3的资料。

没想到找到的资料没有任何有书名、作者名等标签资料，一切都只是「文本」。於是Reisner又另外写了一个程式抓取ISBN编号（国际标准书号），并将这些数据和其他网路书库比对，以辨别Books3收录的书籍。

最後他找到19万个ISBN，辨识出17万个书名（实际数量可能略少这数字，因是同一本书不同版），另外2万个编码无法找到书名。这些书约三分之一是虚构作品，三分之二非虚构作品，来自大大小小出版社出版品。

能找到的书包括开头提告OpenAI和Meta的三位作家，可说是Meta LLaMA以盗版书当作训练材料的直接证据了。其他还有《我的天才女友》作者埃琳娜·费兰特、《女仆的故事》作者玛格丽特·爱特伍、史蒂芬‧金、村上春树、知名美食作家麦可·波伦、惊悚小说家詹姆斯·布兰登·派特森等许多作品。

除了名作家作品，Reisner还在Books3找到「山达基教」创办人拉法叶·罗纳德·贺伯特102本低俗小说、90本信奉「年轻地球创造论」的牧师约翰·F·麦克阿瑟的书，以及「外星人创造论」支持者艾利希·冯·丹尼肯多部作品。

Reisner指出，虽然Books3资料库在AI社群以外认知度不高，但在圈内颇受欢迎，因「可以下载，但要找到来源有难度，想浏览和分析也同样很有挑战性」。像Reisner大费周章写程式分析比对，还撰文投书媒体更是首次。同时AI圈对Books3也是心照不宣维护，因以Books3创造者的话说，这是确保生成式AI发展不会被大公司垄断的重要资源。

「盗火者」还是「窃贼」？

Books3创造者、独立开发者Shawn Presser对Reisner说。

Presser一开始做Books3，就是为了提供所有开发者「OpenAI等级训练资料」。2020年Presser下载Bibliotik副本，再改写骇客Aaron Swartz十多年前的程式，将所有ePub格式图书转成纯文字──更适合大模型的格式。资料库部分书籍版权资料遗失，Presser称是转换造成的意外，并非刻意为之。

Books3之名也呼应OpenAI提过的「Books1」和「Books2」。2020年时OpenAI论文指出，GPT-3的训练资料库包括两个基於网路书籍合集，人们推测OpenAI的Books1来自「古腾堡计画」（Project Gutenberg）──专门收集版权过期的图书。Books2内容是什麽一直无人知晓，有人从资料量猜是类似Bibliotik或Libgen的网路盗版图书。

除了书籍，GPT-3还用了其他数据，如维基百科和其他网路文字，这也是为什麽EleutherAI整合的The Pile也同样含大量资料，如维基百科、YouTube影片字幕、欧洲议会档案和速记等。即便如此，书籍高品质文本仍很重要。

Meta曾表示，一开始LlaMA-65B大模型表现没有很好，因「书籍及学术论文量有限」。MIT和康乃尔大学合作论文也指出，书籍在大模型训练资料库「对下游表现有最强正面效果」，所以会在Meta後来推出的LlaMA 2资料库看到The Pile和Books3。

这也是为什麽Books3最近因丹麦反盗版组织Rights Alliance投诉侵权被下架後，Presser却愤慨不平。他觉得所有牟利大公司私下都用侵权内容训练大模型，但他们不公开训练资料来源，所以没人能告他们，Books3被下架，但他是希望让大模型更开放和有更高透明度而主动公开资料来源。

Presser说不能让财大气粗的大公司垄断这种重塑文化的重要技术，而是要让所有人都有资源建立自己的大模型：

至於把ChatGPT告到下架，也不是完全不可能。

人人都在告AI巨头

知名作家官司也许能引起更多关注，但拥有把ChatGPT告到「重建」潜力的，却是传统新闻媒体。上周NPR报导知情人士消息，《纽约时报》也考虑提告OpenAI。前几周《纽约时报》一直和OpenAI就授权内容谈判，但进展不太顺利，故《纽约时报》开始考虑提告OpenAI侵权。

美国联邦版权法规定，每项「蓄意」侵权行为最高可罚15万美元，以《纽约时报》的海量文章计算，最终罚金会高到「对任何公司都很致命」。除此以外，如果法官判定OpenAI的确非法以《纽约时报》文章训练大模型，法院可以命令OpenAI销毁ChatGPT资料库，强制仅能用已获授权内容训练ChatGPT。

无论原告是《纽约时报》还是各创作者，官司（或潜在官司）能否胜诉，关键都在AI巨头是否能把无告知使用说成「合理使用」──即特定情况，允许不经许可使用特定作品，如教学、评论、研究和报导等。支持「合理使用」的人有两个论点：

生成式AI并不会重现书籍本身，而是创造新内容。
新内容不会损害原本作品的市场。

纽约大学科技法律与政策诊所负责人Jason Schultz称，图书盗用方面，这论点颇有力，但《纽约时报》律师坚持，OpenAI报章新闻使用并不符合「合理使用」。假如使用者能用AI聊天机器人取得片段资讯，就不会去找原始新闻阅读，有可能成为新闻的替代品，影响原有市场。

中国网红樊百乐指出，智慧财产权法并非一成不变，但核心却很坚定：繁荣创作市场，如果连估值数百亿美元的AI公司都能不付一毛钱版权费，免费把作家耗费数年心血创作的作品拿去牟利，甚至盗用训练出能取代作家的工具，对创作者无疑是致命打击。Presser谈到的「资讯不公平」问题，也不应是侵犯创作者权利的藉口。

版权问题终究是决定AI能走多远的关键因素。范德堡大学知识产权计画联席主任Daniel Gervais认为：

这只是下阶段的开始。最後整理部分进行中AI公司侵权官司，供读者参考。

（本文由爱范儿授权转载；首图来源：Image by Freepik）

17 万本盗版书是「ChatGPT 们」变聪明的秘密

愛范兒

TP-Link 搶先公開 Wi-Fi 7 全系列產品！Wi-Fi 6E 也將搭上 6GHz 頻段開放順風車推出新品！