
百科全书出版商起诉 OpenAI:近 10 万篇文章被用于训练大模型
Encyclopaedia Britannica(《不列颠百科全书》)及其旗下子公司 Merriam-Webster(韦氏词典)已向法院提起诉讼,指控 OpenAI 存在“大规模版权侵权”行为。
据诉讼文件显示,Britannica 持有近 10 万篇在线文章的版权,这些内容在未经授权的情况下被爬取并用于训练 OpenAI 的大语言模型。
侵权指控与争议焦点
Britannica 在诉状中指出,OpenAI 的侵权行为包括三个层面:
- 未经授权抓取内容用于训练——将近 10 万篇 Britannica 文章用于模型训练
- 逐字(verbatim)复制输出——在 ChatGPT 生成的回答中直接引用或部分引用 Britannica 的原文内容
- RAG 工作流中的使用——ChatGPT 使用检索增强生成(RAG)技术扫描网页或其他数据库获取最新信息时,侵犯了 Britannica 的内容版权
此外,Britannica 还指控 OpenAI 违反《兰哈姆法》(Lanham Act,商标法),因为 ChatGPT 生成的虚假幻觉(hallucination)内容被错误地归咎于该出版商。
诉状中写道:“ChatGPT 通过生成直接替代和竞争出版商内容的回答,使如 Britannica 这样的网络出版商失去收入来源。”Britannica 同时指出,ChatGPT 的幻觉内容正在损害“公众获取高质量、可信赖在线信息的机会”。
诉讼影响与行业趋势
Britannica 是最新一家起诉 OpenAI 的出版商。在此之前,已有多个重要媒体机构采取类似法律行动:
- 纽约时报
- Ziff Davis(旗下拥有 Mashable、CNET、IGN、PCMag 等)
- 超过 12 家美国和加拿大报纸,包括《芝加哥论坛报》《丹佛邮报》《太阳哨兵报》《多伦多星报》以及加拿大广播公司(CBC)
此外,针对 Perplexity 的类似诉讼仍在审理中。
目前尚无明确的法律先例判定使用版权内容训练大模型是否构成侵权。在一起类似案件中,Anthropic 成功说服联邦法官 William Alsup 认定“将内容作为训练数据使用”属于转化性(transformative)使用,具有合法性。然而,Alsup 同时指出,Anthropic 非法下载数百万本图书而非付费获取的行为违法,最终导致 15 亿美元(约合人民币 108 亿元)的集体诉讼和解方案。


评论