在AI版权案中,扎克伯格为自己辩护查找YouTube证据

Meta CEO马克·扎克伯格似乎利用YouTube尝试移除盗版内容的斗争来为自己的公司使用包含有版权电子书的数据集辩护,新近公布的他去年底提供的部分证词揭示了这一点。

这份证词是原告律师提交给法院的投诉的一部分,涉及到AI版权案Kardev诉Meta。这些案件是美国法院系统中正在审理的许多案件之一, AI公司与作者和其他知识产权持有人之间的对抗。在这些案件中,被告- AI公司大多声称在受版权保护的内容上进行训练是“合理使用”。许多版权持有人对此有不同意见。

“例如,我认为YouTube最终可能会托管一些人们盗版的东西,但YouTube正在努力将这些东西删除,”扎克伯格在接受证词时表示,据周三晚些时候提供的部分成文记录。“并且我认为YouTube上的绝大部分东西都是好的并且他们有许可证。”

扎克伯格的证词片段揭示了他对版权内容和合理使用的思考。然而,值得注意的是,尚未公布证词的完整成文记录。TechCrunch已经联系Meta以获取更多背景资料,如果公司回应,将更新文章。

根据证词片段,扎克伯格似乎在为Meta使用一个被称为LibGen的电子书训练数据集来开发其名为“Llama”的AI模型家族进行辩护。Meta的Llama模型与OpenAI等AI公司的旗舰模型竞争。

LibGen自称是一个“链接聚合器”,提供了从Cengage Learning,Macmillan Learning,McGraw Hill和Pearson Education等出版商那里获取版权作品的途径。LibGen曾多次被起诉,被勒令关闭,并因版权侵权而被罚款数千万元。

根据本周公布的法庭文件,扎克伯格据称批准Meta利用LibGen训练至少一个Llama模型,尽管公司的AI高管和研究团队对其法律影响表示担忧。

原告代理律师,包括畅销作者萨拉·席尔瓦曼和塔内西斯·科茨,引述Meta员工将LibGen称为“我们知道是盗版的数据集”,并标记其使用“可能会损害(Meta)与监管机构的谈判立场”,根据法律文件。

在他的证词中,扎克伯格声称他“并不真正知道”LibGen。

“我明白您想让我对LibGen发表意见,但我并没有真正了解过,”扎克伯格在证词中说。“这只是我对这个具体事情没有认识。”

在原告律师大卫·博伊斯的询问下,扎克伯格解释了禁止使用类似LibGen数据集是不合理的原因。

“那么,我是否希望制定禁止人们使用YouTube的政策,因为其中一些内容可能受版权保护?不,”他说。“[有]某些情况下,这种全面禁令可能不是正确的事情。”

扎克伯格确实表示Meta应该“非常小心地”在受版权保护的材料上进行训练。

“你知道,[如果有]有人提供一个网站,他们故意试图侵犯他人的权利...显然,这是我们希望小心或谨慎处理的事情,或者甚至可能阻止我们的团队与之接触的事情,”扎克伯格在证词中表示。

新指控

在2023年提交到加州北区联邦地区法院旧金山分部的Kadrey诉Meta案件中,原告律师多次修改了投诉。周三晚间原告代理律师提交的最新修订投诉指控Meta,包括该公司将LibGen中的某些盗版图书与可供许可的受版权保护的图书进行了交叉引用。律师们声称Meta使用了这种策略来确定是否值得与出版商达成许可协议。

据修订投诉,Meta据称使用LibGen来训练其最新一代Llama模型家族Llama 3。原告还指控Meta正在使用该数据集来训练其下一代Llama 4模型。

根据修订投诉,Meta研究人员据称试图通过在Llama的精细调整中插入“受监督样本”来隐藏Llama模型是在受版权保护的材料上进行训练的事实。修订投诉指称,最近直到2024年4月,Meta从另一个来源Z-Library下载盗版电子书进行Llama训练。

Z-Library或Z-Lib曾成为出版商提起多项法律诉讼的对象,包括域名查封和下架。2022年,据称维护该网站的俄罗斯国民被指控侵犯版权、电信诈骗和洗钱。