OpenAI和Microsoft遇到了一个问题
00 分钟
2023-12-28
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

纽约时报的诉讼意义重大。专家认为纽约时报赢得案件的可能性很大。人工智能行业可能会面临巨变

《纽约时报》的起诉书引用了超过100个案例,其中OpenAI的GPT-4几乎完全复制了《纽约时报》的文本。
这让《纽约时报》看起来像是确定的赢家,但事情并不是那么明确:《纽约时报》在这里仅仅使用了文章摘录作为提示,比如仅有文章的引子而没有其他信息。
因此,报纸没有在聊天模式中使用语言模型,而是通过API/Playground作为文本完成模型来使用——这也是它最初的形式。
示例中的红色文本是纽约时报文章的一份精确复制,黑色文本是由模型补充的。几乎所有超过100个示例都是这样的红色。
图片:起诉书的截图
图片:起诉书的截图
在正常的ChatGPT聊天模式中,如果给出一个常规的提示,收到一篇纽约时报文章的副本作为输出是相当不可能的,这也是因为这里有更严格的安全规则在起作用。
但这并非不可能,上述提示变体在法庭上也可能被视为侵犯版权。
纽约时报的提示示例促使语言模型重现训练数据中的材料,但这并不排除大型人工智能公司核心论点,即人工智能训练是一种转化性数据使用,因此属于“合理使用”。
一份训练材料的输出,可能是由于所谓的“过拟合”,即使用非常高质量的训练数据进行特别强化的训练所导致的,可能会被微软和OpenAI称为软件错误,这个问题有可能通过技术的进一步发展得到解决。
ChatGPT的真正意图是生成新文本,而不是记住训练内容。Midjourney在图像方面也有同样的问题。

带有网络搜索功能的聊天机器人在法律上特别敏感

更有问题的是具有网络搜索功能的聊天机器人,它们会调用新闻网站并在聊天中或多或少地原样复制文本。
搜索引擎遵循一个类似的原则,但只引用非常短的摘录,并将链接放在供应商网站的首位。这种商业模式双方都能从中受益。
在聊天机器人中,主要是聊天机器人的提供者受益。这个问题是提供者所知道的。在2023年3月推出浏览插件时,OpenAI表示:
我们意识到这是一种与互联网互动的新方式,并且我们欢迎关于如何进一步追溯到数据来源以及如何为整个生态系统的健康做出贡献的反馈。
同样的问题也适用于微软的必应聊天,在纽约时报的案例中也复制了整篇文章,以及谷歌的搜索生成体验。所有大型聊天机器人提供商都已经认识到了这个困境,但还没有提供解决方案。
OpenAI甚至暂时下线了其网页浏览功能,因为聊天机器人“意外地”能够绕过付费墙。这个理由看起来是牵强的,而且没有经过深思熟虑:对于大多数出版商来说,付费墙内容只占很小一部分收入。重要的是网站上的总流量。
被告在公开场合坚称,他们的行为受到“合理使用”的保护,因为他们未经许可使用受版权保护的内容来训练GenAI模型,是为了一个新的“转化性”目的。
但是,使用《泰晤士报》的内容而不付费来创造可以替代该报并夺走其读者群的产品,并没有什么“变革性”的。
从控诉中
OpenAI在重新推出ChatGPT的浏览功能时,将网页摘要限制在大约100个词,可能是为了避开这场版权争论。然而,这种限制使得浏览功能在很大程度上变得无用。

幻觉损害了纽约时报的品牌

纽约时报的另一个指控是,特别是微软的Copilot(原名必应聊天)传播了引用纽约时报的信息,尽管这些信息从未被纽约时报发布过。
因此,当提示要求根据《纽约时报》关于这个话题的文章,列出对心脏有益的15种食物时,它生成了一个据称引用自该文章的15种食物的列表。然而,文章中并没有包含这些食物的列表。
图片:起诉书的截图
图片:起诉书的截图
在另一个例子中,纽约时报询问了一篇文章中的一个特定段落。Copilot自信地引用了这个段落,尽管它实际上并没有出现在文章中。
这并不奇怪,因为大型语言模型并不是为这种信息获取方式设计的 - 因此很可能也不是搜索引擎的好替代品。
在这种情况下的问题是,微软几个月来一直没有澄清这个误解。AlgorithmWatch对Bing聊天中与选举相关的虚假信息传播的反复批评也没有促使微软调整自己的聊天服务。
在另一个例子中,纽约时报展示了如何要求GPT-3.5-turbo撰写一篇关于一项研究的文章,该研究发现橙汁与非霍奇金淋巴瘤之间存在联系,结果导致语言模型引用了纽约时报关于该研究的虚构陈述。
虚构的原因是因为这项研究不存在,纽约时报从未报道过。
与前面提到的文章副本示例类似,这里也可以讨论法庭上提示的方式。《纽约时报》的提示创造了一些条件,增加了语言模型生成有争议的输出的可能性。
但这并不改变输出结果。
图片:Neyl Walecki通过X拍摄
图片:Neyl Walecki通过X拍摄

ChatGPT作为纽约时报的竞争对手

有趣的是,法院将如何评估OpenAI与AP和Axel Springer的合作。特别是最后一项合作,OpenAI将通过ChatGPT传播Axel-Springer媒体的授权新闻。
纽约时报可能是正确的,他们声称OpenAI想要与报纸的提供竞争,或者至少想要从中分一杯羹的迹象明显——就像搜索引擎谷歌一样,OpenAI可能将其视为真正的竞争对手。
纽约时报、OpenAI和微软之间的合作未能达成,可能是因为钱的问题。起诉书中称,纽约时报要求“公平的回报”,但谈判失败了。在Axel-Springer交易中,将支付数千万美元,并支付持续的许可费用。
基本上,这个案例反映了模型开发者和所有市场观察者从第一天开始就清楚的事实。无论是文本、图形、视频还是代码,生成式人工智能都在攻击那些用他们的工作训练模型的人们的商业模式。
这个困境迫切需要澄清。
如果《纽约时报》能够成功并摧毁GPT-4等模型,重新训练或者需要获得训练数据的许可,那将对人工智能行业产生巨大的变革,因为目前该行业主要依赖免费获取互联网上的数据。
即使没有培训数据的许可费用,目前昂贵的AI开发和系统运营已经是一项亏损的业务。
在秋季向美国版权局提交的一份声明中,Meta称所需训练数据的许可是无法承受的。"事实上,开发一个允许AI开发者许可其模型所需所有数据的市场是不可能的。

总结

  • 《纽约时报》(NYT)起诉OpenAI和微软,因为它们的人工智能模型复制了该报的文字。如果诉讼成功,可能会对人工智能行业产生根本性的影响。
  • 《纽约时报》认为,未经付费使用其内容来制作能够取代该报并夺走其读者群的人工智能产品,不能被视为“公平使用”。
  • 如果《纽约时报》是正确的,那么重新训练GPT-4这样的AI模型或者许可其训练数据将对AI行业产生重大影响,因为目前该行业主要从互联网免费获取训练数据。
 

评论
  • Twikoo