推广 热搜: 三农  工业机器人  乙方  二手挖掘机  二手工程机械  二手数控车床  上海进口报关公司  二手反应釜  2022  二手机械进口报关 

大模型数据投喂之谜:AI 公司为何讳莫如深?

   2024-07-10 网络整理佚名980
核心提示:在6月更新的一项研究成果中,人工智能研究机构Epoch AI称,据他们估测,目前人类生成的公开文本总量约为300万亿个Token,但使用数据的速度远远超过了生成数据的速度

第一财经记者 温乔 郑宇航 第一财经编辑 兰素英

想象一个庞大的机房,里面有无数台灯光闪烁的服务器。随着数据不断涌入,大语言模型一下子“吞下”数据,然后开始高速分析处理。在日复一日的数据“喂食”和深度学习技术的推动下,大模型越来越像人类,OpenAI 等一批 AI 公司也迎来了快速发展。

然而,这些人工智能公司对于它们“输入”了什么数据、是否获得授权一直讳莫如深。伯克利计算机科学家斯图尔特·拉塞尔等学者认为,大型模型吞噬了大部分互联网信息,以复制人类智能,并以自动化的形式将其镜像回馈给我们。

在意识到自己网站发布的故事被自动抓取并作为大模型的“食物”后,以《纽约时报》为首的媒体/出版机构对OpenAI等公司提起了版权诉讼。《每日经济新闻》记者在采访哈佛法学院教授Rebecca Tushnet和Angell & Schwarz合伙人余文竹后了解到,判断此类案件的难点在于如何判断AI输出内容与媒体报道之间是否“实质性相似”。

另一方面,OpenAI 等科技公司也向媒体 / 出版机构伸出了橄榄枝,因为数据终究会耗尽。研究机构 Epoch AI 最近预测,大型模型将在 2026 年至 2032 年间消耗掉所有可用数据。

新媒体创作大赛作品__数字媒体理论与创作

有外媒评论称,此次诉讼或许是《纽约时报》的谈判手段之一。其实在诉讼之前,《纽约时报》和 OpenAI 一直在就授权合作协议进行谈判。图为 OpenAI 创始人兼 CEO 阿尔特曼。视觉中国图片

付费内容被抓取

2009年底,传媒大亨默多克在一次论坛上说:“有些人觉得他们有权拿走我们的新闻内容,却不为新闻制作贡献一分钱,他们几乎侵占了我们所有的新闻,这不是合理使用,说白了,这是偷窃。”

当时,随着谷歌等新兴互联网公司的崛起,美国报纸的广告收入减少了一半。如今,随着OpenAI等生成式AI公司的强势崛起,类似的一幕似乎正在重演。

新闻集团CEO罗伯特·汤姆森曾表示,“媒体的集体知识产权受到威胁,我们应该大声要求赔偿。”新闻业律师史蒂文·利伯曼直言,OpenAI的巨大成功也得益于他人的努力,其在未经许可或付费的情况下获得了大量优质内容。

据外媒报道,ChatGPT主要通过阅读书籍、文章和公开的网络内容进行学习,包括来自互联网的在线新闻文章。类似的大型语言模型还依赖于社交媒体帖子、博客、数字化书籍、在线评论、维基百科页面以及人们能想到的几乎所有在线信息。

在意识到ChatGPT中的历史和时事知识来源于其网站上发布的故事(甚至是付费内容)后,《纽约时报》去年底对OpenAI和微软提起诉讼,指控后者未经授权使用该报的版权内容来训练AI模型,并在ChatGPT产品中呈现给用户。

此案是媒体机构起诉OpenAI的第一枪,随后众多媒体机构加入到队列中。据《每日经济新闻》记者不完全统计,截至今年6月底,已有至少13家新闻媒体机构对OpenAI和微软提起侵权诉讼。其中包括奥尔登全球投资集团旗下的知名区域性报纸,包括《芝加哥论坛报》、《纽约每日新闻报》、《丹佛邮报》,以及数字新闻媒体The Intercept、Raw Story,以及非营利新闻机构The Center for Investigative Reporting。

“判定这种数据抓取行为是否侵犯版权是一个复杂而又有争议的问题。”安琪世泽律师事务所合伙人、中国和纽约州执业律师于文竹在接受《每日经济新闻》记者采访时表示。

这些诉讼只是各个行业与生成式人工智能公司面临的斗争的一个缩影。

美国当地时间6月24日,全球三大唱片公司索尼音乐集团、环球音乐集团和华纳音乐联合多家唱片公司对AI音乐生成公司Suno和Udio开发商Uncharted Labs提起诉讼,指控后者非法使用受版权保护的音乐来训练模型和提供服务。唱片公司指控Suno抄袭了662首歌曲,Udio抄袭了1670首歌曲,并试图对每首音乐索取高达15万美元的赔偿。

8 个月的斗争毫无结果

围绕生成式人工智能技术的法律纠纷日益增多,也使媒体/出版商与颠覆性技术之间的关系成为人们关注的焦点。

据知名广告周刊Adweek报道,谷歌去年5月推出了基于AI的搜索引擎Search Generative Experience(SGE)的测试版。接受采访的媒体高管和SEO专家表示,出版商必须做好自然搜索流量大幅下降的准备,降幅可能在20%到60%之间。出版商在开放网络上的搜索流量减少通常意味着数字广告收入下降。新媒体公司Raptive的创新执行副总裁Marc McCollum估计,在目前的SGE下,整个出版业每年可能损失高达20亿美元的广告收入。

《纽约时报》提起的诉讼不仅是传媒领域重要的里程碑案件,也为法律行业提供了宝贵的参考信息。

“就版权法而言,本案的重要影响在于数字化、人工智能时代版权法的适用范围。特别是对于新闻报道等公众利益较高的文本内容,如何平衡版权保护与信息自由将成为关键问题。”余文竹告诉记者。

在余文竹看来,《纽约时报》的诉讼若成功,将树立重要的法律先例,鼓励其他文字媒体、版权机构和作家团体起诉OpenAI等类似的AI公司。此案或将促使AI公司重视AI模型训练的合法性,并可能推动相关行业规范的建立。

目前,案件已持续近8个月,仍未有定论。

“实质性相似”难以证明

《纽约时报》在诉状中声称,ChatGPT 几乎一字不差地抄袭了其新闻报道。该报以《纽约时报》 2019 年发表的一系列因纽约市出租车行业掠夺性贷款而获得普利策奖的文章为例。该报称,只要稍加提示,ChatGPT 就会一字不差地背诵大部分内容。

在其他几家媒体提起的诉讼中,记者发现他们的法律论据和主张都是基于美国 1976 年《版权法》和《数字千年版权法》(DMCA)。

对于这两部法案中与人工智能相关的内容,余律师向记者表示,“就1976年版权法而言,侵权的判定通常依靠原作品与被控侵权作品的相似性,以及实际的抄袭行为。本案中实际的抄袭行为相对容易证明,因为OpenAI并没有否认其训练数据中含有《纽约时报》的文章。”

但难点在于“证明最终文本构成侵权,还是需要满足‘实质性相似’的判断,因为这有助于判断文本中是否抄袭了受版权保护的表达要素,还是仅仅抄袭了其中的思想。版权保护的是表达,不是思想。你可以用自己的语言重新实现别人的思想,这并不构成侵权。但如果你用别人的语言,也就是他们的表达,那就是侵权了。”余律师说。

谈及DMCA,余文竹解释道:“其中一项规定鼓励版权所有者在数字资产中添加内容管理信息(CMI),比如有助于识别创作者或权利所有者的信息,并禁止他人删除这些信息。”

然而,《纽约时报》的诉讼称,OpenAI 在抓取其文章创建数据库时删除了这些信息,违反了 DMCA。

“实际上,美国是普通法国家,其版权法和DMCA并未具体规定与AI相关的法律内容。在判定OpenAI的行为是否构成侵权时,法院会依据相关判例以及对相关法律条款的解读进行判断。”余文竹说。

该公司声称这是“合理使用”

针对《纽约时报》的版权侵权诉讼,OpenAI 强调,使用公开素材来训练 AI 模型属于合理使用,这一规定基于 1976 年美国版权法第 107 条。

哈佛大学法学院教授丽贝卡·塔什内特在接受《每日经济新闻》采访时表示,“美国版权法既规定了广泛的权利,也规定了广泛的例外,关键问题在于AI训练是否构成‘合理使用’,以及当AI输出结果与现有作品过于相似时,问题应该归咎于模型还是用户滥用。”

Tashnet 认为,“OpenAI 提出了一个有趣的主张,即为了获得高度相似的输出,必须故意用大量来自《纽约时报》原文的引文来提示模型,这表明错误在于提示者(用户滥用)。”

“‘合理使用’是美国版权法的一项重要优势,使其能够应对不断变化的情况。它促成了我们所知的现代互联网的兴起,尤其是搜索引擎。按照同样的道理,只要输出结果不是从特定作品中普遍复制而来,人工智能模型的创建就应该被认为是变革性的和公平的。”她向记者解释道,“我认为这是关于‘合理使用’的一个相当标准的问题。”

根据1976年《著作权法》,合理使用的判定包括四个因素。其中,余文竹认为最重要的是第四点:使用行为对著作权作品的潜在市场或价值的影响。简单来说,就是新作品是否对原作品造成市场损害。

《纽约时报》在诉讼中声称,OpenAI的AI工具不仅未经授权使用《纽约时报》的数据进行训练,还转移了《纽约时报》网站的流量,导致该公司的广告、订阅和授权收入损失。因此,纽约时报公司向OpenAI和微软提出了数十亿美元的索赔,要求他们停止使用其内容数据。

“我认为 OpenAI 的‘合理使用’辩护在理论上是合理的,但其成功取决于法庭对四因素测试的具体评估,”于文竹说。

Tashnet 还表示,“我怀疑法庭会驳回(OpenAI 的)所有辩护,但没有什么是绝对确定的。”

困难情况下的合作

目前,OpenAI能够合法地将哪些内容“喂”进其模型的问题仍待解决,但各媒体机构的策略开始呈现分化趋势。

当地时间6月27日,《时代》杂志与OpenAI宣布,两家公司达成多年期内容授权协议及战略合作伙伴关系。该协议允许OpenAI将出版商的内容引入ChatGPT,并帮助训练其最先进的AI模型。

根据一份新闻稿,这笔交易使 OpenAI 能够访问《时代》杂志 100 多年的档案和文章,以训练其人工智能模型,并将其用于面向消费者的产品(如 ChatGPT)中,以响应用户的询问。交易价值尚未披露。

今年 5 月,OpenAI 与新闻集团也达成了类似的合作伙伴关系,根据这一合作,OpenAI 有权访问新闻集团旗下媒体的当前和存档文章,包括《华尔街日报》、《MarketWatch》、《巴伦周刊》和《纽约邮报》。

每日经济新闻记者注意到,近半年来,OpenAI已与多家媒体机构达成协议。

对于媒体机构来说,接受OpenAI等AI巨头抛出的橄榄枝,与AI新时代的科技公司合作,共同探索新的信息形态、商业模式和利润分成比例,或许是最好的选择。与OpenAI合作的媒体公司认为,生成式AI会继续存在,能分一杯羹当然最好。此外,与OpenAI的合作,让媒体能够在一定程度上控制自己的新闻报道在ChatGPT回复中的呈现方式。

正如新闻集团首席执行官罗伯特·汤姆森所说,“(与 OpenAI 的协议)承认顶级新闻应该以最高的价格出售。数字时代的一个标志是分销商占据主导地位,而这往往是以牺牲内容创作者为代价的。许多媒体公司已被无情的技术浪潮席卷而去。我们现在有责任抓住这个最大的机会。”

有外媒评论称,此次诉讼或许也是《纽约时报》的谈判手段之一。事实上,在诉讼之前,《纽约时报》与OpenAI一直在就授权合作协议进行谈判,但在OpenAI增加新的免责条款后,谈判破裂。

对于科技公司来说,支付授权费用一方面可以有效化解法律风险,另一方面可以获得更多优质的训练数据。优质数据是决定未来AI模型好坏的关键因素,毕竟各大科技公司目前都面临着数据枯竭的风险。

人工智能研究机构Epoch AI在6月份更新的研究成果中表示,根据他们的估算,目前人类生成的公开文本总量约为300万亿个token,但数据消耗的速度远远超过数据生成的速度,这意味着大型模型将在2026年至2032年间消耗掉所有可用的数据。

媒体与AI公司合作能带来多少收益?

以新闻集团为例,《每日经济新闻》记者注意到,除去2024财年第二季度因图书出版成本降低以及宣布的5%裁员计划相关成本节省带来的高额净收入外,新闻集团各季度的净收入均不足6000万美元。《华尔街日报》援引知情人士的话称,新闻集团与OpenAI的协议价值5年内可能超过2.5亿美元,包括现金以及使用OpenAI技术的积分补偿。这样一来,OpenAI每年将向新闻集团支付高达5000万美元的内容授权费用,这几乎相当于新闻集团近一个财季的净收入。

从近期科技公司与媒体达成的合作金额来看,这笔交易堪称AI行业发展的里程碑。而且,新闻集团与OpenAI的协议并非独家授权协议,这意味着新闻集团可以继续从谷歌等其他AI公司获得授权收入。

汤森路透的财报也证实了此次合作带来的益处。《每日经济新闻》记者查阅汤森路透财报发现,2024年第一季度,该公司营收为18.85亿美元,同比增长8%。该公司在财报中写道,“(增长)主要得益于‘三大’部门(公司法律、企业及税务、会计部门)经常性收入和交易收入的强劲增长,以及路透新闻部门的生成性AI相关内容授权收入。”

第一季度财报显示,路透社新闻业务收入为2.1亿美元,同比增长3%。这一增长主要得益于汤森路透与伦敦证券交易所集团(LSEG)数据分析部门签署的新闻协议。根据协议,路透社新闻将把新闻内容授权给LSEG,后者将利用这些内容生成AI相关内容。2024年第一季度,仅这一协议就为路透社带来了高达9600万美元的新闻业务收入。

 
举报 收藏 打赏 评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-48
Powered By DESTOON