新文速递|张湖月&杨颂:GPT-4o 的高额代价

学术   Education   2024-06-06 14:31   中国香港  

点击上方蓝字HKUCCL关注我们~


The High Cost of GPT-4o


张湖月

香港大学法律学院副教授

黄乾亨中国法研究中心主任

杨颂


伦敦商学院管理学教授

本文于2024年6月3日发表在“Project Syndicate”,点击文末“阅读原文”即可查阅。



2024年5月13日,OpenAI发布了其最新的多模态大模型GPT-4o。该模型能力横跨文本、语音和视觉,效果拔群。更引人瞩目的是,OpenAI决定将该模型的功能免费向所有用户开放——使用GPT-4o无需支付任何订阅费。然而,天下没有免费的午餐。用户所付出的代价是“数据”。就像黑洞一样,GPT-4o通过吸收靠近它的各类物质来壮大自身,累积用户输入的每一条信息,无论是文字、音频文件还是图像。

在与GPT-4o互动过程中,用户不仅会透露自身信息,还可能提供第三方数据。例如,用户可能截屏《纽约时报》的页面并将图片上传至GPT-4o以生成摘要。对于用户而言,在摘要生成时互动已经结束。然而,OpenAI可以利用屏幕截图中的版权内容来进一步训练和优化其模型。OpenAI并非孤例。过去一年里,微软、Meta、谷歌和X等头部AI公司都悄悄更新了隐私政策,允许其收集用户输入的数据并用于训练AI模型。

目前,头部AI公司已经因未经授权使用版权内容而面临多起诉讼,但这并未削弱其对数据的强烈需求。毕竟,数据是开发更优秀模型的关键。在某种程度上,GPT-4o为OpenAI提供了一种新的数据获取方法:通过“免费服务”吸引大量用户,从而“众包”多模态数据的供应。这种方法也是数字平台历来采用的商业模式:用户无需为搜索引擎和社交媒体等服务付费,平台从用户数据中获益。

由于用户提供的数据可能涉及他人的版权内容,用户“同意”AI训练并不能解决版权侵权问题。此时,用户与GPT-4o的互动对其他版权所有者产生溢出效应,即“外部性”。然而,追究OpenAI的责任并非易事。AI生成的内容与训练数据相似的可能性极低,版权所有者难以判断其内容是否被用于模型训练。此外,公司可能会以不知情作为辩护:用户在与其服务互动时提供了这些内容,公司如何得知这些内容的来源合法性呢?

为防止版权内容被吸入AI训练的黑洞漩涡,创作者和出版商采取了许多措施,包括技术防护和服务条款的更新。然而,只要OpenAI能继续利用“用户提供”的漏洞,这些版权保护措施便难以奏效要解决GPT-4o的外部性问题,最可靠的方式是监管者限制AI公司收集和使用用户数据的能力。


点击文末“阅读原文

HKUCCL
香港大学法律学院黄乾亨中国法研究中心
 最新文章