图片来源:HIRETUAL
随着真实数据日益难以获取,合成数据逐渐成为大模型公司的焦点。使用合成数据做模型训练这个想法由来已久。根据媒体报道,Anthropic公司使用部分合成数据训练了其旗舰模型Claude 3.5 Sonnet,Meta公司也通过AI生成的数据对其Llama 3.1模型进行了微调。除此之外,OpenAI也正在使用其研发的模型o1生成的合成数据,为即将推出的Orion模型提供训练素材。
Kyle Wiggers是TechCrunch的资深记者,作者通过采访多位人工智能领域的专家共同探讨了公众对合成数据领域思考的问题:1. 为什么AI需要数据?2. AI需要什么样的数据?3. 真实数据会被合成数据取代吗?以下是我们对作者文章的整理和翻译,原文内容可以通过点击「阅读原文」链接进行查阅。
01 数据标注的重要性
AI系统本质上是统计机器。它们的训练需要输入大量数据,AI会学习数据中的规律以进行预测,比如在邮件中“to whom”通常会出现在“it may concern”之前(一种常见的英语信函开头短语)。
“数据标注”是指为原始数据添加标签或注释的过程,以便机器学习算法可以理解和使用这些数据。它们像路标一样,教导模型如何区分事物、地点和概念。
以一个分类厨房照片的模型为例,它被展示了许多标注为“厨房”的图片。在训练过程中,该模型会逐渐将“厨房”与厨房的一般特征建立关联(例如冰箱、工作台等)。训练后,模型应该能够识别出此前未包含在训练数据中的厨房照片。当然,如果这些厨房照片被错误标注为一头牛,那么模型将会将其识别为牛,这也凸显了数据标注质量的重要性。
数据标注服务市场正在迅速膨胀。据Dimension Market Research估计,数据标注市场的市值目前为8.382亿美元,未来十年将增长至103.4亿美元。虽然没有确切统计有多少人从事标注工作,但2022年的一篇论文估计这个数字达到了数百万。
许多大公司和小企业依赖数据标注公司的员工为AI训练集做数据标注。有些标注工作报酬不错,尤其是那些需要专业知识支持的工作(如数学)。但也有一些工作非常繁重,在发展中国家,标注员的平均时薪仅为几美元,且没有福利或未来工作机会的保障。
02 数据匮乏的困境
从人道主义的角度来看,我们有理由寻找人类做数据标注服务的替代方案。但也有一些出于现实情况的考虑:
1. 人类做数据标注有其局限性。首先,人类的数据标注速度有限。除此之外,标注员的偏见可能会影响其标注质量,进而影响任何依赖这些数据进行训练的模型。标注员还可能犯错,或者被复杂的标注指引所困扰。
2. 数据一般来说是昂贵的。例如,Shutterstock公司向AI厂商收取数千万美元以访问其数据存档,而Reddit也从向谷歌、OpenAI等公司出售数据中获利数亿美元。
除了以上两个原因,更重要的是,数据正在变的越来越难获取。大多数模型都是通过大量公开数据进行训练的,但出于对数据可能被抄袭或未能获得应有的归属的担忧,数据拥有者们越来越多地限制对这些数据的访问。如今,全球前1000个网站中有超过35%屏蔽了OpenAI的网络抓取工具。最近一项研究发现,主要数据集中的“高质量”来源中,有约25%的数据已经被限制访问。
如果这种趋势继续下去,研究机构Epoch AI预测,开发人员将在2026年至2032年间耗尽用于训练生成式AI模型的数据。加之对版权诉讼的担忧以及令人反感的内容可能进入公开数据集,AI厂商不得不重新审视这一问题。
03 合成数据的机遇
表面上看,合成数据似乎是解决这些问题的万全之策。需要标注?可以生成。需要更多示例数据?不成问题,数量无限。在一定程度上,这的确是事实。
华盛顿大学研究新兴技术伦理影响的博士生Os Keyes在接受TechCrunch采访时表示:“如果说数据是新的石油,那么合成数据就像是生物燃料,无需真实数据的负面外部性(如隐私泄露、数据偏见等)就可以生成。”
AI行业已然开始广泛应用这一概念。本月,企业级生成式AI公司Writer发布了一款名为Palmyra X 004的模型,几乎完全基于合成数据进行训练。Writer声称其开发成本仅为70万美元,而同等规模的OpenAI模型则需耗资460万美元。
微软的Phi开源模型部分使用了合成数据进行训练,谷歌的Gemma模型也不例外。Nvidia今年夏天推出了一款专为生成合成训练数据而设计的模型系列,而AI初创公司Hugging Face则声称已发布了迄今为止最大的合成文本训练数据集。
合成数据生成已成为一项独立的业务,到2030年其市场规模有望达到23.4亿美元。Gartner预测,今年60%的AI和分析项目所使用的数据将由合成数据生成。
AI2研究所的高级研究科学家Luca Soldaini指出,合成数据技术可以生成那些通过抓取或内容授权难以获得的训练数据。例如,在训练其视频生成器Movie Gen时,Meta使用Llama 3生成了训练数据中的视频字幕,随后由人工进行优化,加入更多细节。
同样,OpenAI表示,使用合成数据微调了GPT-4o以构建ChatGPT的画板功能Canvas。而亚马逊也表示,合成数据是其用来补充真实世界数据并训练Alexa语音识别模型的重要组成部分。
04 合成数据的挑战
然而,合成数据并非万能药。它同样面临“垃圾进,垃圾出”的问题。模型可以生成合成数据,但如果这些模型用于训练的数据本身存在偏见和局限性,其输出也将受到相同的影响。例如,基础数据中代表性不足的群体在合成数据中也会同样表现不足。
2023年,莱斯大学和斯坦福大学的研究人员发表的一项研究发现,过度依赖合成数据进行训练会导致模型的质量和多样性下降。研究人员指出,采样偏差(即对真实世界的代表性不足)会导致模型的多样性在几代训练后逐渐恶化。但他们同时也发现,在合成数据中混入一些真实世界的数据有助于缓解这一问题。
Keyes还指出,像OpenAI的o1这样的复杂模型可能会在其生成的合成数据中产生更难察觉的幻觉,这些幻觉可能会降低依赖这些数据进行训练的模型的准确性,尤其是当幻觉的来源难以识别时。
Keyes补充道:“由于模型会产生幻觉,导致其生成的数据会包含幻觉。对于像o1这样的模型,开发人员自己也未必能解释这些现象的出现。”
幻觉累积可能会导致模型输出无意义的数据。一项发表于《自然》杂志的研究揭示了模型如何在训练错误数据的情况下,生成更多错误数据,这种反馈循环会逐渐削弱后续几代模型的性能。研究人员发现,模型随着几代训练的推进会逐渐丧失对较为冷门知识的掌握,变得更加普通,甚至给出的答案常常与问题无关。
图片来源:Ilia Shumailov et al.
一项后续研究表明,其他类型的模型(如图像生成器)也不能幸免于这种崩溃:
图片来源:Ilia Shumailov et al.
Soldaini同意原始合成数据并不值得信赖,尤其是当目标是避免训练出遗忘性聊天机器人或同质化图像生成器时。他指出,使用合成数据安全的方式是需要对数据进行彻底审查、筛选和过滤,并且理想情况下需要与新鲜的真实数据搭配使用,就像处理其他数据集一样。
如果未能做到这一点,可能会导致模型的输出变得越来越不具创造性和加剧偏见,最终严重影响其功能。虽然这一过程在变得严重之前可能会被识别并加以纠正,但这确实是一种风险。
Soldaini说道:“研究人员需要检查生成的数据,反复迭代生成过程,并确定消除低质量数据点的保障措施。合成数据管道不是一台自我改进的机器,它们的输出必须在用于训练之前进行仔细检查和优化。”
OpenAI的CEO Sam Altman曾表示,AI未来某天将生成足够优质的合成数据,甚至能够有效地自我训练。这个愿景可能成立,但相关技术尚未出现,迄今为止,没有一家主流的AI实验室发布过完全基于合成数据训练的模型。
所以,至少在可预见的未来,AI训练仍然需要有人类参与其中,以确保模型训练的过程中不会出错。