Bolt 荐阅｜合成数据的机遇与挑战

企业 2024-10-16 19:00 上海

图片来源：HIRETUAL

随着真实数据日益难以获取，合成数据逐渐成为大模型公司的焦点。使用合成数据做模型训练这个想法由来已久。根据媒体报道，Anthropic公司使用部分合成数据训练了其旗舰模型Claude 3.5 Sonnet，Meta公司也通过AI生成的数据对其Llama 3.1模型进行了微调。除此之外，OpenAI也正在使用其研发的模型o1生成的合成数据，为即将推出的Orion模型提供训练素材。

Kyle Wiggers是TechCrunch的资深记者，作者通过采访多位人工智能领域的专家共同探讨了公众对合成数据领域思考的问题：1. 为什么AI需要数据？2. AI需要什么样的数据？3. 真实数据会被合成数据取代吗？以下是我们对作者文章的整理和翻译，原文内容可以通过点击「阅读原文」链接进行查阅。

01 数据标注的重要性

AI系统本质上是统计机器。它们的训练需要输入大量数据，AI会学习数据中的规律以进行预测，比如在邮件中“to whom”通常会出现在“it may concern”之前（一种常见的英语信函开头短语）。

“数据标注”是指为原始数据添加标签或注释的过程，以便机器学习算法可以理解和使用这些数据。它们像路标一样，教导模型如何区分事物、地点和概念。

以一个分类厨房照片的模型为例，它被展示了许多标注为“厨房”的图片。在训练过程中，该模型会逐渐将“厨房”与厨房的一般特征建立关联（例如冰箱、工作台等）。训练后，模型应该能够识别出此前未包含在训练数据中的厨房照片。当然，如果这些厨房照片被错误标注为一头牛，那么模型将会将其识别为牛，这也凸显了数据标注质量的重要性。

数据标注服务市场正在迅速膨胀。据Dimension Market Research估计，数据标注市场的市值目前为8.382亿美元，未来十年将增长至103.4亿美元。虽然没有确切统计有多少人从事标注工作，但2022年的一篇论文估计这个数字达到了数百万。

许多大公司和小企业依赖数据标注公司的员工为AI训练集做数据标注。有些标注工作报酬不错，尤其是那些需要专业知识支持的工作（如数学）。但也有一些工作非常繁重，在发展中国家，标注员的平均时薪仅为几美元，且没有福利或未来工作机会的保障。

02 数据匮乏的困境

从人道主义的角度来看，我们有理由寻找人类做数据标注服务的替代方案。但也有一些出于现实情况的考虑：

1. 人类做数据标注有其局限性。首先，人类的数据标注速度有限。除此之外，标注员的偏见可能会影响其标注质量，进而影响任何依赖这些数据进行训练的模型。标注员还可能犯错，或者被复杂的标注指引所困扰。

2. 数据一般来说是昂贵的。例如，Shutterstock公司向AI厂商收取数千万美元以访问其数据存档，而Reddit也从向谷歌、OpenAI等公司出售数据中获利数亿美元。

除了以上两个原因，更重要的是，数据正在变的越来越难获取。大多数模型都是通过大量公开数据进行训练的，但出于对数据可能被抄袭或未能获得应有的归属的担忧，数据拥有者们越来越多地限制对这些数据的访问。如今，全球前1000个网站中有超过35%屏蔽了OpenAI的网络抓取工具。最近一项研究发现，主要数据集中的“高质量”来源中，有约25%的数据已经被限制访问。

如果这种趋势继续下去，研究机构Epoch AI预测，开发人员将在2026年至2032年间耗尽用于训练生成式AI模型的数据。加之对版权诉讼的担忧以及令人反感的内容可能进入公开数据集，AI厂商不得不重新审视这一问题。

03 合成数据的机遇

表面上看，合成数据似乎是解决这些问题的万全之策。需要标注？可以生成。需要更多示例数据？不成问题，数量无限。在一定程度上，这的确是事实。

华盛顿大学研究新兴技术伦理影响的博士生Os Keyes在接受TechCrunch采访时表示：“如果说数据是新的石油，那么合成数据就像是生物燃料，无需真实数据的负面外部性（如隐私泄露、数据偏见等）就可以生成。”

AI行业已然开始广泛应用这一概念。本月，企业级生成式AI公司Writer发布了一款名为Palmyra X 004的模型，几乎完全基于合成数据进行训练。Writer声称其开发成本仅为70万美元，而同等规模的OpenAI模型则需耗资460万美元。

微软的Phi开源模型部分使用了合成数据进行训练，谷歌的Gemma模型也不例外。Nvidia今年夏天推出了一款专为生成合成训练数据而设计的模型系列，而AI初创公司Hugging Face则声称已发布了迄今为止最大的合成文本训练数据集。

合成数据生成已成为一项独立的业务，到2030年其市场规模有望达到23.4亿美元。Gartner预测，今年60%的AI和分析项目所使用的数据将由合成数据生成。

AI2研究所的高级研究科学家Luca Soldaini指出，合成数据技术可以生成那些通过抓取或内容授权难以获得的训练数据。例如，在训练其视频生成器Movie Gen时，Meta使用Llama 3生成了训练数据中的视频字幕，随后由人工进行优化，加入更多细节。

同样，OpenAI表示，使用合成数据微调了GPT-4o以构建ChatGPT的画板功能Canvas。而亚马逊也表示，合成数据是其用来补充真实世界数据并训练Alexa语音识别模型的重要组成部分。

04 合成数据的挑战

然而，合成数据并非万能药。它同样面临“垃圾进，垃圾出”的问题。模型可以生成合成数据，但如果这些模型用于训练的数据本身存在偏见和局限性，其输出也将受到相同的影响。例如，基础数据中代表性不足的群体在合成数据中也会同样表现不足。

2023年，莱斯大学和斯坦福大学的研究人员发表的一项研究发现，过度依赖合成数据进行训练会导致模型的质量和多样性下降。研究人员指出，采样偏差（即对真实世界的代表性不足）会导致模型的多样性在几代训练后逐渐恶化。但他们同时也发现，在合成数据中混入一些真实世界的数据有助于缓解这一问题。

Keyes还指出，像OpenAI的o1这样的复杂模型可能会在其生成的合成数据中产生更难察觉的幻觉，这些幻觉可能会降低依赖这些数据进行训练的模型的准确性，尤其是当幻觉的来源难以识别时。

Keyes补充道：“由于模型会产生幻觉，导致其生成的数据会包含幻觉。对于像o1这样的模型，开发人员自己也未必能解释这些现象的出现。”

幻觉累积可能会导致模型输出无意义的数据。一项发表于《自然》杂志的研究揭示了模型如何在训练错误数据的情况下，生成更多错误数据，这种反馈循环会逐渐削弱后续几代模型的性能。研究人员发现，模型随着几代训练的推进会逐渐丧失对较为冷门知识的掌握，变得更加普通，甚至给出的答案常常与问题无关。

图片来源：Ilia Shumailov et al.

一项后续研究表明，其他类型的模型（如图像生成器）也不能幸免于这种崩溃：

图片来源：Ilia Shumailov et al.

Soldaini同意原始合成数据并不值得信赖，尤其是当目标是避免训练出遗忘性聊天机器人或同质化图像生成器时。他指出，使用合成数据安全的方式是需要对数据进行彻底审查、筛选和过滤，并且理想情况下需要与新鲜的真实数据搭配使用，就像处理其他数据集一样。

如果未能做到这一点，可能会导致模型的输出变得越来越不具创造性和加剧偏见，最终严重影响其功能。虽然这一过程在变得严重之前可能会被识别并加以纠正，但这确实是一种风险。

Soldaini说道：“研究人员需要检查生成的数据，反复迭代生成过程，并确定消除低质量数据点的保障措施。合成数据管道不是一台自我改进的机器，它们的输出必须在用于训练之前进行仔细检查和优化。”

OpenAI的CEO Sam Altman曾表示，AI未来某天将生成足够优质的合成数据，甚至能够有效地自我训练。这个愿景可能成立，但相关技术尚未出现，迄今为止，没有一家主流的AI实验室发布过完全基于合成数据训练的模型。

所以，至少在可预见的未来，AI训练仍然需要有人类参与其中，以确保模型训练的过程中不会出错。

Linear Bolt

Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学，专注在技术驱动带来变革的项目，希望帮助创始人找到实现目标的最短路径，不管是行动速度，还是投资方式，Bolt 的承诺是更轻，更快，更灵活。Bolt 已经在 2024 年上半年投资了 Final Round、心光、Cathoven、Xbuddy、Midreal 等 7 个 AI 应用项目。

线性资本

我们聚焦数据智能及其他前沿科技应用领域，相信Frontier Tech, Frontier Productivity, Frontier Life。

Taking Gems From Fire——线性资本 2024 年终回顾

YC合伙人分享：从一家快垮掉的初创企业，到做出增长迅速的Google Photos｜Bolt荐阅

研究：利用 AI 将录音转化为准确的街道图像｜Bolt荐阅

Duolingo最核心的增长功能“连胜机制”是怎么开发和迭代的？｜Bolt荐阅

合成生物企业「NewPro」完成数百万美元种子轮融资，线性资本独家投资

AI 时代的 SEO 必读｜Bolt荐阅

Lempire创始人访谈：如何将产品ARR增长到3000万美元｜Bolt荐阅

2025年，大模型的三个关键词

面对海量 AI 生成的内容，如何做 SEO｜Bolt荐阅

科技公司全球“大航海”的冷思考｜线性资本xLinkloud活动长文回顾

写代码可以被AI代劳了，软件工程师应该做什么？｜Bolt荐阅

什么是AI幻觉，为什么大语言模型会胡编乱造（及如何解决）｜Bolt荐阅

为什么说初创公司让创始人主导销售最有效？｜Bolt荐阅

谷歌都未能攻克的企业内搜索为何这么难做？｜Bolt荐阅

招聘｜线性资本招聘具身智能&机器人方向投资总监及资深总监

活动回顾｜Airwallex 空中云汇联合线性资本成功举办出海企业分享会

作为独立开发者，我如何持续获得动力？｜Bolt荐阅

Suno V4 更新了啥，以及 AI 音乐的未来｜Bolt观点

对话Final Round创始人Michael：AI如何颠覆传统招聘行业｜AI应用100问

Perplexity增长负责人谈最大AI搜索的增长尝试｜Bolt 荐阅

Sam Altman谈OpenAI：艰难但正确的道路｜Bolt荐阅

比尔·盖茨访谈播客：人工智能将如何改变我们的世界｜Bolt荐阅

提升产品迭代速度的秘诀：少即是多｜Bolt荐阅

工程师如何写好博客｜Bolt荐阅

微软 AI CEO Mustafa ：把 AI 当作新“物种”来思考它的潜力和风险｜Bolt荐阅

Project Sid：一个多智能体的 AI 文明实验

对话「42章经」曲凯：越早勇敢相信 AI 的人越有机会获得更大的回报｜AI应用100问

从高质量增长 v.s. 超高速增长，聊聊市场推广、融资和招聘心得｜Bolt荐阅

人工智能数据中心入门｜Bolt荐阅

Linear Capital｜Linear Path, Nonlinear Growth

线性资本｜Linear Path, Nonlinear Growth

线性资本举办美元投资人年会，天使轮项目「地平线」在港交所主板挂牌上市

现象级的NotebookLM对AI应用创业有什么启发｜Bolt观点

AI应用100问｜当人类和AI一起创作内容成为日常，全新的内容平台还会远吗？

Bolt荐阅｜如何找到你的创业合伙人

Bolt 荐阅｜合成数据的机遇与挑战

活动回顾｜搜索、C.AI、硬件，AI落地摸爬滚打的一年

线性种子轮项目、科学智能化学材料企业「深度原理」完成种子+轮融资，高瓴创投独家投资

Bolt荐阅｜关于种子轮融资你需要知道的事情

线性资本入选「长三角地区最佳早期创业投资机构Top10」

MCtalk·CEO对话观远数据：商业智能与组织效率的一鱼两吃，数据如何提供指引？｜线性被投企业

自动驾驶领域新玩家Bot Auto完成2000万美元Pre-A轮融资，线性资本领投

AI应用100问｜技术究竟如何给个体带来幸福感

线性资本获创业邦「最受赞赏早期投资机构」等奖项

线性天使轮项目「宏景智驾」完成数亿元C1轮融资，中东资本连投4轮

Bolt荐阅｜关于「创始人模式」的三点思考

线性资本入选36氪「中国人工智能领域产业投资基金」等名册

活动报名｜9月6日，中关村，来TICLab沙龙聊聊对AI Native终端的畅想

线性招聘｜生物医疗、市场运营、AI 方向实习生招聘，欢迎简历投递

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉