西雅图腾讯的10亿人工智能大军，是干什么的？

文摘科技 2024-08-07 11:50 中国香港

西雅图腾讯人工智能实验室的研究人员介绍了一种生成合成数据的新方法：合成个性。

腾讯人工智能实验室将他们称为“角色”，并为真人创造替代品，以生成数十亿个用于开发人工智能系统的合成数据集。

作为研究的一部分，该团队创建了“人物角色中心”，其中包含 10 亿个虚拟人物。研究人员使用了两种方法：“文本到人物角色”从网络文本中获取人物角色，而“人物角色到人物角色”则根据与之前创建的人物角色的关系生成新的人物角色。原则上，人物角色可以作为合成数据的一种乘数，因为不同的背景可以各自生成自己的数据变体，类似于分配的角色在提示过程中如何影响语言模型的输出。

合成角色可用于生成各种数据，用于训练 AI 模型。研究人员给出了数学问题、逻辑思维任务和语言模型说明等示例。

角色可以从大型语言模型中“读取”知识

在一项实验中，研究人员使用 Persona Hub 生成了 107 万道数学题。基于这些数据训练的具有 70 亿个参数的模型在 MATH 基准测试中的准确率达到了 64.9%，与 OpenAI 的 gpt-4-turbo-preview 的性能相当，但模型大小仅为其一小部分。

科学家们认为，他们的方法有可能为人工智能的数据生成带来范式转变。大型语言模型未来可以自行生成各种合成数据，而不是依赖人类生成的数据。该团队看到了 NPC 在视频游戏或专业专用工具开发中的进一步潜在应用。

然而，该研究也指出了可能的风险和伦理问题。例如，该方法可以有效地“读出”并复制存储在语言模型中的整个知识库。

<SDI原创，欢迎转载、投稿联系>

往期精彩推荐:

麻省理工：教你如何成为AI工程师

AI工程师--下一个重大技术角色！

麻省理工预测：2024年十大突破性技术揭晓

专注AI、XR、元宇宙前沿洞察和商业服务

最新文章

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

GPT 10 月份访问量达 37 亿次，同比增长 115%

假如 AI 欺骗了你

23000 名阿联酋航空机组人员将接受空客和波音 VR 培训

MIT：重新审视生成式人工智能的神秘山谷

国际电信联盟就 AI 和元宇宙做出承诺

Nature：元宇宙技术有助于促进更包容的社会

AI走向人性化：未来我们将如何与其共存？

麻省理工研究：AI聊天机器人可减少信仰阴谋论

沉浸感的诱惑：从爆火的JellyCat到《I Am Cat》VR游戏

福布斯：人工智能革命如何重塑世界？

扎克伯格推出带有神经接口的“Orion” AR 智能眼镜--黄仁勋开箱亲测

Gartner：2027 年，80% 软件开发人员将要接受 AI 培训

特斯拉推出Cybercab出租车，但Optimus机器人确更引人注目

诺贝尔奖的AI时代：为什么物理学奖和化学奖都颁给了人工智能？

Apple Vision Pro 2 传闻及最新消息

为什么女性使用 AI 的频率低于男性？

科隆数字展邀您亲身体验元宇宙与人工智能前沿技术

Roblox 重磅推出文字生成 3D 模型 AI工具

今年最值得关注的沉浸式协作趋势

生成式人工智能是如何忽悠你被解雇的？

AR 智能隐形眼镜将于 2026 年问世

牛津大学：AI科学家写论文，每篇仅需15美元

【深度】黑悟空爆火，再审视元宇宙第一股Roblox

阿迪达斯如何在元宇宙中全速前进

在Vision Pro发布六个月后的9个想法