西雅图腾讯的10亿人工智能大军,是干什么的?
文摘
科技
2024-08-07 11:50
中国香港
西雅图腾讯人工智能实验室的研究人员介绍了一种生成合成数据的新方法:合成个性。腾讯人工智能实验室将他们称为“角色”,并为真人创造替代品,以生成数十亿个用于开发人工智能系统的合成数据集。作为研究的一部分,该团队创建了“人物角色中心”,其中包含 10 亿个虚拟人物。研究人员使用了两种方法:“文本到人物角色”从网络文本中获取人物角色,而“人物角色到人物角色”则根据与之前创建的人物角色的关系生成新的人物角色。原则上,人物角色可以作为合成数据的一种乘数,因为不同的背景可以各自生成自己的数据变体,类似于分配的角色在提示过程中如何影响语言模型的输出。合成角色可用于生成各种数据,用于训练 AI 模型。研究人员给出了数学问题、逻辑思维任务和语言模型说明等示例。角色可以从大型语言模型中“读取”知识
在一项实验中,研究人员使用 Persona Hub 生成了 107 万道数学题。基于这些数据训练的具有 70 亿个参数的模型在 MATH 基准测试中的准确率达到了 64.9%,与 OpenAI 的 gpt-4-turbo-preview 的性能相当,但模型大小仅为其一小部分。科学家们认为,他们的方法有可能为人工智能的数据生成带来范式转变。大型语言模型未来可以自行生成各种合成数据,而不是依赖人类生成的数据。该团队看到了 NPC 在视频游戏或专业专用工具开发中的进一步潜在应用。然而,该研究也指出了可能的风险和伦理问题。例如,该方法可以有效地“读出”并复制存储在语言模型中的整个知识库。