作者 / Data Commons 负责人 Prem Ramaswami; 技术与社会高级副总裁 James Manyika
驱动当下 AI 创新的大语言模型 (LLM) 正日趋复杂。这些模型可以梳理大量文本并生成摘要,提出新的创意方向,甚至提供代码草稿。然而,尽管 LLM 拥有这些惊人的能力,有时也会信誓旦旦地提供不准确的信息。我们称这种现象为 "幻觉",这是生成式 AI 的关键挑战。
我们将在本文中与您分享一些极具前景的研究进展,通过让 LLM 利用现实世界的统计信息去帮助减少幻觉,从而直接应对幻觉挑战。除了这些研究进展以外,我们也很高兴能发布 DataGemma,这是首个旨在将 LLM 与来自 Google Data Commons 的大量现实世界数据连接起来的开放模型。
Data Commons 是一个公开可用的知识图谱,包含超过 2,400 亿个丰富的数据点,涵盖数十万个统计变量。该知识图谱从联合国 (UN)、世界卫生组织 (WHO)、疾病控制与预防中心 (CDC) 和人口普查局等可信组织获取公开信息。将这些数据集整合成一套统一的工具和 AI 模型,可以帮助政策制定者、研究人员和组织获得准确的见解。
Data Commons https://datacommons.org/
我们可以把 Data Commons 当成一个庞大且持续扩展的数据库,包含从健康和经济到人口统计和环境等各种主题的可靠公开信息。您可以通过我们由 AI 驱动的自然语言界面,用自己的话术与这一数据库交互。例如,您可以查询非洲哪些国家的电力供应增长最多、美国各县居民收入与患糖尿病的关联性,或查询您想了解的相关数据问题。
由 AI 驱动的自然语言界面 https://blog.google/technology/ai/google-data-commons-ai/?utm_campaign=tech-content&src=Online/LinkedIn/linkedin_page&utm_medium=linkedin_post&utm_source=linkedin 非洲哪些国家的电力供应增长最多 https://datacommons.org/explore#q=Which%20countries%20in%20Africa%20have%20had%20the%20greatest%20increase%20in%20electricity%20access%3F 美国各县居民收入与患糖尿病的关联性 https://datacommons.org/explore#q=How%20does%20income%20correlate%20with%20diabetes%20in%20US%20counties%3F
Gemma https://ai.google.dev/gemma Gemini https://gemini.google.com/corp/app?hl=en 现在可供研究人员和开发者使用 https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
DataGemma 将通过利用 Data Commons 的知识,使用两种不同的方法来增强 LLM 的事实性和推理能力,从而扩展 Gemma 模型的功能:
2. RAG (检索增强生成,Retrieval-Augmented Generation) 让语言模型能整合超出其训练数据范围之外的相关信息,并汲取更多上下文信息,从而生成更全面、信息量丰富的输出。对于 DataGemma,此功能则是通过利用 Gemini 1.5 Pro 的长上下文窗口实现的。DataGemma 会在模型开始生成响应之前,从 Data Commons 检索相关上下文信息,从而将出现幻觉的风险降到最低,同时提升响应的准确率。
我们对使用 RIG 和 RAG 的研究成果仍属早期阶段,但也足以令人振奋。我们发现,语言模型在处理有关数字的事实时,准确率得到显著提升。这表明用户在为开展研究、制定决策或仅仅是为了满足好奇心而使用模型时,面临的幻觉挑战将会减小。您可以在我们的研究论文中探索这些结果。
△ RAG 查询和响应的示例。支持的真实统计数据引用自 Data Commons 提供的表格。*为了简洁起见,此处仅显示部分响应。
研究论文
http://datacommons.org/link/DataGemmaPaper
研究人员和开发者还可以使用这些适用于 RIG 和 RAG 方法的快速入门手册,即刻体验 DataGemma。如需详细了解 Data Commons 和 Gemma 如何协同工作,请参阅我们的研究博文。
RIG
https://colab.research.google.com/github/datacommonsorg/llm-tools/blob/master/notebooks/datagemma_rig.ipynb
RAG https://colab.research.google.com/github/datacommonsorg/llm-tools/blob/master/notebooks/datagemma_rag.ipynb 研究博文 https://research.google/blog/grounding-ai-in-reality-with-a-little-help-from-data-commons