使用结构化和非结构化数据增强大型语言模型(LLM)

文摘 2024-11-07 07:45 福建

.01

概述

在过去的几年中，大型语言模型（LLMs）引领了人工智能领域的革命。然而，尽管这些模型在理解和生成语言方面表现出色，它们仍然存在一些固有的局限性。主要包括知识截止日期带来的信息更新滞后、生成貌似正确但实际上错误的信息，以及知识库中可能存在的不准确信息和偏见。这些问题使得我们必须寻找解决方案，以提升LLMs的性能，特别是在特定领域的应用上。

.02

LLM的微调（Fine-Tuning）

为了应对上述问题，微调LLM是一种有效的方法。这一过程通过监督学习来补充模型的内部知识，具体做法是引入额外的问答对。例如，一些开源工具如WizardLM可以利用给定的训练数据集生成这些问答对。

然而，定期微调并非易事，尤其是在信息快速变化的情况下。微调适用的场景通常是数据不频繁变化的领域。此外，微调并不能完全消除幻觉（hallucination）的问题。模型无法明确引用信息的来源，这使得我们难以判断信息是来源于预训练数据还是微调数据。微调还需要设置训练管道，并使用具备足够处理能力的GPU。此外，微调并没有任何访问控制机制，所有更新的知识对所有用户开放。

.03

检索增强生成（RAG）

检索增强生成（RAG）为保持知识更新和减少幻觉提供了一种解决方案。RAG允许用户构建自己的特定知识库，并将LLM的功能限制在该知识库内。这对希望仅访问非公开内部数据源的信息组织特别有利，尤其是面对快速变化的数据时。此外，RAG还为组织提供了一个安全、隔离的环境，以便在个性化对话代理中利用其独特的数据。

RAG的工作流程可以概括为：用户的提示被转换为嵌入（embeddings），与向量数据库匹配，并结合检索到的数据通过LLM生成响应。这种方式使得信息检索更为高效，确保语义相似的信息被相邻存储，快速响应用户的查询。

向量数据库的作用

外部数据存储在向量数据库中，这是一种将信息以嵌入形式存储的高维系统。这种数据库通过语义相似性来索引和存储项，使得信息检索速度更快。外部数据首先使用嵌入模型（如OpenAI的Ada2、Cohere的co等）转换为数值表示（嵌入）。然后，将这些嵌入分成适合LLM上下文窗口的适当大小的块。定期将新数据集成到向量数据库中也相对简单，开源向量数据库如Weaviate、Milvus、Elasticsearch和Faiss都可以用于此目的。

对于每个查询或提示，嵌入模型首先将其转换为嵌入，然后利用这些嵌入从向量数据库中查找相关信息。随后，将组合后的提示和信息嵌入传递给大型语言模型，生成最终的响应。

结构化数据在RAG中的整合

除了网页、PDF、PowerPoint演示文稿和文章等非结构化数据源，结构化数据（如知识图谱）也可以作为重要的信息来源。使用知识图谱-检索增强生成（KG-RAG）能够为提示提供更强大和一致的信息。得益于标准化的词汇和自定义概念，知识图谱有助于缓解基于向量数据库的RAG中因语言差异造成的低质量结果的问题。

.04

结构化与非结构化数据的结合

知识图谱的另一个优点是能够同时容纳结构化和非结构化信息。举个例子，考虑一个公司利用知识图谱来管理和导航客户关系及销售流程的场景。知识图谱可能包含销售人员、客户、交易和产品等节点。它们之间的关系可能包括“管理”、“购买”或“谈判”。结构化数据可能涉及销售数据、客户联系信息和产品规格，而非结构化数据则可能是销售通话记录、电子邮件交流和会议纪要。这种设置将使得聊天机器人能够回答诸如“与客户X的交易处于谈判阶段的有哪些？”或“展示关于产品Y的最近沟通记录”等查询。

开源框架如LangChain和LlamaIndex可以促进同时使用非结构化和结构化数据的RAG应用程序的开发。LlamaIndex能够自动化构建知识图谱过程中的主要步骤，如实体提取、关系提取和图谱填充。流行的图数据库Neo4j可以用于存储和检索RAG应用中的结构化和非结构化信息。OpenAI与LangChain和Neo4j的功能可以用于从非结构化数据中构建知识图谱。

.05

结论

随着技术的不断发展，增强大型语言模型的能力变得愈加重要。通过整合结构化和非结构化数据，我们不仅可以提高LLM的知识更新能力，还能显著改善其在特定领域的表现。检索增强生成（RAG）和知识图谱的结合为组织提供了一个灵活、安全的环境，以更有效地利用其独特数据。这种方法的成功实施，将为未来的人工智能应用开辟新的可能性，让我们对LLM的前景充满期待。

http://mp.weixin.qq.com/s?__biz=MzI0NTg0Njk1OQ==&mid=2247487299&idx=4&sn=19b8178da96335701de39a5f180c0d45

Halo咯咯

专注于技术知识整理，包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识，以及各种开源的内容～

BLIP3-KALE：包含 2.18 亿个图像文本对的开源数据集，通过知识增强的密集描述转换图像字幕

TabM：一种新的高效深度学习模型，专门针对表格数据处理

高效信息检索新方法：LangChain中Retriever的多种高级策略

Hugging Face 发布 SmolTools：使用 LLaMA.cpp 和小语言模型构建的轻量级 AI 驱动工具集合

LLM-KT：利用嵌入式 LLM 生成的功能增强协作过滤模型的灵活框架

ChatGPT Search：AI搜索引擎如何挑战Google霸主地位？

Run AI 开源 Run:ai Model Streamer：专门构建的解决方案，使大型模型加载更快、更高效

全新MaskGCT模型：中英文合成与声音克隆的完美结合

提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘 | 深度好文

OptiLLM：一个与 OpenAI API 兼容的优化推理代理，可以提高 LLM 的准确性和性能

12百万YouTube音频链接来袭：LAION AI的LAION-DISCO-12M如何重塑基础模型的机器学习研究

LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

平衡 RAG 系统的准确性和速度：优化检索技术的见解

以AlphaFold3为标杆：麻省理工学院的Boltz-1如何重塑生物分子预测

Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Llama OCR：简简单单几行就可将图片或文档转成Markdown格式

Janus 系列：统一多模态理解和生成模型

OuteTTS-0.1-350M 发布：一种新颖的文本到语音 (TTS) 合成模型，利用纯语言建模，无需外部适配器

从此告别延迟！Hertz-Dev开创高效音频交互新模式

慕尼黑工业大学的这篇人工智能论文介绍了一种新颖的机器学习方法，通过模拟器反馈改进基于流的生成模型

YOLOv11：实时目标检测的新飞跃

LLMWare 发布 Model Depot：为 Intel PC 提供的 SLM 大集合

COMandA：一个用命令行简化大型语言模型操作的工具

从RAG到TAG：探索表增强生成（TAG）的力量

NotebookLlama：Meta 推出的开源交互式数据分析新工具

Promptwright：一个可以生成大规模合成数据集的Python库

HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

Hugging Face 发布 Sentence Transformers v3.3.0：NLP 效率的重大进展

Snowflake 和 CMU 的研究人员推出 SuffixDecoding：一种通过推测解码加速LLM推理的新型无模型方法

LLM微调的关键要点：如何打造高效、可靠的AI模型

TinyTroupe ：微软提供的一个实验性 Python 库，可以模拟具有特定个性、兴趣和目标的人。

LLM提示工程手册：如何优化LLMs以获得最佳结果

RAGCache：让RAG系统更高效的多级动态缓存新方案

LocalAI：免费开源的OpenAI替代品，轻松实现本地推理

探索 mcdse-2b-v1：全新高效的多语言文档检索模型

LOTUS：一个将自然语言与数据查询完美结合的创新引擎

超越 Text2SQL：TAG 如何解决复杂查询挑战

解锁图像数据的商业价值：Cohere推出Multimodal Embed 3

Weaviate：开源向量数据库重塑AI应用开发

Chai-1：一种用于分子结构预测的多模态基础模型

如何让大型语言模型部署更高效？Run:ai Model Streamer的革命性突破

Mixture of Experts模型面临安全挑战：新型泄漏攻击解析

突破传统！MIT的HPT模型助力机器人适应多任务环境

引入上下文检索(Contextual Retrieval)：提升AI模型的精准度与效率

实现上下文检索：提升文档处理的智能化的开源代码

AMD 发布 AMD-135M：AMD 第一个小型语言模型系列。

DeepSeek AI发布Janus：一款拥有图像生成能力的1.3B多模态模型

Llama 如何帮助 CodeGPT 成为顶级人工智能编码助手之一

提升开发效率：CodeGPT 为程序员提供全方位支持，让编程变得更简单、更高效

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉