从RAG到TAG：探索表增强生成（TAG）的力量

文摘 2024-11-16 07:45 福建

.01

概述

在人工智能（AI）不断发展的时代，数据的交互与利用方式也随之演变。在AI驱动的数据检索领域，出现了两种重要的方法：检索增强生成（RAG）和最近崭露头角的表增强生成（TAG）。尽管RAG通过将AI与外部数据检索系统结合，实现了有效的信息获取，但TAG则通过使大型语言模型（LLM）能够直接与结构化数据库交互，提供了一种全新的范式。

在这篇文章中，我们将深入探讨TAG，分析其如何超越RAG，并介绍由TAG-Research开发的强大LOTUS库，提供一些使用LOTUS的理论代码示例。同时，我们还将探讨TAG在各个行业（包括金融）中的实际应用，展现其变革潜力。

.02

理解RAG与TAG

什么是检索增强生成（RAG）？

检索增强生成（RAG）将检索系统与LLM相结合。它使用基于向量的嵌入方法搜索和检索相关文档，然后利用这些文档增强LLM的回答。这种方法在LLM需要访问训练数据之外的最新信息时特别有效。

RAG的工作原理：

查询编码：用户的自然语言查询被转换为向量表示。
文档检索：系统在文档数据库中搜索与查询向量最相似的文档。
响应生成：LLM使用检索到的文档和自身知识库生成回答。

应用案例：

客户支持系统获取相关政策更新。
聊天机器人提供基于最新新闻文章的信息。

什么是表增强生成（TAG）？

表增强生成（TAG）提供了一种更直接和结构化的方法，允许LLM使用SQL或其他数据库特定查询语言查询数据库。TAG让LLM能够：

直接访问结构化数据：从关系数据库中检索精确的数据点。
处理复杂查询：管理涉及聚合、排序和多字段操作的查询。
综合有意义的响应：根据精确数据生成详细答案。

TAG的工作原理：

查询合成：LLM解释用户的自然语言查询并将其转换为SQL命令。
查询执行：SQL查询在数据库上执行，以检索精确数据。
答案生成：LLM根据查询结果生成自然语言响应。

TAG的优势：

精准性：直接访问结构化数据确保更高的准确性。
复杂性：能够处理涉及多种操作的多面查询。
效率：通过消除嵌入的需求，减少计算开销。

.03

为什么TAG优于RAG？

1. 直接访问结构化数据带来更高的精准度

RAG通过向量嵌入近似数据检索，这可能导致结果不够精确，尤其在处理细微查询时。相比之下，TAG直接访问结构化数据库，允许其检索精确的数据点。

示例：

RAG：搜索“被认为是经典的高票房浪漫影片”可能会检索提到这些影片的文档，但未必提供准确的排名。
TAG：执行SQL查询直接从数据库过滤和排名影片，确保结果准确且量身定制。

2. 处理复杂、多面查询

TAG在管理涉及多个字段和操作（如排序、过滤和聚合）的复杂查询方面表现优异，而RAG由于依赖相似度检索在这方面有所欠缺。

示例：

金融分析：生成季度增长排名前几的股票清单需要聚合和排序数据，而TAG能够轻松处理这些任务。
医疗研究：确定不同人群的某项手术的平均恢复时间涉及复杂的数据处理，更适合使用TAG。

3. 降低对嵌入的依赖

像RAG这样的基于嵌入的检索系统在处理大型数据集时可能资源密集，而TAG通过使用SQL查询直接访问数据，降低计算成本，提高速度。

优势：

效率：更快的数据检索，在实时环境中至关重要。
可扩展性：在处理大型数据集时表现更佳。

.04

引入LOTUS：增强TAG的能力

由TAG-Research开发的LOTUS库是一个强大的语义查询引擎，旨在扩展TAG的能力。它提供了一个灵活且声明式的编程模型，能够使LLM无缝交互结构化和非结构化数据。

LOTUS的关键特性

语义操作符：针对表格数据的自然语言处理专用函数。
sem_filter：根据自然语言条件过滤行。
sem_join：使用基于语言的标准连接表。
类似Pandas的API：提供与Pandas相似的接口，方便熟悉Python的数据科学家和工程师使用。
与LLM集成：与包括OpenAI在内的各种LLM配置，利用AI进行自然语言解释和数据处理。

优势：

简化需要对数据进行复杂推理的AI驱动应用的开发。
增强TAG在传统SQL能力之外处理复杂数据查询的实用性。

.05

使用Azure OpenAI SDK和LOTUS实现TAG：实践示例

为了说明TAG的实现，我们将提供使用Azure OpenAI SDK和LOTUS库的代码示例。

前提条件

Azure账户：访问Azure OpenAI服务。
Python环境：Python 3.6或更高版本。
数据库设置：访问关系数据库（例如，SQL Server、PostgreSQL）。

安装所需库

pip install azure-ai-openai lotus-nlp pyodbc pandas

设置环境

# Azure OpenAI SDK
from azure.identity import DefaultAzureCredential
from azure.ai.openai import OpenAIClient

# LOTUS Library
import lotus
# Database Libraries
import pyodbc
import pandas as pd
# Set up Azure OpenAI Client
endpoint = "https://your-openai-resource.openai.azure.com/"
credential = DefaultAzureCredential()
openai_client = OpenAIClient(endpoint=endpoint, credential=credential)
# Set up LOTUS with OpenAI LLM
llm = lotus.OpenAI(azure_openai_client=openai_client)
# Database Connection
conn = pyodbc.connect(
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=your_server;DATABASE=your_database;UID=your_username;PWD=your_password'
)```

将数据加载到LOTUS

假设我们有一个电影表：

# Load data into a Pandas DataFrame
movies_df = pd.read_sql_query("SELECT * FROM movies", conn)

# Create a LOTUS table
movies_table = lotus.Table.from_dataframe(movies_df, name="movies", llm=llm)```

示例1：寻找高票房浪漫经典

自然语言查询：

“列出票房最高的前5部被认为是经典的浪漫影片。”

使用LOTUS：

# Apply semantic filter
filtered_movies = movies_table.sem_filter("genre is romance and is considered a classic")

# Sort and select top 5
top_movies = filtered_movies.sort_values(by="box_office", ascending=False).head(5)
print(top_movies[['title', 'box_office']])

解释：

sem_filter：利用LLM解释自然语言条件。
排序和选择：标准的Pandas操作。

示例2：复杂的金融查询

让我们在金融背景下展示TAG的一个示例用例。

自然语言查询：

“识别上个季度收入增长超过20%且市盈率低于15的科技公司。”

实现：

# Load financial data
stocks_df = pd.read_sql_query("SELECT * FROM stocks", conn)
stocks_table = lotus.Table.from_dataframe(stocks_df, name="stocks", llm=llm)

# Apply semantic filter
filtered_stocks = stocks_table.sem_filter(
    "sector is technology and revenue growth last quarter above 20% and P/E ratio below 15"
)
print(filtered_stocks[['company_name', 'revenue_growth', 'pe_ratio']])

解释：

直接交互：TAG借助LOTUS允许直接查询复杂条件。
不需要复杂的SQL：自然语言条件就足够了。

.06

TAG的实际应用

1. 医疗和医学研究

用例：

查询：“找出50-60岁患者在X手术后的平均恢复时间。”

TAG优势：直接查询各个维度的患者数据，确保分析准确和相关。

实现：

# Assuming patient_data_table is a LOTUS table
filtered_patients = patient_data_table.sem_filter(
    "age between 50 and 60 and underwent Procedure X"
)

average_recovery = filtered_patients['recovery_time'].mean()
print(f"Average Recovery Time: {average_recovery} days")

2. 客户支持

用例：

查询：“找出客户投诉的主要问题。”

TAG优势：通过分析客户支持表，识别投诉模式。

实现：

# Assuming customers_table is a LOTUS table
high_value_customers = customers_table.sem_filter(
    "purchases over $1,000 last month and high engagement"
)

print(high_value_customers[['customer_id', 'total_purchases', 'engagement_score']])

.07

结语

表增强生成（TAG）正快速成为AI驱动数据检索的新标准，通过直接与结构化数据交互，提升了准确性和处理复杂查询的能力。通过LOTUS库的引入，TAG进一步扩展了其潜力，使开发人员能够构建高效的、基于数据的应用程序，满足不断增长的行业需求。

随着企业在利用数据获取竞争优势的过程中，TAG的实施将不仅限于提升用户体验，更将成为推动行业创新的核心驱动力。在金融、医疗和客户支持等领域，TAG的实际应用展现了其变革性的潜力，未来将为更多行业的数字化转型铺平道路。

参考：

https://github.com/TAG-Research/LOTUS
https://github.com/TAG-Research/TAG-Bench

http://mp.weixin.qq.com/s?__biz=MzI0NTg0Njk1OQ==&mid=2247487490&idx=1&sn=6e0bcac5e29790ea58ff70492503d3c8

Halo咯咯

专注于技术知识整理，包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识，以及各种开源的内容～

BLIP3-KALE：包含 2.18 亿个图像文本对的开源数据集，通过知识增强的密集描述转换图像字幕

TabM：一种新的高效深度学习模型，专门针对表格数据处理

高效信息检索新方法：LangChain中Retriever的多种高级策略

Hugging Face 发布 SmolTools：使用 LLaMA.cpp 和小语言模型构建的轻量级 AI 驱动工具集合

LLM-KT：利用嵌入式 LLM 生成的功能增强协作过滤模型的灵活框架

ChatGPT Search：AI搜索引擎如何挑战Google霸主地位？

Run AI 开源 Run:ai Model Streamer：专门构建的解决方案，使大型模型加载更快、更高效

全新MaskGCT模型：中英文合成与声音克隆的完美结合

提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘 | 深度好文

OptiLLM：一个与 OpenAI API 兼容的优化推理代理，可以提高 LLM 的准确性和性能

12百万YouTube音频链接来袭：LAION AI的LAION-DISCO-12M如何重塑基础模型的机器学习研究

LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

平衡 RAG 系统的准确性和速度：优化检索技术的见解

以AlphaFold3为标杆：麻省理工学院的Boltz-1如何重塑生物分子预测

Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Llama OCR：简简单单几行就可将图片或文档转成Markdown格式

Janus 系列：统一多模态理解和生成模型

OuteTTS-0.1-350M 发布：一种新颖的文本到语音 (TTS) 合成模型，利用纯语言建模，无需外部适配器

从此告别延迟！Hertz-Dev开创高效音频交互新模式

慕尼黑工业大学的这篇人工智能论文介绍了一种新颖的机器学习方法，通过模拟器反馈改进基于流的生成模型

YOLOv11：实时目标检测的新飞跃

LLMWare 发布 Model Depot：为 Intel PC 提供的 SLM 大集合

COMandA：一个用命令行简化大型语言模型操作的工具

从RAG到TAG：探索表增强生成（TAG）的力量

NotebookLlama：Meta 推出的开源交互式数据分析新工具

Promptwright：一个可以生成大规模合成数据集的Python库

HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

Hugging Face 发布 Sentence Transformers v3.3.0：NLP 效率的重大进展

Snowflake 和 CMU 的研究人员推出 SuffixDecoding：一种通过推测解码加速LLM推理的新型无模型方法

LLM微调的关键要点：如何打造高效、可靠的AI模型

TinyTroupe ：微软提供的一个实验性 Python 库，可以模拟具有特定个性、兴趣和目标的人。

LLM提示工程手册：如何优化LLMs以获得最佳结果

RAGCache：让RAG系统更高效的多级动态缓存新方案

LocalAI：免费开源的OpenAI替代品，轻松实现本地推理

探索 mcdse-2b-v1：全新高效的多语言文档检索模型

LOTUS：一个将自然语言与数据查询完美结合的创新引擎

超越 Text2SQL：TAG 如何解决复杂查询挑战

解锁图像数据的商业价值：Cohere推出Multimodal Embed 3

Weaviate：开源向量数据库重塑AI应用开发

Chai-1：一种用于分子结构预测的多模态基础模型

如何让大型语言模型部署更高效？Run:ai Model Streamer的革命性突破

Mixture of Experts模型面临安全挑战：新型泄漏攻击解析

突破传统！MIT的HPT模型助力机器人适应多任务环境

引入上下文检索(Contextual Retrieval)：提升AI模型的精准度与效率

实现上下文检索：提升文档处理的智能化的开源代码

AMD 发布 AMD-135M：AMD 第一个小型语言模型系列。

DeepSeek AI发布Janus：一款拥有图像生成能力的1.3B多模态模型

Llama 如何帮助 CodeGPT 成为顶级人工智能编码助手之一

提升开发效率：CodeGPT 为程序员提供全方位支持，让编程变得更简单、更高效

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉