RAG内容生成革新：STORM与Co-STORM引领智能检索与人类协作

文摘 2024-12-09 07:40 新加坡

在信息爆炸的时代，内容生成技术正以前所未有的速度发展，成为各行业必不可少的工具。尤其是基于检索增强生成（RAG）的内容生成方法，它能够精准地提取并生成高质量的内容，满足我们对知识的快速获取与深度整理的需求。

正如著名作家赫尔曼·梅尔维尔所言：“知识就像海洋，永无止境，我们需要有正确的船只才能在其中航行。”如今，STORM和Co-STORM正是我们航行在这片知识海洋中的得力助手。

STORM系统通过网络搜索，借助多角度提问，能够自动生成类似维基百科文章的主题大纲，而Co-STORM则更进一步，通过启用人类协作，提升了内容的连贯性和实用性。

这一创新不仅提升了内容生成的效率，更使得信息寻求和知识整理变得更加一致与受欢迎，标志着RAG内容生成进入了一个全新的时代。

STORM 是一个基于网络搜索从头开始编写类似维基百科文章的LLM系统。Co-STORM 通过启用人类协作的LLM系统进一步增强了其功能，以支持更一致和更受欢迎的信息寻求和知识整理。

STORM 将生成带引用的长文章分解为两个步骤：

写作前阶段：系统进行基于互联网的研究以收集参考资料并生成提纲。

写作阶段：系统使用大纲和参考文献生成全文并附有引用。

STORM 将自动化研究过程的核心识别为自动提出好的问题。直接提示语言模型提问效果不佳。为了提高问题的深度和广度，STORM 采用两种策略：

视角引导式提问：给定输入主题，STORM 通过调查类似主题的现有文章来发现不同的视角，并使用它们来控制提问过程。

模拟对话：STORM 模拟了维基百科作者与主题专家之间的对话，该对话基于互联网资源，以使语言模型能够更新其对主题的理解并提出后续问题。

STORM 自动化写作前阶段的概览。从给定主题开始，STORM 通过调查相关维基百科文章（1-2）来识别覆盖该主题的各种视角。

然后，它模拟一个维基百科作者与一个基于可信在线资源的专家之间的对话（3-6）。最终大纲基于LLM的内在知识和从不同视角收集的对话（7-8）进行编纂。

Co-STORM 提出了一种协作话语协议，该协议实现了一种轮次管理策略，以支持顺畅的协作。

Co-STORM LLM 专家：此类代理基于外部知识源生成答案，或根据话语历史提出后续问题。

主持人：此代理生成由检索器发现的信息启发且在之前的回合中未直接使用的问题，这些问题具有启发性！问题生成也可以是基于事实的！

人类用户：人类用户将主动采取以下行动之一：（1）观察对话以深入了解主题，或（2）通过插入话语来引导对话焦点。

Co-STORM 还维护一个动态更新的思维导图，将收集到的信息组织成层次化的概念结构，旨在在人类用户和系统之间建立一个共享的概念空间。思维导图已被证明有助于在对话变得漫长和深入时减轻心理负担。

不同学习与信息搜索范式的比较。Co-STORM 使人类能够观察并参与不同角色 LM 代理之间的协作对话。用户可以请求系统根据对话历史和收集到的信息生成一份完整的引用报告。通过生成直接响应来查询，有效解决已知未知问题，用户了解他们的信息需求。

然而，在复杂的信息搜索场景中使用这些系统（如学术研究、市场分析和决策制定）时仍存在差距，在这些场景中，系统应向用户展示他们未知的未知，以促进知识发现。虽然“未知的未知”这一概念最初指的是军事中的意外风险，但它与信息研究背景下的意外发现信息相关。

STORM 和 Co-STORM 都使用 dspy 以高度模块化的方式实现。

安装知识风暴库，请使用：

pip install knowledge-storm

克隆 Git 仓库。

git clone https://github.com/stanford-oval/storm.gitcd storm

安装所需的软件包。

conda create -n storm python=3.11conda activate stormpip install -r requirements.txt

STORM 知识库引擎被定义为简单的 Python STORMWikiRunner 类。以下是一个使用 You.com 搜索引擎和 OpenAI 模型的示例。

import osfrom knowledge_storm import STORMWikiRunnerArguments, STORMWikiRunner, STORMWikiLMConfigsfrom knowledge_storm.lm import OpenAIModelfrom knowledge_storm.rm import YouRMlm_configs = STORMWikiLMConfigs()openai_kwargs = {    'api_key': os.getenv("OPENAI_API_KEY"),    'temperature': 1.0,    'top_p': 0.9,}# STORM is a LM system so different components can be powered by different models to reach a good balance between cost and quality.# For a good practice, choose a cheaper/faster model for `conv_simulator_lm` which is used to split queries, synthesize answers in the conversation.# Choose a more powerful model for `article_gen_lm` to generate verifiable text with citations.gpt_35 = OpenAIModel(model='gpt-3.5-turbo', max_tokens=500, **openai_kwargs)gpt_4 = OpenAIModel(model='gpt-4o', max_tokens=3000, **openai_kwargs)lm_configs.set_conv_simulator_lm(gpt_35)lm_configs.set_question_asker_lm(gpt_35)lm_configs.set_outline_gen_lm(gpt_4)lm_configs.set_article_gen_lm(gpt_4)lm_configs.set_article_polish_lm(gpt_4)# Check out the STORMWikiRunnerArguments class for more configurations.engine_args = STORMWikiRunnerArguments(...)rm = YouRM(ydc_api_key=os.getenv('YDC_API_KEY'), k=engine_args.search_top_k)runner = STORMWikiRunner(engine_args, lm_configs, rm)

Co-STORM 知识库构建引擎被定义为简单的 Python CoStormRunner 类。以下是一个使用必应搜索引擎和 OpenAI 模型的示例。

from knowledge_storm.collaborative_storm.engine import CollaborativeStormLMConfigs, RunnerArgument, CoStormRunnerfrom knowledge_storm.lm import OpenAIModelfrom knowledge_storm.logging_wrapper import LoggingWrapperfrom knowledge_storm.rm import BingSearch# Co-STORM adopts the same multi LM system paradigm as STORM lm_config: CollaborativeStormLMConfigs = CollaborativeStormLMConfigs()openai_kwargs = {    "api_key": os.getenv("OPENAI_API_KEY"),    "api_provider": "openai",    "temperature": 1.0,    "top_p": 0.9,    "api_base": None,} question_answering_lm = OpenAIModel(model=gpt_4o_model_name, max_tokens=1000, **openai_kwargs)discourse_manage_lm = OpenAIModel(model=gpt_4o_model_name, max_tokens=500, **openai_kwargs)utterance_polishing_lm = OpenAIModel(model=gpt_4o_model_name, max_tokens=2000, **openai_kwargs)warmstart_outline_gen_lm = OpenAIModel(model=gpt_4o_model_name, max_tokens=500, **openai_kwargs)question_asking_lm = OpenAIModel(model=gpt_4o_model_name, max_tokens=300, **openai_kwargs)knowledge_base_lm = OpenAIModel(model=gpt_4o_model_name, max_tokens=1000, **openai_kwargs)lm_config.set_question_answering_lm(question_answering_lm)lm_config.set_discourse_manage_lm(discourse_manage_lm)lm_config.set_utterance_polishing_lm(utterance_polishing_lm)lm_config.set_warmstart_outline_gen_lm(warmstart_outline_gen_lm)lm_config.set_question_asking_lm(question_asking_lm)lm_config.set_knowledge_base_lm(knowledge_base_lm)# Check out the Co-STORM's RunnerArguments class for more configurations.topic = input('Topic: ')runner_argument = RunnerArgument(topic=topic, ...)logging_wrapper = LoggingWrapper(lm_config)bing_rm = BingSearch(bing_search_api_key=os.environ.get("BING_SEARCH_API_KEY"),                     k=runner_argument.retrieve_top_k)costorm_runner = CoStormRunner(lm_config=lm_config,                               runner_argument=runner_argument,                               logging_wrapper=logging_wrapper,                               rm=bing_rm)

Co-STORM 的信息搜索辅助系统，该系统模拟用户和多个 LM 代理之间的协作对话。通过创建一个用户可以观察和参与的交互式环境，Co-STORM 提升了学习和复杂信息搜索过程。Co-STORM 在揭示人类学习中的未知未知方面优于传统搜索引擎和 RAG 聊天机器人，并减少了用户的认知努力。

参考资料：

1. https://github.com/stanford-oval/storm?tab=readme-ov-file

2. https://arxiv.org/pdf/2402.14207

3. https://www.arxiv.org/pdf/2408.15232

AI技术研习社

专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践！

最新文章

LLMs开发者必看！Pydantic AI代理框架震撼登场！

Long Term Memory：揭开人工智能自我进化的核心秘密！

手把手教你打造通用型LLM智能体，一文读懂核心原理！

3 大智能体开发平台详细对比：FastGPT、Dify和Coze

RAG内容生成革新：STORM与Co-STORM引领智能检索与人类协作

2025年Agents预测：知识研究领域Agent将迎来革命性突破！（附Top 3免费工具推荐）

RAG as a Service：开发者必备的新晋神器！

VLM论文深度解析：揭秘多模态大模型如何联动权重、任务与视觉嵌入

RAGAs评估工具：用指标与LLM优化你的RAG管道性能

视觉语言模型（VLMs）：复合人工智能系统的未来

《LLM 推理必知参数，全网最全解析！》

架构师必修之项目篇：基于ASR+GPT4.0+TTS实现全双工智能语音助手

Mobile-Agent重磅来袭：视觉感知+多模态智能助理，玩手机更高效！

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

构建Agent应用：Development Roadmap

检索增强生成（RAG）：解密AI如何融合记忆与搜索

揭秘汽车语音助手：从语音识别到智能回复的全流程解析！

RAG 和 RAU：自然语言处理中检索增强语言模型的调查

RAG 驱动的 NER：构建自定义模型的入门指南

基于BERT的对话意图和槽位联合识别模块

GLM-4-Plus上线：杀进“世界前三”，它真的好用吗？

揭秘RAG背后的人机对话流程：从语音识别到智能生成

揭秘RAG：全方位解析RAG检索中的意图识别，如何助力智能问答

Agent智能大揭秘：企业如何利用AI代理驱动高效增长！

LLMs+SQL：用自然语言轻松搞定数据查询，彻底解锁数据库潜能！

秒懂LLM流式输出的SSE原理！一文带你搞定SSE实现和Python实战案例

RAG实战：打造可扩展的智能文档系统：终极 RAG 管道全解析

RAG工具：FlashRAG用于高效 RAG 研究的 Python 工具包

重磅上线！ChatGPT引入Search功能，秒查秒懂新体验！

RAG评估：RAGChecker重磅发布！精准诊断RAG系统的全新细粒度框架！

RAGFlow重磅开源！基于深度文档理解的智能检索神器！

从零开始，用万行代码打造专属向量数据库！

揭秘RAG神器！如何通过上下文检索与混合搜索打造超强生成效果

IM-RAG：解锁AI内心独白，多轮检索增强生成新突破！

Agent实战：基于大模型的Agent技术框架开发实战

重磅发布！Claude 3.5 Sonnet上线，首个能像人类操作电脑的AI，官方提示词全解密！

多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

LightRAG：创新双级检索系统，整合图形结构，实现更强大信息检索！

颠覆传统生成方式！Adaptive RAG：实时学习、智能调整的下一代检索增强技术

颠覆传统RAG！Corrective-RAG引入自我反思与自我评估，让文档检索更智能更精准！

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

揭秘Self-RAG：引领大型语言模型生成质量的新潮流！

初识 OpenAI 的 Swarm：轻量级、多智能体系统的探索利器

MemoRAG重磅登场：彻底革新AI问答的长期记忆功能！

颠覆RAG性能！揭秘多头RAG的强大优化秘诀

解锁RAG架构：必知的6种提升AI内容生成的检索增强技术（二）

解锁RAG架构：必知的6种提升AI内容生成的检索增强技术（一）

可控 Text2Image：打造您想要的完美图像生成神器

揭秘RAG多模态应用：Text2Image检索开源项目

揭秘顶级 RAG 技术，不可错过的关键知识！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉