你要的增量更新来了：微软GraphRAG 0.4.0

科技 2024-11-07 10:10 北京

微软GraphRAG自发布以来，引起了很大关注（目前18.7k star），但是一些功能却迟迟没有，比如增量更新。今天微软GraphRAG发布v0.4.0，3小时前，还是新鲜热乎的，带来两项重要更新：

添加增量索引
添加了 DRIFT 图推理查询模块

增量更新索引逻辑

增量更新逻辑代码在这：https://www.microsoft.com/en-us/research/blog/introducing-drift-search-combining-global-and-local-search-methods-to-improve-quality-and-efficiency/

获取数据变化：get_delta_docs函数用于比较输入数据集和存储中的最终文档，识别出新增和删除的文档。这是增量更新的核心部分，只有变化的部分会被进一步处理。

async def get_delta_docs(    input_dataset: pd.DataFrame, storage: PipelineStorage) -> InputDelta:    """Get the delta between the input dataset and the final documents.
    Parameters    ----------    input_dataset : pd.DataFrame        The input dataset.    storage : PipelineStorage        The Pipeline storage.
    Returns    -------    InputDelta        The input delta. With new inputs and deleted inputs.    """    final_docs = await _load_table_from_storage(        "create_final_documents.parquet", storage    )
    # Select distinct title from final docs and from dataset    previous_docs: list[str] = final_docs["title"].unique().tolist()    dataset_docs: list[str] = input_dataset["title"].unique().tolist()
    # Get the new documents (using loc to ensure DataFrame)    new_docs = input_dataset.loc[~input_dataset["title"].isin(previous_docs)]
    # Get the deleted documents (again using loc to ensure DataFrame)    deleted_docs = final_docs.loc[~final_docs["title"].isin(dataset_docs)]
    return InputDelta(new_docs, deleted_docs)

更新数据框架输出：update_dataframe_outputs函数负责更新各种数据框架，包括实体、关系、文本单元、协变量、节点和社区。这个函数会调用其他函数来处理这些更新。

async def update_dataframe_outputs(    dataframe_dict: dict[str, pd.DataFrame],    storage: PipelineStorage,    update_storage: PipelineStorage,    config: PipelineConfig,    cache: PipelineCache,    callbacks: VerbCallbacks,    progress_reporter: ProgressReporter,) -> None:    """Update the mergeable outputs.
    Parameters    ----------    dataframe_dict : dict[str, pd.DataFrame]        The dictionary of dataframes.    storage : PipelineStorage        The storage used to store the dataframes.    """    progress_reporter.info("Updating Final Documents")    final_documents_df = await _concat_dataframes(        "create_final_documents", dataframe_dict, storage, update_storage    )
    # Update entities and merge them    progress_reporter.info("Updating Final Entities")    merged_entities_df, entity_id_mapping = await _update_entities(        dataframe_dict, storage, update_storage, config, cache, callbacks    )
    # Update relationships with the entities id mapping    progress_reporter.info("Updating Final Relationships")    merged_relationships_df = await _update_relationships(        dataframe_dict, storage, update_storage    )

DRIFT图推理查询逻辑

DRIFT搜索原理：https://www.microsoft.com/en-us/research/blog/introducing-drift-search-combining-global-and-local-search-methods-to-improve-quality-and-efficiency/

在全面性方面，DRIFT 搜索的表现比local search好 78%。
在多样性方面，DRIFT 搜索的表现比local search好 81%

DRIFT搜索层级的全景，突出了DRIFT搜索过程的三个核心阶段。A（预处理）：DRIFT将用户查询与最语义相关的前K个社区报告进行比较，生成一个广泛的初始答案和后续问题，以引导进一步的探索。B（后续）：DRIFT使用局部搜索来细化查询，产生额外的中间答案和后续问题，增强了具体性，引导引擎朝向内容丰富的信息。图中每个节点上的一个符号显示了算法继续查询扩展步骤的信心。C（输出层级）：最终输出是一个按相关性排名的问题和答案的层级结构，反映了全局洞察和局部细化的平衡混合，使结果具有适应性和可理解性。

预处理：当用户提交查询时，DRIFT会将其与最语义相关的前K个社区报告进行比较。这会产生一个初始答案以及几个后续问题，这些后续问题作为全局搜索的轻量级版本。为了实现这一点，我们使用假设文档嵌入（HyDE）扩展查询，以提高敏感性（召回率），嵌入查询，将查询与所有社区报告进行比对，选择前K个，然后使用这前K个尝试回答查询。目标是利用高级抽象来指导进一步的探索。
后续：在预处理就绪后，DRIFT使用局部搜索变体执行每个后续问题。这会产生额外的中间答案和后续问题，形成一个持续细化的循环，直到搜索引擎满足其终止条件，目前配置为两次迭代（进一步的研究将研究奖励函数以指导终止）。这个阶段代表了全局信息引导的查询细化。使用全局数据结构，即使初始查询偏离索引角色，DRIFT也能导航到知识图中的具体、相关信息。这个后续过程使DRIFT能够根据新出现的信息调整其方法。
输出层级：最终输出是按与原始查询的相关性排名的问题和答案的层级结构。这个层级结构可以定制以满足特定用户需求。在基准测试期间，一个简单的映射-归约方法聚合了所有中间答案，每个答案的权重相等。

来源 | PaperAgent

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247549898&idx=3&sn=9dd275368240d8aaf353c7f4be7e12a0

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

Cursor一不小心把自家的底牌也放出来了~

[送5本]《动手学机器学习》上海交大ACM班总教头团队重磅新作，带你动手学机器学习！

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

LLM性能优化中的一些概念扫盲

暴跌94%，裁员9600人。。。

[送5本]《大语言模型：原理、应用与优化》大模型未来发展方向大揭秘！

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

DRL2022新书-《深度强化学习》免费pdf分享

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

中央批准：中央候补委员、教育部副部长，任C9大学书记

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

上交2024最新-《动手学大模型》实战教程及ppt分享！

考古OpenAI RLHF基石之作：探索RL和RM阶段的Scaling Law

【完整视频】黄仁勋对话软银孙正义：打造AI代理和物理AI，强调企业必须在AI浪潮中找准定位

2024最新版，人大赵鑫老师《大语言模型》新书pdf分享

上交2024最新-《动手学大模型》实战教程及ppt分享！

饶毅：全世界没有一个学校把博士后纳入“非升即走”

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

一篇综述告诉你：如何用大语言模型设计算法

SFT洗数据，有多少细节？

LSTM+Transformer王炸创新，荣登Nature...

突发！三星7nm停供！

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉