用LLM一键生成百万级领域知识图谱！中科大新框架入选ACL 2024

文化 2024-11-12 06:00 中国

元浦说文微信号：jinyuanpu
“元浦说文”由中国人民大学金元浦教授创办。
目标在于速递文化信息、传播深度思考、汇集文化创意产业的业界和学术精英，搭建产学研的合作桥梁。

SAC-KG团队投稿
量子位 | 公众号 QbitAI

现在，用LLM一键就能生成百万级领域知识图谱了？！

来自中科大MIRA实验室研究人员提出一种通用的自动化知识图谱构建新框架SAC-KG，提升效果be like：

当使用ChatGPT作为基础模型时，SAC-KG达到了89.32%的准确率和81.25%的领域特异性，相对于SOTA方法提升了20%。

一直以来，知识图谱构建技术始终是研究热点。

不过对构建领域知识图谱来说，由于需要大量的专家知识和人工干预，其实际应用受到严重限制。

对此，最近基于大语言模型（LLM）的构建方法成为了一种新趋势。但仍存在一些问题，严重影响所构建领域知识图谱的可信度。

针对上述痛点，研究团队进一步提出了SAC-KG，相关论文已发表在CCF-A类人工智能顶级会议ACL 2024 Main。并开发部署领域知识图谱自动构建平台SAC-KG，支持输入大规模领域语料，一键生成高质量领域知识图谱。

SAC-KG是如何工作的

由于大语言模型出色的语义理解能力和生成能力，基于LLM的方法成为了一种新趋势。通过利用LLM中存储的先验知识，从原始语料中提取三元组。

然而，基于LLM的方法仍面临一些问题。输入中的上下文噪声和输出中的知识幻觉会导致错误或不相关的三元组生成，从而严重影响所构建领域知识图谱的可信度。

为了解决上述问题，该研究提出了一种全新的自动化知识图谱构建通用框架SAC-KG，利用大语言模型作为领域知识图谱的自动化构建专家，在给定领域语料的情况下，以自动化、精确性和可控性为目标提取三元组。

该框架包含三个组件：生成器、验证器和剪枝器。

生成器

首先，生成器包括领域语料检索器和开放知识图谱检索器，分别为指定的实体从领域语料库和开放知识图谱中检索最相关信息。

其中，领域语料检索器提供最相关的文本语料作为LLM的输入，减少上下文噪声的引入；开放知识图谱检索器提供与实体最相关的三元组作为示例，帮助控制模型的输出格式。

LLM的输入包括与实体相关的上下文、三元组示例以及相应的提示，输出为生成的以指定实体为头实体的三元组。

验证器

由于LLM存在知识幻觉，可能生成错误三元组，因此由验证器负责检测并过滤掉由LLM生成的错误三元组。

这一过程分为两个步骤：错误检测和错误纠正。

在错误检测阶段，验证器会执行三种检查并进行标记：

数量检查：如果生成的三元组数量少于阈值（默认是3个），则标记为“数量不足”。
格式检查：如果三元组不符合预定义格式，则标记为“格式错误”；如果头实体不匹配预定义实体，则标记为“头实体错误”；如果头实体和尾实体相同，则标记为“头尾矛盾”。
冲突检查：验证器会检测三元组中的逻辑冲突。例如，确保一个人的出生时间早于死亡时间，且年龄不为负数。

在错误纠正阶段，根据检测到的错误类型提供相应的提示，并重新让LLM生成正确的输出。例如，如果是“格式错误”，会提示模型“请严格按照格式要求重新生成，注意三元组的格式”。

剪枝器

知识图谱的生长过程可以看作一棵树的逐层增长，从浅到深逐步获取领域知识，意味着下一层三元组的头实体是上一层三元组的尾实体。

在经过验证器验证后，将得到的正确三元组整合到生成的新层图谱中，并继续生成下一层三元组。

然而，并不是所有三元组都需要继续生成下一层。例如，“(稻米,最佳生长温度,20-25摄⽒度)”是正确的三元组，但尾实体“20-25摄氏度”不需要作为下一层的头实体进行进一步生成。

为了提高知识图谱的可控性，该研究引入剪枝器，这是一个在开源知识图谱DBpedia上微调的T5二分类模型。输入为每个正确三元组的尾实体，输出为“生长”或“修剪”，表示是否需要继续生成下一层图谱。

训练剪枝器时，从DBpedia收集训练数据，将部分头实体作为“生长”类的代表，尾实体则作为“修剪”类的代表。通过这些实体文本和对应标签进行微调。

实验及结果

主实验

在同一领域的知识图谱自动构建中，研究团队使用GPT-4进行自动和高效的评估。

如表1所示，SAC-KG表现优异，超越了多个基线模型。

四个基线模型包括OpenIE6、StanfordOIE、DeepEx和PIVE，其中前两者为基于规则的三元组抽取方法，而DeepEx结合了Bert模型与规则技术，PIVE则直接使用ChatGPT构建知识图谱。

SAC-KG在知识图谱构建上始终优于这些方法，尤其在准确率和领域特异性上表现突出。

当使用ChatGPT作为基础模型时，SAC-KG达到了89.32%的准确率和81.25%的领域特异性，显著优于基于规则的方法，相对于SOTA方法提升了20%。

消融实验

消融实验中，研究团队每次迭代中计算这些指标，以获得更细致的结果。

他们将没有开放知识图谱检索器的SAC-KG记作SAC-KGw/oprompt，没有领域语料检索器的记作SAC-KGw/otext，没有验证器的记作SAC-KGw/overifier，没有修剪器的记作SAC-KGw/opruner。

如表2所示，SAC-KG中的任一组件缺失都会导致整个框架性能下降。

特别是，修剪器和开放知识图谱检索器对SAC-KG的性能影响更为显著。这两个组件分别控制生成方向和添加示例，表明在知识图谱构建过程中提升可控性的重要性。

研究团队进一步可视化了SAC-KG每个消融版本生成的前三层知识图谱。如图所示，完整的SAC-KG版本表现出最佳的整体结果，且每一层中的错误三元组数量没有显著差异。这一现象表明，在领域知识图谱的迭代生成过程中，错误传播并不明显。相反，去除了文本处理模块（SAC-KGw/otext）和剪枝模块（SAC-KGw/o pruner）的版本显示出明显的错误传播，导致在第三层生成的错误三元组数量显著增加。而去除了提示模块（SAC-KGw/oprompt）和验证模块（SAC-KGw/o verifier）的版本仅能提取较少的三元组，这意味着语言模型在缺乏示例和错误纠正过程的情况下难以从领域语料中总结知识。这些结果进一步证实了框架内每个组件对构建过程的重要贡献。

OIEbenchmarks

SAC-KG在传统的开放信息抽取任务中的有效性和广泛适用性通过多个开源基准数据集的实验得到了验证。

实验结果显示，SAC-KG在这些传统OIE基准数据集上，显著优于现有的最先进方法。

特别是，在与基于规则的方法（如OpenIE6和StanfordOIE）和基于大规模语言模型的方法（如DeepEx和PIVE）的比较中，SAC-KG始终达到最佳结果，证明了其在传统OIE任务中的有效性和鲁棒性。

小结

针对大规模领域知识图谱构建成本高、精度低这一复杂的实际问题，本研究提出了基于大模型的迭代式领域/常识图谱通用构建框架。

该框架实现了多源领域语料中的精准知识检索，并结合开源图谱实现了自适应提示机制，通过模拟树生长过程，成功构建了百万级的高质量领域图谱。

论文发表在CCF-A类人工智能顶级会议Annual Meeting of the Associationfor ComputationalLinguistics（ACL 2024 Main）。

论文作者第一作者陈瀚铸是中国科学技术大学2021级硕博连读生，师从王杰教授，主要研究方向为知识图谱与大语言模型，数据合成等。曾获KDDCup全球高校团队第一等荣誉。

论文地址：
https://aclanthology.org/2024.acl-long.238.pdf
开放构建平台：
http://8.149.242.106:5000（可试用）

— 完 —

“元浦说文”公众号迄今已拥有数万篇文章、信息和案例，供企业家、政府官员，特别是大学及研究所相关专业教师、研究生和大学生检索、搜集和使用。

温馨提示

如需检索或搜索相关文章、信息和案例，可以在每篇文章的结尾处会看到“文创资料数据库”，下面有我们推荐的一些主题相关链接的文章，或者点击公众号右上角的标志，之后点击查看历史消息，在页面最上面有个搜索的框，直接输入关键字搜索即可。

“

元浦说文 金元浦文化研究专辑

”

学者文章

金元浦：广州凸显大湾区创意经济领头羊地位

金元浦：什么是文化创意产业的高质量发展

金元浦：新需求，新审美，新动能，新形态——5G时代的中国文艺新走向

第二届文脉中国50人论坛：金元浦-三势共潮

金元浦 | 第二届文脉中国50人论坛：使命与愿景

金元浦访谈：创新引领我国文化创意产业升级换代与成都突破

金元浦｜寒露词学安石

金元浦双节谈美(一) | 寻找阐释的边界

金元浦双节谈美(二) | 溯流而上，沿波讨源：意义空白何在？

欢迎关注：

金元浦的博客：http://blog.sina.cn/dpool/blog/jinyuanpu

金元浦的微博：https://m.weibo.cn/u/2125768333?refer_flag=1001030102_&is_hot=1&jumpfrom=weibocom

版权声明：【我们尊重原创。文章版权属于原作者。部分文章推送时因种种原因未能与原作者联系上，若涉及版权问题，敬请原作者联系我们,立即处理删除。】转载请注明：元浦说文

本文由“元浦说文”郑重推荐

元浦说文每天都在推送好文，辣文，妙文，雄文，巨文，巧文，上文，下文，高文，也有奇文，烂文，有点闲空，有点兴致，就来公众号元浦说文瞄眼!老金这厢有礼啦。

金元浦教授

中国人民大学文化创意产业研究所所长

中外文艺理论学会副会长

教育部文化部动漫类教材专家委员会副主任

中国人民大学文学院教授、博导

中国传媒大学、上海交通大学博导

公众号：元浦说文

“元浦说文”由中国人民大学金元浦教授创办。

目标在于速递文化信息、传播深度思考、汇集文化创意产业的业界
和学术精英，搭建产学研的合作桥梁。

投稿及联系合作邮箱：jinyuanpu@163.com;

117766194@qq.com

QQ：117766194

微博、博客：@金元浦

联系人电话：

王博士:15210804944

http://mp.weixin.qq.com/s?__biz=MzA5OTcxMzEwNg==&mid=2666672782&idx=2&sn=082a3ab541a39661c29de5295d044707

元浦说文

人大金元浦在这儿侃文学、聊文化，会会新老朋友！

最新文章

用LLM一键生成百万级领域知识图谱！中科大新框架入选ACL 2024

特朗普的记者采访录，对中国的认知，简直超乎想像...

中国货运航天飞机传来最新消息！

全球信息情报中心

当面再问普京，若特朗普想“联俄抗华”，俄方怎回应？

陶然｜国家为什么失败？

哈佛商业评论(HBR)发布100个生成式AI应用场景

刚刚和ChatGPT关于心情的对话

我和ChatGPT一起创意绘画

秦晖：我为什么不喜欢特朗普？

彩叶古建交相辉映，北京美成色彩浓郁油画｜镜头里的北京：一周精选

十一月的魔都怎么玩？最佳攻略带你解锁沪上新展！

以新视角打开第七届进博会，设计与全球商贸璀璨交汇!

全面融入上海！昆山新一轮爆发来了

孙若风：小故事，大乾坤

中国人工智能系列白皮书一元宇宙技术(2024版)

2025年为世界创造一亿硅基劳动力！硅基智能DUIX ONE发布；今年第三次合作，美图与三星共助用户创意落地丨理事动态

亚马逊讨论再投Anthropic数十亿美元；马斯克要求台供应商产线外移；《流浪地球 3》将分上下两部 | 极客早知道

全球信息情报中心

习近平向首届世界古典学大会致贺信

特朗普|比特币能救美国

大选结束后，中美关系将何去何从？

全球信息情报中心

北京市贸促会出台《关于服务支持民营企业拓展海外市场行动方案》

国务院办公厅印发《关于以冰雪运动高质量发展激发冰雪经济活力的若干意见》

习近平文化思想引领中华民族共有精神家园建设

瓦尔代2024年会报告：自下而上变革，或欧亚架构杰作

11.6-11.8 人文讲座【从《大地中国》到中国大地【乱世狂飙：魏玛时期的德国警察与罪案【儒家“孝”概念的早期发展】

全球信息情报中心

第19届全国高校文化管理类学科建设联席会议在杭举办

张宝通：数字化智能化是新时代新质生产力的核心

邵明华等：新质生产力驱动文化产业高质量发展：理论逻辑、驱动路线与行动框架

孙若风：旅游“新搜神记”

未来5年文旅发展新趋势：文旅的5个新“主义”

比亚迪第三季度营收首超特斯拉/瑞幸咖啡：正积极探索美国市场机会

进博之约，就是共赢之约、未来之约

全球信息情报中心

罗立彬等｜北京日报：大力推动发展跨境电商——挖掘中国外贸新优势

2025媒介趋势：影响力之年

中国国际精品消费月盛大启动，北京推出“京彩四季，精品消费”千场活动

建设中国特色的文化管理学科知识体系

法国老爷爷老奶奶的中国房车之旅侧记

全球信息情报中心

推进“AI+学科”特色期刊专题建设

邱华栋：写敦煌的书太多了，但这本却击中了我的心

在传承中创新、在创新中发展——北京非遗保护工作取得亮眼“成绩单”

微软宣布：终止服务→

如何理解杨永忠教授提出的北斗模型

沉浸式体验丨影视IP与大空间VR的融合创新现状研判与路径更新建议

双11全网销售额已突破8450亿！“首轮战报”出炉谁家增长最快？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

用LLM一键生成百万级领域知识图谱！中科大新框架入选ACL 2024

元浦说文微信号：jinyuanpu

“元浦说文”由中国人民大学金元浦教授创办。

目标在于速递文化信息、传播深度思考、汇集文化创意产业的业界和学术精英，搭建产学研的合作桥梁。

SAC-KG团队 投稿量子位 | 公众号 QbitAI

SAC-KG是如何工作的

生成器

验证器

剪枝器

实验及结果

主实验

消融实验

OIEbenchmarks

小结

SAC-KG团队投稿
量子位 | 公众号 QbitAI