朱永官院士团队EST|利用大型语言模型助力抗菌药物耐药性政策制定:将环境因素融入健康保护规划

文摘   2025-01-10 08:11   北京  

介绍了一种利用大型语言模型协助制定抗菌药物耐药性(AMR)政策的工具 AMR-Policy GPT,旨在解决 AMR 政策制定过程中的知识差距问题,尤其是在中低收入国家(LMICs)。
1 研究背景
AMR 已成为全球健康危机,导致医疗成本增加、治疗效果降低等问题,严重影响人类健康和经济。世界卫生组织制定了全球行动计划,许多国家也制定了国家行动计划(NAPs),但在实施过程中面临资金不足、监测计划不完善、缺乏特异性和跨部门协作等问题,特别是 LMICs 缺乏相关数据和信息。
2 方法
模型开发:采用检索增强生成(RAG)技术开发了 AMR-Policy GPT,它能从预定知识源检索信息,生成更准确可信的回答,并提供可追溯的参考文献。
工具流程:包括离线索引和在线服务两部分。离线部分准备数据集并构建向量数据库;在线部分通过用户提问,经多语言嵌入模型和检索引擎获取相关内容,有 “效率” 和 “准确” 两种搜索模式,最终将参考文献嵌入提示平台生成回答。
数据集准备:收集了 146 个国家的 383 份 AMR 相关政策文件,包括 NAPs、报告和指南等,用 pdfplumber 提取信息并分割成块存储。
数据库与模型构建:使用 BAAI/BGE-M3 多语言嵌入模型进行向量化,构建向量数据库和基于 HNSW 算法的检索引擎,并部署 bge-rerankerbase 模型进行重排序。
评估框架:先用 RAGAS 框架优化模型,再进行独立评估(分析 AMR-Policy GPT 在单个文档内的信息检索和回答生成性能)和端到端评估(评估其在整个数据库中的搜索、信息整合和回答能力,并与 ChatGPT 比较)。
提示工程:混合模式结合 AMR 政策数据库和 GPT-4 内部知识,独立模式仅从自身数据库检索,两种模式都明确引用来源。
3 结果与讨论
模型优化与性能评估:确定块大小为 256、重叠率为 40% 时性能最佳,与基线模型相比,准确性和效率模式在处理时间和检索指标上表现更好,生成模块指标也表现出色。
答案评估:在单个文档评估中,AMR-Policy GPT 准确率达 87.26%,精确率 97.59%,对多语言文档分析能力强;在整个数据库评估中,其回答比 GPT-4 更准确相关,能提供关键引用。
参考文献评估:AMR-Policy GPT 引用来源准确,能生成简洁逻辑总结。
总体性能分析:在 RAG 框架下,AMR-Policy GPT 能有效整合外部知识,提高文本相关性和准确性,可追溯来源,支持多语言查询,具有可扩展性和及时性。
局限性与未来工作:存在文档获取不全面、初始搜索语言局限、部分文档格式问题和无法解释图形数据等局限。未来将整合更多数据,增强工具效能,扩展数据库需考虑版权等因素。
政策指导应用:AMR-Policy GPT 可辅助用户搜索整合信息,但不能直接生成政策。决策者应结合自身洞察和本地情况使用,其在环境领域可检索信息,为 LMICs 提供参考,但需持续更新。
(水平有限,敬请指正)

投稿、转载、合作、申请入群可在后台留言(备注:姓名+微信号)或发邮件至sthjkx1@163.com

【点击下方超链接阅读16个栏目推文】 
1.【直播】9.【院士】
2.【视频10.【综述】
3.【健康&毒理11.【写作】
4.【12.【Nature】
5.【13.【Science
6.【14.【WR
7.【固废15.【EST
8.【生态】16.【JHM

MOFs帮助环境
推送MOFs基环境功能材料在环境污染控制领域的研究进展。
 最新文章