Nature | 整合了临床自由文本信息的多模态模型更好地预测病人预后

学术 2024-11-11 23:59 北京

临床记录、影像学印象以及病理报告等蕴含着大量的疾病关键信息，但是因为这些通常是自由文本记录，提取比较困难，限制了它们在训练疾病预测模型方面的应用[1]。

为此，Memorial Sloan Kettering Cancer Center(MSK) Nikolaus Schultz等研究人员结合自然语言处理工具的进展[2]以及医疗文本训练数据集的积累[3]，构建模型自动化提取大队列（5类肿瘤24,950个病人）中的临床自由文本信息，并进一步结合肿瘤注册信息、年龄/性别、肿瘤基因组信息等结构化的数据，来整合训练机器学习模型预测肿瘤病人预后[1]。

运用自然语言处理工具自动化提取大队列中的关键临床自由文本信息，从而帮助实现多模态更准确的预后预测[1]。

研究人员发现这种整合了多模态信息的机器学习模型能够提升整体预后预测准确性；并且，因为队列样本量大，所以增强了统计效力，进一步明确临床信息与预后的关联；以及，可以进一步分析不同临床特征的组合与预后的关联[1]。

最后，研究人员分析基因突变与肿瘤转移位置偏好的关联，发现SETD2（一种组蛋白甲基化转移酶）突变的肺腺癌（lung adenocarcinoma (LUAD)）不容易出现中枢神经系统的转移，并且对免疫治疗敏感[1]。

SETD2突变的肺腺癌关联低中枢神经系统等的癌转移，并且更倾向对免疫治疗敏感[1]。

该项工作2024年11月6日发表在Nature[1]。

Comment(s):

从疾病预测模型构建到新临床关联发现，蛮系统的工作。

SETD2突变和癌转移偏好的关联是挺重要的发现，后续还需要用动物模型等证明其因果关联，及其研究其进一步的分子机制。

参考文献：

[1] J. Jee et al., “Automated real-world data integration improves cancer outcome prediction,” Nature, 2024, doi: 10.1038/s41586-024-08167-5.

[2] A. Vaswani et al., “Attention Is All You Need,” Adv. Neural Inf. Process. Syst., vol. 2017-December, pp. 5999–6009, Jun. 2017, Accessed: Jun. 01, 2023. [Online]. Available: https://arxiv.org/abs/1706.03762v5

[3] N. J. Choudhury et al., “The GENIE BPC NSCLC Cohort: A Real-World Repository Integrating Standardized Clinical and Genomic Data for 1,846 Patients with Non–Small Cell Lung Cancer,” Clin. Cancer Res., vol. 29, no. 17, pp. 3418–3428, Sep. 2023, doi: 10.1158/1078-0432.CCR-23-0580.

原文链接：

https://www.nature.com/articles/s41586-024-08167-5

商务合作：mss@pku.edu.cn（要求：1. 过审核；2. 标题明确标注）

CNS导读

关注有广泛深远影响的顶刊工作 Rigorous \x26amp; Elegant Science for Everyone

最新文章

Science | 新工作通过强化线粒体DNA表达提升了小鼠认知能力

背靠背Nature | 新方法更灵活地设计蛋白复合物

Nature | 2025科学展望

Nature + Science | 古今基因组解析现代人演化的关键环节

2024 Science “年度重挫”

2024 Science “准年度突破”

2024 Science年度突破

背靠背Nature | 皮肤与菌群共存新机制

Nature | 基于扩散模型带概率分布地预测天气

2024 Nature年度人物

Science | 单个氨基酸突变带来受体特异性的转换

2 x Science | “智能” 的T细胞有望更特异治疗肿瘤与自身免疫病

Science | “二阶RFdiffusion” 设计关键受体的阻断与激活蛋白

Nature | 模块化设计GPCR “编程” 感应与下游通路

Science | 当mRNA “邂逅” 核糖体

Nature | “无序” 的互作， “无视” 的手性

Science | 虚假消息挑起愤怒加速传播

Science | 超两千万单细胞全景解析小鼠衰老变化

Nature | 新研究解析恐龙如何称霸陆地

Science | 虚实结合的定向进化上百倍提高蛋白性能

Nature合辑 | 人类细胞图谱倡议迈向首个草图

Science | tRNA介导的mRNA降解

Science | 新方法实现全脑单细胞水平转录状态分析

Nature | 新工具跨平台搜索类似的单细胞

Nature | 新研究回答为啥减肥那么难

Nature | 功能蛋白质组解析胰腺癌微环境的细胞互作

Nature | 拉曼加持AI的系统10s准确识别胶质瘤浸润

Science | 基因组基石模型预测与生成多组分系统

The Lancet | 大规模多中心随机对照临床试验分析中药对脑出血的治疗效果

Nature | 像人一样通用自主探索实验的机器人

AlphaFold3终开源

Nature | 整合了临床自由文本信息的多模态模型更好地预测病人预后

Cell综述 | AI将如何助力生物医学发现

Nature | 基于AI的高效精准通用分子动力学模拟

Science | 加速百万倍的实验室演化带来蛋白结构与功能新见解

Nature合辑 | 时空解析肿瘤演化

Nature | 新方法时序记录胚胎发育与肿瘤起源

Nature | 中枢神经系统的免疫豁免或带来自身免疫疾病治疗的新方案

Science | 早期的固有免疫细胞活化带来社会行为变化

Science | 蛋白结构域百科全书

Science | 6w+人的 “准实验” 显示生命早期的控糖帮助抵抗慢性病

Cell | “过犹不及” ？内源逆转录病毒元件的活化导致毛囊耗竭

Cell | 整合的深度成像分析发现肿瘤驱动新机制

Science | 新研究发现逆转座子参与的关键生理功能

Science | “放松” 的序列空间带来蛋白设计的延展

Science | 新研究解析水熊耐辐射 “超能力”

Nature | 新方法给AI产出 “打水印”

Cell | 重复序列RNA “沟通” 胰腺癌细胞及其微环境

Science | 新工作功能解析感应人胃肠代谢的受体

Nature | 自调节 “智慧” 胰岛素

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉