临床记录、影像学印象以及病理报告等蕴含着大量的疾病关键信息,但是因为这些通常是自由文本记录,提取比较困难,限制了它们在训练疾病预测模型方面的应用[1]。
为此,Memorial Sloan Kettering Cancer
Center(MSK) Nikolaus Schultz等研究人员结合自然语言处理工具的进展[2]以及医疗文本训练数据集的积累[3],构建模型自动化提取大队列(5类肿瘤24,950个病人)中的临床自由文本信息,并进一步结合肿瘤注册信息、年龄/性别、肿瘤基因组信息等结构化的数据,来整合训练机器学习模型预测肿瘤病人预后[1]。
运用自然语言处理工具自动化提取大队列中的关键临床自由文本信息,从而帮助实现多模态更准确的预后预测[1]。
研究人员发现这种整合了多模态信息的机器学习模型能够提升整体预后预测准确性;并且,因为队列样本量大,所以增强了统计效力,进一步明确临床信息与预后的关联;以及,可以进一步分析不同临床特征的组合与预后的关联[1]。
最后,研究人员分析基因突变与肿瘤转移位置偏好的关联,发现SETD2(一种组蛋白甲基化转移酶)突变的肺腺癌(lung
adenocarcinoma (LUAD))不容易出现中枢神经系统的转移,并且对免疫治疗敏感[1]。
SETD2突变的肺腺癌关联低中枢神经系统等的癌转移,并且更倾向对免疫治疗敏感[1]。
该项工作2024年11月6日发表在Nature[1]。
Comment(s):
从疾病预测模型构建到新临床关联发现,蛮系统的工作。
SETD2突变和癌转移偏好的关联是挺重要的发现,后续还需要用动物模型等证明其因果关联,及其研究其进一步的分子机制。
[1] J.
Jee et al., “Automated real-world data integration improves cancer
outcome prediction,” Nature, 2024, doi: 10.1038/s41586-024-08167-5.[2] A.
Vaswani et al., “Attention Is All You Need,” Adv. Neural Inf.
Process. Syst., vol. 2017-December, pp. 5999–6009, Jun. 2017, Accessed:
Jun. 01, 2023. [Online]. Available: https://arxiv.org/abs/1706.03762v5[3] N. J.
Choudhury et al., “The GENIE BPC NSCLC Cohort: A Real-World Repository
Integrating Standardized Clinical and Genomic Data for 1,846 Patients with Non–Small
Cell Lung Cancer,” Clin. Cancer Res., vol. 29, no. 17, pp. 3418–3428,
Sep. 2023, doi: 10.1158/1078-0432.CCR-23-0580.https://www.nature.com/articles/s41586-024-08167-5商务合作:mss@pku.edu.cn(要求:1. 过审核;2. 标题明确标注)