小贴士
在人工智能技术的飞速发展中,大模型技术以其卓越的数据处理能力和深度学习能力,正在逐渐渗透到医疗健康领域。今天,我们要深入探讨的是一项开创性的研究——利用大型语言模型(LLMs)预测个体10年心血管疾病(CVD)风险的研究。这项研究不仅展示了AI大模型在医疗领域的应用潜力,更在心血管疾病风险评估领域迈出了革命性的一步。
研究背景
心血管疾病作为全球致死和致残的主要原因之一,其风险评估和管理一直是医学研究的重点。传统的心血管疾病风险预测模型,如弗雷明汉风险评分(FRS),虽然在临床实践中得到了广泛应用,但存在一定的局限性,包括对不同人群的普适性差、对新风险因素的整合不足以及在临床设置中应用的复杂性。而AI技术的发展,尤其是大型语言模型(LLMs),为这一领域带来了新的解决方案。
研究方法与数据来源
本研究使用了来自英国生物银行队列(UK Biobank Cohort)和韩国基因组和流行病学研究(KoGES)的数据,这两个数据库提供了包括年龄、性别、医疗史、血脂水平、血压和身体测量在内的广泛信息。研究者基于这些数据生成了用于个体分析的语言句子,并将其输入到LLMs中以得出结果。表1展示了参与者的基线特征和由LLMs得出的心血管风险评分。
大型语言模型(LLMs)的应用
研究中使用了ChatGPT-3.5、ChatGPT-4和Bard等LLMs来预测患者的10年心血管风险。这些模型通过将个体的医疗数据转换为句子结构,然后输入模型中得出风险预测结果。图2展示了ChatGPT提示和响应风险分层的一个例子。通过正则表达式从相应的答案中提取10年CVD风险百分比,并据此将风险分类为低、中、高。
模型性能比较
研究者比较了LLMs和FRS的性能,包括准确性、敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和F1分数。表2详细列出了这些评分系统在预测10年MACE(主要不良心血管事件)方面的表现比较。结果显示,GPT-4在UK Biobank中的性能与FRS相当,准确度为0.834,F1分数为0.138。
技术原理深入解读
LLMs之所以能在心血管疾病风险预测中展现出与FRS相当的性能,关键在于其强大的语言理解和生成能力。这些模型通过学习大量的文本数据,生成最可能的类人响应,而非通过数学计算得出结果。与传统的基于多元回归的风险预测模型不同,LLMs能够处理更多的风险因素,并能考虑到风险因素之间复杂的相互作用。
研究结果
图3展示了不同评分系统间的散点图和皮尔逊相关系数。GPT-4与FRS之间的相关性最高(皮尔逊r=0.753),表明GPT-4在风险预测上与FRS具有较强的一致性。此外,图4通过Kaplan-Meier曲线展示了不同风险评分系统对生存结果的影响,GPT-4显示出了明显的生存模式差异,揭示了GPT风险预测输出与生存结果之间的强关联。
讨论与未来影响
本研究的结果表明,LLMs如ChatGPT能够在没有物理测量数据的情况下,仅凭自然语言中的事实,合理准确地计算心血管风险。这一发现不仅促进了对更大人群CVD风险的监测,还为早期干预和管理高危患者提供了可能。此外,ChatGPT在临床实践和研究中的潜在益处还包括语义提取目标兴趣点的能力,这使得从不同机构中选择具有一致意义的患者变得更加可行。
结论
这项研究证明了LLMs在预测心血管风险方面的潜力,它们不仅能够提供与传统模型相当的性能,还具有更好的可访问性、灵活性和用户友好的输出能力。随着LLMs技术的不断发展,未来的研究应聚焦于将这些模型应用于多种医疗场景,并优化它们的性能。
数据和代码共享
本研究中使用的UK Biobank和KoGES数据是公开可获取的,具体细节可在线查询。此外,本研究得到了韩国健康技术研究与发展项目的支持。
Q&A环节:
Q1: 如何将个体的医疗数据转换为适用于LLMs的句子结构?
为了使大型语言模型(LLMs)能够处理个体的医疗数据,研究者需要将这些数据转换为模型可以理解的句子结构。具体来说,研究者首先从UK Biobank和KoGES数据库中提取了包括年龄、性别、医疗史、血脂水平、血压和身体测量等信息。然后,他们将这些信息组织成一个连贯的句子,例如:“一个56岁的男性,有糖尿病和高血压病史,不吸烟,总胆固醇为4.6 mmol/L,高密度脂蛋白为1.2 mmol/L,低密度脂蛋白为2.8 mmol/L,甘油三酯为1.2 mmol/L,收缩压为145 mmHg,舒张压为94.5 mmHg,体重指数为31.25。”这样的句子结构使得LLMs能够根据这些信息生成一个关于个体10年心血管疾病风险的预测。
Q2: LLMs在预测心血管疾病风险时是如何处理和整合多个风险因素的?
LLMs在处理和整合多个风险因素时,与传统的心血管疾病风险预测模型有显著的不同。传统模型通常依赖于多元回归分析,这要求对每个风险因素进行严格的数学建模,并假设这些因素之间的关系是线性的。而LLMs通过学习大量的文本数据,能够生成最可能的类人响应,这使得它们能够处理更多的风险因素,并考虑到这些因素之间复杂的相互作用。具体来说,LLMs通过将个体的医疗数据转换为句子结构,然后输入模型中,模型会根据这些信息生成一个关于个体10年心血管疾病风险的预测。这种方法不需要对每个风险因素进行单独的数学建模,而是通过模型的内部机制来处理和整合这些信息。
Q3: 如何评估LLMs在心血管疾病风险预测中的性能?
为了评估LLMs在心血管疾病风险预测中的性能,研究者使用了包括准确性、敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和F1分数在内的多个指标。这些指标是通过将LLMs的预测结果与实际的医疗结果进行比较来计算的。例如,准确性是指模型正确预测心血管疾病风险的比例,敏感性是指模型正确识别出实际有心血管疾病风险的个体的比例,特异性是指模型正确识别出实际没有心血管疾病风险的个体的比例。通过这些指标的计算,研究者可以全面地评估LLMs在心血管疾病风险预测中的性能。
Q4: LLMs在心血管疾病风险预测中是如何处理缺失数据的?
在实际的医疗数据中,经常会遇到缺失数据的情况。为了评估LLMs在处理缺失数据时的性能,研究者进行了额外的实验,通过构建使用有限信息的提示,然后查询GPT-3.5。具体来说,他们分别排除了与患者病史、血脂水平和身体测量相关的数据,然后评估了模型在这些条件下的预测性能。结果表明,即使在缺少某些数据的情况下,GPT-3.5的预测性能仍然得到了保留,这表明LLMs具有处理缺失数据的能力。
Q5: 如何将LLMs应用于心血管疾病风险预测的临床实践?
将LLMs应用于心血管疾病风险预测的临床实践,需要考虑多个方面。首先,需要确保模型的预测结果具有足够的准确性和可靠性,这可以通过在不同的数据集上进行验证来实现。其次,需要考虑模型的可解释性,即模型是如何得出预测结果的,这可以通过分析模型的内部机制和输出的解释来实现。此外,还需要考虑模型的可访问性和易用性,即模型是否容易被医生和患者使用,这可以通过开发用户友好的界面和工具来实现。最后,还需要考虑模型的伦理和法律问题,即模型的使用是否符合医疗伦理和法律法规,这可以通过与医疗伦理和法律专家合作来实现。通过这些方面的考虑和努力,LLMs可以被有效地应用于心血管疾病风险预测的临床实践。
Q6: 如何确保LLMs在心血管疾病风险预测中的可解释性?
在医疗领域,模型的可解释性是至关重要的,因为医生和患者需要理解模型是如何得出预测结果的。为了确保LLMs在心血管疾病风险预测中的可解释性,研究者可以采取多种方法。首先,可以通过分析模型的内部机制,例如模型的注意力权重和隐藏层的激活,来理解模型是如何处理和整合输入数据的。其次,可以通过生成模型的解释性输出,例如模型的置信度和预测的不确定性,来提供更多的信息。此外,还可以通过与医疗专家合作,将模型的预测结果与实际的医疗知识和经验进行比较,来验证模型的可解释性。通过这些方法,研究者可以确保LLMs在心血管疾病风险预测中的可解释性,从而提高模型的可信度和实用性。
Q7: 如何处理LLMs在心血管疾病风险预测中的不确定性和置信度?
在心血管疾病风险预测中,模型的不确定性和置信度是需要考虑的重要因素。为了处理LLMs的不确定性和置信度,研究者可以采取多种方法。首先,可以通过模型的输出概率来表示预测的不确定性,例如,模型可以输出一个概率分布,表示个体在不同风险类别中的概率。其次,可以通过模型的置信度来表示预测的可靠性,例如,模型可以输出一个置信区间,表示预测结果的可信范围。此外,还可以通过与医疗专家合作,将模型的预测结果与实际的医疗知识和经验进行比较,来验证模型的不确定性和置信度。通过这些方法,研究者可以处理LLMs在心血管疾病风险预测中的不确定性和置信度,从而提高模型的实用性和准确性。
Q8: 如何将LLMs与传统的风险预测模型进行比较和整合?
在心血管疾病风险预测中,传统的风险预测模型,如弗雷明汉风险评分(FRS),仍然具有重要的地位。为了将LLMs与传统的风险预测模型进行比较和整合,研究者可以采取多种方法。首先,可以通过比较模型的预测性能,例如准确性、敏感性、特异性等指标,来评估不同模型的优缺点。其次,可以通过分析模型的预测结果,例如风险类别和预测概率,来理解不同模型的预测差异。此外,还可以通过整合不同模型的预测结果,例如使用集成学习或元学习的方法,来提高预测的准确性和可靠性。通过这些方法,研究者可以将LLMs与传统的风险预测模型进行比较和整合,从而提高心血管疾病风险预测的整体性能。
Q9: 如何处理LLMs在心血管疾病风险预测中的数据偏倚和过拟合问题?
在心血管疾病风险预测中,数据偏倚和过拟合是需要考虑的重要问题。为了处理LLMs的数据偏倚和过拟合问题,研究者可以采取多种方法。首先,可以通过使用多样化的训练数据,例如来自不同人群和地区的数据,来减少数据偏倚。其次,可以通过使用正则化和交叉验证等技术,来防止模型的过拟合。此外,还可以通过与医疗专家合作,将模型的预测结果与实际的医疗知识和经验进行比较,来验证模型的泛化能力。通过这些方法,研究者可以处理LLMs在心血管疾病风险预测中的数据偏倚和过拟合问题,从而提高模型的准确性和可靠性。
Q10: 如何将LLMs应用于心血管疾病风险预测的多模态数据?
在心血管疾病风险预测中,多模态数据,如影像数据、基因数据和临床数据,可以提供更全面的信息。为了将LLMs应用于心血管疾病风险预测的多模态数据,研究者可以采取多种方法。首先,可以通过将不同模态的数据转换为统一的句子结构,例如使用自然语言描述影像数据和基因数据,来使LLMs能够处理多模态数据。其次,可以通过使用多模态学习和跨模态学习等技术,来提高模型对多模态数据的处理能力。此外,还可以通过与医疗专家合作,将模型的预测结果与实际的医疗知识和经验进行比较,来验证模型的多模态处理能力。通过这些方法,研究者可以将LLMs应用于心血管疾病风险预测的多模态数据,从而提高模型的准确性和可靠性。
Han C, Kim D W, Kim S, et al. Large-language-model-based 10-year risk prediction of cardiovascular disease: insight from the UK biobank data[J]. medRxiv, 2023: 2023.05. 22.23289842.
来源:医工交叉AI大模型