Med-MIMIC,持续分享MIMIC临床生信文献与思路解读,捕捉当下热点思路,感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系~
文章标题:AI-based derivation of atrial fibrillation phenotypes in the general and critical care populations
中文标题:基于 AI 的普通和重症监护人群心房颤动表型推导
发表期刊:EBioMedicine.
发表时间:2024年8月
影响因子:9.7/Q1
心房颤动 (AF) 是全球最常见的心律失常,与较高的死亡和发病率风险有关。为了预测 AF 和 AF 相关并发症,通常采用临床风险评分,但鉴于 AF 患者固有的复杂性和异质性,其预测准确性通常有限。通过将 AF 的不同表现分类为连贯且可管理的临床表型,可以促进制定量身定制的预防和治疗策略。在这项研究中,我们提出了一种基于人工智能 (AI) 的方法,以在普通和重症监护人群中得出有意义的 AF 临床表型。
方法
我们的方法采用生成地形图(一种概率机器学习方法)来识别具有相似特征的患者的微集群。然后,它使用 Ward 最小方差法识别潜在空间中的宏簇区域(临床表型)。我们将其应用于代表普通和重症监护人群的两个大型队列数据库 (UK-Biobank 和 MIMIC-IV)。
用于推导 AF 表型的数据
从 UK-Biobank 数据库中提取的建模变量:用于此分析的第一个数据集是从 UK-Biobank 中提取的子集,UK-Biobank 是一个基于人群的大型数据库。总共使用了来自 UK-Biobank 的 67 个变量、40 个基因组变量和 27 个生物样本变量进行建模。
从 MIMIC-IV 数据库中提取的建模变量:如果患者在 ICU 入住期间至少有一次 AF 发作,则被纳入本研究。后者是从 chartevent 表中提取的,使用 heart rhythm:220048 的代码,并从中识别出具有 “AF (Atrial Fibrillation)” 的值。因此,这将包括既往存在 AF 的患者和新发 AF 的患者,尽管记录的第一次 AF 发作发生在 ICU 入住的前 24 小时之后。患者 <18 岁、ICU 住院时间短 (<24 h) 的患者以及多次入住 ICU 的患者被排除在研究之外。
结果分析
1. 队列特征
从 UK-Biobank 中,我们使用 2.2.1 中规定的标准(中位年龄 63 岁 (IQR 59-67),范围 40-72 岁;63.5% 为男性)从该一般人群队列中提取了 36,680 名 AF 参与者。表 1 包含用于建模的生物变量的摘要,以及用于事后分析的调查变量。使用第 2.2.2 节中规定的标准(中位年龄 73 岁 (IQR 65-81),范围 21-89 岁;60.4% 男性)从 MIMIC-IV 中提取了 2695 名 AF 危重患者的第二个数据集(表 2)。
2. 建模变量的参考向量 – 用于推导 AF 表型
图 2 包含从 UK-Biobank 和 MIMIC-IV AF 队列的训练 GTM 模型中提取的参考向量。对于 UK-Biobank 数据,它包含生物样本变量的参考向量,其中图按它们相关的不同风险因素分组,而对于 MIMIC-IV,它显示了用于建模的所有建模变量。图 2 中每个图中的每个点都与它们各自隶属图中的相同点完全对应。
3. 其他研究变量的可视化
图 3 包含一系列可视化,显示了来自不同研究变量的数据如何在 UK-Biobank 和 MIMIC-IV 队列的成员图中分布。表示调查变量的可视化都使用浅灰蓝绿色配色方案,因为它们未用于模型开发。分配给每个微集群的值是分配给每个集群的所有参与者的变量的平均值,微集群越蓝绿色,值越高。在 SM 的第 5 节中,显示所有调查变量的可视化。
4. AF 表型描述
对于 UK-Biobank 队列,我们在数据空间中的参考向量中确定了五个集群,如图 4(a) 中的树状图所示。将这些参考向量簇分配转移到它们相应的潜在中心,得到五个宏簇区域,这些区域反过来用于定义 5 个 AF 表型。这些宏观集群区域如图 4(b) 和 (c) 所示。
当应用于 MIMIC-IV 队列时,分析在参考向量中确定了四个集群,如图 5(a) 所示。通过将这些集群转移到各自的潜在中心而产生的宏集群区域如图 5(b) 和 (c) 所示。两个数据库中每个数据库的基线数据根据表型的数量进行拆分,并在表 3、表 4 中分别比较了 UK-Biobank 和 MIMIC-IV 数据。表征两组表型的主要特征的描述可以在图 4 和图 5 中找到。
5. 解释可视化
GTM 的概率基础允许我们为每个数据点计算它是从第 i 个潜在节点生成的概率。通过计算每个潜在节点的概率并将结果叠加到成员资格上,它允许用户可视化每个数据点的概率分布。生成数据点的分布最高的潜在节点决定了其最终的集群分配。这些图说明了 GTM 执行的软集群分配,同时也证明了该方法的稳健性,即数据点分配到的节点周围是下一个最高概率。
文章小结
所提出的方法表明其能够得出有意义的 AF 临床表型。由于其概率基础,它可以增强患者分层的稳健性。它还产生了复杂高维数据的可解释可视化,增强了对衍生表型及其关键特征的理解。使用我们的方法,我们确定并表征了不同患者群体的 AF 临床表型。今天为大家分享的文章纯公共数据挖掘+统计分析,就发到了一区!如果你也想在临床方向发高分文章,不妨试试这个省钱省事又省力的思路吧!