关注人工智能在斜视诊疗中的应用

文摘   2024-12-25 20:00   北京  
刘陇黔 吴达文

四川大学华西医院眼科 四川大学华西医院眼科研究所,成都 610041

通信作者:刘陇黔,Email:b.q15651@hotmail.com


引用本文

刘陇黔, 吴达文. 关注人工智能在斜视诊疗中的应用[J].中华实验眼科杂志, 2024, 42(12):1079-1083.

DOI:10.3760/cma.j.cn115989-20240611-00149.



【摘要】斜视的尽早诊断和合理干预对改善患者预后具有重要意义,当前斜视的筛查和诊断主要依赖人工检查,存在人力资源不足和误诊、漏诊风险。近年来,人工智能在斜视领域的应用迅猛发展,涵盖斜视筛查、诊断、手术参数估计及预后预测等方面。基于视频、眼位照片及彩色眼底照相的深度学习模型在斜视筛查和诊断中显示出巨大潜力。尽管AI在斜视诊疗中取得了显著成效,但研究多排除复杂斜视类型,依赖静态、单模态数据,其实用性和普适性仍需进一步提高。未来,结合大模型技术和多模态数据的智能诊疗平台的建设将提升斜视的管理和眼保健水平,有助于实现斜视的个性化精准诊疗。

【关键词】斜视;人工智能;深度学习;ChatGPT;大模型;多模态

基金项目:四川大学华西医院学科卓越发展“1·3·5工程”人工智能项目(ZYAI24033);方谦逊·唐泽媛眼科临床医学公益计划(0040206107039);国家自然科学基金(82070996)

DOI:10.3760/cma.j.cn115989-20240611-00149



斜视是一种以双眼在同一方向上无法对准注视目标为特征的常见眼部疾病[1],其主要发生在儿童群体,可导致患儿双眼视功能破坏、单眼抑制、视网膜对应异常等,同时可影响儿童心理、运动机能的发育。患儿常因诊治不及时,视功能受到严重损害[2]。斜视也可以发生在任何年龄,其在视觉功能、外观、学习能力、工作机会、心理健康等方面对患者均有显著而长期的影响,已成为重要的公共卫生问题[3,4,5]。斜视常起病隐匿,类型众多,许多斜视患者如能尽早诊断和干预,将获得更好的治愈机会。因此,针对斜视高危人群实施筛查并有效甄别斜视类型,在此基础上及早进行合理的干预,采用科学的方法对病情进展进行预测和监测,对改善患者的治疗效果,提高眼科保健服务的水平都具有极为重要的现实意义。


目前,斜视筛查、诊断主要由斜视与小儿眼科医师通过角膜映光法和遮盖试验等测试手动进行,非常依赖患者的配合和医师的技能及经验。然而,目前我国小儿眼科医师仅数千人[6],人力资源缺口巨大,存在着漏诊、误诊风险。近年来,人工智能(artificial intelligence,AI)技术成果井喷式涌现,在眼科领域的研究几乎涵盖了所有常见疾病,包括干眼、圆锥角膜、白内障等眼前节疾病[7,8,9,10],以及眼底病和视神经相关疾病等眼后节疾病[11,12,13]。值得关注的是,AI用于斜视诊疗及预后预测的研究近年来也正在发展。未来,结合大模型技术和多模态数据的智能诊疗平台的建设将提升斜视的管理和眼保健水平,有助于实现斜视的个性化精准诊疗。


1 AI在斜视诊疗中的应用研究现状

1.1 AI在斜视筛查、诊断中的应用

最近的研究试图基于视频开发可靠的AI系统,以促进斜视的快速自动诊断,并提供相对客观的诊断结果。Chen等[14]进行的一项多中心研究揭示了一种开创性的基于深度学习的儿童眼科疾病筛查方法,该深度学习模型可诊断包括斜视在内的16种常见儿童眼病。研究方案包括使用卡通视频作为视觉刺激来引起儿童的持续注视,同时使用成像设备捕捉头部和眼部运动的视频。神经网络通过分析视力受损儿童在视觉刺激下的凝视模式和独特的面部特征,可成功地筛检出特定的眼部疾病。研究团队从3 652名儿童眼病受试者中收集了1个包含超过2 500万帧视频片段的综合数据集,基于此所开发的深度学习模型实现了内部验证集曲线下面积0.940,外部验证集曲线下面积0.843[14],展现了基于视频的深度学习算法在斜视筛查领域的巨大潜力。


眼位照片同样在斜视AI诊疗领域发挥着独特而不可或缺的作用。相较于眼动视频,眼位照片拍摄更加简便,耗时更短,AI模型做出诊断时所需的计算资源更少。在目前基于眼位照片的斜视筛查、诊断AI研究领域,主要采用两大类方法:基于传统分步学习的眼部关键区域分割算法和基于端到端学习的分类算法。在眼部关键区域分割算法的研究中,研究人员通常使用预先训练好的人脸检测模型从人脸图像中提取眼部关键区域,并获得瞳孔中心和角膜映光点等关键区域的坐标进行计算。通过将计算结果与预先设定的阈值进行比较,研究人员可以确定是否存在斜视及其亚型。这类基于分步学习的眼部关键区域分割方法尽管具有较好的可解释性,但其往往是在较小数据量的范围内根据有限的统计数据选择阈值,并在较小的测试集上进行验证,所选择的阈值可能会存在选择偏差,导致训练出的模型缺乏普遍的适用性。相比之下,基于"端到端学习"的分类算法探索利用复杂的深度学习模型,采用大量的图像数据集进行训练,显著增强了模型的泛化能力。Wu等[15]利用Vision-Transformer架构基于1~74岁、各类斜视亚型患者的6 194张眼位照片开发了AI斜视筛查模型,并与目前该研究领域的其他模型在同一独立数据集上进行了性能比较,达到了性能最佳结果:准确率为0.967,精确度为0.980,敏感度为0.960,特异度为0.970,F1数值为0.975[15]


此外,还有研究基于彩色眼底照相对视盘黄斑夹角进行测量,进而实现智能化评估静态眼球旋转的方向(内旋与外旋)和程度(生理性与病理性)[16]。由于获取困难,该研究仅纳入了276张右眼彩色眼底照相照片,并据此生成了12 740张合成图像用于模型训练和评估。研究开发了二分类(内旋、外旋)和多分类(生理性内旋、病理性内旋、生理性外旋、病理性外旋)模型,结果显示二分类模型在合成数据集上的准确性为0.92,在实际数据集上的准确性为0.94;而多分类模型在合成数据集上的准确性为0.77,在实际数据集上的准确性为0.32。尽管多分类模型在实际数据上的泛化能力较差,但这项研究仍显示了合成彩色眼底照片在斜视诊断中的潜力,未来有望通过更大和更多样化的数据集进一步提升模型性能[16]


1.2 AI在斜视手术及预后中的应用

当前,AI还广泛介入斜视手术参数估计及预后预测等关键领域[17,18,19,20],通过整合各类机器学习算法,如支持向量机、多输出回归树及循环残差卷积神经网络等模型[17,18,19,20,21,22,23],处理大量临床文本数据,包括年龄、主视眼、视力、斜视类型、双眼分别注视的三棱镜度等,以预测手术选择哪条肌肉,以及所需截除或后徙的手术量。相关研究有望为术者提供精准手术方案,进而提高手术成功率,并为降低术后过矫、欠矫和其他并发症风险开辟新路径。这种范式的转变凸显了AI在提高手术精度和设定斜视管理新标准方面的潜在作用。


2 AI在斜视诊疗中的应用仍存在诸多挑战


尽管AI在提升斜视诊疗方面取得了卓越的效果,但多数研究在实验设计时排除了一些复杂斜视类型,如垂直性斜视、限制性斜视、知觉性斜视、麻痹性斜视、重症肌无力、眼球震颤等,且患者群体主要侧重于儿童。而在真实世界中,所有年龄段的各类斜视亚型患者均有尽早、精准诊疗的需求。因此,这些AI模型在多样化场景中的实用性和普适性方面仍存在一定局限性。此外,目前临床上同一斜视患者具有多个模态数据者很少,且多为静态、单模态、单一时间点的数据,这导致AI模型在训练过程中可用的数据量较少,也无法捕捉到患者自然病程转归的动态发展。当前AI在斜视诊疗领域研究纳入的病例数从数百到数千不等,与眼科其他亚专业方向常常数十万病例数的AI研究相比,数据量明显不足,仍有较大的提升空间。同时,当前斜视领域AI研究的典型方法主要使用视频或眼位照片来诊断斜视,使用电子病历文本数据来估算手术参数及预测预后,而忽视了其他类型的数据输入。其中,双眼视觉功能作为斜视治疗干预的重要指标,纳入这类数据模态的AI研究目前仍较少,如何将视功能指标与其他模态进行整合从而辅助斜视的诊疗及预后预测仍需进一步探索。


相比之下,临床医师在诊断疾病、进行预后评估和制定治疗方案时,常常整合多时点、多模态的数据以提高决策准确性。因此,对单一数据源的依赖给AI的诊治和预后评估带来了巨大挑战。目前,我国许多医院仍面临日益增长的医疗数据数字化需求及相应的人力投入严重不足和人力资源短缺的问题。对于临床而言,数字化本身并不一定带来临床医师诊疗活动工作负荷的降低,甚至需要增加额外的工作负荷。为满足日益增长的AI数据需求,大力增加相应的人力资源投入是不可或缺的。目前,很多斜视临床数据,例如斜视度、双眼视功能等,因为是通过人工检查而非机器直接获得,往往以纸质形式记录,手写记录的效率大大高于电子化录入的效率,这导致了数据收集和标注的非电子化与非结构化问题[24],非依赖于机器检查数据的数字化成本显然要比机器检查数据的数字化成本高得多。这些问题使得患者的多模态医疗数据常常不完整或不准确,从而限制了AI研究的广泛应用和深入发展。当前AI斜视领域的产品也较为匮乏,以往的斜视智能筛查、诊断相关研究仅停留于提供诊断结果的阶段,缺乏对患者转诊和长期随访的支持功能,而这可能导致斜视患者的失访,不利于患者得到充分治疗,也不利于研究者收集患者的多模态、多时点数据。这也是目前在世界范围内眼科领域普遍存在的问题[25,26]


3 多思路、多途径推动AI在斜视诊疗中的应用发展

3.1 促进大模型技术在斜视智能诊疗中的应用

当前,AI已经与医疗的全过程进行了深度融合,覆盖数据采集、数据融合、数据分析、疾病诊疗等多个领域[27,28],且逐渐呈现出与医疗工作者有机协同的趋势,展现出为人类健康带来福祉的强大潜力。在国外,Chat GPT与Claude也不断在文本生成、视频生成和数据分析等方面刷新性能记录;国内研究者们推出的"盘古"、"文心一言"、"悟道天机"、"云雀"等大语言模型也反响强烈,大模型时代已然到来。在自然语言处理方面,大模型可以进行高质量的文本生成、自动摘要、机器翻译和情感分析,帮助提升内容创作和信息处理的效率;在医疗领域,大模型可以协助分析医学影像、生成诊断报告、预测疾病进展,为临床医师提供决策支持;在教育领域,大模型的应用也在不断扩展,如个性化教学助手、智能问答系统和内容推荐,显著提升了学习体验;此外,大模型还广泛应用于客户服务、金融分析和法律文本处理等场景。通过智能化的数据分析和处理,为各行各业带来革命性的改变。眼科大模型也正蓬勃发展,在超过164万张未标注的视网膜图像进行自监督学习的RETFound[29]于2023年9月在Nature发表,标志着眼科第1个基础大模型的诞生,其经微调后可执行多种基于视网膜图像的下游任务。调整后的RETFound在8个不同中心的视网膜图像数据集上的眼部疾病诊断,以及脑卒中等4种全身性疾病预后任务中均取得最优表现。表明基于大量视网膜图像的智能化诊断应用以及在视网膜图像上有表征的全身性疾病预后预测应用等专病大模型已然成为可能,大模型将日益显现出在第4次工业革命中的巨大推动作用。而AI在斜视疾病管理中的整合,代表着眼科领域的一大进步,有望提高斜视诊断的准确性和治疗的有效性。将大模型技术和斜视与小儿眼科有机结合,已然成为了斜视智能研究领域未来重要的发展方向之一。


3.2 深挖斜视患者多模态数据整合

探索多模态数据整合也是斜视智能研究的另一大着力方向。在多模态学习算法中,对来自不同模态的数据进行组合的过程被称为"多模态融合"。不同数据模态的融合可以在该过程的不同阶段进行,研究人员已经提出了几种整合多来源数据的方法。最简单的方法包括在任何处理之前串联输入模态或特征——早期融合[30],该方法虽然简单但并不适用于复杂的数据模态;另一种更复杂的方法是在训练过程中组合并共同学习这些不同模态的表示——联合融合[31],允许特定于模态的预处理,同时仍然捕获数据模态之间的相互作用;最后一种方法是为每种模态训练单独的模型,并结合输出概率——后期融合[30],这是一种简单而稳健的方法,但错过了从模态之间的相互作用中提取信息的机会。当前,眼科领域的多模态研究已经取得了显著进展。Nagasawa等[32]将超广角眼底成像和光学相干断层扫描血管成像2种模态的数据结合用于糖尿病视网膜病变亚型的多级诊断,获得了理想的准确率。基于多模态电子病历数据的AI模型也广泛应用于青光眼、糖尿病视网膜病变、年龄相关性黄斑变性和白内障等眼科疾病的诊断、风险评估和进展预测[33,34,35]。此外,还有将眼科影像和电子病历数据进行融合的多模态深度学习的研究报道。Foo等[36]基于1 979名儿童的基线彩色眼底照相及电子病历数据,包括基线年龄、种族、性别、基线等效屈光度、眼轴、父母近视情况及1年等效屈光度进展情况,开发了AI预测模型,对5年后的等效屈光度进展及是否发展为高度近视进行了预测,取得了验证集上平均曲线下面积0.94的效果,展现了多模态学习在眼科领域多模态特征融合的巨大潜力。


斜视领域的AI研究在实验设计方面应尽可能纳入全年龄段及各种斜视亚型的患者。尽管不同年龄组患者的睑裂大小、眼睛颜色和肤色等无关因素的图像表征多样性可能会给模型训练带来挑战,模型可能会因此学到无关特征,但克服这些难点对于提升AI模型的临床实用性至关重要。同时,基于虚拟现实技术和生物传感器的双眼视功能评估方法将成为未来研究的重要方向。通过虚拟现实技术,可以模拟复杂的视觉环境,实时捕捉并分析患者的眼球运动和视觉反应,提供高精度的双眼视功能数据。生物传感器则能实时监测眼部的生理信号,如瞳孔反应、眼压等,这些数据可用于评估双眼协调能力和视觉疲劳程度。这些技术的结合将有助于诱导并诊断间歇性或不稳定状态的斜视类型,提供比传统方法更客观、持续的监测手段。未来的研究还应探索如何将这些高精度的双眼视功能评价指标与其他多模态数据,如眼动视频、眼位照片、彩色眼底照相、眼眶MRI、电子病历数据等,进行有机整合。通过综合分析这些多模态数据,可以构建更加全面的患者视觉功能图谱,从而实现更加精准的诊断和治疗方案。这种整合将有助于斜视与小儿眼科知识图谱的构建和个性化精准诊疗建议的提供。


3.3 构建集成化智能斜视管理平台

开发相应的集成化智能斜视管理平台有助于远程获取患者病情动态变化的信息。AI可通过与患者动态、双向、多模态的交流,提供从视力模糊、眼痛和眼红等常见眼科症状到双眼复视、眼位照片等具体眼病信息的应答,进行主诉和病史等其他相关细节的问诊和记录整理,进而辅助临床医师进行远程分诊和预约优先级排序,实现从筛查到治疗再到长期随访的无纸化、全流程管理斜视患者。这有望显著提高斜视患者的管理效率,优化资源分配,提升患者的诊疗体验,改善患者预后;并基于智能斜视管理平台实现斜视患者的跨模态信息标准化收集与整合,为智能斜视的专病大模型打下良好的数据基础。随着这些技术的不断发展和完善,AI将与斜视领域更进一步高效结合,为改善患者诊断和治疗提供更可靠和高效的工具,推动AI在眼科的应用迈向更加光明的未来。


利益冲突  所有作者均声明不存在利益冲突

参考文献(略)


END
欢迎投稿学术成果或临床病例,请将稿件发送至:
editor@globalstar.org.cn 来函必复

更多会议信息&学术资讯
敬请关注:“医学进行时”微信公众号

医学进行时
介绍及传播眼科会议最新资讯,分享眼科学术前沿动态。
 最新文章