点击上方 蓝字 关注我们 了解更多资讯
张金宝1,何培宇1,田翩1,蔡建民1,潘帆1,钱永军2,赵启军3
1. 四川大学 电子信息学院(成都 610065)
2. 四川大学华西医院 心脏大血管外科(成都 610041)
3. 四川大学 计算机学院(软件学院)(成都 610065)
通信作者:潘帆,Email:panfan@scu.edu.cn;钱永军,Email:qianyongjun@scu.edu.cn
关键词:机器学习;Tsetlin Machine;心拍分类;可解释性;人工智能
引用本文:张金宝, 何培宇, 田翩, 等. 一种用于心拍分类的可解释机器学习方法. 中国胸心血管外科临床杂志, 2023, 30(2): 185-190. doi: 10.7507/1007-4848.202204067
Zhang JB, He PY, et al. An interpretable machine learning method for heart beat classification. Chin J Clin Thorac Cardiovasc Surg, 2023, 30(2): 185-190. doi: 10.7507/1007-4848.202204067
摘 要
目的 探讨Tsetlin Machine(TM)在心拍分类中的应用。方法 运用TM对中国生理信号挑战赛2020数据集中正常、室性早搏和室上性早搏心拍图片进行三分类,并对分类结果进行解释性分析。该数据集包括10例心律失常患者的单导联心电图数据,排除1例心房颤动患者,最终纳入9例患者数据。结果 分类结果表明,TM的九折平均识别准确率达84.3%,并且能通过位模式解释图展示分类判别的依据。结论 TM在分类心拍的同时能对分类结果作出解释,对分类结果的合理解释便于人们理解模型在进行心拍图分类时的判决依据,进而增加模型的可信度。
1
资料与方法
1.1 数据来源
本研究的数据来自中国生理信号挑战赛(China Physiological Signal Challenge,CPSC)2020数据库[9]。该数据集包括10例心律失常患者的单导联ECG记录,每个记录持续约24 h。CPSC2020的公开数据集中给出了室性早搏(premature ventricular contraction,PVC,记作心拍V)和室上性早搏(supraventricular premature beat,SPB,记作心拍S)的QRS波顶点的参考位置,各种类心拍总数见表1。
由于2号患者有心房颤动,波形干扰较大,实验数据集由另外9例患者数据组成。正常心拍(记作心拍N)数据过多,每例患者取其中5 000个数据参与实验,九折交叉验证后得到最终实验结果。
1.2 数据预处理
原始ECG信号通常受到基线漂移、工频、人体肌电等干扰,使ECG信号难以识别和诊断。针对ECG信号去噪的研究[10]表明,经过小波变换分解重构后,ECG 数据的基线漂移能得到很好的补偿,极大降低ECG 的工频等噪声,保留ECG 波形的变化趋势。本文采用“bior2.6”小波对ECG信号进行8层分解,提取相应的细节系数和近似系数,并将1、2层的细节系数(即高频系数)和8层的近似系数(低频系数)置0,达到去噪的目的,处理结果对比见图1。
图1 使用小波变化去除心电图信号的各种噪声
正常心拍的持续时间(P波开始到T波结束)在0.75 s以内,考虑到CPSC2020数据集的采样率为400 Hz,本文选取320个点,即0.80 s作为单个心拍的持续时间,以确保能包含完整心拍信息。电压幅值使用心拍中的最大值进行归一化处理,最终得到320×100大小的心拍图片;见图2。
图2 从心电图信号中截取单个心拍(参考点的前0.35 s与后0.45 s)
1.3 方法
TM是一种基于Tsetlin Automata的大规模复杂模式识别的新技术。Tsetlin Automata是由Tsetlin[11]在20世纪60年代初于苏联开发的自动学习机技术,是一种比人工神经元更为基础和通用的学习机制,其最基本的单元见图3。
图3 二动作环境的学习自动机
在Granmo等提出了一种基于博弈论的TM后,学习自动机的学习从局部最优转变为全局最优,从而使多个学习自动机可以成功合作[12],使得学习自动机可以处理许多较为复杂的模式识别问题。学习自动机在处理模式识别问题时可以用位模式表示其中的各种命题[13]。适用于某些特殊图片分类,例如能处理为二值图片的ECG信号。TM已经在花朵分类、数字识别和MNIST数据集[14]上取得了不错的分类成果,并且能从TM中获得其内部状态,进而得到具有可解释性的位模式解释图;见图4。
图4 由 Tsetlin 机器生成的手写数字“1”的位模式
符号“*”可以接受值“0”或“1”,其余位值需严格匹配
与神经网络等相比,位模式相对容易理解,基于位模式的解释图能对分类结果作出解释,有助于对其进行理解与审查,对医学等领域具有重要意义。
2
结果
2.1 实验结果
TM将各个Tsetlin Automata当作子句,并将子句分为正子句(通过位模式判断出属于该类的图片)和负子句(通过位模式判断出不属于该类的图片)。通过两种子句不同的输出判断出图片的类别。实验时选取2 000个子句数量的TM,进行100轮训练(确保训练集的验证准确率到99.99%)。
模型对于各个类别的正确率(precision,符号记为Pre)、召回率(recall,符号记为Rec)、准确率(accuracy,符号记为Acc)等常被用于判别和分析一个多分类模型的能力,各个指标计算公式见式(1)~(3)。
真阳性(true positive,TP)表示对该类别来说本是阳性,也被正确分类的样本数量,例如实际是心拍N也被正确分类为心拍N的情况。假阳性(false positive,FP)表示该类别本不是阳性,却被分类为阳性的个数,例如对心拍N来说,假阳性是指实际是另外两类心拍却被分类为心拍N的心拍总数。假阴性(false negative,FN)表示该类别本不是阴性,却被分类为阴性的个数,即在心拍N中,本属于心拍N却被分类为另外两类心拍的心拍总数。样本总数(All)指所有参与测试的样本总数。
最终TM九折交叉实验的混淆矩阵见图5。从混淆矩阵中可以看出,TM对心拍N和心拍V的分辨识别能力较强,而在心拍S的分类上稍差一些。
图5 九折交叉实验后的混淆矩阵(右下角灰色方块代表准确率)
通过混淆矩阵我们还可以看出,心拍N更加容易被判为心拍S,同样心拍S更容易被判别为心拍N,也就是说,TM更容易将这两类心拍混淆。进一步,我们可以将这个三分类矩阵看作3个二分类的混淆矩阵,分别是心拍N与非心拍N,心拍V与非心拍V,心拍S与非心拍S,最终计算得到各自的准确率(Acc)分别为89.1%、92.1%和86.5%,更加直观地表明心拍N与心拍S更容易被TM混淆。
2.2 Tsetlin Machine分类结果的解释性分析
在训练结束以后,TM中的位模式状态能对分类结果进行解释,本文进一步将位模式解释图与各个类别的典型波形图叠加,绘制出属于各个类别的热力图。
需要说明的是,在较复杂图片的识别中,位模式出现“1”的概率非常小,本次研究中TM的位模式状态中并不存在任何一个“1”,即位模式解释图中仅存在“*”和“0”。最终绘制热力图时以“*”代表“0”出现概率高的地方,三种类别各自的热力图见图6。
图6 N、V、S三种类别心拍的热力图
a:由TM得到的用于区分正常心拍的位模式解释图与正常心拍典型图叠加而成;b:将TM用于区分室性早搏心拍的位模式解释图与室性早搏心拍图叠加而成;c:将TM用于区分室上性早搏心拍的位模式解释图与室上性早搏心拍图叠加而成
TM在判断一张图片是否属于本类时,图片对应热力图中“*”密集的地方越趋近于空白,代表这张图属于该类别的概率越高。从热力图中可以看出TM在作出分类判决时关注的重点信息不同。
3
讨论
本文探索了TM在生理信号的处理与分类中的应用,也是第1次使用TM来针对ECG信号给出解释图。可以明显地看出,TM可以分辨出不同心拍之间的差别并加以区分,最终通过位模式状态得到的热力图使得TM的分类结果得到了很好的解释。并且这样的结果是具有理论依据的,SPB(心拍S)是室上性的电指令引起心脏除极导致的,电指令往心房方向逆传的过程会使心房除极的P波出现异常,电指令往心室方向传导的过程与窦性指令下传心室的过程一致,最终导致心电信号中P波位置偏移,QRS波规整且偏窄。而PVC(心拍V)是来自心室的电指令引起心脏除极导致的,PVC的起搏点多在心室的一边,发出的电指令使整个心室除极的过程从一侧心室跨过室间隔去到另一侧心室,传导速度慢,最终导致QRS波畸形且增宽。在ECG中,我们会发现心拍N与心拍S是相对难以区分的,心拍S的QRS波群一般与窦性心律者相似,只有P波形态略微变化为P’波,间隔具有一定差别[15]。同时,心拍V畸形且扩张的QRS波使得它更易于与另外两类心拍区分。
TM在分类识别心拍N时,重点关注S波位置与形状。QRS波的间隔和形状是TM区分心拍V最为明显的依据。同时,在分辨心拍S时,P波位置周围和QRS波中星号密度显然增大,也就是说TM通过P波位置和QRS波间隔来判别心拍S;见图6。这与前文讨论的生理依据是基本一致的。
而且,值得注意的是,发生PVC时,室性电指令使心室除极,此时心电往往是从一侧心室到另一侧心室,之后的机械性收缩或舒张也是从一个心室到另一个心室,与正常心脏的左右心室呈向心性收缩或舒张的状况不同,易造成血流动力学障碍。而发生SPB时,室上性电指令使心室除极,心电自左右心室内膜向外膜方向除极,之后心室收缩和舒张同样是呈向心性的,与正常窦性心律相同。也就是说,对比心拍V与心拍S,即PVC与SPB两种心律不齐时,PVC相对要严重许多,可能会导致卒中和心源性猝死[16]。而TM对心拍V的区分度更高,也就代表相对于三分类准确率为84.3%这样的分类结果来说,TM可能会有更好的临床使用价值。总的来说,TM的分类结果能找到相应的理论依据,可解释且具有依据的分类结果能增加模型的可信度,便于人们审查和理解。
研究的局限性:本文使用的数据集分类是正常与早搏的三分类,并没有达到美国医疗器械促进协会推荐的五分类标准。数据集来自9例患者的单导联数据,患者数量较少,单导联相较于十二导联波形受噪声干扰也更大。因此,需要更大样本量、更全面的数据集验证本文结论。
利益冲突:无。
作者贡献:张金宝负责设计、执行研究,分析数据,撰写论文;何培宇、赵启军负责设计、组织研究;钱永军负责组织研究,论文审阅与修改;潘帆负责设计、组织研究,收集数据,修改论文;田翩负责收集数据;蔡建民负责整理数据。
参考文献略。
作者介绍
通信作者 潘帆
潘帆,助理研究员、硕士研究生导师。在生物医学信号处理,医学大数据处理以及可穿戴式医疗设备研发等方面开展了系统性的研究工作。目前主持四川省科技计划项目、中国博士后科学基金项目等项目5项,参与英国工程和自然科学研究委员会EPSRC课题2项,欧盟FP-7项目1项,发表SCI期刊论文10余篇,获授权发明专利4项,多家SCI期刊杂志审稿人。
通信作者 钱永军
主任医师、硕士研究生导师。中国医师协会心血管外科分会十佳青年医师获得者,中华医学会胸心血管外科分会Lillehei最高奖菁英奖获得者,中华医学会胸心血管外科分会厄尔.巴肯奖第一名获得者,四川省胸心外科专业学术和技术带头人后备人选,四川省卫健委胸心外科专业学术和技术带头人后备人选。专注于心脏病微创治疗,尤其是一站式房颤微创治疗,腔镜瓣膜病微创治疗等,拥有三项华西医院微创心脏手术新技术。德国斯图加特Stuttgar Sana心脏中心及美国克利夫兰医学中心Cleveland Clinic访问学者。
主持教育部博士点、四川省科技厅重点研发支撑等项目10余项,发表SCI论文30余篇,主编《瓣膜病心房颤动基础研究及精准治疗》,授权专利10项,转化专利1项。现为美国《胸心血管外科杂志(JTCVS)》特约翻译,《中国胸心血管外科临床杂志》、《中国循证医学杂志》及《华西医学》等杂志编委,多家SCI杂志审稿人。
本文编辑:雷芳,刘雪梅
审校:董敏
排版:张洪雪
推荐阅读
《中国胸心血管外科临床杂志》人工智能论文集
人工智能一体化三维重建应用于胸外科的中国专家共识
《人工智能在肺结节诊治中的应用专家共识(2022年版)》解读
人工智能驱动的科学研究(AI4S)在药物研发与临床实践中的应用进展
经验性与人工智能指导下精准肺段切除术效果比较的回顾性队列研究
长按或扫描二维码关注我们!