针灸︱图片来源:百度
撰文︱谢存昕 电子科技大学英才实验学院
导读
针灸,作为中医的重要组成部分,是一种独特的物理治疗方法,其历史可以追溯到数千年前。它通过在人体特定的穴位上刺入细针,以调节人体气血、疏通经络、扶正祛邪,从而达到预防和治疗疾病的目的。世界卫生组织认为针灸是治疗一系列疾病的可行选择,包括呼吸系统、消化系统和神经系统疾病。
在针灸治疗中,准确的穴位位置对于其有效性至关重要。由于针灸定位遵循“同身寸”的概念,即针灸疗法不依赖于固定的物理尺寸,而是根据患者的身体特征进行调整,某些穴位对于初学者来说可能很难定位。因此,研究人员们尝试利用信息学技术将关键的穴位知识结构化和计算机化,以协助针灸培训和实践。
GPT等大语言模型(LLM)在命名实体识别领域(NER)中表现出了卓越的能力。然而,尤其对于特定的医学领域,很少有研究探索使用LLM来提取实体之间的关系。本研究中,研究人员希望利用 GPT 在穴位和人体解剖学的背景下进行关系提取,比较传统深度学习模型和 LLM 之间的性能差异,并评估预训练和微调对GPT性能的影响。
在这项研究中,研究人员使用了六种类型的研究实体:穴位、解剖、方向、距离、大致位置和子部分。为了精确定位穴位,他们注释了五种针灸穴位与解剖学知识间的关系类型:direction_of表示一个相对穴位或解剖结构到感兴趣穴位的方向,distance_of表示到穴位/解剖结构的距离,part_of表示解剖学的子部分,near_acupoint表示与相对穴位的相邻程度,located_near表示解剖结构与感兴趣的穴位的接近程度
研究人员比较了五个模型:BioBERT、LSTM、预训练的GPT-3.5、微调的 GPT-3.5 以及预训练的GPT-4。性能指标包括微平均精确匹配精度、召回率和 F1 分数。其中,微平均精确匹配度(Micro-average Precision)是在多类分类任务中,将所有类别的预测结果汇总到一个混淆矩阵中,然后计算得出的精确率(Precision)。召回率(Recall) 指的是在所有实际为正样本的实例中,被模型正确预测为正样本的比例。F1 分数(F1 Score)指的是精确率和召回率的调和平均数。在评估模型的性能时,使用注释的关系类型作为标准,利用精确率、召回率和 F1 分数这些指标提供了对模型在关系提取方面的性能的全面评估。
研究结果表明,在所有关系类型中,微调的 GPT-3.5 在 F1 分数中始终优于其他模型。例如,对于“direction_of”关系,微调的 GPT 3.5 模型达到了 0.96 的最高精度,表明其在准确识别一个相对穴位或解剖结构到感兴趣穴位的方向方面具有很强的能力。同样,对于“distance_of”关系,微调的 GPT 3.5 模型也表现出色,精度为 0.88。总体上看,它达到了 0.92 的最高微观平均 F1 分数,也表现出最高的微平均召回率,为 0.94。
传统的模型(BioBERT、LSTM)由于通常难以捕获文本中的长程依赖关系( long-range dependencies,即处理一个复杂的语句时需要回溯至语句的开头),不擅长理解上下文和提取细微关系,而这一能力在针灸穴位与关系提取中至关重要,因此呈现出的性能低于GPT等大语言模型。此外,这些模型可能需要大量的微调和调整才能在特定任务上表现良好,这使得它们的通用性低于 LLM。
预先训练的 GPT 模型虽然在一般语言任务中表现出强大的性能,但在针灸穴位位置的关系提取方面的表现不如微调的 GPT 模型。这表明由于微调使模型能够根据任务的具体特征调整其权重和参数,从而增强其提取相关关系的能力。
本研究强调了 GPT 等 LLM 在提取与穴位位置相关关系方面的有效性,突出了它们在针灸领域的价值。通过利用LLM,研究人员展示了在针灸实践中对穴位知识进行精确建模并进一步促进穴位精确定位的潜力。这些发现还有助于推进信息学在传统医学和补充医学中的应用,展示了LLM在自然语言处理中的潜力以及它们的适应性和多功能性。
参考文献:
Li, Y., Peng, X., Li, J., Zuo, X., Peng, S., Pei, D., Tao, C., & Xu, H. (2024, April 15). Relation Extraction Using Large Language Models: A Case Study on Acupuncture Point Location [Preprint]. Retrieved from https://arxiv.org/abs/2404.05415
责任编辑:刘彦池 何晓笛
你可能会感兴趣 ·