牛津与哈佛大学合作用大语言模型(LLM)对医疗器械软件分类评价

学术   2024-07-31 19:54   浙江  

内容简介


BDM最新发布了牛津大学 Bergmann教授团队关于医疗器械分类的观点文章。医疗器械分类是根据器械的预定用途、相关风险等级和所需的监管监督来系统地分类器械,以确保器械符合监管机构规定的安全性和有效性标准。国际医疗器械监管论坛(IMDRF)指出,医疗产品必须符合全球各司法辖区制定的监管标准。美国将设备系统地分为三大类(I类、II类和III类);相比之下,欧盟采用更详细的分类框架,将设备分为四类(I类、IIa类、IIb类和III类)。分类错误可能导致重大运营和财务损失,如进行不必要的临床试验或市场准入申请被拒。早期识别正确的分类对于制造商来说很重要,以便量身定制证据的开展,和生成强有力的监管递交材料。由于不同国家的监管环境存在显著差异,分类标准也有所不同,这给企业的全球合规工作带来了挑战。


大语言模型(LLMs)基于从互联网、文献和各种文本材料中获取的大量数据进行训练,代表了人工智能领域的重要进展。这些模型在理解复杂语言模式、语境和语义方面表现出色。这种能力使大语言模型在理解、生成人类语言方面具有前所未有的能力,成为支持监管决策的潜在工具。我们的分析涵盖了包括中国、美国和欧洲在内的重要市场的医疗器械,评估了大语言模型在支持医疗器械软件分类方面的能力。我们实验了130种不同的医疗软件产品:包括66种中国国家药品监督管理局(NMPA)器械,29种美国食品药品监督管理局(FDA)器械,以及35种欧盟数据库器械。对于中国的分类(n=66),我们发现ERNIE Bot和Baichuan在单任务设备分类中的准确率分别为100%和97%。在美国器械上,GPT-3.5、Qwen和Mistral Large的准确率都达到了79%。但是,Baichuan和ERNIE Bot未能正确分类任何美国设备,这表明它们与美国设备的特征存在显著不匹配,或其训练数据中可能存在空白。值得注意的是,对几乎所有模型欧盟器械的测试结果都是错误的。这可能表明大语言模型在学习过程中缺乏可用的欧盟器械信息。这项研究标志着大语言模型在医疗监管环境中的初步探索,也提示了先进计算工具在简化和加强医疗监管流程中的潜力。


本文一作Yu Han系牛津大学工程系博士,热衷于将人工智能技术与医疗保健各个环节结合,利用工程方法解决医疗产品注册流程中的复杂问题,从而简化全球产品的流通。


引用本文(点击最下方阅读原文可下载PDF)

Han Y, Ceross A, Bourgeois F, et al., 2024. Evaluation of large language models for the classification of medical device software. Bio-des Manuf (Early Access). https://doi.org/10.1007/s42242-024-00307-0

文章导读



图1 模型分类性能

参考文献

上下滑动以阅览

1 Aronson JK, Heneghan C, Ferner RE (2020) Medical devices: definition, classification, and regulatory implications. Drug Saf 43(2):83–93. https://doi.org/10.1007/s40264-019-00878-3

2 Bianco C (2010) Integrating a risk-based approach and ISO 62304 into a quality system for medical devices. In: Proceedings of the 19th Safety-Critical Systems Symposium, p.111–125. https://doi.org/10.1007/978-0-85729-133-2_7

3 Rabin RL, Picard AJ (2018) Reassessing the regulation of high-risk medical device cases. DePaul L Rev 68:309. https://doi.org/10.2139/ssrn.3383687

4 Kaushik D, Rai S, Dureja H et al (2013) Regulatory perspectives on medical device approval in global jurisdiction. J Generic Med 10(3–4):159–171. https://doi.org/10.1177/1741134314553137

5 IMDRF (2024) International Medical Device Regulators Forum (IMDRF). https://www.imdrf.org

6 Rojas-Cordova AC, Bish EK, Hosseinichimeh N (2020) Decision-making in sequential adaptive clinical trials, with implications for drug misclassification and resource allocation. In: Smith AE (Ed.), Women in Industrial and Systems Engineering: Key Advances and Perspectives on Emerging Topics. Springer, Cham, p.321–345. https://doi.org/10.1007/978-3-030-11866-2_14

7 Arnould A, Hendricusdottir R, Bergmann J (2021) The complexity of medical device regulations has increased, as assessed through data-driven techniques. Prosthesis 3(4):314–330. https://doi.org/10.3390/prosthesis3040029

8 Han Y, Ceross A, Bergmann JH (2023) Uncovering regulatory affairs complexity in medical products: a qualitative assessment utilizing open coding and natural language processing (NLP). https://doi.org/10.48550/arxiv.2401.02975

9 Mingay HRF, Hendricusdottir R, Ceross A et al (2022) Using rule-based decision trees to digitize legislation. Prosthesis 4(1):113–124. https://doi.org/10.3390/prosthesis4010012

10 Bergmann JH, Hendricusdottir R, Lee R (2019) Regulatory navigation: a digital tool to understand medical device classification pathways. In: Moo-Young M (Ed.), Comprehensive Biotechnology. Elsevier, Amsterdam, p.167–172. https://doi.org/10.1016/B978-0-444-64046-8.00287-1

11 Ceross A, Bergmann J (2021) A machine learning approach for medical device classification. In: Proceedings of the 14th International Conference on Theory and Practice of Electronic Governance, p.285–291. https://doi.org/10.1145/3494193.3494232

12 Yang JF, Jin HY, Tang RX et al (2023) Harnessing the power of LLMs in practice: a survey on ChatGPT and beyond. ACM Trans Knowl Discov Data 18(6):1–32. https://doi.org/10.1145/3649506

13 Benjamens S, Dhunnoo P, Meskó B (2020) The state of artificial intelligence-based FDA-approved medical devices and algorithms: an online database. npj Digit Med 3(1):118. https://doi.org/10.1038/s41746-020-00324-0

14 van Leeuwen KG, Schalekamp S, Rutten MJ et al (2021) Artificial intelligence in radiology: 100 commercially available products and their scientific evidence. Eur Radiol 31(6):3797–3804. https://doi.org/10.1007/s00330-021-07892-z

15 Motola D, De Ponti F (2006) Generic versus brand-name medicinal products: are they really interchangeable? Digest Liver Dis 38(8):560–562. https://doi.org/10.1016/j.dld.2006.03.017

16 Fui-Hoon Nah F, Zheng RL, Cai JY et al (2023) Generative AI and ChatGPT: applications, challenges, and AI-human collaboration. J Inform Technol Case Appl 25(3):277–304. https://doi.org/10.1080/15228053.2023.2233814

17 Walker HL, Ghani S, Kuemmerli C et al (2023) Reliability of medical information provided by ChatGPT: assessment against clinical guidelines and patient information quality instrument. J Med Internet Res 25(1):e47479. https://doi.org/10.2196/47479

18 Billiones R (2020) Eudamed’s delay and its impact on discolsure of clinical investigations under the EU MDR. Med Writ 29(3):12–15

19 Zhang X, Li SY, Hauer B et al (2023) Don’t trust ChatGPT when your question is not in English: a study of multi-lingual abilities and types of LLMs. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, p.7915–7927


关于本刊

Bio-Design and Manufacturing(中文名《生物设计与制造》),简称BDM,是浙江大学主办的专业英文双月刊,主编杨华勇院士、崔占峰院士,2018年新创,2019年被SCI-E等库检索,2023年起改为双月刊,年末升入《2023年中国科学院文献情报中心期刊分区表》医学一区,2024年公布的最新影响因子为8.1,位列JCR的Q1区,13/122。


初审迅速:初审快速退稿,不影响作者投其它期刊。

审稿速度快:过去两年平均录用时间约40天;平均退稿时间约10天。文章录用后及时在线SpringerLink。一般两周左右即被SCI-E检索。

收稿方向 :先进制造(3D打印及生物处理工程等)、生物墨水与配方、组织与器官工程、医学与诊断装置、生物产品设计、仿生设计与制造等。

文章类型:Research Article, Review, Short Paper (包括Editorial, Perspective, Letter, Technical Note, Case Report, Lab Report, Negative Result等)。


期刊主页:

http://www.springer.com/journal/42242

http://www.jzus.zju.edu.cn/ (国内可下载全文)

在线投稿地址:

http://www.editorialmanager.com/bdmj/default.aspx


入群交流

围绕BDM刊物的投稿方向,本公众号建有“生物设计与制造”学术交流群,加小编微信号icefires212入群交流,或扫以下二维码

浙大学报英文版
稿件状态查询、编辑作者交流、学术动态发布
 最新文章