AI“横扫”诺奖,给AI制药带来什么启发?

学术   2024-10-14 10:02   北京  

今年的诺奖一公布,人工智能(AI)大获全胜。
首先是10月8日公布的诺贝尔物理学奖,两位人工智能的先驱美国普林斯顿大学教授约翰·J·霍普菲尔德(John J. Hopfield )和加拿大多伦多大学教授杰弗里·E·辛顿(Geoffrey E. Hinton)获奖,以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。Geoffrey Hinton是2018年图灵奖得主,被业界誉为深度学习巨头、AI教父。OpenAI联合创始人和前首席科学家Ilya Sutskever曾师从Geoffrey Hinton。

2024年诺贝尔物理学奖得主
接着是10月9号的诺贝尔化学奖揭晓,一半授予大卫·贝克(David Baker),“以表彰在计算蛋白质设计方面的贡献”;另一半则共同授予德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper),“以表彰他们在蛋白质结构预测方面的成就”。
诺贝尔化学委员会主席海纳·林克指出,2024年诺贝尔化学奖表彰的两个发现在生物化学领域开辟了无限可能性。其中,贝克成功完成了几乎不可能的壮举,构建了全新的蛋白质种类。哈萨比斯和江珀则通过人工智能模型实现了一个50年的梦想——预测蛋白质的复杂结构。

2024年诺贝尔化学奖获得者

AI+制药有望成为下一个黄金赛道


AI 技术通过机器学习、深度学习和加强学习等手段,已经在药物发现、临床前研究和临床试验等全流程中发挥重要作用。从 1990 年代的早期探索至今,AI 制药技术经历了技术积累、验证和快速发展期,目前正处于一个技术创新活跃、政策扶持明显、市场前景广阔的阶段。根据 Precedence Research,AI 制药行业将在未来十年保持高速增长,2023 年市场规模达11.7亿美元,预计市场规模到2032年将超过118亿美元,从2023年到 2032年的 CAGR将达到 29.3%。

AI 制药产业链上中下游分析


AI 制药产业链上游涉及算力、算法和数据,主要分两大类:提供 AI 技术的企业和提供生物技术的企业。提供 AI 技术的企业中,辅助制药的AI硬件设备包括服务器和芯片等;软件包括各类机器学习、深度学习以及其他人工智能算法,还有数据收集和处理平台、开源软件包以及云计算平台等辅助类软件。提供生物技术的企业包括提供 CRO服务的企业和提供先进设备的企业。
AI 制药产业链中游主要分为四大类:AI+biotech、AI+CRO、AI+SaaS 以及 IT 头部企业在 AI 制药产业中的布局。AI+biotech:从药物本身性质或治疗手段分类,从细分领域看,又可以分为三大类,即小分子药物、大分子药物、细胞和基因编辑法。AI+CRO:通过人工智能的辅助为客户更好地交付先导化合物或 PCC,再由药企进行后续的开发,或者合作推进药物管线。AI+SaaS:为客户提供 AI 辅助药物开发平台,通过平台为企业赋能,帮助企业加速研发流程,节省成本与时间。IT 头部企业:借助对外投资、打造自有关平台、提供算力及计算框架服务等参与其中。
AI 制药产业链下游分为传统药企和 CRO 企业。传统药企主要通过自建团队、对外投资、CRO 及技术合作等方式进入 AI 制药赛道。CRO 们主要通过风险投资、建立内部算法团队、采用外部 AI 技术、与 AI 制药公司进行合作等方式切入该领域。
AI 药物研发产业链布局分布图

AI+制药方兴未艾,应用端百花齐放


新药研发具有周期长、投入大、风险高等特点,AI介入新药研发全流程加速新药研发速度。以小分子药物为例,研发周期平均需要约10年,包括发现苗头化合物并经过层层结构优化得到先导化合物的药物发现阶段(2-4 )、针对候选化合物的临床前研究阶段(1-3 )和临床阶段(3-7 ),其中药物发现阶段是小分子药物研发中最重要的基础环节,且药物筛选技术直接关系到先导化合物质量、研发效率、研发成本以及成药可能性,是新药研发持续进行的关键。人工智能已介入新药开发全流程,在靶点发现、蛋白质结构预测、化合物虚拟筛选、ADMET 预测有广泛应用,并可辅助临床试验设计患者招聘等,对临床期试验结果预测可有效节省研发费用支出。

AI 在药物研发过程中的应用

生成式 AI 与 ChatGPT


生成式 AI 作为人工智能技术的分支,专注于从现有数据中学习规律,生成与原始学习资料相似的内容。 与基于规则和模板的人工智能不同,生成式AI 表现出更强的创造性。 尤其是 ChatGPT 类生成式 AI 的问世,展现出极高的应用和研究价值。在应用层面,ChatGPT 在撰写论文、报告、代码编写等领域的表现令人瞠目。
ChatGPT 是为聊天应用程序专用的自然语言处理(NLP) 模型。ChatGPT 在 GPT-3.5 大规模语言模型(LLM)基础上,利用技术人员担任对话双方,为模型提供学习资料,并通过有监督微调(SFT) 和从人类反馈中强化学习(RLHF)等方式进行优化。同时,ChatGPT采用了注重道德水平的训练方式,从而帮助 ChatGPT 理解并遵循用户的指令,并提供符合人类偏好的响应。ChatGPT 的技术原理如下图所示。
ChatGPT 技术原理图

智慧芽AI大模型产品生物医药芽仔


生物医药芽仔集成了智慧芽自主研发的700亿参数生物医药大模型(PharmaGPT)。该模型结合了知识增强和行业逻辑,确保了信息处理的准确性和合规性,有效解决了信息"幻觉"问题。通过融合命名实体识别(NER)、化学式图像识别技术以及医药知识图谱等尖端算法,PharmaGPT构建了一个全面的数据处理框架。在模型训练过程中,PharmaGPT动用了超过200张A800 GPU,处理了约200G的纯文本数据,整合了1600万+医药专利、1000万+生命科学论文、100万+行业新闻、20 万+临床试验数据、5万+医药政策文件等,这种深度垂直的数据训练,确保了生物医药芽仔能够为用户提供一站式、高可信度的数据查询与回答。

芽仔生物医药与GPT4 对比图和芽仔提问界面
在考试能力、机器翻译、分类能力等多个维度,PharmaGPT均展现出超越GPT-4的卓越性能。特别值得一提的是,在国家职业药师资格考试中,PharmaGPT不仅全项通过,更超越了GPT-4,彰显了其在专业领域内的卓越表现。
在问题框中输入医药竞争格局、临床试验与循证医药以及序列/化合物专利等医药相关问题,生物医药芽仔都能给出优于GPT-4的答案;芽仔可以将提出的问题经过系统转换,相当于在智慧芽的数据库矩阵中进行了检索,因而回答医药相关问题会比较全面(基于智慧芽数据库矩阵有海量通过AI模型+人工标引的api数据)。

点击上图免费体验智慧芽AI大模型产品芽仔-生物医药问答

PC端免费体验链接:https://hiro-ls.zhihuiya.com


智慧芽新药情报库中AI核心专利推荐


在药物研发的早期阶段,经常需要关注阳性药的相关信息,包括代号、结构、临床信息、核心专利等。对于已经公开结构的阳性药,可以很方便的通过结构式检索到化合物专利,并从中获取情报信息。然而,还有一部分药物并未公开结构信息,仅公开了分子代号,对于这种情况,需要研发人员根据多方信息来推测核心专利并推测可能的分子结构。

智慧芽AI模型推测核心专利
在新药情报库中输入未公开分子的代号,在智慧芽AI模型中可以根据专利的相关信息(专利申请人、申请日、优先权日、专利分类等)以及药物的详情信息(药物注册时间节点、临床试验、药物靶点和适应症、原研公司等),在模型内部进行解析,并自动推荐出比较可能的核心专利,准确率可达95%。

齐鲁锐格交易分子核心专利推荐
2024年9月30日,齐鲁锐格签署了一项最终购买协议,罗氏集团子公司Genentech(基因泰克)将从锐格医药收购用于治疗乳腺癌的下一代CDK抑制剂产品组合。根据协议条款,锐格医药将获得8.5亿美元的预付款。根据锐格医药官网披露的信息,锐格医药目前有两款CDK抑制剂RGT-419B和RGT-587。这两个代号分子均未公开结构,可以通过智慧芽新药情报库中的AI模型推测相关的核心化合物专利。
在新药情报库中输入RGT-419B搜索,未找到化合物结构。点击专利按钮,看到提示“当前暂无人工标引的核心专利,我们通过AI算法找到了此药物的一些潜在核心专利”,点击查看,图8右可以找到三篇专利,这三篇专利包含了RGT-419B的核心化合物专利,研发人员可以非常方便的再结合其他公开信息或SAR等信息确定可能的阳参化合物。

参考资料

1.https://mp.weixin.qq.com/s/BqO1-UN3hQ4Bagcp206_uw

2.海通国际证券报告,AI+制药:AI 技术蓬勃发展,AI+制药行业潜力巨大.

3.海通国际研究报告,AI 赋能制药:科技与医学的深度对话.

4.田萌等,生成式AI在情报研究中的应用,情报探索,2024年8月第8期.


智慧芽新药情报库
全球医药,智慧决策
 最新文章