图 2. miRNA 的发现[3]。
A. 秀丽隐杆线虫是了解细胞发育的模式生物。B. Ambros 和 Ruvkun 研究了 lin-4 和 lin-14 突变体。C. Ambros 发现 lin-4 基因编码一种 miRNA。Ruvkun 克隆了 lin-14 基因,发现 lin-4 miRNA 序列与 lin-14 mRNA 序列互补配对。尽管这一发现具有极大突破性,揭示了基因调控的新机制。但这一发现在当时的科学界并没有引起太多关注。
直到 2000 年,Gary Ruvkun 发现了另一种广泛存在于人类和许多其他物种中的 let-7 基因[4]。这一发现证明了 miRNA 的存在范围远超秀丽隐杆线虫。研究者们开始意识到 miRNA 调控基因表达的机制在各类生物中的普遍性和重要性。图 3. Gary Ruvkun 克隆了第二个编码 miRNA 的基因 let-7[3]。let-7 基因的发现引起了研究者们极大的兴趣,激励了全球范围内的科学家们开展相关研究。此后数年,数百种不同的 miRNA 被鉴定出来。鉴于 miRNA 的迅速发现以及功能的阐明,来自 Sanger 研究所的科学家们在 2002 年开发了 microRNA Registry,后更名为 miRBase。这个数据库的建立为 miRNA 的研究提供了规范和方便,使得研究人员能够轻松获取关于已知 miRNA 的全面信息,包括其序列、来源和功能等。
除了鉴定出新的 miRNA 之外,研发人员还阐明了 miRNA 是如何产生并结合 mRNA 从而导致蛋白质合成的抑制或 mRNA 的降解的机制。当然,小 M 本期不再赘述,(详见往期推文:miRNA -- 触发 RNA 干扰,让基因 “沉默”)。
有意思的是,由于 miRNA 的低互补性, miRNA 常常与靶基因不完全配对,所以,它们可同时调控多个靶基因的表达[5]。越来越多的证据表明 miRNA 失调与癌症、糖尿病以及心血管疾病等多种人类疾病相关。例如,Let-7 的缺失在多种癌症中具有致病作用[6]。在肌细胞纤维化过程中 miR-21 显著上调,并导致心肌肥大[7]。
目前人们正在尝试开发靶向 miRNA 的寡核苷酸药物,例如用于常染色体显性多囊肾病 (ADPKD) 治疗的 RGLS4326 (抑制 miR-17 功能)、用于 HCV 治疗的 Miravirsen (抑制 miR-122 功能) 以及用于 B 细胞淋巴瘤治疗的 Cobomarsen (抑制 miR-155 功能) 等。
miRNA 相关产品:2024 年诺贝尔物理学:因推动利用人工神经网络进行机器学习的基础性发现和发明。(撒花~撒花~)对于今年诺贝尔物理学奖颁发给“机器学习领域的专家”,学术界沸腾了,就连本人都直呼“没想到”!
10 月 8 日,瑞典卡罗琳斯卡医学院宣布,2024 年诺贝尔物理学奖授予美国科学家 John J. Hopfield 和加拿大科学家 Geoffrey E. Hinton 以表彰他们推动利用人工神经网络进行机器学习的基础性发现和发明。
图 4. 2024 年诺贝尔物理学奖[8]。
左图:约翰·J·霍普菲尔德 (John J. Hopfield) 1933 年出生于美国伊利诺伊州芝加哥。1958 年获得美国纽约州伊萨卡康奈尔大学博士学位。美国新泽西州普林斯顿大学教授。右图:杰弗里·E·辛顿,1947 年出生于英国伦敦。1978 年在英国爱丁堡大学获得博士学位。加拿大多伦多大学教授。以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法 (Contrastive Divergence) 的发明人之一,也是深度学习的积极推动者,被誉为“深度学习教父”。辛顿因在深度学习方面的贡献与约书亚•本希奥和杨立昆一同被授予了 2018 年的图灵奖。
获奖者利用物理学工具构建了多种方法,为当今强大的机器学习奠定了基础。John Hopfield 创建了一种可以存储和重建信息的结构。Geoffrey Hinton 发明了一种可以独立发现数据属性的方法,这种方法对于目前使用的大型人工神经网络至关重要。机器学习的发展便利用了一种称为人工神经网络的结构。如今,当我们谈论“火热”的人工智能时,我们通常指的就是这种技术。
图 5. 2024 年诺贝尔物理学奖[9]。
近年来,该技术也开始用于计算和预测分子和材料的特性,例如计算决定其功能的蛋白质分子结构,或确定哪种新材料可能具有最佳特性,以用于更高效的太阳能电池。生物“汪”,不明白?好难懂?不理解?别慌,小 M 来解释一把 。
大家一定都听过被“炒”的火热的人工智能,以及人工智能是否会取代人类之类的……究其本质,在于:计算机拥有学习思考功能。
早在 1950 年,便有图灵测试的提出,引发了人类对“机器是否能够思考”的热议。
图灵测试 (Turing test):英国计算机科学家艾伦•图灵于 1950 年提出的思想实验,图灵亦将其称为“模仿游戏 (imitation game)”。这个实验的流程是由一位询问者写下自己的问题,随后将问题发送给在另一个房间中的一个人与一台机器,由询问者根据他们所作的回答来判断哪一个是真人,哪一个是机器,所有测试者都会被单独分开,对话以纯文本形式透过屏幕传输,因此结果不取决于机器的语音能力,这个测试意在探求机器能否模仿出与人类相同或无法区分的智能。机器学习不同于传统软件,传统软件的工作原理:软件接收数据,根据清晰的描述进行处理并产生结果。举个略糙的例子:搜索“衣服”,便会出现与此关键词相关的图片,文章等信息,这些都是数据库中已存在的内容。额……就是要什么给什么。
与此不同,在机器学习中,计算机通过示例进行学习,使其能够解决问题。是的,解决问题,比如你给它一张陌生的“衣服图片”,它可以识别是男装或女装。当然,这是由于计算机前期进行了海量的训练,借助机器的模仿记忆和学习等功能而实现的。是的,计算机无法思考,但机器现在可以模仿记忆和学习等功能。今年的物理学奖得主帮助实现了这一点,为当今强大的机器学习奠定了基础。他们利用物理学的基本概念和方法,开发了利用网络结构处理信息的技术。即:通过人工神经网络实现机器学习。我们现在所见证的发展是通过获取可用于训练网络的大量数据以及计算能力的大幅提升而实现的。说人话?额……足够海量的数据+抗造的计算机服务器。软件硬件一起上,于是有了计算机解释图像甚至进行合理的对话。当今的人工神经网络通常非常庞大,由多层构成。这些被称为深度神经网络,其训练方式称为深度学习。
深度学习是人工智能 (AI) 的一个分支,它是一种利用神经网络进行学习的技术。深度学习技术在生物医学领域已经取得重要进展。
图 6.《2020 人工智能医疗产业发展蓝皮书》。
目前研究人员已经开发了一系列基于深度学习的疾病诊断、蛋白质设计、医学图像识别的应用策略。制药工业界目前也开始重视深度学习技术,希望利用其加速药物研发并降低成本。
MCE 一站式药筛:MCE 一站式药筛平台聚焦于药物发现阶段,运用生成式人工智能技术,构建出的兼具新颖性、类药性、多样性、可合成性的超大化合物库 —— MegaUni 库,此库适用于 AI 药物筛选、大型虚拟筛选,此库已在 2023 上海国际计算生物学创新大赛中崭露头角,MegaUni 库包含了大量未经报道的新结构分子,为科研创新提供了无限可能。除此之外,还将 AI 算法应用到各种类型的 Mini 化合物库的构建,帮助客户更高效地获得符合自己需求的化合物库。
此外,药物筛选平台包含计算机虚拟筛选和实体药物筛选,虚拟筛选方面,将 AI 主动学习和分子对接相结合,以支持更大规模的虚拟筛选。
图 7. MCE 一站式药筛平台简介。
2024 年诺贝尔化学奖:表彰“计算蛋白质设计”+“蛋白质结构预测”(哇O~哇O~)2024 年 10 月 9 日,瑞典皇家科学院决定将 2024 年诺贝尔化学奖,一半授予 David Baker,以表彰其“计算蛋白质设计”领域的贡献。另一半则共同授予 Demis Hassabis 和 John M. Jumper,以表彰其“蛋白质结构预测”方面的杰出成就。
图 8. 2024 年诺贝尔化学奖[10]。
左图:大卫•贝克 (David Baker),1962 年出生于美国华盛顿州西雅图。1989 年获美国加州大学伯克利分校博士学位。现为美国华盛顿大学西雅图分校教授。
中间图:德米斯•哈萨比斯 (Demis Hassabis),1976 年出生于英国伦敦。2009 年获得英国伦敦大学学院博士学位。英国伦敦 Google DeepMind 首席执行官。
右图:John M. Jumper,1985 年出生于美国阿肯色州小石城。2017 年获得美国伊利诺伊州芝加哥大学博士学位。英国伦敦 Google DeepMind 高级研究科学家。
David Baker 制造出全新种类的蛋白质, 成功完成了几乎不可能完成的壮举。Demis Hassabis 和 John M. Jumper 开发了一种人工智能模型来解决一个 50 年前的问题:预测蛋白质的复杂结构。这两项不同的发现紧密相连,且具有巨大的潜力。蛋白质设计领域始于 20 世纪 90 年代末,研究人员设计具有新功能的定制蛋白质。在许多情况下,研究人员对现有蛋白质进行调整,以便它们能够分解危险物质或作为化学制造业的工具。
2003 年,David Baker 成功设计出一种与其他蛋白质不同的新蛋白质。此后,他的研究小组不断创造出一个又一个富有想象力的蛋白质,包括可用作药物、疫苗、纳米材料和微型传感器的蛋白质。
图 9. Top7 – 第一个与所有已知现有蛋白质完全不同的蛋白质[11]。。蛋白质通常由 20 种氨基酸组成,可以以无数种方式组合。利用 DNA 中存储的信息为模板,氨基酸在我们的细胞中连接在一起形成长链。氨基酸以长链连接在一起,氨基酸链扭曲并折叠成独特的 (有时是独一无二的) 三维结构。这种结构赋予蛋白质功能。
自 1970 年代以来,研究人员一直试图根据氨基酸序列预测蛋白质结构,但这非常困难。直到 2020 年,Demis Hassabis 和 John Jumper 提出了一个名为 AlphaFold2 的 AI 模型。借助该模型,他们能够预测研究人员发现的几乎所有 2 亿种蛋白质的结构。
图 10. AlphaFold2 计算蛋白三维结构模型图[12]。自取得突破以来,来自 190 个国家的 200 多万人使用了 AlphaFold 2。此外,Alphafold 3,一种新的革命性的人工智能 (AI) 模型,通过对 AlphaFold 2 架构和训练过程的重大演进实现,既适应更一般的化学结构,又提高了学习数据的效率。其将以前所未有的准确性预测包含更广泛的生物分子,包括配体、离子、核酸和修饰残基的复合物的结构。(详见往期推文:科研助攻 | Alphafold 3 这么牛,如何使用,一文 get!)
与现有预测方法相比,Alphafold 3 预测蛋白与其他生物分子相互作用的准确性有至少 50% 的提升,对于某些重要的相互作用类别,预测准确度甚至翻了一番。没有蛋白质,生命就无法存在。可以预测蛋白质结构并设计自己的蛋白质,这给人类带来巨大的影响。2024年的诺贝尔奖可谓再次验证了那句话:21世纪是生物的世纪。各类奖项预测之中,也在意料之外。其他奖项仍在陆续公布中,大家可持续关注喔~