途深智合沈逸卿:大语言模型在蛋白质工程中的应用与挑战 | 嘉程创业流水席224席精彩回顾
文摘
财经
2024-08-22 15:12
新疆
为了让人工智能更有效地助力蛋白质设计3.0,首先需要关注的是如何实现AI模块的自动化调用,即能否在清晰阐述需求后,系统自动匹配并执行相应的模型以完成特定任务;其次,应致力于减少对数据的高度依赖。
近日,嘉程创业流水席第224席【探讨AI和新技术赋能的合成生物学&生物医学新趋势】,邀请了途深智合联合创始人沈逸卿分享,主题是《大语言模型在蛋白质工程中的应用与挑战》。感谢各位拨冗参与我们的分享和讨论。途深智合源于上海交通大学的孵化项目,在从学术界走到工业界过程中,在大语言模型应用于合成生物学领域,它见证了一系列的实践与挑战,今晚我们也将就这一点进行分享。鉴于合成生物学领域的广阔性,我们选取了其中极具代表性的大分子蛋白质设计作为切入点,这一领域广泛涉及食品、化妆品等多个行业,如甜味蛋白的研制及面膜成分的创新等,均离不开合成生物学的贡献。在合成生物学中,蛋白质的作用不容忽视。酶作为催化剂,其高效性直接关联着工业生产的效率;多肽则作为药物成分展现出其独特价值;而代糖,作为食品添加剂,同样源自蛋白质的转化。认识到蛋白质的重要性后,我们的目标便聚焦于如何通过设计与改造,使蛋白质更好地满足实际需求。例如,提升酶的活性、优化多肽的合成路径、增强代糖的甜度等。蛋白质设计1.0:传统技术、边际效益低、无法形成指数级增长
谈及蛋白质设计与改造,就不得不提蛋白质设计和改造,在人工智能兴起之前,这一领域被称为蛋白质设计1.0。在这一阶段,它依赖传统的技术和方法,如结构生物学手段,通过冷冻电镜、X射线等技术解析蛋白质结构及功能,进而根据先验知识指导突变筛选。这一过程涉及饱和筛选、定向进化及高通量筛选等多种方法。这种方法虽行之有效,但效率较低,如果做饱和突变的筛选,即使只改两个点位,那么也需要做2×40种可能,随着序列长度的增加,搜索空间急剧扩大,时间成本很高昂。另外,它的产出结果往往难以预测,通过理性设计,或许一年做几百个突变,也得不到一个阳性结果。蛋白质设计2.0:AI提升效率、多模型连用门槛高、严重依赖数据
在新技术的崛起,特别是人工智能的引入后,我们迎来了蛋白质设计改造的2.0时代。面对一个原始的蛋白质序列,我们的目标在于通过AI模型的学习,预测出活性更高、性能更优的新序列。以酶为例,若它的活性是1,我们想要找到活性大于1的酶。这是途深智合早期在探索的方向。然而,实践表明,单一的人工智能模型尚难以达到工业应用的严苛标准。尽管从逻辑上看,蛋白质输入、活性更高的蛋白质输出的过程直观且合理,但在实际操作中,预测出的蛋白质可能面临无法正确折叠、反应性差或稳定性不足等问题。这是因为,在工业应用中,提升蛋白质活性或选择性等目标往往伴随着诸多隐性要求,如蛋白质需要能够折叠、参与反应,或拥有某一种稳定性、热稳定性及特定的构象等,这些复杂性质难以被单一模型全面刻画。造成这一困境的原因主要有二:一是建模过程中所使用的数据未能全面涵盖这些复杂性质;二是模型设计时未能充分考虑这些特性作为先验知识。因此,在实际应用中,通常需要多个模型相互协作,共同作用于蛋白质设计与改造的过程。以酶活改造为例,我们首先需要构建一个能够预测酶活性的模型,如基于kcat参数的模型。随后,利用筛选模型从大量单点或多点突变中筛选出具有高kcat值的候选突变。后续,我们还需通过一系列后筛步骤,包括蛋白质折叠能力、反应性能、选择性及热稳定性等方面的评估,最终才能筛选出满足所有要求的突变序列。或许在100个序列中,最终只筛出两三个满足要求的序列。这一过程虽然有效,但成本高昂,因为针对不同类型的蛋白质或不同的改造目标,往往需要构建并优化一套全新的模型组合,比如,针对酶活改造、多肽、氧化还原酶都有不同的流程和模型,即使是同一类任务不同族类的蛋白也是如此。这无疑增加了应用的复杂性和成本。首先,尽管人工智能在理论上能够减少部分开销,但在实际应用场景中,它仍需融合大量的先验知识。这一现状在实际操作中带来了显著挑战,尤其是每当面临新任务时,往往需要投入人力资源,如派遣工程师开发全新的流程,这极大地限制了资源的有效利用。因此,我们首要关注的是如何实现AI模块的自动化调用,即能否在清晰阐述需求后,系统自动匹配并执行相应的模型以完成特定任务。例如,在指定对P450酶进行两点位突变时,系统应能自动规划并选用每个步骤合适的模型序列,从第一步至第三步均实现自动化处理。其次,我们致力于减少对数据的高度依赖。传统上,每个任务都需要重新训练模型,这不仅耗时且效率低下。我们探索的目标是构建一种更通用的模型,能够覆盖更多类型的蛋白质,如氧化还原酶及其他酶类,从而避免为每一类酶单独开发模型。这一初衷促使我们思考,是否能让大模型扮演类似领域工程师或算法工程师的角色,通过其深入理解蛋白质后,调用下游的子模型(如酶活性判断模型、单点突变模型等),以及进一步判断反应性和稳定性等。在此之前,我们曾尝试使用商业化或开源的模型,但这些模型往往缺乏蛋白质及合成生物学的先验知识,不能理解合成生物学的序列片段、任务流程,难以胜任复杂任务。因此,我们自行构建了大模型,该模型不仅处理蛋白质序列,还同时处理文本信息,为我们后续调用下游小模型提供了坚实基础。这一模型的构建得益于与上海人工智能实验室、上海交通大学系统、上海国家应用数学中心及重庆人工智能研究院等机构的合作,共同构建了庞大的语料数据库,包含纯蛋白质序列、纯文本序列及蛋白质与文本交互序列,这是最大的技术难点,也是实现模型功能的关键。然而,仅有大模型仍不足以满足复杂业务逻辑的需求。我们期望大模型能够实现刚才提到的复杂业务逻辑,根据新数据、新流程和新任务,自动构建完整的酶改造、酶活性设计或蛋白质设计流程。为此,我们构建了应用层(Agent层面),这是我们的核心竞争力所在。该层面包含多种针对不同业务场景的Agent,能够支持从简单的文献或酶挖掘,到复杂的突变、改造及全新设计等多样化任务。首先,我们需明确如何使我们的模型与商业化或开源模型区分开来。关键在于构建一个独特的数据集,该数据集需同时包含蛋白质序列与文本信息。此数据集由两部分构成:一是广泛收集的开源数据,二是我们自身历史积累的私有数据,涵盖商业化场景及学术研究成果。核心数据包括五十余种资源,其中既有纯蛋白质序列与纯文本,这些资源较为常见且易于获取,且具有蛋白质特异性;还有蛋白质与文本配对数据,这类数据因需精确匹配蛋白质序列与文本描述而难以获得。模型唯有理解这种对应关系,方能调用合适的模型,形成类似人类的先验蛋白质理解,并将所有知识最终与文本对齐。在构建此类对齐文本的数据时,我们采取了技巧性的方法。首先,利用预定义的模板,将蛋白质序列与其对应的文字描述相匹配,这类数据可通过公开数据集及其相关文献获取,形成初步的、弱力度的对应关系。增强这种对应关系的强度,我们进一步在文本中直接插入蛋白质序列,即在描述特定蛋白质(如XXX蛋白)的每段文字后附加其序列,以此促进序列与文本的深度融合,使模型能更有效地学习这种对应关系。在数据构建过程中,我们进行了大量实验尝试,以优化蛋白质与文本的配比。我们发现,数据集的配比对于模型训练至关重要。除了蛋白质语料与序列外,还需融入自然语言等通用知识,以避免模型发生遗忘现象。这些构建策略均体现了高度的技术性。在数据集构建完成后,我们进入指令微调阶段。此阶段同样包含纯蛋白质与纯文本数据,以及深度融合的序列。此外,我们还针对Agent(代理)设计了特定序列,以应对下游场景中蛋白质序列的模型调用与任务分配需求。这些微调数据集的构建,旨在进一步优化模型在特定业务场景下的表现。我们已将数据集构建的相关内容开源,并以文档形式发布,供感兴趣者查阅。同时,我们也提供了部分模型以供尝试使用。作为我们生态体系内的首个模型,它独特地同时处理蛋白质与文本信息,不同于其他多模态模型需外挂编码器的方式,我们直接采用单一编码器对所有蛋白质与文本语料进行编码。这一尝试将蛋白质视为一种特殊语言进行处理,仅通过不同的表征方式来表达其信息,体现了我们在技术上的大胆尝试。在完成了上述讨论后,我们需要对此进行定量的描述,这是我们在蛋白质设计与理解领域所投入大量精力的一项关键工作。我们特别邀请了领域专家设计了一系列问题,以选择题(六选一)的形式呈现,旨在评估蛋白质序列与文本之间的关联。这些问题涵盖了从蛋白质序列改造的步骤到蛋白质分类的多种情境,例如:“针对XXX蛋白质序列,若需进行改造,你会采取哪些步骤?”及“该蛋白质序列属于哪一类,请描述其特征”。我们构建的这一评估体系,在四月份时其性能已超越当时的专业模型。通用模型,如GPT-4 Turbo规模庞大,却并非专为蛋白质场景设计。但我们的模型,仅以7b和20b的小规模,便在蛋白质设计与理解任务上展现出了超越GPT-4 Turbo的能力。我们不仅希望这一模型能够做一些领域内模型,或通用大模型难以完成的事情。
具体而言,我们的下游应用涵盖了蛋白质、酶、多肽及抗体性质的优化模块。用户可通过输入蛋白质或酶的信息,要求提升其活性,系统随即调用内部开发的专属模型进行处理。刚才提到,某一个业务场景内,通常需要多个模型协同,因此后台会再去调用这些模型。另外,我们不仅能够提供文字性的建议,更能直接对输入的PPT或序列文件进行设计与改造,这是其他模型难以实现的。例如,我们开发的单点位突变模型,已在实际应用中展现出高度的产业化价值。此外,我们还基于Naps上发表的研究成果,进行了大量改进,实现了在保证蛋白质结构不变的前提下,设计出全新且高度相似的序列。这一功能在专利突破等场景中尤为关键,因为即使序列不同,只要结构相似,功能即可保持不变,从而规避原有专利的限制。对于新数据的处理,我们也采用了自动化模型翻旧的策略,通过大模型加速这一过程。这一过程完全由文字驱动,减少了编码和写代码的需求,极大地提高了工作效率。从商业化和业务的角度来看,这意味着我们可以减少人力资源的投入,仅需少数项目经理或工程师即可应对大量新任务。他们只需清晰描述需求并监督执行过程,而无需深入参与具体的组件构建工作,因为这一切都已实现了自动化。在探讨应用场景时,酶因其较短的实验周期而常被提及。相较于酶,抗体的研发周期则相对较长。这些前期案例不仅展示了技术深度,更通过实际成果满足了用户的高度期待,如提升活性、选择性和表达效率等。整个流程的高效性得益于其自动化特性,一旦需求明确,后台便能迅速进行模型翻旧或zero shot的 influence,从而加速结果的产生。例如,用户可将具体需求输入系统,系统随即进行分析并可能触发全新序列或结构的设计。这些设计结果,如序列信息,可轻松保存以供后续使用。此外,系统还支持生成新蛋白质及可视化展示,如调用POM等可视化的接口进行后续工作,例如做P450蛋白质的理解等等。最后简单的推广一下我们自己,我们是途深智合,从事蛋白质设计和改造,我们有非常强大的大模型专有人才,有比较丰富的产品应用经验。这一大模型的核心优势在于其强大的集成能力,调用小模型,实现自动化。对于团队而言,这一特性显著提升了工作效率,使我们能够有更大的带宽推进项目。我们诚挚邀请各位与我们进行更多交流,共同探讨该领域的未来发展。途深智合致力于用AI技术推动教育、合成生物等各个行业的发展。途深智合核心团队来自于上海交通大学、美国约翰霍普金斯大学、清华大学等海内外知名高校和研究机构,团队具有丰富的人工智能的科研和产业化能力。在合成生物行业,途深智合自研的TourSynbio™大模型将懂蛋白质语言和自然语言的大模型和下游业务模块进行融合,打通蛋白质设计流程,实现Protein Design AII in One。席友:在分子对接、动力学模拟的基础层算法方面,并行运算效率还没有解决。关于这一点,您怎么看?沈逸卿:在业务实践中,分子对接确实是一个核心模块,而某些新型模型在效率上的表现尚不尽如人意。从业务角度来看,虽然时间上的微小差异(如两小时与五分钟)在本质上并无显著影响,因为更关键的是能否达到业务所需的精度。然而,从技术追求的角度,我们始终致力于提升这些模型的运算速度。高效的运算不仅能加快整体响应速度,还能在特定任务中显著减少计算开销。例如,在分子对接过程中,若原本需三套模型耗时六小时,占据约30%的计算资源,那么效率提升十倍将带来极为积极的影响。我们深知这一领域的技术挑战,并相信国内有多支团队正共同努力解决这一问题。 席友:这个模型表现可以超过Alpha Fold吗? 沈逸卿:Alpha Fold专注于蛋白质折叠,而我们的模型则更像是一位全能的蛋白质设计工程师,能够执行包括折叠、逆折叠、单点位突变及性质预测在内的多种任务。我们并不直接让大模型承担所有任务,而是通过自动化调用各专门模块,针对具体业务场景进行优化。因此,难以简单地将两者进行性能上的直接比较。Alpha Fold是开源的,我们直接把它的接口接到大模型上,做折叠任务,同时调用Alpha Fold3没有开源,只有一个外部API,我们也可以调用它和sm faux做集成。所以从表现来说,我们可以通过调用更多的模型来做自动化的集成,加上后筛,进而超过单个模型的性能。这种性能的提升并非依赖于大模型本身,而是通过其自动化流程和模型集成的选择。
往期嘉程创业流水席线上活动现场
嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。嘉程资本投资涵盖人工智能、数字医疗与健康、科技全球化、生物科技与生命科学、新能源、云原生、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017