蚂蚁科技奖专场|清华大学姚权铭:深度学习的简约之道

企业   2024-12-05 15:31   浙江  


近日,蚂蚁科技奖技术沙龙迎来第二位特邀嘉宾嘉宾——清华大学电子工程系助理教授姚权铭。他分享的主题是“深度学习的简约之道”



作为蚂蚁Intech科技奖首批获奖学者,姚权铭在学术界和工业界都取得了显著成就:他于2013年本科毕业于华中科技大学电子工程系,并在香港科技大学计算机系取得博士学位。毕业后,他加入初创公司第四范式担任高级科学家,组建了机器学习团队。这支团队成为国内最早一批从事自动化机器学习的研究团队,为公司在2020年的D轮融资贡献力量。


姚权铭的研究成果赢得了国内外诸多奖项:2016年获谷歌全球博士奖学金(全球13位博士生获奖,大中华地区唯一获奖者),2019年获香港科技大学工程学院博士卓越研究奖,2020年入选《福布斯》“2020年中国30岁以下精英榜(30 Under 30)”,2021年入选国家高层次人才计划,2023年获得国际人工智能学会(INNS)的早期成就奖。


姚权铭专注于探索深度学习的基本原理及方法论,并致力于其在科学智能领域的实际应用。他的研究方向主要包括:

1、通过自动化架构设计提升模型适应性;

2、探索小样本学习以增强学习效率;

3、利用结构化数据建模降低药物设计的成本。


简而言之,姚权铭的目标在于提升当前深度学习技术在垂直领域和科学场景的实用性和可用性。


以下是姚权铭

在蚂蚁科技奖专场沙龙上的分享



各位朋友们好!今天分享一下我研究的思路和想法,分为四部分:

第一, 为什么需要简约学习之道;

第二, 基于这个需求,在科学智能场景下的未来愿景和场景;

第三, 在一个特定的领域,药物互作用领域,把这个愿景做一个最小闭环;

第四, 希望结合蚂蚁实际诉求开展的尝试。


1

为什么需要简约学习之道


首先是关于机器学习。机器学习是AI的重要组成部分,是机器通过大数据输入,从中主动寻求规律、验证规律,最后得出结论,并据此结论来自主解决问题的过程,如果出现了偏差,会自主纠错。整体发展而言,机器学习追求的是提升表达能力(expressiveness)。回顾机器学习发展史,其演化经历了手动特征到浅层模型、深度网络,再到如今的大模型的过程,已经得到商业化的应用场景也已涵盖了从图像识别、游戏博弈到智能对话系统的方方面面,代表着机器学习领域最前沿的辉煌进展。


目前机器学习前沿领域最新进展如大模型领域已表现出非常出色的效果。OpenAI发布了视频生成领域大模型Sora和智能对话方面的ChatGPT,而DeepMind推出的蛋白质结构预测模型Alphafold甚至实现了机器学习在诺贝尔奖上的零突破。这些模型的现世都对行业发展脉络产生了深远的影响,改变着当今人们的生活方式和认知途径。


然而,现有模型倾向于用更多的算力、数据量和更大参数量的模型去提升表达能力,这就是当前技术路线尺度定律(scaling law)的含义。简单来看,尺度定律类似AI界的摩尔定律,每经过一年左右,模型规模会翻倍,数据集的大小和需要的基本单元数量(如tokens)也会翻倍。


而有意思的是,伴随着O1的现世,尺度定律已经预示出失败的态势。ChatGPT-4o出现前尺度定律尚能保持表达能力尺度上升的愿景,但到了O1出世,提升表现的核心已经变成依赖其他技术了,比如基于思维链做模型微调和数据增强。现在横亘在大模型头顶上也有三乌云:数据瓶颈、计算瓶颈、信任瓶颈


数据瓶颈

Epoch AI研究机构证实,大模型消耗数据增长量远超我们互联网数据的累积量,人类发展至今的语料库将在2024年彻底耗尽。一个直观的想法是让多个大模型协同训练。而8月份Nature上一篇来自牛津与剑桥团队的论文明确指出,模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降,幻觉问题加剧将导致最终无法输出正确答案。

计算瓶颈

模型的逐渐变大导致参数量和规模的变大,从而需要更多的算力。而算力的提升往往意味着系统复杂度的上升,也会增加系统出错的概率,单个硬件的损耗很可能影响整个集群训练的过程。随着模型发展,算力需求已经从原来的单卡到多卡,再到万卡集群,显著增加了准入门槛和资本注入需求。

信任瓶颈

当对于具有单个输入输出逻辑较为清晰问题,大家不需要过多关注内部逻辑而仅需利用结果;而对于一个多输入对应多输出的问题,对于大模型这样的黑盒子,梳理内部逻辑就变得天方夜谭了。


从现实角度出发,当我们从数据、算力和参数量角度来看,在这样的尺度定律下,英伟达想维持它的市值,虽然去年大模型投资仍然非常热,我们可以看到今年它就已经转变策略全部转到具身智能赛道了。有一个段子,现在还能成立一家大模型公司,让他“运作”起来,就值10亿人民币,但其实这里的“运作”指的是字面意思,只是让他的算力(比如计算卡)运作起来的成本就需要10亿人民币。


2

基于这个需求

在科学智能场景下的未来愿景和场景


技术增强式微,投资也在变少,当前技术路线带来的增益已经愈发减弱,这就是我们需要简约之道所在。我们要让大模型用于不同的领域,控制大模型的成本,减少大模型对数据的依赖,提高解释性。简单来讲,我们希望在实现至少相同性能的前提下,能用更聪明的方法去提升它的预测效果,降低它的数据消耗和复杂度,进而提升它的解释性。


爱因斯坦讲过一句话,“Everything should be made as simple as possible. But not simpler”,是在物理领域讲的。但以我的视角来讲,机器学习在某种程度相当于信息学科的物理。也就是说,学习效果在相等情况下,我们希望这个模型越简单越好。倘若只谈代价不谈效果,研究终将是镜花水月;而倘若不谈效果而只谈代价,科学也将陷入畏首畏尾的泥沼,这也是需要“简约”的原因。在某种意义上,诺贝尔奖颁发给机器学习是有道理的,因为我觉得它偏向于信息学科中的物理,相当于我们经过观察后,再做迭代,所以我们才会从手工特征到深层特征,再到神经网络,最后到大模型。


反观人类认知的过程,人自身的学习始终在不停地归纳现象和知识。这些归纳的现象和知识,变成我们的符号体系和行为准则。到了现在的下一代机器学习技术,我们能不能找到一些比较直接的简约学习的规律,更有代表性的基础逻辑?这是一个悬而未决但值得深入探索的问题。


我们希望寻求一个切入点,并经过几轮验证找到破局点。


在符号网络中,比较直观的案例是推荐任务。用户A关注用户B,用户B喜欢帖子B,给用户A推荐帖子B就可以了,这是所有推荐系统的基础逻辑。


在生物化学领域,就分子而言,会有基团,基团的性质将会影响分子的性质。在蛋白质、氨基酸或肽链上一样,就是氨基酸组成多肽,多肽再组成蛋白质,蛋白质还可以进一步用4D结构去折叠,这些是每一个基团将很大程度决定它在宏观上的性质表现。


所以在这样能以符号化的网络或关联数据去承载到数据当中,我们既有它的数据性,也有它的符号性,这个符号需要落到不同的域中,蛋白质要落氨基酸上,而信息情报图可以落到元路径或元图上面。


一个基本的想法或工作思路,计算机必须要用矩阵去计算,这样才能更加高效。但是数值空间缺少一些凝练。对于儿童智力测验题,一个学习算法也需要上万张或上十万张图片才能回答。但从我们自身知识领域直接分析这些题,本质就是一个黑圈、白圈、黄圈或白色环,这意味着学习中,针对不同的领域,我们希望有一些基础的符号规律。根据说这些基本单元符号建立符号空间后可以用于推理任务,每个里面的符号和单元有一个向量表示,用于高通量运算。


那么为什么符号空间不会有组合爆炸呢?从我们的物理世界观测可知,世界上的各种色彩都可以由三原色构成。即便是再贵的显示器和投影仪,色域也只有97%。由此我们可以得到启发,虽然组合起来很多,但本质上符号或基本运算规则其实不那么多。也就是说,在这样一个数据和符号的双空间当中,我们去挖掘基本单元,然后完成它的映射,从而更好地基于基本单元进行组合泛化,而且不是基于基本的向量空间去做组合泛化,后者必然会面临很大数据量、很难解释性问题和很高的学习成本的问题。


纵观简约方式的发展,其过程大体经过三代。第一代是统计学习驱动,非常典型的工作就是Lasso、压缩感知,以及支持向量机,支持向量某种意义上可以看作数据上简化支持向量,压缩感知某种意义上,是在简化模型参数。从而使得我们只保留支持向量,就能真实地将测度还原出来。到了下一代通过数据学习驱动,理论性质就不太能直接成立了,需要我们在卷积神经网络上做一些分解和比较来得出结论。再到这个时代,透过数据看本质,特别是在科学场景中,数据的生成方式和自动原理以及感知方式有一点不一样了。比如分子和蛋白质的内在机理,从统计驱动有较为严谨的数学证明,再到效果需要通过数据学习提升,和一些在大模型上面非常典型的方法,再到后面通过知识驱动的愿景。


2015年一篇未来学习的论文也发表在了《Science》上,用贝叶斯的组合泛化的形式,达到当时卷积神经网络达不到的效果。而2023年这位研究脑科学的老师发表在《Nature》上的新论文指出用组合泛化的机器学习的技术,去训练一个标准的多层感知机,能直接达到大模型达不到的组合泛化效果。这种先验知识的训练方式,能超过现在的大模型,这是一个很价值的发现。某种意义上,如果我们能捕捉当前场景下的知识或逻辑基本单元,有可能跳过尺度定律,在它的基础上,结合我们的主干模型,来进一步提升模型效果。


因此,我们整体的研究技术路线将重点放在了以下三个方面:模型上的简约、训练方式上的简约和解释上的简约。这个解释上的简约,是指我们尽量在海量关联数据中,寻找关键证据。就像侦探破案一样,我们证据链很多,但只有少量的证据最后会起关键性作用。上面列了一些代表工作。最后希望形成一套体系和系统,形成简约学习。


模型训练和解释性我们的研究已经通过药物互作用预测领域研究形成一个闭环。我们关注的问题核心为:在药物原研阶段,分析药代动力学、药效动力学;而在临床阶段,两个药物互作用,会不会有严重的副反应。基于美国FDA数据,约3.2‰住院病人因不良药物互反应复发,凸显了药物安全的重要性。更进一步,我们关注了新药的药物互作用预测的问题。这样的问题,我们数据会更为稀疏。前两年疫情时刻,新药上市时,已知自律性不足,使得问题更加严峻。面对时效性需求高的传染病治疗,简约学习技术显得尤为重要,它能有效应对数据稀疏与新药评估的挑战。


3

药物互作用领域

把技术路线愿景做一个最小闭环


知识在这里是什么,我们的路径又为何是可行的?在生物医药网络中,代谢通路代表了各成分间的化学反应,标识着疾病、靶点、蛋白质间的连边。虽然新药、旧药之间没有任何已知连边,但是药物研发不是一个一蹴而就的过程,而是历史沉淀。它和已知药之间,可能会包含其他某一种相同的小分子,可能会导致相同的副作用,即可能会有类似的代谢通路并会治疗相同的疾病。这样利用药物研发中积累下来的知识,就可以反映出可能带来的副作用。现在做AI科学应用,不仅要看问题的背景,还要透过数据集,看数据集怎么收集,也要看到在这个任务中,这样的知识是什么,在这里是累积下来的药物规律。


进一步,抽取一个相关性关系的子图,我们把它在已知的药物互作用网络中和网络中不超过L跳的共同路径全部保留。以路径的基础类型为标签构造一个链路预测的问题。我们使用的不是单独节点的嵌入,而是它的子图的嵌入。有了这个有可能对它有用的信息,我们会从中寻找有价值的线索,且其中只会有几条线索指向关键性链路。所以我们会在这样的路径上去加注意力权重。需要稍微注意一下,注意力的加入并不是直接计算两个直接相连的节点间的注意力权重,而是直接使用它的起始节点和终止节点,和当前的关联关系去算,这个关联关系能够贯穿到整个通路上。


在模型选择方面,通过不同模型实验的效果分析,基于图神经网络(GNN)的方法,表达能力比基于药物特征的要强。但是表达能力是有代价的。在没有足够多的数据量时,基于图神经网络方法的效果不会比简单的分类器强。我们的方法则一直表现最好,去年发表在Nature子刊上的基于图神经网络的方法EmerGNN在基于图神经网络方法的方向上做了尝试取得了优异的效果。最近我们做标杆工作(Benchmark),如基于大语言模型的TextDDI,把基于图Transformer和大语言模型典型工作重新补上了。对比结果表明EmerGNN的方式虽然没有文本信息,也比大模型要强,再次证实了我们简约方式的有效性。


在参数量和算力的需求方面,大模型大概8乘10的7次方左右,然后图Transformer是2.6乘以10的6次方,EmerGNN是2乘10的5次方。参数数量规模会小很多。另一个热点问题是图神经网络的深度。如果暴力堆叠层数的话,性能就下降了。基于EmerGNN的话,大概可以达到三四层左右,也就是药物相互作用的链路子图的直径不会特别大,影响的关键链路三到四条都能捕捉到。


解释性方面,我们在前面方案设计上,基于整个链路去找注意力权重,所以我们会把注意力权重比较集中的部分单独找出来。目前方案基于表型研究,下一阶段我们计划基于代谢去研究。


基于表型研究,比较直观的检验方式是通过已有文献寻找这条链路存在的证据。通过知识检索的方式寻找已有文献,我们进行交叉验证。经过如此方式的预测,60%到70%的情况我们都可以在已有的文献中找到困惑度比较高的权重解释。


最后还是基于代谢,治疗过程中有很多蛋白质生成出来,能实时验证预测。这是我们下一步计划开展的工作。


在之前的研究过程中,我们还发现“相似”关系对于所有关系的预测尤为重要。原研药与部分药物相似,尤其是仿制药,它们与原研药具有完全相同的DDI模式,这进一步验证了“相似”关系的重要性。此外,尽管一种特殊的关系CRC在整体数据集中占比不高(约6‰),但仅保留CRC时,性能就能够得到提升。这也表明,知识的有效性,且选择性地保留关键知识对于提高预测性能至关重要。


总而言之,我们把这上面的知识和图神经网络进行结合,它的训练速度肯定比在模型上更快。数据需求也比图Transformer和大语言模型需求量低,我们并没有任何的药物互作用数据给到当前的药。并且解释型的话,大语言模型上的推理过程较为难以实现,思维链技术其实给不出通路,它没有对齐到生物医药网络上去,而图Transformer也没有找这样的药物互作用的通路的手段。对输入和输出而言,图神经网络可解释性会更好。对于中间参数的解释性,我们还在后续研究和推进过程中。


4

希望结合实际诉求开展的尝试


回归到场景本身,新药的化学分子空间大概率和已知药不一样。但我们切分数据时,我们采用随机分割的方式来模拟新药的过程,我们会保证没有连边,但切出去时仍然需要进行渲染,所以我们在推三个方向的工作。

第一,研究大语言模型与Biomedical Network(生化网络)的协同治理。

第二,用代谢网络,通过对过程中生成的蛋白质做实验验证来模拟。

第三,我们做更实际的标杆工作,把域位移(domain shift)和概念漂移(concept drift)这样的思路引入数据分割过程,从而更好地贴合药物研发当中的实际场景。


以我们的目前研究工作为例:


对于大模型的多智能体的任务协同。智能体有各种各样的交互,我们希望通过网络或关联把多智能体的交互学习出来,自适应出来。


第一,把推荐或金融上的交易关系提取出来,避免直接让数据驱动完全走尺度路线。因为在很多金融场景下,特别是给用户推荐的冷启动的理财产品,我没有太多的用户信息。这是第一点。


第二,对于大模型隐私保护来说,在数据空间中做隐私,不如在知识空间中做隐私。然而问题在于,针对提示词的攻击,很容易让大模型产生幻觉。比如说我的当中的一些知识,是药物研发过程当中,花了很多钱去收集的,我不想让产生幻觉而浪费,因此需要进一步了解一下大模型内部的机理。有意思是的我们最近的实验表明,大模型虽然非线性非常强,但它会展现出来非常强的局部线性性质。


我们想基于这个方式进一步探讨不同的知识对应到大模型空间的知识敏感性怎样,以避免恶意的提数词输入。通过保留特定部分的参数,让它避免一些幻觉输出。相当于定位它在大模型知识空间的种类,在输出的层面,以及在参数的推理层面,对输出进行调整。最后尝试进一步微调和控制参数空间。


我今天的分享就到这里,谢谢大家!

蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
 最新文章