万字长文,2024AI行业的科研角力
©作者|Zhongmei
来源|神州问学
前言
吴恩达的网站上周发表了一篇名为《A Year of Contending Forces》的文章,该文章是围绕着一个名为《State of AI Report - 2024》的年度报告的总结和点评。该报告由Nathan Benaich和Air Street Capital团队制作,这是该报告的第七年,新报告记录了过去一年推动AI发展的强相互作用力:开源与专有技术、公共与私人融资、创新与谨慎,汇聚了来自于2024年的研究论文、新闻文章、财报等的亮点。本文将对原报告内容进行解读。
为什么觉得这篇报告重要?
该报告是从投资者的角度审视了上次报告之后的一年时间里AI的发展,力图分析其中的变化并挖掘出趋势。作者们深入研究了今年的研究发现、商业交易和政治动态,希望以此为下个一年的AI提供全面的分析。同时,作为一个年度报告,该团队敢于做出明确的预测。并十分具有critical thinking,敢于在一年后评估自己的准确性,吴恩达也表示这种原则性方法很值得称赞。
表一:Air Street Capital团队对自己去年的AI年报中做的预测进行的review
报告中的关键信息
报告中考虑了以下关键维度:
- 研究:技术突破及其能力。
- 行业:AI的商业应用领域及其商业影响。
- 政治:AI的监管,其经济影响以及AI不断演变的地缘政治。
- 安全:识别和缓解未来高能力AI系统可能对我们造成的灾难性风险。
- 预测:未来12个月会发生的事情
由于报告《State of AI Report - 2024》篇幅长达210+页,本篇将只涵盖研究部分的前一半,余下的会在下一周里陆续发出。
研究
● 顶尖模型
在这一年的大部分时间里,各种基准测试和社区排行榜都显示GPT-4与“其他最佳”之间存在一个巨大的鸿沟。但Anthropic的Claude 3.5 Sonnet、Google的Gemini 1.5和X.ai的Grok 2,基本消除了这一差距,模型性能现在开始趋于一致。模型现在一致被认为是高能力的编码者,擅长事实记忆和数学,但在开放式问题解答和多模态问题解决方面表现不佳。有些时候模型的差距也被认为是使用方式不同的产物。例如,GPT-4o在MMLU上表现优于Claude 3.5 Sonnet,但更具挑战性的MMLU-Pro基准上表现似乎不如后者。考虑到架构之间相对微妙的技术差异以及预训练数据中可能存在大量重叠,模型构建者现在越来越需要在新能力和产品特性上进行竞争。
● 推理计算
随着风声很大的“Strawberry”的着陆,大家意识到应该加倍投入到推理计算的扩展中。通过将计算从 pre-training和post-training转移到推理,o1采用链式思考(COT)风格逐步推理复杂的提示,运用强化学习(RL)来加强COT及其使用的策略。这打开了过去LLM因预测下一个token的固有限制而挣扎的领域的可能性,比如多层次数学、科学和编程。OpenAI团队显然很早就意识到了推理计算的潜力,o1在其他实验室探索该技术的论文发表几周内就出现了。根据OpenAI报告,与4o相比,o1在以推理为重的基准测试中取得了显著进展,最明显的是在2024年AIME(竞赛数学)上,对比以前的13.4分,现在得分高达83.83。然而,这种能力的代价非常高昂:对于o1-preview来说,1M输入token的成本为15美元,而1M输出token的成本却高达60美元。这使其比GPT-4o贵3-4倍。甚至,OpenAI在其API文档中明确表示,它不是4o的直接替代品,也不是最适合需要快速响应、图像输入或函数调用的任务的模型。
● 开源与闭源
Llama 3 缩小了开源模型与封闭模型之间的差距。Meta坚持使用自Llama 1以来一直使用的相同的decoder-only架构,只进行了小的调整(即增加了更多的transformer层和注意力头的数量)。Meta在4月推出了Llama 3系列,7月推出了3.1版本。迄今为止最大的Llama 3.1 405B能够在推理、数学、多语言和长上下文任务中与GPT-4o和Claude 3.5 Sonnet匹敌。这标志着第一次一个开源模型与前沿商业模型之间的差距被赶上。Meta使用了15T token(明显超出了“Chinchilla最优”训练计算量)在16,000个H100 GPU上进行了Llama 3.1 405Bd的训练,这是第一个在此规模上训练的Llama模型。随即9月退出的Llama 3.2中加入了11B和90B的VLM,是Llama的多模态首次亮相。前者与Claude 3 Haiku竞争,后者与GPT-4o-mini竞争。该公司还发布了1B和3B的仅文本模型,设计用于在设备上运行。基于Llama的模型在Hugging Face上的下载量现已超过440M次。同时需要注意的是“开源”模型有多“开放”?一些研究者提出,这个术语常常被误导性地使用,有时候在权重、数据集、许可以及访问方法这些完不相同的方面,容易被混为一谈。
图1. 各模型开放情况对比(来源于《State of AI Report - 2024》)
● 数据污染
随着越来越多的新模型家族报告出色的基准性能,研究人员越来越关注数据集污染(即测试或验证数据泄漏到训练集中)。Scale的研究人员使用了一个新的Grade School Math 1000(GSM1k)数据集,对多种模型进行了重新测试,该数据集的风格和复杂性与GSM8k基准相似,他们发现某些情况下测试结果出现显著下降。同样,X.ai的研究人员使用了一个基于匈牙利全国决赛数学考试的数据集对模型进行了重新评估,结果也类似。基准测试的挑战是双向的。一方面是过拟合的诱惑,另一方面是一些受欢迎的基准中存在错误。爱丁堡大学的团队指出了MMLU中存在的错误,包括错误的真实值、不清晰的问题和存在多个正确答案。尽管大多数单独主题的错误率较低,但在某些领域出现了显著的问题,如病毒学中高达57%的分析实例存在错误。在手动纠正的MMLU子集上,模型的整体性能有所提升,但在专业法律和形式逻辑方面表现变差,这表明模型在预训练期间学习到了不准确的MMLU实例。而在和安全领域,OpenAI警告称,SWE-bench包含了一些难以或不可能解决的任务,因此在评估模型解决现实世界软件问题的能力时,低估了模型的自主软件工程能力,于是与基准创建者合作,创建了SWE-bench Verified。
● 主观评测
LMSYS Chatbot Arena这种允许用户同时与两个随机选择的聊天机器人互动后对比评价的方式,已成为社区正式化评估的热门方法,但随着模型性能的提升,它开始产生反直觉的结果。比如,GPT-4o和GPT-4o Mini获得了相同的分数,而后者的表现还超越了Claude Sonnet 3.5。这引发了人们的担忧,认为这个排名基本上变成了评估用户最喜欢哪种写作风格的方式。此外,因为较小的模型在涉及更多token的任务上表现较差,所以8k的上下文限制其实提供了不公平的优势。但是较为有趣的是,早期版本的视觉排行榜现在开始获得关注,并与其他评估的结果更为一致。
● 符号主义复兴?
推理能力和训练数据的不足使得AI系统往往在数学和几何问题上表现不佳。一个名为AlphaGeometry的符号推理AI引擎应运而生。Google DeepMind和NYU的团队利用符号引擎生成了数百万个合成定理和证明,并利用它们从零开始训练语言模型。AlphaGeometry使得用语言模型提出新构造与和符号引擎进行推理交替进行,直到找到解决方案。AlphaGeometry在一项奥林匹克级别的几何问题基准测试中解决了25道(共30道),接近人类国际数学奥林匹克金牌选手的表现,遥遥领先于第二名的十分。它还展示了泛化能力,例如,它发现2004年IMO问题中的某个具体细节对于证明来说是多余的。
● 模型剪枝
研究表明,可以在对性能影响很小的情况下缩小模型,模型在深度层被智能修剪的情况下依然表现稳健,但是这些层本应含有处理复杂、抽象或特定任务的信息,所以也许可以进一步探索。Meta/MIT团队研究发现,对开放权重的预训练LLM,最多可以去掉一半的模型层,而在问答基准测试中性能下降几乎可以忽略不计, 他们基于相似性识别了最佳的去除层,并通过少量高效的微调“修复”了模型。NVIDIA的研究人员采取了更激进的方法,修剪网络层、神经元、注意力头和嵌入,然后利用知识蒸馏进行高效再训练。这样从Nemotron-4 15B得到的MINITRON模型,在性能上可比肩 Mistral 7B 和 Llama-3 8B 等模型,但是使用的训练 token 数量仅为四十分之一。
● 模型蒸馏
Andrej Karpathy等人指出,当前的大型模型规模可能反映了训练效率低下。利用这些大模型来精炼和合成训练数据,可以帮助训练出更强的小型模型。比如,Google采用这种方法,从Gemini 1.5 Pro中蒸馏出Gemini 1.5 Flash,而Gemma 2 9B则是从Gemma 2 27B蒸馏而来,Gemma 2B则来自于一个尚未发布的更大模型;社区中也有猜测,Claude 3 Haiku是大型模型Opus的蒸馏版本,但Anthropic从未确认这一点。这些蒸馏工作也在向多模态发展。Black Forest Labs发布了FLUX.1 dev,这是从他们的Pro模型中蒸馏出的开放权重的文本转图像模型。同时,社区也有相关工具,如arcee.ai的DistillKit,用于支持基于Logit和隐状态的蒸馏。Llama作为开源先锋,Llama 3.1 405B也被用于蒸馏,Meta在更新条款后允许输出logits用于改进任何模型,而不仅限于Llama模型。
● 端侧模型
随着大科技公司考虑大规模终端用户部署,出现了适用于智能手机的高性能小模型。微软的phi-3.5-mini是一个3.8B的语言模型,能够与7B和Llama 3.1 8B等更大型模型竞争。该模型被量化为4位,内存占用会减少到大约1.8GB。它在推理和问答方面表现良好,但其事实知识储备受限于模型大小。苹果推出了MobileCLIP,这是一系列为智能手机快速推理优化的高效图像-文本模型。通过新颖的多模态强化训练,从图像描述模型和强大CLIP编码器的集成中转移知识,提高了紧凑模型的准确性。Hugging Face的SmolLM系列,提供135M、360M和1.7B格式,通过精心设计的合成数据集实现了相应规模下的 SOTA 性能。
● 量化精度
通过降低参数的精度,可以缩减LLM的内存需求,研究人员追求最小化这种性能折衷。比如,微软的BitNet使用“BitLinear”层替代标准线性层,采用1位权重和量化激活,与全精度模型相比,它显示出竞争力的性能,并展示了与全精度变换器类似的扩展规律,同时显著节省内存和能源。微软随后推出了BitNet b1.58,采用三元权重,以在3B规模下匹配全精度LLM的性能,同时保持效率提升。相似的还有字节跳动的TiTok(基于transfomer的一维tokenizer)将图像量化为紧凑的1D离散toekn序列,用于图像重建和生成任务。这使得图像可以用少至32个令牌表示,而不是数百或数千个。
● 实时调整
参数高效微调(例如,LoRA)并不新鲜,但斯坦福的研究人员认为,一个更有针对性的方法会具有更高的效率和适应性。他们提出了ReFT( (Representation Fine-tuning)。ReFT不改变模型的权重,而是在推理时操控模型的内部表示以引导其行为, 尽管会带来轻微的干扰惩罚,ReFT相比基于权重的微调方法可以减少15-65倍的参数。ReFT还允许对特定层和token位置进行更具选择性的干预,实现使用过程中的细粒度控制。该方法下的学习存储占用较小,因此被认为可以用于在计算能力足够的设备上实现实时个性化。
● 混合模型
结合注意力机制和其他机制的模型能够降低计算成本和内存占用,同时保持甚至提高精度,于是混合模型开始获得关注。比如,去年为长序列处理设计的选择性状态空间模型Mamba,在一定程度上能够与tranformer竞争,但在需要复制或上下文学习的任务上仍存在差距。不过Falcon的Mamba 7B在与相似规模的traformer模型对比中表现出了惊艳的基准性能。AI21的Mamba-Transformer混合模型,结合了自注意力和MLP层,在知识和推理基准测试中超越了8B的transfomer架构,并且推理过程token的生成速度提高了8倍。Google DeepMind训练的Griffin,结合了线性递归和局部注意力,在训练数据量为Llama-2的六分之一的情况下,表现与其相当。至于循环神经网络(RNN),在训练和扩展存在困难因此不再流行,但是现在也有卷土重来的早期迹象。
那么transfomer模型能被蒸馏为混合模型吗?有一种名为MOHAWK的新方法,用于从大型预训练transfomer模型(教师)向较小的次二次模型(学生),如状态空间模型SSM,蒸馏知识。它会对齐学生模型和教师模型的序列变换矩阵以及每层的隐藏状态,然后将教师模型的其余权重转移到学生模型进行微调。论文作者结合Mamba-2和MLP块,创建了新学生模型Phi-Mamba;使用MOHAWK方法,可以训练Phi-Mamba,使其性能接近教师模型(Phi-1.5-1.3B)。然而,Phi-Mamba的训练仅需3B token,使用的数据量不到之前最佳表现的Mamba模型的1%,以及教师模型训练数据的2%。
在当前阶段,transfomer的替代方案和混合模型的研究,仍然属于小众领域,transforner仍然作为一种范式占据主导地位,统治着所有模型。
● 合成数据
去年的报告指出了当时对合成数据存在意见分歧:一些人认为它有用,而另一些人则担心可能因错误累积而导致模型性能崩溃。现在,观点似乎逐渐转暖。
Phi系列以合成数据作为主要训练源,Anthropic在训练Claude 3时也使用了合成数据弥补训练数据缺失。Hugging Face也使用Mixtral-8x7B Instruct生成了超过3000万份文件和25B token的合成教科书、博客文章和故事,以重现Phi-1.5训练数据集,并将其命名为Cosmopedia。NVIDIA 发布 Nemotron-4-340B 系列用于合成数据生成。在更新的许可协议下,Meta 的 Llama 也可用合成数据。还出现了从已经对齐的LLM中直接提取高质量的合成指令数据的技术,例如Magpie。通过这种方式微调的模型有时可以达到与Llama-3-8B-Instruct相当的性能。
不过模型崩溃也确实是棘手的问题,随着模型构建的快速推进,研究人员集中精力评估是否存在触发此类结果的合成数据数量的临界点,以及是否有任何缓解措施有效。牛津和剑桥的研究人员在《Nature》上的一篇论文指出,模型崩溃发生在各种AI架构中,包括微调的语言模型,这对预训练或周期性地接触少量原始数据可以防止退化(以perplexity衡量)的观点提出了挑战。这表明为保持模型质量,持续获取多样化的人工数据将变得越来越关键。然而,这些结果出现在合成数据完全替代真实数据的情况下,在实际操作中,真实和合成数据通常是混合的。其他研究则表明,只要合成数据的比例不过高,通常可以避免崩溃。(有点废话【手动狗头】)
● 数据质量
网络数据被大规模公开提取证明着数据质量是关键。Hugging Face团队构建了一个名为FineWeb的数据集,使用96个CommonCrawl快照,经过基本过滤、每个数据转储的独立MinHash去重、C4数据集衍生的选择性过滤器以及团队的自定义过滤器等步骤,最终数据大小为15T token,性能要好于原始的CommonCrawl WET文件。他们发现,去重在一定程度上提升了性能,但达到一个临界点后效果递减,甚至变差。团队还使用llama-3-70b-instruct对FineWeb中的50万份样本进行注释,根据其教育质量从0到5进行评分。过滤掉评分低于3的样本后,得到了FineWeb-edu数据集,尽管它的规模较小,性能优于FineWeb和所有其他公开数据集。
● RAG
检索增强生成(RAG)的日益发展推动了嵌入模型质量的提升。类似于LLM中的规律,嵌入模型的规模加大也会带来显著的提升(比如拥有47B的GritLM,明显优于之前普遍的110M大小的嵌入模型);使用更大规模的网络语料库和改进的过滤方法也使得较小模型的性能大幅提升。今年也出现了像ColPali这种视觉-语言嵌入模型,不仅利用文档的文本嵌入,还利用其视觉结构来改进检索效果。同时,检索模型是少数几个开源模型通常优于专有模型的子领域之一。在MTEB检索排行榜上,OpenAI的嵌入模型排名第29,而NVIDIA开源的NV-Embed-v2位居榜首。
上下文也被证明是RAG性能的关键驱动因素,传统的RAG解决方案通常涉及以256 token为单位切片,并使用滑动窗口(与前一个片段重叠128 token)。这使得检索更加高效,但准确性显著降低。Anthropic通过使用“上下文嵌入”解决了这个问题,在这种方法中,会使用prompt让模型生成一段摘要来解释每个切片的上下文,这种方法使前20个检索失败率降低了35%(从5.7%降至3.7%),通过Anthropic的提示缓存这一方法可以得到扩展。正如CMU的Fernando Diaz在最近的讨论中所指出的,这是将一种AI研究领域(例如早期的语音检索和文档扩展工作)中开创的技术应用于另一领域的一个很好的例子。这是“新瓶装旧酒”的又一版本。Chroma的研究也表明,分片策略的选择可以影响检索性能高达9%的召回率差异。
RAG领域还有一个悬而未决的问题就是评估。许多常用的RAG基准测试是重新利用的检索或问答数据集。它们无法有效评估引用的准确性、每段文本对整体答案的重要性或相互矛盾信息的影响。研究人员现在正在开创新的方法,如Ragnarök,它引入了一种基于互联网的新竞技场,进行成对的人工比较评估。但是这种方法展示了不同于传统自动化指标的评估挑战。与此同时,还有Researchy Questions,它提供了一个从真实用户查询中收集的复杂、多面问题的大规模集合,用于更深入地评估模型回答问题的能力。
● 计算资源
前沿实验室必须直面电力现实并致力于缓解问题,随着计算集群的规模不断扩大,构建和维护集群变得愈加困难。集群需要高带宽、低延迟的连接,并且对设备异构性非常敏感。研究人员看开始探索替代方案。谷歌DeepMind提出了分布式低通信(DiLoCo)优化算法,允许在多个松散连接的“孤岛”设备上进行训练。每个岛屿在与其他岛屿通信之前,执行大量的本地更新步骤,从而减少频繁的数据交换需求。该方案展示出了在通信减少500倍的情况下,在8个岛屿之间实现的完全同步优化。GDM还提出了DiLoCo的改进版本,优化了异步设置。Prime Intellect的研究人员更是发布了DiLoCo的开源实现和复现,并将其规模扩大了3倍,展示了其在10亿参数模型上的有效性。
随即出现的疑问是,更好的数据策划方法能否减少训练计算需求?数据策划是预训练的重要部分,但传统方法通常是手动且低效的。通常是一次性处理整个数据集,不考虑训练示例相关性在学习过程中的变化,且在训练前应用,无法适应训练过程中的变化需求,对于多模态模型更是尤其困难。Google DeepMind 的 JEST 方法选择整个批次的数据而不是单个示例,选择过程由预训练参考模型确定的“学习性分数”指导,该得分评估数据对训练的有用性。它能够将数据选择直接集成到训练过程中,使其具有动态性和自适应性。JEST 还会使用较低分辨率的图像处理进行数据选择和部分训练,在保持性能的同时显著降低计算成本。通过与其他方法对比,JEST 在多种指标上表现出优势。
● 中国AI
尽管受到制裁,中国的LLMs和VLLMs依然在排行榜上大放异彩,深度求索、零一万物、智谱AI 和阿里巴巴的模型在LMSYS排行榜上取得了良好的成绩,特别是在数学和编码方面表现尤为出色。中国实验室的最强模型与美国实验室的前沿次强模型处于同一竞争层次,但在某些子任务上展现了挑战SOTA的水准。中国大多实验室优先考虑计算效率,学着如何比美国同行更有效地利用资源,以此弥补得到GPU方面的限制。比如,DeepSeek开创了多头潜在注意力(Multi-head Latent Attention)等技术,以降低推理过程中的内存需求,同时增强了MoE架构;零一万物则更少关注架构创新,而是致力于构建强大的中文数据集,以弥补在像Common Crawl这样流行的语料库中汉语的相对不足。
中国的开源项目吸引着全球范围的粉丝,很多子领域中都有国产模型脱颖而出,成为强有力的竞争者。比如:DeepSeek在编程任务中成为社区的最爱,deepseek-coder-v2因其速度快、轻便和准确性高而备受推崇。阿里巴巴最近发布的Qwen-2系列,在视觉能力方面,拥有从复杂的OCR任务到分析复杂艺术作品的一系列震撼的能力。在小型终端方面,清华大学的NLP实验室资助了OpenBMB,该项目催生了MiniCPM项目。这些参数小于2.5B的模型可以在手提设备上运行。他们2.8B的视觉模型,在某些指标上仅稍微落后于GPT-4V。清华大学的知识工程组还创建了CogVideoX,是目前最强大的文本转视频模型之一。
● 多模态
VLMs(视觉语言模型)实现了开箱即用的SOTA性能,在2018年,首份 《State of AI Report 》详细介绍了为教会模型理解常识场景,研究人员创建数百万个b标注视频数据集所付出的艰苦努力,但是到了现在2024年,前沿模型都能提供开箱即用的视觉能力了。即使是参数规模在低几百M到单个位数B的小型模型(如微软的Florence-2或NVIDIA的LongVILA),也有很好的表现。艾伦AI研究所开源Molmo模型,甚至能与更大、更专有的GPT-4o相抗衡。
扩散模型在图像生成方面变得越来越复杂,在扩散模型基础上,Stability AI转向文本-图像,不断寻求提高图像质量的改进,同时提升效率。对抗性扩散蒸馏(Adversarial diffusion distillation)通过减少生成高质量图像所需的采样步骤,从可能的数百步减少到1-4步,从而加快了图像生成速度,同时保持高保真度。该方法将对抗训练与评分蒸馏相结合,这样模型就仅需要预训练的扩散模型作为指导就可以进行训练。除了实现单步生成外,他们还专注于降低计算复杂性和提高采样效率。经过修正的工作流改进了传统的扩散方法,通过直接的直线取代曲线路径连接数据和噪声。他们将这一方法与一种基于transfomer的新型架构相结合,用于文本-图像任务,允许文本和图像组件之间的信息双向流动,增强了模型基于文本描述生成更准确和连贯的高分辨率图像的能力。
Stability AI 发布的Stable Video Diffusion标志着高质量视频生成的一次重大进步,这是首批能够从文本提示生成高质量、逼真视频的模型之一,同时在定制个性方面也有了显著提升。该团队采用了三阶段的训练方法:i)在大型文本-图像数据集上进行图像预训练,ii)在精心挑选的大型低分辨率视频数据集上进行视频预训练,iii)在较小的高分辨率视频数据集上进行微调。3 月时,他们推出了Stable Video 3D,该模型在目标检测数据集上进行微调,以预测 3D 轨道。
各大实验室也跟着发布了自家的文本-视频项目,谷歌 DeepMind 和 OpenAI 都提供了高度强大的文本-视频扩散模型的预览,但访问权限依然受到严格限制,且两者都没有提供太多技术细节。OpenAI 的 Sora 能够生成最长达一分钟的视频,能做到同时保持 3D 一致性、物体永久性和高分辨率。它使用spacetime patches用于视觉内容(类似于 transformer 模型中使用的tokens),从大量视频数据集中高效学习。Sora 还在其原生大小和宽高比的视觉数据上进行了训练,消除了裁剪和调整大小这种通常会降低质量的操作的影响。谷歌 DeepMind 的 Veo 结合了文本、可选图像提示与噪声压缩视频输入,通过编码器和潜在扩散模型处理这些输入,创建独特的压缩视频表示,然后这个表示被解码为最终的高分辨率视频。其他的竞争对手包括的 Runway 的 Gen-3 Alpha、Luma 的 Dream Machine 和 快手的 Kling。
【Source: https://openai.com/index/video-generation-models-as-world-simulators/
Source:https://deepmind.google/technologies/veo/】
Meta 在文本-视频上更进了一步,将音频也纳入其中。保持其他实验室的受限方法,Meta 将其在不同模态上的工作通过 Make-A-Scene 和 Llama 系列整合,构建了 Movie Gen。Movie Gen 的核心是一个 30B 的视频生成模型和一个 13B 的音频生成模型,这些模型是在有许可和公开可用的数据集的组合上进行训练的,分别能够生成每秒 16 帧、持续 16 秒的视频和持续 45 秒的音频片段。为给任意长度的视频生成连贯音频,这些模型利用文本-图像和文本-视频任务的联合优化技术以及新颖的音频扩展方法。Movie Gen 的视频编辑功能则结合了先进的图像编辑技术与视频生成,允许在保留原始内容的同时进行局部编辑和全局更改。Meta 使用 A/B 人类评估比较来展示,其四个主要能力在与行业模型的比较中具有正向胜率。研究人员表示,他们打算在未来推出该模型,但未承诺具体时间表或发布策略。
【Source: https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/】
● 诺贝尔奖
瑞典皇家科学院授予诺贝尔奖给深度学习的开创者们,以及迄今为止在科学领域中应用最广泛的人工智能应用的设计者。人工智能获得了“诺贝尔奖”,这标志着人工智能作为一门科学学科和加速科学研究的工具,真正走向成熟,让整个领域对此消息表示祝贺。
● 生物模型
DeepMind和Isomorphic Labs发布了AlphaFold 3,这是AF2的继任者,现在可以模拟小分子药物、DNA、RNA和抗体与蛋白质靶点的相互作用。与AF2相比,算法发生了重大变化:所有的等变约束都被移除,以简化结构并扩大规模,同时将结构模块替换为扩散模型来构建3D坐标。研究人员声称,AF3在小分子对接等任务中表现出色(但是其实没和更强的baseline进行过比较)。
AF3目前尚未发布任何开源代码,这引发了激烈的争议,许多人将责任归咎于《Nature》。抛开政治因素,创业公司和AI社区之间展开了一场竞赛,争做首个成功复现或替代AlphaFold3的团队。第一个杀出来的黑马是百度的HelixFold3模型,其在配体结合方面的能力与AF3相当。他们提供了一个网络服务器,并且其代码完全开源,供非商业用途使用。Chai Discovery(由OpenAI支持)的Chai-1最近发布了一款分子结构预测模型,由于其卓越的性能和高质量的实现而受到广泛欢迎,他们的网络服务也可用于商业药物发现。大家仍在等待一个完全开源且没有任何限制的模型(例如,使用输出进行其他模型的训练),如果DeepMind开始担心替代品模型成为社区的最爱,他们会更早全面发布AF3吗?
在今年,DeepMind神秘的蛋白质设计团队终于“走出隐秘”,发布了他们的首个模型AlphaProteo,这是一种生成模型,能够设计出亚纳摩尔水平的蛋白质结合剂,其亲和力比以前的工作(如RFDiffusion)提高了3到300倍。所公布的技术细节不多,但该模型应该是建立在AlphaFold3之上的,且可能是一种扩散模型。目标表位上的“热点”也可以被指定。
● 苦痛的教训
生物模型中的bitter lesson是equivariance,等变性是指赋予模型处理旋转、平移和反射的归纳偏见。这一概念自AlphaFold 2以来一直是几何深度学习和生物分子建模研究的核心。然而,近期顶尖实验室的研究对这一既定信条提出了质疑。打响第一枪的是苹果,他们的论文使用非等变扩散模型和transformer编码器,在预测小分子3D结构方面取得了SOTA结果。值得注意的是,作者表明使用领域无关的模型并没有对泛化能力产生负面影响,并且在使用足够规模时,能够持续优于专业模型。接着是AF3,该模型取消了前一个模型中的所有等变性和框架约束,转而采用另一种扩散过程,进行了增强和扩大规模。不过,尽管如此,等变模型显著提高的训练效率意味着这一实践在一段时间内可能仍会继续(至少对于处理大系统如蛋白质的学术团队而言)。
● 生物学语言模型
自2019年以来,Meta 一直在发布基于transformer的语言模型(Evolutionary Scale Models),这些模型以大规模氨基酸和蛋白质数据库训练得来。当 Meta 在2023年终止这些工作时,团队创立了 EvolutionaryScale。今年,他们发布了 ESM3,这是一种前沿的多模态生成模型,训练数据不再仅限于序列,而是蛋白质的序列、结构和功能。EMS3模型是一个双向transformer,与传统的掩码语言建模不同,ESM3 的训练过程使用可变的掩码计划,使模型接触到多样化的掩码序列、结构和功能的组合,这样ESM3 就学会预测任何模态组合的补全。
还有语言模型在学习设计人类基因组编辑器 ,过去分析的案例大多是利用量多样化的天然蛋白质序列数据集上预训练的LLMs(例如ProGen2),可被用于设计功能性蛋白质,以得到和天然同类截然不同的序列。现在,Profluent已经在他们的CRISPR-Cas Atlas上对ProGen2进行了微调,以生成具有新序列的功能性基因组编辑器,这些编辑器首次在体外成功编辑了人类细胞的DNA。CRISPR-Cas Atlas包含超过100万个多样化的CRISPR-Cas操作子,包括各种效应系统,这些数据是从26.2万太字节的组装微生物基因组和宏基因组中提取的,覆盖了不同的门类和生态系统。微调后的模型生成的序列比CRISPR-Cas Atlas中的天然蛋白质多样性高出4.8倍。与最近的天然蛋白质的中位相似性通常在40%到60%之间。模型经过Cas9蛋白数据的模型微调可以生成新型编辑器,这些编辑器可以在人体细胞中得到了验证,其中编辑器的最佳性能达到与SpCas9的序列71.7%的相似度,此编辑器作为OpenCRISPR-1开源发布。
然而,在生物机器学习(BioML)领域的评估和基准测试仍然较差。生物与机器学习交叉领域研究的根本问题在于,能够同时训练前沿模型和进行严格生物评估的人才非常稀缺。2023年底的两项研究,PoseCheck和PoseBusters,显示出用于分子生成和蛋白质-配体对接的机器学习模型所生成的结构存在严重的物理上的违反。即使是AlphaFold3的论文也遭受了一些非议,因为Inductive Bio发现使用稍微先进一些的传统对接流程效果就可以超越AF3。在这种现状下,一个由Valence Labs领导的新产业联盟,包括主要制药公司(如Recursion、Relay、默克、诺华、强生和辉瑞),正在开发Polaris,一个用于AI驱动药物发现的基准测试平台。Polaris将提供高质量的数据集,促进评估,并认证基准。
未完待续
本篇文章主要涵盖了报告前51页,下一篇会继续,内容会包括无机材料、气象、脑电等领域的基础模型,以及关于LLM如何思考推理、强化学习智能体等等方面的AI研究总结。
《State of AI Report - 2024》原报告链接贴这里:
https://www.stateof.ai/2024-report-launch?utm_campaign=The%20Batch&utm_medium=email&_hsenc=p2ANqtz--E2dNNETYNpOSPcOPuhh7uKkXlzHEB8jQCtI8JWu-tmQghiwYXk6D3wFndmVtD7mkSQFIMW43-l9VjLEebTxBj2j3DuNAUOTCMWBaukD7uzSt3dLo&_hsmi=2&utm_content=2&utm_source=hs_email