斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

科技 2024-11-18 17:28 广东

来源：机器学习研究组订阅

Is DNA all you need？

AI可以实现从分子到基因组尺度的预测和生成任务了！

就在刚刚，这项研究登上了Science封面。

来自斯坦福和UC伯克利的研究人员，提出了一种全新的基因组基础大模型——Evo。

利用基于深度信号处理进展的架构，Evo扩展到了70亿参数，并在单核苷酸分辨率下实现了131千碱基的上下文长度。

目前，项目已经在GitHub上开源。

论文地址：https://www.science.org/doi/10.1126/science.ado9336

开源项目：https://github.com/evo-design/evo

值得一提的是，研究人员重磅发现了DNA的Scaling Law！

经过270万个原核生物和噬菌体基因组的训练后，Evo在DNA、RNA和蛋白质模态上展现出的零样本功能预测能力，可以与特定领域的语言模型相媲美，甚至直接超越。

生成合成CRISPR-Cas分子复合物和转座子系统的结果表明，Evo在多模态生成任务上的表现也很出色。

此外，研究人员还首次使用语言模型，进行了蛋白质-RNA和蛋白质-DNA协同设计，验证了Evo生成的CRISPR-Cas分子复合物以及IS200和IS605转座子系统的功能活性。

利用从整个基因组中学习到的信息，Evo掌握了核苷酸序列的微小变化如何影响整个生物体的适应度，并能生成长度超过1兆碱基的具有合理基因组架构的DNA序列。

有人表示，这项研究或许能使人们逆转衰老。

世界首个AI生成CRISPR-Cas系统诞生

要知道，所有生物体的DNA序列中，都编码着生命的基本指令，但理解它们却很复杂。

即使是最简单的微生物基因组也是如此，数百万个碱基对，编码出DNA、RNA和蛋白质之间的相互作用。

这种复杂性存在于从单个分子到整个基因组的多个尺度上，代表着在进化时间中经过功能性选择的庞大遗传信息景观。

如果能有一个模型，能在保持单核苷酸分辨率的同时，还能处理大型基因组序列，就可以帮助科学家提取出自然进化变异模式中蕴含的复杂分子相互作用功能信息了。

而今Evo的出现，让这一切都可以实现了。

Evo是一个包含70亿参数的基因组基础模型，可以学习从单个核苷酸到整个基因组的生物复杂性

它预测、生成和设计整个基因组序列的能力，可能会改变合成生物学的工作方式！

因为Evo了解跨模式的共同进化模式，所以研究人员决定证明它可以生成蛋白质和非编码 RNA的大分子复合物。

至此，世界上第一个AI生成的CRISPR-Cas系统诞生了！

Evo还具有生成整个基因组规模的序列的潜力。

在单个GPU上，研究人员生成了超过650 KB的DNA序列。使用Evo对这个长度的序列进行采样时可以发现，基因组包含数千个潜在的蛋白质编码序列。

未来，研究人员还将把Evo扩展到真核和人类序列。

研究人员表示，Evo有极大潜力帮助或取代湿实验室实验，他对此感到非常兴奋。

很多团队都不得不对必需基因进行费力的CRISPR筛选，但他们直接用神经网络的前向传播将之取代了！

Evo模型架构

如前所述，Evo是一个基因组基础模型，共有70亿参数。

它通过使用单核苷酸（single-nucleotide）、字节级分词方法，在高到131072个token的上下文进行了训练。

为了有效地以核苷酸分辨率对长序列进行建模，作者利用了基于深度信号处理新兴技术的StripedHyena架构。

Evo是29层数据控制卷积算子（hyena层）与三层（10%）配备旋转位置嵌入（RoPE）的多头注意力交织的混合体。

Hyena层使用长短卷积滤波器的组合，依赖输入的方式处理序列。这使得该层在过滤DNA中，可能出现的噪声模式，以及将单核苷酸聚集成基序（motifs）方面特别有效。

模型混合最初是为了解决状态空间模型的缺点而提出的，最近已经证明可以提高独立Hyena和Transformer架构的语言建模的scaling性能。

与上一代利用Hyena架构的DNA模型HyenaDNA相比，Evo基于改进的混合设计，可扩展到1000倍的模型大小和100倍的数据。

在训练模型过程中，研究人员编制了一个OpenGenome的大型基因组数据集，其中包含了80000多个细菌和古细菌基因组，以及数百万个预测的噬菌体和质粒序列，涵盖了3000亿个核苷酸token。

DNA的Scaling Law

为了帮助Evo模型设计，作者对DNA序列建模进行了scaling law分析，以此确定训练、架构细节和性能指标之间的关系。

一旦获得了scaling law，它就作为指导以最佳方式将训练scaling到更大的模型和数据集。

具体来说，作者在四个架构中训练了300多个模型：

Transformer++、Mamba、Hyena、StripedHyena。

Transformer++是最先进的Transformer，而Mamba是使用数据控制状态空间模型的现代架构。

结果发现，Transformer++在所有计算预算下，产生的困惑度明显更差，字节分辨率架构效率低下的症状。

与Transformer++相比，状态空间和深度信号处理架构的缩放率都有所提高，其中Hyena和StripedHyena的scaling率最佳。

此外，在分析sclaing过程中，作者还观察到StripedHyena在所有研究的模型大小和学习率中的稳定训练。

他们还比较了架构计算最优边界之外的性能，即分配的计算预算，可能是次优的。

与StripedHyena相比，Transformer++和Mamba在训练过程中都经历了数值不稳定性，并且在计算最佳边界之外的scaling率性能下降更大。

从以上这些发现中，才使得研究人员选择StripedHyena作为Evo的架构。

Evo跨DNA、RNA和蛋白质模态学习

预测突变对蛋白质功能的影响

除了评估困惑度之外，研究人员接下来研究了Evo在生物相关下游任务中零样本性能。

比如，在蛋白质序列或核苷酸编码序列大型语料库上，专门训练的语言模型已经证明了预测突变对蛋白质功能的影响的能力，无需任何特定任务的微调监督。

由于Evo的训练数据包含了蛋白质编码序列，作者测试其是否也可以进行零样本蛋白质功能预测。

这里，他们利用了深度突变扫描（DMS）研究，将一组详尽的突变引入蛋白质编码序列，然后通过实验测量这些突变对各种适应度指标的影响。

这些指标量化了功能活性。

氨基酸序列的语言模型似然或伪似然，被用来预测实验适配性得分。

为了使这项任务适用于核苷酸序列，作者使用了原始DMS研究中报告的野生型编码序列（wild-type coding sequence）和核苷酸突变（材料与方法）。

在原核蛋白质的DMS数据集上，Evo的零样本性能超过了测试中所有其他核苷酸模型，包括GenSLM。

Evo还达到了与主要蛋白质特异性语言模型相媲美的性能。

先前的研究表明，对于仅使用自监督预训练的蛋白质语言模型来说，超出此性能范围的改进是困难的，这表明Evo已经与最先进的细菌蛋白质语言建模竞争。

在人类蛋白质的DMS数据集上，Evo无法预测突变对适应度的影响，很可能是因为预训练数据集由原核序列组成。

然而，作者还观察到野生型序列上的语言模型困惑度与适应度预测性能之间存在很强的关联性，这表明对哺乳动物编码序列进行额外的微调或未来的预训练可以提高Evo的性能，而不仅仅是细菌蛋白。

预测突变对ncRNA功能的影响

接下来，作者测试了相同的预训练模型是否可以学习有关的ncRNA功能信息，比如tRNA、rRNA、核酶。

对此，他们收集了ncRNA DMS数据集并使用实验性ncRNA DMS研究的结果作为基础事实得分，来评估Evo进行零样本ncRNA适应性预测的能力。

结果发现，Evo在这项任务中再次优于所有其他测试的核苷酸语言模型，包括RNA-FM。

另外，在测量5S rRNA突变对大肠杆菌生长速率影响的研究中，作者观察到特别强的预测性能。

除了蛋白质序列之外，这些结果还表明Evo可以了解突变对ncRNA功能的影响。

预测调控DNA的活性

Evo的训练也包含了原核调控DNA序列，作者研究了Evo是否已经学习了对调控DNA任务的有用信息。

接下来，他们将专注于启动子序列预测基因表达和从核糖体结合位点（RBS）序列预测蛋白质表达。

对于监督启动子活性（promoter activity）预测，作者使用来自单个研究的训练和验证分割来开发自回归模型，然后在来自其他研究的启动子数据集上测试最终模型，以评估域外泛化能力。

下图F展示了，四项研究中启动子活性与零样本语言模型可能性、序列GC含量或监督模型之间的相关性。

对于蛋白质表达预测，作者使用了Kosuri此前创建的数据集，其中除了启动子外，还包含了RBS，除mRNA表达外还测量了蛋白质表达。

Evo的RBS序列零样本可能性与蛋白质表达，具有弱相关性。

然而，当把启动子和RBS序列链接在一起时，Evo的零样本可能性显著提高，这表明额外的调控序列，可以提供有用的功能背景。

Evo在启动子-RBS序列上零样本相关性，高于启动子-RBS序列的GC含量、零样本GenSLM似然性，以及RBS计算器——最先进的蛋白质表达预测器。

CRISPR-Cas分子复合物的生成设计

接下来，作者推断Evo能够生成涉及不同分子模态之间，相互作用的功能复合物。

在原核生物中，功能相关的基因通常被组织成操纵子，并在基因组序列上彼此相邻。

因为Evo学习涉及上下文内任何涉及遗传元素的共变模式，所以模型应该理解编码蛋白质和ncRNA分子之间的相互作用。

为了证明这种能力，作者在含有CRISPR-Cas序列的基因组位点数据集上微调了Evo。

值得一提的是，CRISPR-Cas序列是由蛋白质和ncRNA组成的分子机器，共同引导适应性免疫对抗病毒感染。

DNA靶向Cas9核酸酶，通常在3000到4800碱基对 (bp) 的编码序列中编码，并在基因组中与其同源的CRISPR阵列紧密相连。

CRISPR阵列转录产生的非编码CRISPR RNA（crRNA）分子与Cas蛋白结合，生成序列特异性DNA靶向所需的功能性防御复合物。

特别是对Cas9来说，第二个反式激活CRISPR RNA（tracrRNA）与crRNA形成双链，从而产生一个完整的引导RNA（gRNA）。

在细菌和古生物中发现了多种多样的CRISPR-Cas系统，例如基于Cas12或Cas13的系统，它们分别以DNA和RNA为靶向。

研究人员从公共宏基因组和基因组序列中提取的72831个CRISPR-Cas基因座上微调Evo，为Cas9，Cas 12和Cas 13添加特殊的提示token，这些标记被预先添加到每个训练序列的开头。

在采样过程中，这些token通过提示相应的特殊token知道特定CRISPR-Cas系统类型的生成。

使用这三种Cas token提示中的每一种对8-kb序列进行采样，会产生包含Cas编码序列和CRISPR阵列的相干世代。

如果Evo代包含了用MinCED包检测的CRISPR阵列，以及用Cas9、Cas 12或Cas 13特征隐藏马尔科夫模型（pHMM）返回的阳性命中开放阅读框架（ORF），则将其分类为Cas9、Cas 12或Cas 13序列。

与训练数据集的序列比对显示，一些用Cas9 pHMM预测的ORF与最接近的天然Cas9的蛋白质序列同一性也小于40%。

作者还发现，与仅在CRISPR-Cas序列上训练的模型相比，在CRISPR-Cas基因座上微调的Evo模型在所有Cas亚型上产生的世代质量更高、更多样化。

下图E展示的是，通过pHNMR和CRISPR ncRNA预测算法确定在II型CRISPR系统中，EvoCas9-1基因中发现的核心蛋白编码基因和ncRNA组分。

F是在于同源sgRNA和InM DNA靶向10:10:1摩尔比Cas9:sgRNA:target孵育后SpCas 9和EvoCas 9 -1切割反应的时程结果。

EvoCas 9 -1氨基酸序列与用于模型微调的Cas蛋白数据库中，最接近的Cas9具有79.9%的同一性，与SpCas 9具有73.1%的同一性。

尽管EvoCas 9 -1的预测骨架结构类似于SpCas 9骨架结构，但EvoCas 9 -1的预测结构表现出更正的表面电荷分布。

另外，来自SpCas 9晶体结构分离的sgRNA结构和通过AlphaFold 3模型预测的EvoCas 9 -1 sgRNA的结构，显示出RNA二级结构的强烈一致性。

EvoCas 9 -1的AlphaFold 3共折叠结构预测在其蛋白质、RNA和DNA组分中，得到了平均高达90的pLDDT评分。

转座子系统的生成设计

除了分子复合物，Evo还学习多基因系统的基本模式。

可动遗传因子（MGEs）通常包含多个基因的生物系统，并且在生命的所有领域中被发现。

它们的伺机传播推动了序列变异，新基因功能、甚至是物种的形成。

MGE的IS200/IS605家族通过同源二聚体转座酶TnpA与元件左端和右端处的末端发夹相互作用，催化出「剥离-粘贴」转座来传播。

插入序列（IS）从单链DNA（ssDNA）中切除，形成含有RE-LE结的环状产物，作为插入到新的ssDNA目标位点的中间产物。

IS605元件还含有RNA引导的TnpB核酸酶和同源的ωRNA，它们偏向于转座元件的自私遗传。

研究人员基于10720个IS 605元件和219866个IS 200元件天然序列背景下微调Evo。

接下来，他们计算了自然IS 200/IS 605基因座上每个位置的条件概率的熵，并观察到熵的急剧和持续增加，特别是与元素3'端相对应，这表明了Evo学会了MGE边界的表示。

使用特殊的提示token，研究人员使用微调模型来生成IS200或IS605元素。

在这些生成序列内检测到TnpA和TnpB蛋白质在训练集中，最接近实力的距离上变化很大，对于训练集中大于40%至50%同一性的预测结构具有一致的高ESMFold pLDDT值。

而且，序列长度分布与训练集中蛋白质紧密匹配。

为了选择用于实验验证的序列，作者通用与天然系统（ISSpn 6、ISStin 10、ISHp 608和ISDge 10）的相似性以及TnpA蛋白水平和DNA序列水平特征进行过滤，并在体外实验测试了24种IS200样和24种IS605样的设计。

然后，作者通过将体外转录产生的TnpA蛋白与含有假定左右端的ssDNA孵育，然后用外向引物进行聚合酶链反应 (PCR)，以检测TnpA介导的切除和插入。

如果发生切除，RE-LE结的形成会产生一条带。如果供体含有其他目标位点，并且也发生了插入，则通过相同的PCR反应，在两个ssDNA底物连接处产生条带。

研究人员观察到，24个Evo生成IS200样元中有11个和24个Evo生成的IS605样元中，有3个在体外显示了切除和插入的证据。

这种活性还依赖于一个假定的催化酪氨酸的存在，以及ssDNA底物而不是双链DNA（dsDNA），这与已知的IS200/IS605 TnpA机制一致。

为了确定每个元件的精确边界，研究人员对PCR产物进行了纳米孔测序。

作为对照，他们还检测了天然IS200元件ISSpn6和IS605元件ISHp608，在这两种情况下，都成功地检测到了ISFinder标注的边界。

在生成的元件中，有三个似乎也能利用一对以上的左端或右端进行移动。含有推定TnpB编码序列的类IS605功能元件，还含有与已知ωRNAs构建的协方差模型显著匹配（cmsearch E值小于0.001）的序列。

从整体上看，14个活性元件使用了一组不同的发夹，编码的功能性TnpA蛋白与微调数据库的序列同一性低至67%。

通过长基因组上下文学习基因

在第二阶段的预训练中，Evo处理了具有131,072个token上下文的序列，其中还包含物种特异性token。

结果显示，Evo在其131,072长度的上下文中，保持了单核苷酸分辨率。

这一点很重要，因为如果单个核苷酸突变破坏了该基因的表达或功能，也可能导致生命无法维持。

研究人员在给定生物体基因组中每个编码序列的开始处，插入提前终止密码子，并测量这些变化对Evo似然值相对于野生型序列似然值的影响。

可以观察到，在66k上下文下，Evo对数似然值的变化与58个基因组中的49个基因必要性显著相关。

此外还可观察到，为模型提供超出基因序列的额外基因组上下文会带来性能的显著提升，尤其是从仅基因上下文到8k上下文。

从8k到66k上下文，平均预测性能相当，尽管在较低范围的样本上，性能确实随着更长的上下文而提高。

对于一些基因组，66k上下文的zero-shot性能特别强，在lambda噬菌体必要性数据上AUROC达到0.90，在铜绿假单胞菌必要性数据上AUROC达到0.84。

在使用不同的计算机模拟突变策略时，如改变插入终止密码子的数量或完全删除基因序列，Evo似然值的变化也能指示基因必要性。

在基因组规模上生成DNA序列

研究人员使用Evo采样生成了16个各约含1 Mb的序列，这是模型131 kb上下文长度的七倍多。相比之下，「最小」的细菌基因组长度约为580 kb。

使用训练数据集中的物种级标记来提示模型生成细菌基因组

结果显示，Evo生成的编码序列密度与自然基因组几乎相同，且明显高于随机序列。

通过可视化观察，自然序列和生成序列都显示出相似的编码组织模式，邻近的序列通常具有相同的链方向；在细菌中，这些紧密相连的编码序列组通常对应于功能相关的基因簇或操纵子。

使用ESMFold对这些编码序列进行蛋白质结构预测时，几乎所有序列都展现出了二级结构和球状折叠。而且，很多蛋白质还展现出了与天然蛋白相似的结构。

在生成的所有约16 Mb序列中，Evo还能够生成128个tRNA序列，其反密码子对应于所有经典氨基酸。

进一步观察可以发现，包括GC含量、双核苷酸频率和某些密码子使用模式在内的各种基因组范围序列模式，与随机序列相比都更接近自然基因组。

在准确性方面，Evo的物种特异性生成序列与其对应的自然参考序列之间存在强相关性，四核苷酸使用偏差（TUDs）的准确度足以重建生成序列间的自然系统发育关系。

此外，TGA和TAA终止密码子出现频率最高，而TAG最少见，这与之前在原核生物基因组中观察到的模式一致。相比之下，随机序列显示出均匀分布的终止密码子比例。

这些分析共同表明，Evo生成的序列捕捉到了自然原核生物基因组特有的多层基因组特征。

然而，也存在一些不自然的特征。

首先，生成的序列不含有许多通常表明完整基因组的高度保守标记基因，在约16 Mb的样本序列中，Evo仅生成了三个rRNA。

其次，很多蛋白质结构预测的可信度较低，偏向于进化上较简单的α-螺旋型二级结构，且与自然蛋白质代表性数据库中的任何条目的结构匹配度有限。

目前能力有限，未来潜力无限

一个能在基因组层面设计的模型，显然有潜力推进治疗发现，拓宽我们对基础生物学的理解。

现在，球基因组与健康联盟（GA4GH）已制定了基因工程技术监管原则。

研究人员表示，已开源该模型促进透明度，同时采取措施，将真核病毒排除在了预训练数据集之外。

尽管这个第一代DNA基础模型能力显著，但仍有一些限制。

比如，研究人员仅仅是在3000亿个原核生物token上预训练了Evo，仅占公开可用基因组数据中的极小部分。

另外，由于模型仅在原核生物数据上训练，在预测突变对人类蛋白质适应度的功能影响时就能力有限。

而且与自然语言模型类似，Evo在保持长序列的连贯性和多样性方面也面临挑战。

比如许多CRISPR-Cas生成结果存在明显问题，如缺失或截断的cas基因。

在基因组层面上，虽然Evo生成的兆碱基长序列展示了对基因组组织的高层次理解，但在包含关键标记基因（如完整的rRNA集）方面仍有困难。

LLM也遇到了相似限制，通过增加参数、标记数据、prompt工程和人类偏好对齐一一改进，因此DNA模型或许也会遵循类似轨迹。

最后研究人员展望：Evo有望成为下一代序列搜索算法的基础，将生物工程和设计的范围扩展到整个基因组的尺度。

参考资料：

https://www.science.org/doi/10.1126/science.ado9336

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告（94页）

52. IQM ：2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值（58页）

55. 2023-2024世界基础设施监测报告

56. 世界银行：2024世界发展报告，中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会：《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康：2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告（80页）

63. 国家互联网信息办公室：国家信息化发展报告2023年110页

64. 埃森哲：2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院：2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会：《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询：2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术：前景、危险和可能性》45页报告

71. 英国皇家学会报告：人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所：2024世界技趋势报告（980页）

73. 面向大规模脉冲神经网络：全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础：从经济学到不对称战争》2024最新94页报告

76. CBInsights：2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院：数据管理和使用：21 世纪的治理（2024），99页

78. 兰德智库：展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织：2024年世界知识产权报告：让创新政策促进发展

80. 全球灾难风险研究所：评估大型语言模型接管灾难的风险

81. 牛津马丁学院：人工智能风险国际科学评估的未来

82. 联合国贸易和发展署：2024世界投资报告

83. 兰德公司：人工智能军事应用的新风险和机遇

84. 英国皇家学会：AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论：从中国到世界从陆地到海洋-240902，98页

86. 中国信通院发布《大模型落地路线图研究报告（2024年）》

87. 星河智源：2024年无人驾驶技术全景报告35页

88. 星河智源：2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论：特斯拉领衔人形机器人的从1到N

90. 兰德：展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡：2024困难点：驾驭能源转型的物理现实（196页）

93. 《麻省理工科技评论》万字长文：什么是人工智能？

94. 软件与服务行业：从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院：中国数字经济发展研究报告2024年82页

96. CB Insights：2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能：全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准（8项）汇编

100. 麦肯锡2024技术趋势展望报告100页

人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构