AI大模型专刊——10月

科技 2024-11-07 16:05 北京

10月

AI大模型专刊

目录

10月国外重要资讯

1、OpenAI推出Realtime API的公开测试版；推出编写和编码项目的新方法和新界面Canvas；发布了智能体基准MLE-bench；推出实验性框架“Swarm”

2、BlackForestLabs发布图像生成模型FLUX1.1 [pro]

3、Meta推出Movie Gen视频生成AI模型；推出结合了文本和语音输入和输出的Spirit LM开源多模态语言模型

4、英伟达开源了其大模型Llama-3.1-Nemotron-70B-Instruct；英伟达提供帮助的世界最大AI超级计算机Colossus上线

5、Adobe推出视频制作大模型Firefly

6、IBM推出面向企业AI的开源Granite 3.0 LLM.

7、Microsoft宣布为其Dynamics 365平台推出一套自主AI代理

8、Stability AI推出了Stable Diffusion 3.5

9、10月其他产品发布综述

10、本月AI大模型投资与并购综述

10月国外论文选摘

1、MMMU：专家级AGI的大规模多学科多模态理解和推理基准

2、艾亚模型：一个经过指令微调的开放访问多语言语言模型

3、光栅化边缘梯度：可微分地处理不连续性

4、概念算术用于规避扩散模型中的概念抑制

5、为什么敏感函数对 Transformer 来说很难

6、通过语言模型算术实现受控文本生成

7、半监督神经原始语言重建

8、因果估计记忆档案

9、自由形态像素的极简视觉

10、甲骨文译码的条件扩散模型

10月国外重要资讯

1、OpenAI推出Realtime API的公开测试版；推出编写和编码项目的新方法和新界面Canvas；发布了智能体基准MLE-bench；推出实验性框架“Swarm”

10月1日，OpenAI推出了Realtime API的公开测试版，所有付费开发者都能在其应用中构建低延迟的多模式体验。与ChatGPT的高级语音模式类似，Realtime API现在支持六种预设语音，用户可以在新窗口中访问这些语音选项。

OpenAI提供了在聊天完成API支持不需要Realtime API的低延迟优势的使用案例。通过此更新，开发人员可以将任何文本或音频输入传递到GPT-4o中，并让模型使用他们选择的文本、音频或两者进行响应。

有了Realtime API，可以方便使用Chat Completions API 中的音频，可以快速利用语音体验与用户建立联系，开发人员不再需要将多个模型拼接在一起来支持这些体验。相反，现在可以通过单个API 调用构建自然的对话体验。

10月3日，OpenAI推出了Canvas，这是一种使用ChatGPT编写和编码项目的新方法。Canvas在单独的窗口中打开，允许用户和ChatGPT协作处理一个项目。

Canvas是使用GPT-4o构建的，可以在beta版的模型选择器中手动选择。从发布当天开始，OpenAI将向全球的ChatGPT Plus和Team用户推出Canvas。Enterprise和Edu用户将在随后获得访问权限。OpenAI还计划在ChatGPT Free测试版结束后向所有用户提供Canvas。

10月10日，OpenAI发布了智能体基准MLE-bench。这是一个衡量AI代理在机器学习工程中表现的基准。

10月11日，OpenAI推出实验性框架“Swarm”，通过简化智能体的协调、执行和测试过程，帮助解决开发者在多智能体系统编排中面临的复杂挑战。

Swarm 框架通过简化智能体的协调、执行和测试过程，让开发者能够更高效地管理、互动多个AI智能体。

2、BlackForestLabs发布图像生成模型FLUX1.1 [pro]

10月3日，BlackForestLabs发布图像生成模型 FLUX1.1 [pro]，这是他们迄今为止最先进、最高效的模型，同时正式发布了测试版BFL API。此版本代表了该公司为创作者、开发人员和企业提供尖端、可扩展的生成技术这一使命的一个重要里程碑。FLUX1.1 [pro] 的生成速度是其前代产品的6倍，同时提高了图像质量、快速粘附性和输出多样性。

3、Meta推出Movie Gen视频生成AI模型；推出结合了文本和语音输入和输出的Spirit LM开源多模态语言模型

10月4日，Meta宣布推出视频生成器Movie Gen，Movie Gen可以使用文本输入自动生成新视频，还可以编辑现有素材或静止图像。Movie Gen系列包括两个主要模型MovieGen Video和MovieGen Audio。

MovieGen Video是一个具有300亿个参数的变换器模型，可根据单个文本提示生成高质量、高清晰度的图像和视频，生成的视频可长达16 秒，每秒16帧。MovieGen Audio是一个130亿参数的变压器模型，可以接收视频输入和可选的文本提示，并生成与输入视频同步的长达45秒的高保真音频，这种新的音频模型可以生成环境音效、器乐背景音乐和Foley音效。

10月18日，Meta推出了Meta Spirit LM，这是该公司第一个能够无缝集成文本和语音输入和输出的开源多模态语言模型。

因此，它直接与OpenAI的 GPT-4o（也是原生多模态）和其他多模态模型（如Hume的EVI 2）以及专用的文本转语音和语音转文本产品（如 ElevenLabs）竞争。

4、英伟达开源了其大模型Llama-3.1-Nemotron-70B-Instruct；英伟达提供帮助的世界最大AI超级计算机Colossus上线。

10月17日，英伟达开源了其大模型Llama-3.1-Nemotron-70B-Instruct，在多个基准测试中，它一举超越多个先进的AI模型，包括OpenAI的GPT-4、GPT-4 Turbo以及Anthropic的Claude 3.5 Sonnet等140多个开闭源模型。

10月29日，使用NVIDIA Spectrum-X以太网网络平台，由100,000个NVIDIA Hopper GPU组成的xAI巨像超级计算机集群搭建完成。该平台在为使用基于标准的以太网的多租户超大规模AI工厂提供卓越的性能，同时支持远程直接内存访问（RDMA）网络。

5、Adobe推出视频制作大模型Firefly

10月14日，Adobe推出视频制作大模型（测试版）Firefly，扩展了Adobe的创意生成式AI模型系列。这是其第一个公开可用的视频模型，旨在安全地用于商业用途。Firefly模型的增强功能包括将图像生成速度提高4倍，以及集成到Photoshop、Illustrator、Adobe Express和现在的Premiere Pro中的新功能。

6、IBM推出面向企业AI的开源Granite 3.0 LLM

10月21日，IBM宣布发布其AI模型系列Granite 3.0。其中，Granite 3.0 8B和2B模型，在宽松的Apache 2.0许可下发布，在许多学术和企业基准测试中表现出强大的性能，能够超越或匹配类似大小的模型。新的Granite 3.0 Mixture-of-Expert模型可实现极其高效的推理和低延迟，适用于基于CPU的部署和边缘计算。

7、Microsoft宣布为其Dynamics 365平台推出一套自主AI代理

10月21日，Microsoft宣布为其Dynamics 365平台推出一套自主AI代理，这次发布的有10个新的自主代理，旨在增强销售、服务、财务和供应链团队的效率。

8、Stability AI推出了Stable Diffusion 3.5

10月22日，Stability AI推出了Stable Diffusion 3.5。此次发布的开放版本包括多个模型变体，包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo和Stable Diffusion 3.5 Medium。

其中，Stable Diffusion 3.5 Large具有80亿个参数，是Stable Diffusion系列中最强大的，此型号非常适合1 MP分辨率的专业用例。

Stable Diffusion 3.5 Large Turbo是Stable Diffusion 3.5 Large的精简版本，只需4个步骤即可生成具有出色快速粘附性的高质量图像，使其比Stable Diffusion 3.5 Large快得多。

Stable Diffusion 3.5 Medium拥有25亿个参数，具有改进的 MMDiT-X架构和训练方法，旨在“开箱即用”地在消费类硬件上运行，在质量和易于定制之间取得平衡。它能够生成分辨率在0.25到2 MP之间的图像。

9、10月其他产品发布综述

10月22日，Anthropic AI发布了一个新模型Claude 3.5 Haiku，同时发布了升级到最新版本的Claude 3.5 Sonnet。升级后的 Claude 3.5 Sonnet 对其前身进行了全面的改进，在编码方面取得了特别显著的进步。Claude 3.5 Haiku 的性能与公司当前最大的型号Claude 3 Opus的性能相当。

10月23日，Cohere发布了多模态AI搜索模型Embed 3，它支持多模态搜索，用户不仅可以通过文本，还能通过图像进行企业级的检索，为图像数据释放了真正的商业价值。

10月24日，Cohere发布了拥有80亿和320亿个开放权重的模型Aya Expanse，这是一个多语言模型系列，支持包括中文、英语、阿拉伯语等在内的23种语言，显著提升了各类主流模型的性能。

10月24日，Midjourney 推出AI图像编辑器。借助Midjourney的新“编辑”功能，用户可以上传他们选择的任何图像，并使用AI实际编辑其中的部分，或者将其样式和纹理从源图更改为完全不同的东西，比如将老照片变成动漫，同时保留图像的大部分主题和对象以及空间关系。它甚至可以处理提交的涂鸦和手绘，在几秒钟内将涂鸦变成完整的艺术作品。

10月29日，全球开源平台GitHub发布了最新AI大模型编程产品——GitHub Spark。它是一种完全使用自然语言构建应用程序的AI原生工具。并且，Spark是功能齐全的微应用程序，可以集成AI功能和外部数据源，而无需对云资源进行任何管理

10、本月AI大模型投资与并购综述

本月AI大模型相关投资与并购主要发生在欧美地区，整个投资与并购超过7次。

10月9日，Basecamp Research获得了6,000 万美元B轮融资。该公司在世界上最大的、符合道德标准的生物信息数据库之上构建基础 AI模型，让AI能够实现对生物学有史以来最完整的理解。它与生物制药公司和学术研究机构合作，设计新型蛋白质序列和生物系统，以改变治疗研究和开发。

10月9日，AI驱动的环境管理软件公司Forward Earth公司筹集了450万欧元的种子轮融资。它通过将环境管理工具嵌入现有业务软件，使公司能够遵守不断变化的法规，减少对环境的影响，并推动其运营的可持续性。

10月15日，Omnea在A轮融资中筹集了2000万美元。该公司专注于开发一个由人工智能驱动的采购编排和供应商风险管理平台，旨在简化采购流程，并帮助企业更有效地控制和管理其支出。

10月15日，WhiteBridge公司在种子前融资中筹集了50万美元。公司是一个专注于在线声誉管理和数字足迹平台的人工智能平台。

10月17日，英国初创公司Neuphonic筹集了300万英镑的种子前资金，将利用世界上最快的文本转语音技术重新定义人工智能通信。其正在申请专利的算法能够以仅25毫秒的超低延迟实现实时增量语音生成，使其成为世界上最快的文本转语音解决方案。

10月29日，总部位于柏林的人工智能早期乳腺癌检测平台Vara宣布筹集到了890万美元。Vara公司的软件已集成到德国的国家乳腺癌筛查计划中，为该国40%的筛查中心提供支持，利用AI系统大幅提高了乳腺癌检测的准确性和效率。

10月31日，总部位于伦敦的医疗技术公司Scalpel AI获得融资480万美元。该公司的产品允许医疗保健提供者使用计算机视觉和机器学习来管理和跟踪手术工具和植入物。当每个工具从供应商仓库移动到手术室再返回时，它会为每个工具生成一个数字孪生，并验证运送到手术室的手术托盘是否包含正确的设备。

10月国外论文选摘

1、MMMU：

专家级AGI的大规模多学科多模态理解和推理基准

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI（CVPR 2024）

MMMU是一个大规模多学科多模态理解和推理的基准测试，旨在评估AI模型在专家级任务中的表现。MMMU包含11.5 K多模态问题，覆盖六个核心学科：艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题跨越了30个学科和183个子领域，包括32种高度异构的图像类型，如图表、图解、地图、表格、乐谱和化学结构等。与现有基准不同，MMMU聚焦于高级感知和特定领域知识的推理，挑战模型执行类似专家面临的任务。MMMU提供了详细的评估框架，允许模型开发者在统一的标准下竞争与比较。即使是先进的GPT-4V也仅取得了56%的准确率，表明还有很大的提升空间。MMMU的出现为多模态AI研究提供了新的动力，它不仅衡量模型的知识储备，更重要的是评估模型将不同模态信息（如文本和图像）整合并进行高级推理的能力。

论文地址：

https://openaccess.thecvf.com/content/CVPR2024/papers/Yue_MMMU_A_Massive_Multi-discipline_Multimodal_Understanding_and_Reasoning_Benchmark_for_CVPR_2024_paper.pdf

2、艾亚模型：

一个经过指令微调的开放访问多语言语言模型

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Mode（ACL 2024）

“Aya”是一种多语言语言模型，它经过了指令微调，以提高其对自然语言指令的理解能力。Aya模型旨在提供一种开放访问的语言处理工具，能够理解和生成多种语言的文本。该模型通过在大规模多语言数据集上进行预训练，然后针对特定的指令进行微调，以提高其在特定任务上的性能。Aya模型的特点包括：1）多语言支持：能够处理多种语言的文本，使其适用于全球用户；2）指令微调：通过微调，模型能够更好地理解和执行用户给出的指令；3）开放访问：模型对研究人员和开发者开放，可以用于各种语言处理任务；4）应用广泛：可以应用于机器翻译、文本摘要、问答系统等多种自然语言处理任务。总结说来，大规模多语言生成语言模型Aya，遵循101种语言的指令，覆盖原来语言种类两倍。此外，该模型还引入广泛的新评估套件，扩展了99种语言的多语言评估技术。

论文地址：

https://arxiv.org/pdf/2402.07827

3、光栅化边缘梯度：

可微分地处理不连续性

Rasterized Edge Gradients: Handling Discontinuities Differentiably(ECCV 2024)

在计算机视觉和图形学中，渲染过程梯度的计算对于多种应用至关重要。然而，由于不连续性和渲染近似，尤其是基于表面的表示和基于光栅化的渲染，这些梯度的准确计算面临挑战。作者提出一种新的方法，用于计算基于光栅化的可微分渲染器在可见性不连续性处的梯度。这种方法通过一个精心设计的近似策略，简化了传统上复杂的问题，提供了一个直接、有效且性能良好的解决方案。作者引入了微边缘（micro-edges）的概念，允许将光栅化图像视为与固有的非可微分、离散像素光栅化对齐的可微、连续过程的结果。这种技术消除了渲染近似或对前向传递进行其他修改的需求，保持了渲染图像的完整性，使其适用于光栅化掩模、深度和法线图像。在过滤被禁止的情况下，该技术利用微小边缘简化了不连续性处梯度的解释，并支持几何交叉点的处理，提供了比以往技术更优越的性能。作者在动态人头场景重建中展示了他们的方法，证明了对相机图像和分割掩模的有效处理。

论文地址：

https://arxiv.org/pdf/2405.02508

4、概念算术用于规避扩散模型中的概念抑制

Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models(ECCV 2024)

出于道德和法律方面的考虑，科学界正在积极研究各种方法，以限制滥用 “文本到图像”传播模型，以及在生成的图像中复制受版权保护的、暴力的、色情内容或个人信息。本次是首个在概念抑制及其规避的背景下考虑扩散模型组合属性的研究。作者在测试这些新开发的安全措施，通过扮演对手的角色，寻找其中的漏洞和后门。利用扩散模型的组合特性，可以在单个图像生成中利用多个提示。这一特性允许结合那些本不应受抑制影响的概念，重构负责生成目标概念的向量，即便该向量已无法直接计算。文中提供了理论和实证证据，解释了为何所提议的攻击是可能的，并讨论了这些发现对安全模型部署的影响。作者认为，考虑对手可能采用的所有图像生成方法对于扩散模型至关重要。此外，本次研究引发了关于概念运算和组合推理对扩散模型安全机制影响的讨论。

论文地址：

https://arxiv.org/pdf/2404.13706

5、为什么敏感函数对

Transformer 来说很难

Why are Sensitive Functions Hard for Transformers（ACL 2024）

实证研究已经确定了Transformer在学习上的一系列偏差和局限性，例如，在学习计算如PARITY这样的简单形式语言时持续遇到困难，以及对低次函数的偏好。然而，理论上的理解仍然有限，现有的表达性理论要么高估要么低估了实际的学习能力。本研究证明了，在 Transformer 架构下，损失景观受到输入空间敏感性的限制：那些输出对输入字符串的许多部分敏感的 Transformer位于参数空间中的孤立点，导致在泛化中出现低敏感性偏差。作者从理论和实证上展示了这一理论统一了关于 Transformer学习能力和偏差的广泛实证观察，例如它们对低敏感性和低次的泛化偏好，以及在PARITY的长度泛化上的困难。这表明，理解 Transformer的归纳偏差不仅需要研究其原则上的表达能力，还需要研究其损失景观。

论文地址：

https://arxiv.org/pdf/2402.09963

6、通过语言模型算术实现受控文本生成

Controlled Text Generation Via Language Model Arithmetic（ICLR 2024）

论文介绍了一种名为模型算术的新框架，用于在不需要模型重新训练或特定数据集的情况下，组合和偏置大型语言模型（LLMs）。该框架允许比直接提示和先前的受控文本生成（CTG）技术更精确地控制生成的文本。通过模型算术，研究者可以将先前的CTG技术表达为简单的公式，并自然地扩展到新的、更有效的公式。此外，论文还展示了一种用于高效LLM采样的技术——推测采样（speculative sampling），并将其扩展到模型算术设置中。这使得使用多个组合模型进行高效文本生成成为可能，且仅比单一模型的开销略有增加。实证评估表明，模型算术允许对生成的文本进行细粒度控制，同时在减少毒性任务上超越了目前最先进的技术。

论文地址：

https://files.sri.inf.ethz.ch/website/papers/dekoninck2024controlled.pdf

7、半监督神经原始语言重建

Semisupervised Neural Proto-Language Reconstruction（ACL 2024）

论文探讨了在历史语言学领域，如何使用半监督学习方法来重建祖先语言（即原语言或祖语）。其研究意义在于：传统的语言重建方法需要大量的标记数据，但在现实情况下，这些数据往往是稀缺的。因此，开发能够在有限标记数据情况下进行有效训练的模型是非常有价值的。论文介绍了原语言重建的重要性以及现有方法的局限性，即它们通常需要完全监督，依赖大量已标记的数据。作者提出了一种新的半监督学习任务，该任务使用少量标记数据（带有原形的同源词集）和大量未标记数据（没有原形的同源词集）来训练模型。本文还提出了一种名为DPDBiReconstructor的神经网络架构，该架构结合了语言学家比较方法的一个关键见解：重建的词不应该只能从其后代词中重建出来，还应该能够通过确定性的音变规则变回其后代词。研究者通过实验验证得出DPDBiReconstructor模型在新的半监督任务上拥有优异表现，特别是与现有的半监督基线相比，该模型能够更好地利用未标记的同源词集，从而取得了更好的性能。

论文地址：

https://aclanthology.org/2024.acl-long.788.pdf

8、因果估计记忆档案

Causal Estimation of Memorisation Profiles（ACL 2024）

论文探讨了语言模型中的记忆问题，这对于理解模型的训练动态和防止版权侵犯等具有实际和社会价值。以往的研究将记忆定义为训练样本对模型预测该样本的能力的影响的因果效应。这种定义基于一个反事实假设：即观察如果模型没有遇到该样本会发生什么。现有的方法难以提供既高效又准确的反事实估计。而且，它们通常估计的是模型架构层面的记忆，而非特定模型实例的记忆。本文填补了文献中的一个关键空白，提出了一种新的、基于计量经济学中的双重差分设计的原则性和高效的记忆估计方法。利用这种方法，只需观察模型在整个训练过程中对一小部分样本的行为，就能够描绘出模型的记忆档案——即其在整个训练过程中的记忆趋势。

在与Pythia模型套件的实验中，笔者发现模型记忆有三个关键因素：模型大小、数据顺序和学习率，还发现不同大小模型之间记忆趋势的相似性。1）更大的模型记得更牢、更久：就像人脑一样，模型的“大脑”（即模型的参数数量）越大，它能够记住的信息就越多，记忆的时间也越长。这意味着大型模型在处理和记忆训练数据时，表现得更出色，记忆效果更持久。2）记忆效果受数据顺序和学习率影响：模型的记忆效果不仅取决于其大小，还受到训练过程中数据呈现的顺序和学习速度（学习率）的影响。就像人们在不同情境下学习效果不同一样，模型在不同数据顺序和学习速度下的记忆效果也会有所不同。3）记忆趋势在不同大小模型中相似，可以预测：尽管模型大小不同，但它们在记忆方面展现出相似的趋势。这意味着，通过研究小型模型的记忆行为，可以预测大型模型的记忆特性。这类似于通过观察小孩子的行为来预测他们长大后可能的行为模式。

论文地址：

https://arxiv.org/pdf/2406.04327

9、自由形态像素的极简视觉

Minimalist Vision with Freeform Pixels(ECCV 2024)

本文介绍了一种极简主义视觉系统，可以使用最少数量的像素来完成视觉任务。不同于传统相机使用的大网格方形像素，极简主义相机采用可以任意形状的自由形状像素，来增加其信息内容。该系统的硬件可以被建模为神经网络的第一层，后续层用于推理。通过训练来确定自由形式像素的形状，这些像素由光电探测器和光学掩模实现。另外，设计了几个应用案例，如监测室内空间（8个像素）、测量房间照明（8个像素）和估计交通流量（8个像素），其性能却与使用多个数量级更多像素的传统相机相当。极简主义视觉的两个主要优势：1）保护场景中个体的隐私，因为所捕获的信息不足以提取视觉细节；2）由于测量次数很少，系统可以完全自供电，无需外部电源或电池。

本文引入了自由形状像素的概念，并展示了如何高效利用少量测量来解决轻量级视觉任务。本文荣获第18届欧洲计算机视觉大会最佳论文奖，作者是哥伦比亚大学的Jeremy Klotz和Shree K. Nayar。

论文地址：

https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08113.pdf

10、甲骨文译码的条件扩散模型

Deciphering Oracle Bone Language with Diffusion Models（ACL 2024）

甲骨文（Oracle Bone Script, OBS）起源于约3000年前的中国商代，是语言学史上的重要里程碑，比许多现存的文字系统都要古老。尽管已经发现了数千个甲骨文铭文，但大部分的甲骨文仍然未被破译，这使得这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为甲骨文的破译提供了新的可能，尤其是对依赖大量文本语料库的传统自然语言处理方法提出了挑战。本论文介绍了一种新的方法，采用图像生成技术，特别是开发了一种名为甲骨文破译（Oracle Bone Script Decipher, OBSD）的条件扩散模型。该模型利用甲骨文的不可见类别作为条件输入，生成对应的现代汉字图像，为自然语言处理中难以解决的古文字识别任务提供了一种新颖的方法。为了验证其有效性，研究团队在甲骨文数据集上进行了广泛的实验，定量结果证明了OBSD的有效性。这项研究有效地解决了甲骨文综合语料库严重缺失的问题，从图像生成的角度出发，为甲骨文文字提供了重要的破译线索。此外，这种方法可以轻松推广到其他象形和会意文字，为破译其他古文字提供了一个可能的潜在方案。

论文地址：

https://aclanthology.org/2024.acl-long.831.pdf

点击附件

下载PDF ▷