2025年,大模型的三个关键词

企业   2024-12-18 14:00   上海  

过去一周,OpenAI和Google相继发布了一系列模型与产品更新。这些发布不仅展示了技术的前沿,也展现出接下来AI发展的主旋律:在硬件能力实现飞跃之前,模型规模的提升放慢了脚步。毕竟就算巨头有钱训练,也得大家有钱用。取而代之的是其他范式的逐步革新——这样的趋势更加务实,也更直接对应用场景产生影响。


原生多模态能力

在GPT-4o发布的时候我们就说过,多模态能力的发布可能是今年最重要的里程碑。它的原生语音能力超越了传统的ASR-LLM-TTS工作流,带来了低延迟和更具情感表达的互动体验。这不仅提升了交互质量,也打开了全新的应用场景。

Gemini 2.0的发布则更进一步,将多模态能力扩展到视频交互。尽管与语音相比,实时视频的交互需求较少,但其场景化应用更为广泛。在我有限的体验里,打开摄像头之后,模型可以就视频流里的任何东西展开讨论,识别效率和准确率都很不错。他也可以看着我的另一个屏幕跟我实时交流,有种结对编程的感觉。现在依然有各种技术或非技术的限制,比如他可以识别一封展开的信件内容,却拒绝读一本我打开的书。另外可能是出于成本的考虑,在AI Studio里似乎还无法prompt模型通过单独的视频流事件触发。

多模态的融合在语音上比较直接,毕竟语音和文字本来就是一一映射的,而视频能力如何更好地与语言模型融合可能更多是个仿生问题。人的视觉感知并不只是对场景内容的理解,因此除了直接的视频内容理解和生成,比如GameNGen和Oasis也在其他方面比如空间感知能力做了探索。

多模态能力最大的价值并不是在与人的交互。而是借助与人相似的跨模态感知能力来胜任更普遍的任务。明年模型在跨模态的方向上一定会继续前进,另外也期待不同场景下的应用开始探索如何在大模型中利用其他模态的能力。


原生长程推理能力

强推理能力是迈向真正智能体的重要一步。GPT-o1展现的推理能力更多是个中间状态而非最终答案。不管是从推理本身,还是从推理能力的优化而言,通过自己跟自己说话来实现的效率都是在太低了。我们需要充分运用已有的工具来探索问题的边界,但它不会是我们能到最终目的的手段。

我们期待的原生长程推理模型会把这部分推理——或者叫系统二——包含在模型内部。这一样会带来推理计算的scaling,从而解决复杂的推理问题。但计算和IO的巨大效率差决定了这类架构的效率会远高于GPT-o1。在这个方向上有很多探索,大多尝试把搜索或者强化学习和语言模型连接在一起,最大的难题是如何保证训练效率。未来的方向会从这两点有所突破:

  • 数据层面:提供更多适合推理学习的数据。
  • 模型层面:找到像transformer一样高效的新型训练架构。


真·Agent

聊天或许是AI给人类带来的意外之喜,而智能体才是AI实现规模化落地的真正形态。Gemini 2.0的广告词多么直接了当:“智能体时代的新AI模型”。

到目前为止,智能体其实更像一个个的软件模块,除了上下文不同,并没有太大区别,只是把问题拆开执行。迈向人工智能之路的真正智能体,除了前面讲的推理,有另外几个模型层面的问题需要解决。


1. 专业化/自学习

  • 每个智能体应该在擅长处理的问题上有突出的能力
  • 随着处理问题越多,模型应该有越来越好的表现

第一点今天在重要的任务上通过做针对性的预训练完成,比如数学或者编程。如何运用少部分数据并且不经过预训练去改善模型在一个不同领域(底层数据不同分布)的能力依然是个让人头疼的问题。第二点则更加无法依赖预训练,只能通过外挂知识搜索来弥补,但分布差异决定了上限高低。

OpenAI的RFT在这个方向开了一枪。可以想象应用开发者能够用已有的领域数据来为o1的思维链做强化学习。并且在应用上线后能够有更多的带有反馈的数据来持续优化模型。之前字节的ReFT工作也是在类似的方向上的探索。

目前的RFT在奖励机制和优化效率方面依然有挑战。更理想的情况下,我们当然希望有完整的思维链数据并且给每个步骤奖励,但像我们之前说过的那样,如何获取这类数据(和奖励)是个大问题。或许聪明的数据清洗+人工合成能在这个领域带来很大帮助。


2. 更经济高效的推理

智能体规模化落地不一定要求模型本身更小,但对单次推理的资源占用应该更小。某种程度上这和推理时计算的趋势互相矛盾。历史总是螺旋上升,接下来我们会看到更高效的推理架构和针对推理优化的新一代硬件。我们之前也讨论过小模型的持续进展,这次的Gemini 2.0 Flash表现更是直接超过了之前的Gemini 1.5 Pro。在这条平行的路线上,数据优化可以产生更小更经济但性能并不逊色的模型,从而进一步降低推理成本。


3. 可控性

我们对智能体的最终期望显然是他们组队从头到尾完成整个任务。但今天这个系统和过往所有的系统最大的区别是核心部分的不可控性。这个问题无法通过prompt彻底解决,因此目前为止大部分重要的应用总需要有AI,人和确定性的程序来做中间和最终的检查。

这可能是AI领域研究进展最不明确(相对的,在工程领域却有很多实践)的领域。我所了解的目前工作大多在可解释性上。但随着落地场景越来越广泛深化,可解释性和更进一步的可控性的重要性会更加凸显出来。


写在最后

上周的一系列产品和技术发布无疑让我感到激动。我们在这里做出对未来的展望,并非表示今天的模型因为这些问题就无法落地。恰恰相反,即使模型进展在今天不再向前发展,我们现在拥有的AI能力也足以在未来广泛的场景中产生巨大价值。这中间重要的是应用开发者们如何挖掘这些场景。而这篇文章也是把我们想到的未来路线图和大家分享探讨,希望大家一方面能选择适合今天模型能力的方式来提供软件或者服务,另一方面能为明天做好准备。技术发展的步伐就像河流,或许每个急弯都出人意料,但总会不断向前流淌,终将汇入海洋。


📮 更多阅读

Linear Bolt 
Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学,专注在技术驱动带来变革的项目,希望帮助创始人找到实现目标的最短路径,不管是行动速度,还是投资方式,Bolt 的承诺是更轻,更快,更灵活。Bolt 已经在 2024 年上半年投资了 Final Round、心光、Cathoven、Xbuddy、Midreal 等 7 个 AI 应用项目。

线性资本
我们聚焦数据智能及其他前沿科技应用领域,相信Frontier Tech, Frontier Productivity, Frontier Life。
 最新文章