2024年AI大模型技术变迁情况回溯(免费下载)

学术   2025-01-01 08:31   广东  
在科技的浪潮中,人工智能(AI)正以前所未有的速度改变着我们的世界。2024年,AI大模型技术迎来了革命性的变迁,这些变化不仅推动了技术进步,更是为智能时代的商业化和应用落地开辟了新天地。今天,我们就来一探究竟,看看这些技术变迁如何重塑我们的未来。

一、语言大模型的新范式:强化学习优化思维链

规模定律的延伸

2024年之前,语言大模型的规模定律已经得到了业界的广泛认可。模型参数的扩展、数据集质量的提升以及人工微调,使得语言模型展现出了前所未有的泛化能力和通用能力。然而,2024年的技术进步,将这一定律延伸至后训练阶段。

OpenAIo1推理大模型

今年9月,OpenAI公开发布的o1推理大模型,通过强化学习优化模型内部思维链推理逻辑步骤,模拟人的思考过程,加深对问题的理解程度,从而提升处理复杂推理任务的能力。这一技术突破,标志着语言大模型的发展迎来了新范式。

强化学习的威力

通过强化学习,模型学会了精炼思维链并优化所用策略,识别并纠正错误,将复杂步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。这一过程显著提升了模型的推理能力,在多个高难度推理基准测试中,o1的表现超越了人类专家和GPT-4o,展示了其强大的推理能力和专业知识。

二、多模态大模型:端到端架构的演进

跨模态到端到端的转变

过去,多模态大模型多采用基于语言模型为主干的跨模态架构,通过模态特定的编码器转化为统一的向量表示后再输入语言模型。但这样的架构带来了任务响应时间长、模态间交互细节损失的问题。

端到端架构的优势

2024年以来,以GPT-4oGemini为代表的多模态大模型开始使用端到端支持多种模态统一输入输出的模型架构。这一架构通过简化模型的输入接口,减少模态间的信息损失,提升了模型处理即时任务的响应时间。

英伟达的GR00T项目

2024GTC大会上,英伟达发布了人形机器人项目GR00T,基于控制、执行和决策三个层级分层实现模型的端到端训练学习,通过合并反向反馈得到精准输出结果,大幅提升了机器人处理复杂任务的精度、高效性以及灵活性。

三、视频生成领域的突破:DiTs架构的可扩展性

DiTs架构的优势

2024年以来,国内外科技大厂发布的视频生成模型多以DiTs为基础,基于Transformer架构的扩散模型在视频生成任务中可扩展性优势凸显。相较于原先的U-Net卷积网络架构,Transformer骨干架构可以提供基于参数规模和训练数据量提升而带来更优越的性能。

OpenAISora视频生成模型

OpenAI发布的视频生成模型Sora基于DiTs架构,在生成视频的像素稳定性、前后逻辑连续性以及信息丢失等方面有大幅提升。Sora在数据处理和视频标注领域做了创新,基于视频编码器将样本空间数据进行时间空间维度压缩和Patch化处理,再通过相应解码器实现隐空间向视频像素空间的映射,以训练新的视频压缩网络实现长视频生成的能力。

Meta Movie Gen视频生成模型

Meta Movie Gen视频生成模型发布,其在原先视频生成模型架构的基础上,叠加了一个13B参数转换器模型Meta Gen Audio,通过数百万个小时的音频参考数据的对比总结,Meta Gen Audio可精准匹配声音和画面之间的对应关系,根据不同情绪和环境的提示词,找到与画面完美契合的音乐。

四、硬件部署实践:端云结合架构的创新

苹果的Apple Intelligence

苹果在20246月发布的Apple Intelligence为大模型硬件部署实践提供了很好的指引。Apple Intelligence采用端云结合方案,分别在设备端和服务器端部署大小语言模型(AFM-on-deviceAFM-server),不同应用可以通过统一的语义索引、意图检测等工具调用AFM模型。

量化压缩叠加适配器架构

为保障在端侧设备上运行模型同时避免精度上损失,苹果创新推出量化压缩叠加适配器的架构,一方面采用量化压缩的方法降低模型大小,同时通过LoRA适配器来恢复量化模型的精度。

Responsible AI原则

苹果制定了Responsible AI原则,包括用户赋能、代表全球、谨慎设计、隐私保护四大原则,被整合到基础模型开发的每一个环节中,包括数据的收集与处理、模型训练、模型评估、用户反馈等。

LLM-in-a-flash技术

苹果研发了LLM-in-a-flash技术,让大模型可以不受限于DRAM的限制,在推理时将参数加载至闪存中来辅助完成计算,分担存储压力,从而降低端侧设备部署大模型门槛。

五、智能体实践:垂类大模型在智能终端环境的应用

AI Agent领域的进展

2024年以来,AI Agent领域出现诸多进展。围绕UI交互与操作的模型相比传统大语言模型、多模态模型在基于手机、平板等智能终端实现UI界面理解、数字推理任务领域具备更好的表现能力,更适应智能体在智能终端复杂UI环境场景下落地应用。

Adept公司的Fuyu-8B

Adept公司正式发布并开源80亿参数多模态大模型Fuyu-8B,其具备图表、图形和文本理解能力之外,能够厘清复杂图形中元素的相互关系,并能够根据用户指令准确归纳图表信息。

苹果的Ferret-UI

苹果发布了自己首个手机端Agent的多模态大模型——Ferret-UI,在理解屏幕整体功能基础上,能够基于人机对话自主推断任务并提出相应可行操作,从而帮助用户完成界面导航等开放式任务的能力在这个模型上得到了加强。

六、大模型合成数据策略:自我奖励语言模型生成合成数据

Scaling Law数据墙问题

Scaling Law数据墙问题正成为当前大模型迈向通用人工智能道路上的瓶颈。有机构预言,互联网上所有文本数据可能在GPT6推出之时消耗殆尽,若想进一步提升大模型性能,拓展数据集扩展的能力将会成为大模型大厂的核心竞争力。

MetaLlama 3.1 405B

Meta发布的Llama 3.1 405B便是完全基于合成数据方式,使用自我奖励语言模型进行训练,其在训练的过程中并没有依赖任何人类编写的答案,而是完全基于Llama 2语言模型生成的合成数据。这一创新的训练机制,使得Llama 3.1 405B在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中,都能与GPT-4GPT-4oClaude 3.5 Sonnet相媲美。

2024年的AI大模型技术变迁,不仅仅是技术的迭代,更是智能时代新篇章的开启。从语言大模型的新范式到多模态大模型的端到端架构,从视频生成领域的突破到硬件部署实践的创新,再到智能体实践的进展和大模型合成数据策略的革新,每一步都在推动着AI技术向更深层次、更广领域的应用发展。让我们一起期待,这些技术变迁将如何塑造我们的未来生活。

......

在水木人工智能学堂公众号对话框回复关键词ai9859,可获取完整报告下载链接。


水木AI知识荟2024.12.31日最新AI报告更新


往期回顾


🔥【精选报告】清华大学2024年AIGC发展研究报告3.0版(附下载,181页)

🔥【精选报告】重磅:2024年全球AIGC产业全景报告(附下载,58页)

🔥【精选报告】斯坦福李飞飞最新巨著《AI agent综述》Agent AI开启多模态交互新纪元(附下载,中英版)

🔥【精选报告】生成式AI如何重塑未来,吴恩达等AI领袖的独家观点不容错过!(附下载,160页)

🔥【精选报告】重磅:2024年全球人工智能全景现状最新报告(212页,中英文版,附下载)

🔥【精选报告】华为&清华大学--2024年AI终端白皮书:AI与人协作、服务于人(附下载)

🔥【精选报告】清华大学-大模型工具学习(附下载)

🔥【精选报告】海外权威报告:生成式人工智能(114页,附下载)

🔥【精选报告】腾讯研究院:向AI而行, 共筑新质生产力--行业大模型调研报告(85页,附下载)

🔥【精选报告】国际先进人工智能安全科学报告中期报告(132页,附下载)

🔥【精选报告】2024大模型应用实践报告--爱分析(35页,附下载)

🔥【精选报告】AIGC实践案例集锦:对话先行者,洞见新未来(附下载)

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
“阅读原文”下载报告。

水木人工智能学堂
水木人工智能学堂专注分享和普及AI知识,由清华大学、天津大学、深圳大学等AI团队创建,内容涵盖机器学习、深度学习、图像分析、语音及语义分析、AI求职及职业规划、行业报告等,汇集云知声、奥比中光、极视角等AI专家分享干货,欢迎关注。
 最新文章