2025年开篇:技术及宏观角度回顾2024年大模型发展

文摘   2025-01-01 21:40   北京  

今天是2025年01月01日,星期三,北京,天气晴。

今天是2025年的第一天,我们来看几个LLM的2024回顾的博客,总结的不错,分别从技术角度、宏观角度上看,很有趣。

很值得一读。

新年第一天,回顾过去,展望2025,我们继续加油。

一、技术角度看生成式模型的2024

2025年开始,大家都在回顾25年的大模型发展,从技术层面,读到一个不错的工作,由Liang Wenfeng(DeepSeek的CEO)撰写,https://nrehiew.github.io/blog/2024/,总结了2024年生成模型的现状和2025年的研究趋势,写的挺好的。我们可以看看7个重点

1、语言模型架构方面,有一些新架构的尝试,如Mamba和最近的xLSTM等,但似乎很可能仅解码器的Transformer将继续保持。

目前最普遍看到的Transformer架构,使用RMSNorm、Group Query Attention、Gated Linear Unit和Rotary Positional Embeddings。

此外,2024年是专家混合模型(MOEs)再次进入主流的一年,MOEs在去年年底首次流行起来,当时的Mistral的Mixtral模型,然后是最近的DeepSeek v2和v3。但是,MOEs对大多数人来说并不容易使用,DeepSeek v3不能与8xH100一起使用。

2、Tokenizer一直是那些每个人都不喜欢但没有更好的解决方案,并且它没有导致大问题,所有目前还是保持原样。

3、关于大模型推理,在2024年下半年成为了一个热门话题,随着o1和最近o3的发布,模型在数学、科学和编码任务上的推理能力得到了改进。对于其中的实现细节,猜测应该是一堆过程奖励模型(PRMs),为推理的每个阶段给出奖励值,以及任何必要的外部验证(代码测试用例等),并且生成了一堆合成数据(用类似的东西)并在其上进行了RL(可能是PPO)。此外,o1发布的一个有趣的点是OpenAI隐藏了实际的CoT,以防止人们训练输出。

4、在2024年,图像生成模型发展的很出色。2024年几乎所有最好的图像生成模型(Flux、Stable Diffusion 3、MidJourney和Sora)都建立在Diffusion Transformer之上,另一个领域再次落入了Transformer架构,通常使用某种自适应归一化和MM-DIT架构。这块架构变化的一个领域是文本编码器的选择。作者希望在2025年,将看到实验室最终不再使用CLIP或OpenCLIP进行文本编码,而是直接使用LLM(可能是小于8B的范围)

5、在多模态方向,2024年有很多的进展,大量的视觉语言模型发布,如Qwen和谷歌的PaliGemma。 在这里,其中视觉Transformer附加到(预训练的语言模型)并用作编码器/标记器的模式受到广泛使用。

作者认为,传统”的VLMs无处可去,将被吸收到更大的全模态模型领域。这个全模态有趣,也就是任何模态作为输入和输出,这个是一个趋势,如下图:

6、关于智能体的定义还并不清晰,作者认为智能体的定义将仅仅是任何程序/工作流程,其中LLM被赋予一个任务和一组可用的工具,它选择自主使用以完成任务。 作者还认为,智能体将很昂贵,对网页上的每个动作进行API调用——点击或滚动,这很快累积到token计数。因此,还有待观察是否会有一个用例,使完全自主的智能体在经济上有意义。也就是说,是门经济账。

7、在2025年,可以重点关注训练优化(Muon和NanoGPT速度运行)、视频模型(当前的视频模型面临一堆一致性和推理速度问题)、量化(1byte量化,训练的量化方法,更好的FP8(或更低)支持)、可解释性研究这些

二、宏观角度看大模型2024进展

这个是另一个总结的工作,宏观角度,来自Simon Willison,与上一篇不同,主要围绕文本语言模型来做的,地址在https://simonwillison.net/2024/Dec/31/llms-in-2024/,也可以看到其中的7个重点

1、GPT-4的壁垒被全面打破,18个组织在Chatbot Arena排行榜上的模型排名高于2023年3月的原版GPT-4(排行榜上的 GPT-4-0314),共有70个模型。例如,Google 的 Gemini 1.5 Pro,其也揭示了2024年的一个关键主题“长上下文长度”。又如 Claude 3.5 Sonnet。

2、由于竞争和效率提高,LLM价格暴跌。 在2023年12月(这里是OpenAI定价页面的互联网档案),OpenAI对GPT-4收费为每百万输入标记30美元,对当时新的GPT-4Turbo收费为每百万10美元,对GPT-3.5Turbo收费为每百万1美元。如今,每百万30美元可以获得OpenAI最昂贵的模型,o1。GPT-4o是2.50美元(比GPT-4便宜12倍),GPT-4omini是每百万0.15美元——比GPT-3.5便宜近7倍,并且能力大大增强。其他模型供应商收费更低。Anthropic的Claude3Haiku(从3月开始,但仍然是他们最便宜的模型)是每百万0.25美元。Google的Gemini1.5Flash是每百万0.075美元,Gemini1.5 Flash 8B是每百万0.0375美元——比去年的GPT-3.5Turbo便宜27倍。

此外,运行大模型所耗费的使用和环境影响在过去几年中大幅下降。OpenAI本身对提示的收费比GPT-3便宜了100倍,而年底的DeepSeekv3,其训练成本令人印象深刻,在2,788,000 H800 GPU小时上训练,估计成本为5,576,000 美元,与其对比的Llama 3.1 405B 训练了30,840,000 GPU 小时,是DeepSeek v3使用的11倍,对于一个基准测试稍差的模型。所以,似乎激发了一些非常有效的训练优化,这是一个很好的迹象,表明训练成本可以并且应该继续下降

3、多模态LLMs崛起,多模态视觉变得很普遍,音频和视频开始出现。 GPT-4Vision,在2023年11月OpenAI的DevDay上发布。Google的多模态Gemini1.0在2023年12月7日宣布,所以它也(刚好)进入了2023年的时间窗口。在2024年,几乎所有重要的模型供应商都发布了多模态模型,在3月看到了Anthropic的Claude3系列,在4月看到了Gemini1.5Pro(图像、音频和视频),然后9月带来了Qwen2-VL和Mistral的Pixtral12B以及Meta的Llama3.211B和90B视觉模型。在10月从OpenAI那里得到了音频输入和输出,然后11月看到了HuggingFace的SmolVLM,12月看到了AmazonNova的图像和视频模型。

4、语音和实时摄像头模式让科幻成为现实。 与ChatGPT交谈的能力在2023年9月首次出现,OpenAI使用了Whisper语音转文本模型和一个新的文本转语音模型(创造性地命名为tts-1)来实现与ChatGPT移动应用的对话,但实际模型只看到了文本。5月13日宣布的GPT-4o包括了一个全新的语音模式演示,真正的多模态GPT-4o(o代表“全”)模型可以接受音频输入并输出听起来非常逼真的语音,而不需要单独的TTS或STT模型。Google的Gemini也接受音频输入,GoogleGemini应用现在可以像ChatGPT一样说话。亚马逊也预先宣布了AmazonNova的语音模式,但预计将在2025年第一季度推出。Google的NotebookLM在9月发布,通过制作关于输入给工具的任何内容的两个“播客主持人”之间的逼真对话,将音频输出提升到了一个新的水平。

5、“智能体”仍未真正发生,“智能体”这个术语非常令人沮丧。它缺乏一个单一的、清晰且广泛理解的含义,但使用这个术语的人似乎从未承认这一点。正在构建“智能体”,几乎没有传达任何信息。

6、推理扩展“推理”模型崛起,不是通过在训练时增加计算来纯粹提高模型性能,模型现在可以通过在推理上花费更多的计算来处理更难的问题。后续也有一些跟随者,例如,Google 在12月19日发布了gemini-2.0-flash-thinking-exp;Alibaba的Qwen团队在11月28日发布了QwQ模型;DeepSeek在11月20日提供了DeepSeek-R1-Lite-Preview模型

7、合成训练数据效果很不错,最初在2023年5月的论文“递归训练数据使模型遗忘”中描述受到反转,合成数据作为预训练的实质部分变得越来越普遍,Phi 系列模型一直强调合成数据的重要性。与有机数据不同,合成数据有几个直接优势。 另一种常见技术是使用更大的模型帮助创建训练数据,用于它们更小、更便宜的替代品——越来越多的实验室使用这个技巧。DeepSeek v3 使用了由DeepSeek-R1创建的“推理”数据。Meta 的 Llama 3.3 70B 微调使用了超过2500万个合成生成的示例。有趣的是,仔细设计进入 LLM 的训练数据似乎是创建这些模型的 全部游戏。只是抓取整个网络的完整抓取并将其不加选择地倒入训练运行的日子已经一去不复返了

总结

本文介绍了两个对2024年进行llm发展回顾的文章,看着很过瘾,写的很不错,都到点上了,大家可以做更多的发散性思考。会有更多的收获。

参考文献

1、https://nrehiew.github.io/blog/2024/

2、https://simonwillison.net/2024/Dec/31/llms-in-2024/

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章