掌握2024年LLM发展脉络，AI时代不掉队！

文摘 2025-01-02 21:05 湖北

！关注不迷路

2024年，关于大语言模型（LLM），我们学到了这些！

大家好，2024年转眼已过，回首这一年，在人工智能领域，最引人注目的无疑是大语言模型（LLM）的飞速发展。正如技术博主 Simon Willison 在其年度回顾文章中所言：“在过去的十二个月里，大语言模型领域发生了翻天覆地的变化。” 今天，我们就来一起回顾一下，在2024年，关于LLM，我们都学到了哪些重要的知识和趋势。

划重点：本文内容主要参考了 Simon Willison 的文章 "Things we learned about LLMs in 2024"，并根据微信公众号的阅读习惯进行了调整和编译。

本文要点速览：

• GPT-4 壁垒已被打破：众多机构的模型性能超越了最初的 GPT-4。
• 笔记本可运行 GPT-4 级别模型：模型效率提升显著。
• LLM 价格大幅下降：市场竞争和效率提升共同作用。
• 多模态成为常态：视觉能力普及，音频和视频能力开始涌现。
• 语音和实时摄像头模式：科幻功能逐步实现。
• 提示词驱动应用生成普及：降低了应用开发门槛。
• 最佳模型免费时代短暂：高性能模型可能需要付费订阅。
• “智能体”概念仍模糊：实际应用落地尚需时日。
• 评估（Evals）至关重要：高质量评估是开发 LLM 应用的关键。
• Apple 的 AI 表现不佳，MLX 库出色：平台选择影响开发体验。
• 推理扩展的“推理”模型兴起：提升复杂问题解决能力的新方向。
• 中国团队低成本训练顶尖模型：训练优化成果显著。
• 环境影响复杂性：效率提升 vs. 数据中心建设。
• “垃圾信息”成热词：未经审查的 AI 生成内容引关注。
• 合成训练数据有效：打破对“模型崩溃”的担忧。
• LLM 使用门槛依旧高：需要深入理解和实践。
• 知识鸿沟依旧存在：普及 LLM 知识仍需努力。
• LLM 需要更好批评：理性看待技术的利弊。

GPT-4 壁垒已被彻底打破

在2023年底，我们还在感叹构建媲美GPT-4的模型的难度。然而，仅仅一年时间，情况就发生了巨大的转变。现在，已经有众多机构的模型在性能上超越了最初的GPT-4。这标志着LLM技术的普及和进步进入了一个新的阶段。

• 谷歌的 Gemini 1.5 Pro 在年初就展现了强大的实力，不仅达到了GPT-4的水平，更在长文本处理和视频输入方面带来了突破性的能力。
• Anthropic 的 Claude 3 系列 紧随其后，特别是 Claude 3 Opus，成为了许多专业人士的首选。其后推出的 Claude 3.5 Sonnet 更是令人印象深刻。
• 如今，在 Chatbot Arena 排行榜上，已经有来自 18 个不同组织的 70 多个模型超越了最初的 GPT-4。

GPT-4 级别的模型，我的笔记本也能跑了！

更令人惊讶的是，曾经需要数据中心级服务器才能运行的GPT-4级别模型，现在竟然可以在消费级的笔记本电脑上运行了！这得益于模型效率的显著提升。

• 例如，Qwen2.5-Coder-32B 和 Meta 的 Llama 3.3 70B 都可以在配备 64GB 内存的 MacBook Pro 上运行。
• 即使是小型的模型，例如 Meta 的 Llama 3.2 3B，在手机端也能展现出惊人的能力。

这表明，我们在模型训练和推理效率方面取得了巨大的进步，未来我们可能会看到更多强大的AI能力在个人设备上普及。

LLM 的价格大幅下降，效率显著提升

2024年，顶级LLM服务的价格经历了显著的下降。这主要归功于日益激烈的市场竞争和模型效率的提高。

• 以 OpenAI 为例，GPT-4o 的价格比最初的 GPT-4 便宜了 12 倍，而 GPT-4o mini 的价格更是远低于去年的 GPT-3.5 Turbo。
• 其他供应商，如 Anthropic 和 Google，也提供了更具竞争力的价格。

价格的下降使得更多人可以更容易地接触和使用先进的LLM技术，同时也减轻了人们对LLM运行成本和环境影响的担忧。

多模态成为常态，音频和视频能力开始涌现

多模态LLM在2024年得到了广泛的应用。

• 从最初的 GPT-4 Vision，到 Anthropic 的 Claude 3 系列，再到 Google 的 Gemini 1.5 Pro，以及后来的 Qwen2-VL 和 Llama 3.2 视觉模型，几乎所有主要的模型提供商都发布了具备视觉能力的产品。
• 此外，音频和视频处理能力也开始崭露头角，为LLM的应用打开了更广阔的空间。

语音和实时摄像头模式，让科幻照进现实

特别是语音和实时摄像头模式的出现，令人印象深刻。

• OpenAI 的 GPT-4o 展示了强大的音频处理能力，可以进行自然的语音交互，甚至可以模仿不同的口音。
• Google 的 Gemini 也具备类似的功能。
• 更进一步的是，ChatGPT 和 Gemini 都推出了实时摄像头模式，用户可以直接与模型分享摄像头画面并进行实时交流，这在过去只能在科幻电影中看到。

基于提示词的应用生成已成为一种通用能力

利用LLM的强大代码生成能力，现在仅需简单的提示词，就能快速构建出交互式的应用程序。

• Anthropic 的 Claude Artifacts 是一个里程碑式的创新，它允许用户在 Claude 界面内直接使用生成的应用程序。
• 随后，GitHub 推出了 GitHub Spark，Mistral Chat 增加了 Canvas 功能，都实现了类似的能力。

这种基于提示词的应用生成方式，降低了应用开发的门槛，预示着未来软件开发模式可能会发生深刻的变革。

最佳模型的“免费午餐”时代短暂

令人遗憾的是，曾经有一段时间，用户可以免费使用当时最先进的LLM模型，如 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。但随着 OpenAI 推出 ChatGPT Pro，免费访问顶级模型的时代似乎已经结束。未来的高性能模型，可能需要用户付费订阅才能体验。

“智能体（Agents）”的概念仍然模糊

“智能体”是LLM领域一个备受关注的概念，但其定义仍然缺乏统一的共识。尽管人们对智能体寄予厚望，希望它们能自主地完成各种任务，但在2024年，“智能体”的真正落地应用似乎仍未到来。

评估（Evals）变得至关重要

高质量的自动化评估对于开发基于LLM的系统至关重要。正如 Anthropic 的 Amanda Askell 所说，好的系统提示词是通过“测试驱动开发”得出的。一个强大的评估套件能够帮助开发者更快地采用新模型、更好地迭代，并构建更可靠的产品功能。

Apple 的 AI 表现不佳，但 MLX 库很出色

虽然 Apple 推出的 “Apple Intelligence” 功能的表现差强人意，但其开源的 MLX 库 却非常出色。MLX 为在 Apple Silicon 上运行各种兼容的模型提供了便利和高性能，受到了开发者的欢迎。

推理扩展的“推理”模型兴起

2024年下半年，出现了一种新型的LLM，例如 OpenAI 的 o1 模型。这些模型通过增加推理时的计算量来提升解决复杂问题的能力，为模型扩展提供了一种新的思路。谷歌和阿里巴巴等公司也推出了类似的模型。

中国团队以较低成本训练出顶尖模型

年底最引人注目的新闻之一是 DeepSeek v3的发布。这是一个拥有 6850 亿参数的巨型模型，性能堪比 Claude 3.5 Sonnet，但其训练成本估计仅为 557.6 万美元。这显示了中国团队在模型训练优化方面的卓越能力。

环境影响的复杂性

LLM效率的提升降低了单个prompt的能源消耗，这是一个积极的趋势。然而，大规模数据中心的建设和运行对环境的影响仍然是一个值得关注的问题。

“垃圾信息（Slop）”成为年度热词

2024年，“Slop”（垃圾信息）成为了一个用来形容未经请求和审查的AI生成内容的流行词汇。它反映了人们对AI生成内容质量和泛滥的担忧。

合成训练数据效果显著

与一些人担心的“模型崩溃”相反，越来越多的证据表明，使用合成数据进行模型训练是有效的。通过精心设计合成数据，可以更好地引导模型学习，提升其性能。

LLM 的使用门槛依然很高

尽管LLM的能力越来越强，但其使用门槛依然很高。用户需要深入理解模型的工作原理、各种工具的使用方法，以及如何避免其潜在的缺陷。针对LLM的教育内容仍然有很大的提升空间。

知识鸿沟依然存在

目前，只有少数人真正了解LLM的最新进展和潜力。如何弥合这种知识鸿沟，让更多人了解和利用这项技术，是一个重要的挑战。

LLM 需要更好的批评

对于LLM技术，我们需要保持批判性的态度，关注其潜在的风险和负面影响。但同时，我们也应该承认其积极的应用价值，并引导人们负责任地使用这项技术。

总结

2024年是LLM技术飞速发展的一年，我们见证了模型能力的突破、价格的下降、多模态的普及以及各种创新应用的涌现。当然，我们也面临着新的挑战，如如何更好地评估模型、如何应对环境影响、以及如何弥合知识鸿沟等等。

展望未来，LLM技术将继续深刻地影响我们的生活和工作。让我们共同期待2025年，LLM领域将带来更多惊喜！

文章原文：

https://simonwillison.net/2024/Dec/31/llms-in-2024/#some-of-those-gpt-4-models-run-on-my-laptop

如果您想要让大模型写出优质的短篇小说，以及对其他内容感兴趣，也欢迎点击下面的链接，效果不错哦，很多朋友都说好。

点击这里：超强写作提示词

效果如下

世界潮流浩浩荡荡顺之则昌逆之则亡。AI来了!AIGC，LLM，大模型，规模效应，软件开发

斯坦福的STORM项目之后，我们还能这样让AI成为最强写作指导

Agents is all you need！谷歌发布 AI Agent 白皮书

19k! 斯坦福大学出品的这个项目, 让AI写出高质量文章, 7万人已使用

灵魂的低语：AI与文字的交响

2024，我追过的 AI 风口

让你的小说脱颖而出！AI一键打造完美故事蓝图

一键生成小说开局，快速吸引注意力，让创作更轻松

一键生成小说人物设定，让创作更轻松

206分钟，雷军首次袒露造车心声：我不想输，更不愿辜负大家！

告别“读后忘”！用AI大模型轻松驾驭深度阅读，渐进式摘要了解一下？

掌握2024年LLM发展脉络，AI时代不掉队！

吴恩达年度AI复盘：Agent崛起、价格暴跌、模型瘦身，2024 AI 狂飙！

Sam Altman 揭示生产力复利的秘密，让你轻松领先 99% 的人 —— 读《Productivity》有感

Codeium支持支付宝付款了! 一分钟解锁 AI 编程，开启 10 倍效率加速！

AI 都混进课堂了，这事儿可真有趣——学学日本人咋玩的！

你可能不知道：Google AI正在悄悄改变各行各业

喂饭级别教程，从零开始学习Transformer模型的原理

告别信息爆炸：三种AI摘要策略，让你阅读效率飙升10倍！

告别加班！这款 AI 数据神器，让你像聊天一样轻松搞定数据！

用LangChain教AI模仿你的写作风格：详细教程

Anthropic宣告智能体时代来临: 如何构建高效的智能体, 从入门到实践的全面指南

AI大厂Claude 官方深度解析：提示词工程的最佳实践

让你的创作灵感永不枯竭，就像是装上了永动机

OpenAI 新货详解：大量接口/价格更新，还有 Go/Java SDK

这个提示词价值不菲，轻松突破大语言模型的写作瓶颈

OpenAI 新货详解：搜索更新

这款最受欢迎的谷歌浏览器插件，改变了我的阅读习惯!

AI如何帮助我们更好地表达 - 辅助思维分析，让头脑更清晰

AI如何帮助我们更好地表达 - 电商平台商品介绍文案写作，提升转化率

AI如何帮助我们更好地表达自己-营销文案写作

颠覆工作方式！Google Agentspace 用AI解锁企业智慧，让效率飞跃式提升！

Ilya Sutskever深度解析：十年AI之旅与Scaling Laws的未来启示

OpenAI 新货详解：Project

谷歌从来就没有落后，这一波gemini 2.0可太牛了，贾维斯来了！

OpenAI 新货详解：视频通话/共享屏幕

从'胡言乱语'到'条理清晰'：多Agent写作法如何拯救AI长文写作

Gemini 2.0发布！主打Agent+多模态，性能超1.5 Pro、可直接生成音频、图片

深度赋能日常交流：解锁互联网黑话的降维打击

OpenAI 新货详解：Canvas 更新，可运行 Python

OpenAI 新货详解：Sora，附各种案例

AI顶级专家也爱读的书：Andrej Karpathy的惊人阅读品味大揭秘

犀利段子手，毒舌观察家的日常吐槽

别再用老套的提示词了！这些创新方法让AI输出质量翻倍！

ChatGPT两年：一场技术革命的亲身体验

OpenAI 新货详解：强化微调

OpenAI 新货详解：o1 正式版 /ChatGPT Pro

10分钟优化：用AI提升简历竞争力，帮你快速赢得面试机会！

RAG评估最佳实践：综合指南

年底述职报告太难了？试试这个Prompt，轻松搞定！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉