2024年,关于大语言模型(LLM),我们学到了这些!
大家好,2024年转眼已过,回首这一年,在人工智能领域,最引人注目的无疑是大语言模型(LLM)的飞速发展。正如技术博主 Simon Willison 在其年度回顾文章中所言:“在过去的十二个月里,大语言模型领域发生了翻天覆地的变化。” 今天,我们就来一起回顾一下,在2024年,关于LLM,我们都学到了哪些重要的知识和趋势。
划重点:本文内容主要参考了 Simon Willison 的文章 "Things we learned about LLMs in 2024",并根据微信公众号的阅读习惯进行了调整和编译。
本文要点速览:
• GPT-4 壁垒已被打破: 众多机构的模型性能超越了最初的 GPT-4。 • 笔记本可运行 GPT-4 级别模型: 模型效率提升显著。 • LLM 价格大幅下降: 市场竞争和效率提升共同作用。 • 多模态成为常态: 视觉能力普及,音频和视频能力开始涌现。 • 语音和实时摄像头模式: 科幻功能逐步实现。 • 提示词驱动应用生成普及: 降低了应用开发门槛。 • 最佳模型免费时代短暂: 高性能模型可能需要付费订阅。 • “智能体”概念仍模糊: 实际应用落地尚需时日。 • 评估(Evals)至关重要: 高质量评估是开发 LLM 应用的关键。 • Apple 的 AI 表现不佳,MLX 库出色: 平台选择影响开发体验。 • 推理扩展的“推理”模型兴起: 提升复杂问题解决能力的新方向。 • 中国团队低成本训练顶尖模型: 训练优化成果显著。 • 环境影响复杂性: 效率提升 vs. 数据中心建设。 • “垃圾信息”成热词: 未经审查的 AI 生成内容引关注。 • 合成训练数据有效: 打破对“模型崩溃”的担忧。 • LLM 使用门槛依旧高: 需要深入理解和实践。 • 知识鸿沟依旧存在: 普及 LLM 知识仍需努力。 • LLM 需要更好批评: 理性看待技术的利弊。
GPT-4 壁垒已被彻底打破
在2023年底,我们还在感叹构建媲美GPT-4的模型的难度。然而,仅仅一年时间,情况就发生了巨大的转变。现在,已经有众多机构的模型在性能上超越了最初的GPT-4。这标志着LLM技术的普及和进步进入了一个新的阶段。
• 谷歌的 Gemini 1.5 Pro 在年初就展现了强大的实力,不仅达到了GPT-4的水平,更在长文本处理和视频输入方面带来了突破性的能力。 • Anthropic 的 Claude 3 系列 紧随其后,特别是 Claude 3 Opus,成为了许多专业人士的首选。其后推出的 Claude 3.5 Sonnet 更是令人印象深刻。 • 如今,在 Chatbot Arena 排行榜 上,已经有来自 18 个不同组织的 70 多个模型超越了最初的 GPT-4。
GPT-4 级别的模型,我的笔记本也能跑了!
更令人惊讶的是,曾经需要数据中心级服务器才能运行的GPT-4级别模型,现在竟然可以在消费级的笔记本电脑上运行了!这得益于模型效率的显著提升。
• 例如,Qwen2.5-Coder-32B 和 Meta 的 Llama 3.3 70B 都可以在配备 64GB 内存的 MacBook Pro 上运行。 • 即使是小型的模型,例如 Meta 的 Llama 3.2 3B,在手机端也能展现出惊人的能力。
这表明,我们在模型训练和推理效率方面取得了巨大的进步,未来我们可能会看到更多强大的AI能力在个人设备上普及。
LLM 的价格大幅下降,效率显著提升
2024年,顶级LLM服务的价格经历了显著的下降。这主要归功于日益激烈的市场竞争和模型效率的提高。
• 以 OpenAI 为例,GPT-4o 的价格比最初的 GPT-4 便宜了 12 倍,而 GPT-4o mini 的价格更是远低于去年的 GPT-3.5 Turbo。 • 其他供应商,如 Anthropic 和 Google,也提供了更具竞争力的价格。
价格的下降使得更多人可以更容易地接触和使用先进的LLM技术,同时也减轻了人们对LLM运行成本和环境影响的担忧。
多模态成为常态,音频和视频能力开始涌现
多模态LLM在2024年得到了广泛的应用。
• 从最初的 GPT-4 Vision,到 Anthropic 的 Claude 3 系列,再到 Google 的 Gemini 1.5 Pro,以及后来的 Qwen2-VL 和 Llama 3.2 视觉模型,几乎所有主要的模型提供商都发布了具备视觉能力的产品。 • 此外,音频和视频处理能力也开始崭露头角,为LLM的应用打开了更广阔的空间。
语音和实时摄像头模式,让科幻照进现实
特别是语音和实时摄像头模式的出现,令人印象深刻。
• OpenAI 的 GPT-4o 展示了强大的音频处理能力,可以进行自然的语音交互,甚至可以模仿不同的口音。 • Google 的 Gemini 也具备类似的功能。 • 更进一步的是,ChatGPT 和 Gemini 都推出了实时摄像头模式,用户可以直接与模型分享摄像头画面并进行实时交流,这在过去只能在科幻电影中看到。
基于提示词的应用生成已成为一种通用能力
利用LLM的强大代码生成能力,现在仅需简单的提示词,就能快速构建出交互式的应用程序。
• Anthropic 的 Claude Artifacts 是一个里程碑式的创新,它允许用户在 Claude 界面内直接使用生成的应用程序。 • 随后,GitHub 推出了 GitHub Spark,Mistral Chat 增加了 Canvas 功能,都实现了类似的能力。
这种基于提示词的应用生成方式,降低了应用开发的门槛,预示着未来软件开发模式可能会发生深刻的变革。
最佳模型的“免费午餐”时代短暂
令人遗憾的是,曾经有一段时间,用户可以免费使用当时最先进的LLM模型,如 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。但随着 OpenAI 推出 ChatGPT Pro,免费访问顶级模型的时代似乎已经结束。未来的高性能模型,可能需要用户付费订阅才能体验。
“智能体(Agents)”的概念仍然模糊
“智能体”是LLM领域一个备受关注的概念,但其定义仍然缺乏统一的共识。尽管人们对智能体寄予厚望,希望它们能自主地完成各种任务,但在2024年,“智能体”的真正落地应用似乎仍未到来。
评估(Evals)变得至关重要
高质量的自动化评估对于开发基于LLM的系统至关重要。正如 Anthropic 的 Amanda Askell 所说,好的系统提示词是通过“测试驱动开发”得出的。一个强大的评估套件能够帮助开发者更快地采用新模型、更好地迭代,并构建更可靠的产品功能。
Apple 的 AI 表现不佳,但 MLX 库很出色
虽然 Apple 推出的 “Apple Intelligence” 功能的表现差强人意,但其开源的 MLX 库 却非常出色。MLX 为在 Apple Silicon 上运行各种兼容的模型提供了便利和高性能,受到了开发者的欢迎。
推理扩展的“推理”模型兴起
2024年下半年,出现了一种新型的LLM,例如 OpenAI 的 o1 模型。这些模型通过增加推理时的计算量来提升解决复杂问题的能力,为模型扩展提供了一种新的思路。谷歌和阿里巴巴等公司也推出了类似的模型。
中国团队以较低成本训练出顶尖模型
年底最引人注目的新闻之一是 DeepSeek v3的发布。这是一个拥有 6850 亿参数的巨型模型,性能堪比 Claude 3.5 Sonnet,但其训练成本估计仅为 557.6 万美元。这显示了中国团队在模型训练优化方面的卓越能力。
环境影响的复杂性
LLM效率的提升降低了单个prompt的能源消耗,这是一个积极的趋势。然而,大规模数据中心的建设和运行对环境的影响仍然是一个值得关注的问题。
“垃圾信息(Slop)”成为年度热词
2024年,“Slop”(垃圾信息)成为了一个用来形容未经请求和审查的AI生成内容的流行词汇。它反映了人们对AI生成内容质量和泛滥的担忧。
合成训练数据效果显著
与一些人担心的“模型崩溃”相反,越来越多的证据表明,使用合成数据进行模型训练是有效的。通过精心设计合成数据,可以更好地引导模型学习,提升其性能。
LLM 的使用门槛依然很高
尽管LLM的能力越来越强,但其使用门槛依然很高。用户需要深入理解模型的工作原理、各种工具的使用方法,以及如何避免其潜在的缺陷。针对LLM的教育内容仍然有很大的提升空间。
知识鸿沟依然存在
目前,只有少数人真正了解LLM的最新进展和潜力。如何弥合这种知识鸿沟,让更多人了解和利用这项技术,是一个重要的挑战。
LLM 需要更好的批评
对于LLM技术,我们需要保持批判性的态度,关注其潜在的风险和负面影响。但同时,我们也应该承认其积极的应用价值,并引导人们负责任地使用这项技术。
总结
2024年是LLM技术飞速发展的一年,我们见证了模型能力的突破、价格的下降、多模态的普及以及各种创新应用的涌现。当然,我们也面临着新的挑战,如如何更好地评估模型、如何应对环境影响、以及如何弥合知识鸿沟等等。
展望未来,LLM技术将继续深刻地影响我们的生活和工作。让我们共同期待2025年,LLM领域将带来更多惊喜!
如果您想要让大模型写出优质的短篇小说,以及对其他内容感兴趣,也欢迎点击下面的链接,效果不错哦,很多朋友都说好。
点击这里:超强写作提示词
效果如下