2025新年快乐!在一起经历了2024年的开源大模型大爆发,AI领域日新月异的技术进步,督促着我们不断去阅读新paper,更新知识栈。知名科技博主在人工智能的10个领域挑选了50篇必读论文,以供AI从业者从0学习最新的AI技术:涉及 LLMs, Benchmarks, Prompting, RAG, Agents, Co deGen, Vision, Voice, Diffusion, Finetuning 等。
大语言模型
随着LLM的爆火,很多小模型时代摸爬滚打的资深算法工程师,都开始对前沿大语言模型的发展感到焦虑,甚至会有论文“根本读不完”的感觉。我们从繁多的大模型论文中,推荐最需要阅读的5个系列论文或技术报告(Model Card),供大家快速掌握LLM的基础知识以及把握LLM的前沿进展。我们假设阅读者是具有一定经验的算法工程师,对《Attention is All You Need》等最经典的奠基之作就不再推荐了。
1. OpenAI的GPT系列论文或技术报告:包括GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4。以及GPT3.5, 4o, o1和o3的官网博客。
2. Claude 3 与 Gemini 1的技术报告:以了解OpenAI商业LLM模型竞品的技术路线。
3. LLAMA系列论文:LLaMA 1, LLaMA2, LLaMA3 ,以及后续3.1、3.2 、3.2的技术博客。 Mistral,Mixtral 以及多模态的 Pixtral系列,也基于LLaMA系列另开分支进行研发,也值得一读。
4. 国产大模型系列:如DeepSeek系列论文,包括DeepSeek-V1, DeepSeek-Coder, DeepSeek-MoE, DeepSeek-V2, DeepSeek-V3等。以及今年大火的Qwen系列,包括Qwen, Qwen2, Qwen2.5, Qwen2.5-Coder,Qwen2-VL等。
5. Apple发布的基础模型:作为大模型在工业界应用的代表。
除了这些前沿的模型之外,仍有很多论文值得阅读,比如X.ai的Grok系列,微软的Phi系列,Huggingface的SmolLM系列等。
大语言模型评测
评测(Benchmarks and Evals)也是贯穿大模型发展主线的一个重要领域。评测数据集的质量、数量以及评测方法的进步,是大模型领域研究不可或缺的一部分。
1. MMLU:主要的大模型知识基准,此外还有GPQA和BIG-Bench。2025年前沿工作常会使用MMLU Pro, GPQA Diamond和BIG-Bench Hard。
2. MuSR:评估大模型在长文本的表现,此外还有LongBench, BABILong 和 RULER。任务是解决大模型在长上下文中“大海捞针”的难题。
3. MATH:数学竞赛题汇编。前沿工作专注于MATH的子集:MATH level 5、AIME、FrontierMath, AMC10/AMC12。
4. IFEval:指令跟随的评测,也可以把MT-Bench看作IF的一种形式。
5. ARC AGI challenge:这是一个著名的抽象推理智商测试基准,它比许多迅速分数饱和的基准更加难解决。
此外一些中文能力评测benchmark比如MMCU,SuperCLUE等,也仅需了解。多模态评测Benchmark扩展了评测模态,知名的有MMBench,MMVet,MMStar等。还有一些知名的国产评测平台比如OpenCompass,提供了种类更加丰富的多维度大模型评测。
Prompting, ICL & Chain of Thought
GPT3论文应该已经介绍了In-Context-Learning(ICL),Prompting的近亲。我们还认为及时注入需要的知识—— Lilian Weng, Simon W.
1. The Prompt Report:一个关于prompting的Survay。
2. Chain-of-Thought:“思维链”的众多推广者之一 。
3. Tree of Thought:介绍了 lookaheads 与 backtracking。
4. Prompt Tuning:你可能不需要prompts。
5. Automatic Prompt Engineering :人类是可怕的零样本提示器,LLM可以增强提示本身。
RAG
由于LLM的实际应用常需要外部知识库,而且LLM本身上下文长度受限,所以RAG(Retrieval Augmented Generation)逐渐成为一个热门研究方向,并具有海量的工程落地实践。
1. Introduction to Information Retrieval:一本不错的网络电子书。
2. 2020 Meta RAG 论文:创造了RAG这个名词。
3. MTEB: Massive Text Embedding Benchmark :Embedding方法评测。
4. GraphRAG:向RAG添加知识图谱,微软现已开源,是2024最流行的工作之一。
5. RAGAS:OpenAI推荐的RAG评测。
RAG是2024年人工智能工程的核心技术,在工业界也具有非常多的实践教学资源,比如LlamaIndex和LangChain提供了非常多的实践教程。
Agents
Agent几乎是2024 AI大模型创业中最火热的名词,被认为是一个非常有前景的方向。而且可以不与OpenAI等一线大厂直接竞争,反而可以借势,选择基于OpenAI强大的大模型能力,做下游应用。这也是OpenAI希望看到的双赢局面。
1. SWE-Bench:在被Anthropic, Devin和OpenAI采用后,可能是今天最引人注目的Agent基准。SWE-Agent, SWE-Bench Multimodal 和 the Konwinski Prizey也值得一读。
2. ReAct:一系列关于工具使用和函数调用LLM的研究。
3. MemGPT:模拟长期运行的Agent记忆。
4. Voyager:Nvidia采用了3个认知架构组件(课程、技能库、沙箱)来提高性能。更抽象地说,技能库/课程可以抽象为Agent工作流记忆的一种形式。
5. Anthropic 的 Building Effective Agents博客:2024年底回顾,重点关注链接,路由,并行化,编排,评估和优化的重要性。
代码生成
1. 开源LLM coder的论文: DeepSeek-Coder, Qwen2.5-Coder, CodeLlama等
2. HumanEval/Codex paper:大模型coding benchmark,但是得分已经趋于饱和。
3. The Stack 系列 / StarCoder:开源数据集。
4. 谷歌AlphaCode系列:Flow Engineering。
5. CriticGPT:关注生成代码安全问题。
视觉
大模型时代的CV研究愈发艰难,但依然有一批优秀或有特色的工作出现。(以下未包含本号先前推送过的MLLM相关工作)
1. 传统CV任务的工作:YOLO11。经典的目标检测工作,依然是追求速度更快、性能更高。但也有越来越多的transformer相关的目标检测工作,比如DETRs Beat YOLOs。
2. 基于CLIP的工作:在Alec Radford基于ViT提出CLIP之后,视觉语言模型得到了突破性的进展,BLIP/BLIP2 or SigLIP以及使用了SigLIP的PaliGemma系列都是不错的工作。
3. MMVP benchmark:量化基于CLIP的视觉语言模型的重要缺陷。
4. Segment Anything Model and SAM 2:以及基于SAM做的很多工作,比如GroundingDINO.
5. Early fusion 的多模态大模型相关工作:本号已经推送过多个“Late fusion”的多模态大模型工作,比如基于LLAVA的一系列工作,这些工作大同小异,也非常简单易于实现。而early fusion的多模态大模型工作包括Meta的 Flamingo, Chameleon, Apple的AIMv2, Reka Core等,也值得关注。
语音
1. Whisper系列论文:OpenAI语音引擎,同样是Alec Radford的代表作之一。
2. 谷歌的AudioPaLM
3. NaturalSpeech
4. Kyutai Moshi
5. OpenAI Realtime API: The Missing Manual
Diffusion
图像和视频的Diffison模型,也是2024最火热的话题之一。
1. Latent Diffusion: SD2, SDXL, SD3, FLUX。
2. DALL-E系列:OpenAI DALL-E / DALL-E-2 / DALL-E-3。
3. ImageGen系列:Google Imagen / Imagen 2 / Imagen 3。
4. Consistency Models:蒸馏工作。
5. Sora博客:虽然Sora在2024年末前,一直只有demo放出,但是基于Sora博客中方案,出现了非常多类Sora模型,并在社交媒体爆火。
微调
1. Lora / QLora: 廉价微调大模型的方案。
2. DPO:后训练必备,流行的PPO替代品。
3. ReFT:与其对几个层进行微调,不如专注于功能。
4. Orca 3/AgentInstruct:合成数据选择,但这是有限数据微调的好方法。
5. RL/Reasoning Tuning papers: 对于o1的RL的微调方法,虽然存在争议,但是有一些论文博客和讨论给出了一些其工作原理。
以上提及的论文或博客的链接汇总,可以公众号后台回复“50”获取
点击👇关注 “思源数据科学”
👇点个“赞”和“在看”吧