2025年,AI工程师必读的50篇论文

文摘   科技   2025-01-02 14:14   上海  



思源Source报道
编辑:seefun
2025新年快乐!在一起经历了2024年的开源大模型大爆发,AI领域日新月异的技术进步,督促着我们不断去阅读新paper,更新知识栈。知名科技博主在人工智能的10个领域挑选了50篇必读论文,以供AI从业者从0学习最新的AI技术:涉及 LLMs, Benchmarks, Prompting, RAG, Agents, Co deGen, Vision, Voice, Diffusion, Finetuning 等。


大语言模型

随着LLM的爆火,很多小模型时代摸爬滚打的资深算法工程师,都开始对前沿大语言模型的发展感到焦虑,甚至会有论文“根本读不完”的感觉。我们从繁多的大模型论文中,推荐最需要阅读的5个系列论文或技术报告(Model Card),供大家快速掌握LLM的基础知识以及把握LLM的前沿进展。我们假设阅读者是具有一定经验的算法工程师,对《Attention is All You Need》等最经典的奠基之作就不再推荐了。

1. OpenAI的GPT系列论文或技术报告:包括GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4。以及GPT3.5, 4o, o1和o3的官网博客。

2. Claude 3 与 Gemini 1的技术报告:以了解OpenAI商业LLM模型竞品的技术路线。

3. LLAMA系列论文:LLaMA 1, LLaMA2, LLaMA3 ,以及后续3.1、3.2 、3.2的技术博客。 Mistral,Mixtral 以及多模态的 Pixtral系列,也基于LLaMA系列另开分支进行研发,也值得一读。

4. 国产大模型系列:如DeepSeek系列论文,包括DeepSeek-V1, DeepSeek-Coder, DeepSeek-MoE, DeepSeek-V2, DeepSeek-V3等。以及今年大火的Qwen系列,包括Qwen, Qwen2, Qwen2.5, Qwen2.5-Coder,Qwen2-VL等。

5. Apple发布的基础模型:作为大模型在工业界应用的代表。

除了这些前沿的模型之外,仍有很多论文值得阅读,比如X.ai的Grok系列,微软的Phi系列,Huggingface的SmolLM系列等。


大语言模型评测

评测(Benchmarks and Evals)也是贯穿大模型发展主线的一个重要领域。评测数据集的质量、数量以及评测方法的进步,是大模型领域研究不可或缺的一部分。

1. MMLU:主要的大模型知识基准,此外还有GPQA和BIG-Bench。2025年前沿工作常会使用MMLU Pro, GPQA Diamond和BIG-Bench Hard。

2. MuSR:评估大模型在长文本的表现,此外还有LongBench, BABILong 和 RULER。任务是解决大模型在长上下文中“大海捞针”的难题。

3. MATH:数学竞赛题汇编。前沿工作专注于MATH的子集:MATH level 5、AIME、FrontierMath, AMC10/AMC12。

4. IFEval:指令跟随的评测,也可以把MT-Bench看作IF的一种形式。

5. ARC AGI challenge:这是一个著名的抽象推理智商测试基准,它比许多迅速分数饱和的基准更加难解决。

此外一些中文能力评测benchmark比如MMCU,SuperCLUE等,也仅需了解。多模态评测Benchmark扩展了评测模态,知名的有MMBench,MMVet,MMStar等。还有一些知名的国产评测平台比如OpenCompass,提供了种类更加丰富的多维度大模型评测。


Prompting, ICL & Chain of Thought

GPT3论文应该已经介绍了In-Context-Learning(ICL),Prompting的近亲。我们还认为及时注入需要的知识—— Lilian WengSimon W.

1. The Prompt Report:一个关于prompting的Survay。

2. Chain-of-Thought“思维链”的众多推广者之一 。

3. Tree of Thought:介绍了 lookaheads 与 backtracking。

4. Prompt Tuning:你可能不需要prompts。

5. Automatic Prompt Engineering :人类是可怕的零样本提示器,LLM可以增强提示本身。


RAG

由于LLM的实际应用常需要外部知识库,而且LLM本身上下文长度受限,所以RAG(Retrieval Augmented Generation)逐渐成为一个热门研究方向,并具有海量的工程落地实践。

1. Introduction to Information Retrieval:一本不错的网络电子书。

2. 2020 Meta RAG 论文:创造了RAG这个名词。

3. MTEB: Massive Text Embedding Benchmark :Embedding方法评测。

4. GraphRAG:向RAG添加知识图谱,微软现已开源,是2024最流行的工作之一。

5. RAGASOpenAI推荐的RAG评测。

RAG是2024年人工智能工程的核心技术,在工业界也具有非常多的实践教学资源,比如LlamaIndex和LangChain提供了非常多的实践教程。


Agents

Agent几乎是2024 AI大模型创业中最火热的名词,被认为是一个非常有前景的方向。而且可以不与OpenAI等一线大厂直接竞争,反而可以借势,选择基于OpenAI强大的大模型能力,做下游应用。这也是OpenAI希望看到的双赢局面。

1. SWE-Bench:被Anthropic, Devin和OpenAI采用后,可能是今天最引人注目的Agent基准。SWE-AgentSWE-Bench Multimodal 和 the Konwinski Prizey也值得一读。

2. ReAct:一系列关于工具使用和函数调用LLM的研究。

3. MemGPT:模拟长期运行的Agent记忆。

4. Voyager:Nvidia采用了3个认知架构组件(课程、技能库、沙箱)来提高性能。更抽象地说,技能库/课程可以抽象为Agent工作流记忆的一种形式。

5. Anthropic 的 Building Effective Agents博客:2024年底回顾,重点关注链接,路由,并行化,编排,评估和优化的重要性。


代码生成

1. 开源LLM coder的论文: DeepSeek-Coder, Qwen2.5-Coder, CodeLlama等

2HumanEval/Codex paper:大模型coding benchmark,但是得分已经趋于饱和。

3. The Stack 系列 / StarCoder:开源数据集。

4. 谷歌AlphaCode系列Flow Engineering。

5. CriticGPT:关注生成代码安全问题。


视觉

大模型时代的CV研究愈发艰难,但依然有一批优秀或有特色的工作出现。(以下未包含本号先前推送过的MLLM相关工作)

1. 传统CV任务的工作:YOLO11。经典的目标检测工作,依然是追求速度更快、性能更高。但也有越来越多的transformer相关的目标检测工作,比如DETRs Beat YOLOs。

2. 基于CLIP的工作在Alec Radford基于ViT提出CLIP之后,视觉语言模型得到了突破性的进展,BLIP/BLIP2 or SigLIP以及使用了SigLIP的PaliGemma系列都是不错的工作。

3. MMVP benchmark:量化基于CLIP的视觉语言模型的重要缺陷。

4. Segment Anything Model and SAM 2:以及基于SAM做的很多工作,比如GroundingDINO.

5. Early fusion 的多模态大模型相关工作:本号已经推送过多个“Late fusion”的多模态大模型工作,比如基于LLAVA的一系列工作,这些工作大同小异,也非常简单易于实现。而early fusion的多模态大模型工作包括Meta的 FlamingoChameleon, Apple的AIMv2, Reka Core等,也值得关注。


语音

1. Whisper系列论文:OpenAI语音引擎,同样是Alec Radford的代表作之一。

2. 谷歌的AudioPaLM 

3. NaturalSpeech 

4. Kyutai Moshi 

5. OpenAI Realtime API: The Missing Manual


Diffusion

图像和视频的Diffison模型,也是2024最火热的话题之一。

1. Latent Diffusion: SD2SDXLSD3, FLUX。

2. DALL-E系列:OpenAI DALL-E / DALL-E-2 / DALL-E-3。

3ImageGen系列:Google Imagen / Imagen 2 / Imagen 3。

4. Consistency Models:蒸馏工作。

5. Sora博客虽然Sora在2024年末前,一直只有demo放出,但是基于Sora博客中方案,出现了非常多类Sora模型,并在社交媒体爆火。


微调

1. Lora / QLora: 廉价微调大模型的方案。

2. DPO后训练必备,流行的PPO替代品。

3. ReFT:与其对几个层进行微调,不如专注于功能。

4. Orca 3/AgentInstruct:合成数据选择,但这是有限数据微调的好方法。

5. RL/Reasoning Tuning papers 对于o1的RL的微调方法,虽然存在争议,但是有一些论文博客和讨论给出了一些其工作原理。




以上提及的论文或博客的链接汇总,可以公众号后台回复“50”获取



点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧

思源数据科学
Towards AGI
 最新文章