老刘说NLP社区2024年终演讲：回顾得失，踏实前行

文摘 2025-01-04 11:33 北京

今天是2025年01月04日，星期六，北京，天气晴。

今天是2025年的第一个非工作日。

2024年12月31日晚，老刘在社区做了2024年年终技术演讲，这是社区的传统了，我们在23年做了一次，感觉不错，觉得这个传统要延续下去，所以又做了一年。整体还不错，我把把其中的一些重点发出来，供大家一起参考。回放跟ppt原文见社区，欢迎加入社区，一同成长。‍‍‍‍‍‍‍

我们从ChatGPT两周年的大背景、2024年大模型每月大事件回顾、2024年大模型取得的成就与妥协、2024年RAG\知识图谱\文档理解上的技术变化、2024年老刘说NLP社区建设情况汇报、2025年的展望与期待等几个方面进行了回顾。

大家一起加油。

一、ChatGPT两周年后的回顾

ChatGPT转眼2年了。2018年，OpenAI发布了最早的一代大型模型GPT-1。

2019年，GPT-2发布，模型参数量提高到15亿个。

2020年，GPT-3诞生，参数量达到了1750亿个，其训练参数是GPT-2的10倍以上。

2022年1月，OpenAI对GPT-3用监督式训练进行了微调，并且进行迭代，最终发布了InstructGPT。

2022年11月30日，OpenAI正式发布了ChatGPT，与InstructGPT是姐妹模型，能够对话的GPT版本，是在GPT-3基础上的3.5版本。

2023年，3月15日，OpenAI正式推出GPT-4。2024年5月14日，OpenAI推出新旗舰模型GPT-4o。

2024年9月13日，OpenAI发布o1模型，并在ChatGPT和API接口渠道上推出该系列的预览版本OpenAI o1-preview，OpenAI o1包括三个型号，除o1-preview之外还将有o1和o1-mini。

两年前，我们还是在摸索其上线，用对话框的形式聊聊天，写写诗；

两年后，大模型已经渗透到了我们生活的各处；

我们在23年的时候，预测在2024年要关注CoX的力量，这一刻也应验了，openai o1的发布，掀起了后续慢思考的热潮；

我们也预测24年moe、多模态大模型的爆发，在2024年也得到验证。

二、2024年大模型每月大事件回顾

2024年，12个月，摊开后，能够明显的看到整个技术和产业的发展变化。

1月份开年moe+长文本2月份OpenAIsora开启视6月份国内开始价格战9月份OpenAI发布o1模型开启推理模仿潮12月份OpenAI举行为期12天的活动发布多个新产品

三、2024年大模型的一些成就与妥协

成就上，给2025年打下一个很好的基本盘：

多模态大模型全面开花-语音/图片/视频/理解等

大模型在长文本上/多size/MOE的能力得到长足进展大模型产业基础设施基本建成

妥协上，依旧有很多并不那么理想化的现实：

领域大模型pretrain/微调提的少了，RAG无处不在。

Agent的饼逐步被戳破，workflow的本质越来越为大家所认识

知识图谱与大模型的结合以一种新的形式回来了，但依旧举步维艰

任务提升回归到任务拆分，分而治之慢思考+细分解体步骤提升效果

大模型现在还打不平，不是个好生意

四、从技术微观上，有哪些工作还可以继续

大模型时代下数据合成成为重要方向。

OpenAI O1后时代下的慢思考范式拓展。

从RAG到RAG N.0，RAG建模为端到端优化问题

五、2024年老刘说NLP社区建设回顾

7年历程下2次转变，这是一个技术人的一些历程，贵在坚持。

2024年老刘说NLP技术文章建设：340+文章/30+专题写作

2024年老刘说NLP线上交流建设：历史三十五讲，全年累计25讲

2024年300+每日早报建设：从2月份开始连续11个月

2024年代表专题工作建设：围绕文档理解+知识图谱+RAG的17个专题

2024年老刘课堂建设：知识图谱、大模型、RAG课堂三部曲

2025年的展望

技术没有最好，只有更合适；对技术保持敬畏之心，保持长期主义，保持自省，保持谦逊之心，不卑不亢，不悲不喜。

放眼2025年，让自己更具备实践能力，管理好自己的预期。技术本身是没错的，技术也不会泡沫，泡沫这些都是外部推力所营造的，所以这很主观，不存在所谓泡沫，只存在决定这个泡沫是否产生的预期管理，预期管理的好，那么看到的就是希望，否则则是一地鸡毛。搜索能力、提问能力、动手能力，始终是当前时代不会错误的能力，大家需要修身、保持自律。

让我们在2025年继续前行，也欢迎更多朋友加入社区大家庭。

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

60k感知算法岗面试，考察热门Occ算法及难点！

技术实践指引：3个适合练手的开源数据及项目平台

语音处理落地组件全家桶：语音大模型、数字人、语音到文本、文本转语音全集

老刘说NLP社区2024年终演讲：回顾得失，踏实前行

GraphRAG范式的新角度思考及一个很有信息量的总结

大模型4大神书《动手学大语言模型之语言理解和生成》分享

RAG落地端侧场景：EdgeRAG面向端侧RAG优化思路及特定领域多模态探索

2025年开篇：技术及宏观角度回顾2024年大模型发展

老刘说NLP及大模型的2024年终总结—不悲不喜、继续前行

GraphRAG前沿进展：引入本体的OG-RAG及HYBGRAG实现思路

大模型与知识图谱结合之三元组预测及GEAR多跳问答思路

老刘说NLP技术社区共享：围绕知识图谱+大模型+文档智能三驾马车前进

多模态RAG中的图文Embedding模型及8个图文对数据集

Prompt自动优化框架PromptWizard及AI搜索框架Level-Navi Agent实现思路

RAG的4种查询优化思路及用于时序预测的2个工作

又看多模态RAG进展：解读OmniSearch-多模态检索增强生成新SOTA！

大模型用于推荐(LLMERS)范式总结及缓存增强生成（CAG）实现思路

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

再看情报分析中的事件名称生成策略：基于最长公共子串思想原理

两个值得一读的技术总结：OpenAI o1模型复现复现思想及多模态大模型用于数学推理

langchain关于Agent的年终统计及文档图片去水印思路

文档智能遇上历史古籍：古籍文档修复及识别开源数据集

再看多模态RAG进展：VisDoMRAG及DocVLM-OCR方案解读

《一书解决几乎所有机器学习问题》.PDF下载

【数字人应用基建】29个文本转语音TTS开源工具

大模型人才的薪资，彻底爆了！

【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

RAG常见模式、痛点及最佳实践总结4张图：兼看大模型时代的工程开发工具集合

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

大模型行业，岗位也分三六九等

【RAG 2024时间线回顾】RAG七十二式：2024年度RAG清单索引

卷图不卷图谱-GraphRAG最近趋势：考虑结构性、相似性、相关性等Graph思想实现策略

视觉语言模型新SOTA！性能碾压LoRA，无需预训练，训练显存大大减少！

文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

AI生成文本检测数据集及9个工具索引：兼看“磁悬浮老鹰”逻辑陷进测试

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

【文档智能】多模态文档OCR评测CC-OCR及专有模型代表工作

aiops-challenge比赛简单总结

故障分析怎么做？朴素KG方案及LLM+Graph RAG方案实现思路

yyds！哈工大博士的PyTorch笔记火了！！

ChatGPT两周年历程回顾及大模型Text2SQL方案索引

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

12个开源AI搜索引擎项目及关于Ai搜索的一些思考

AUTO-RAG多轮对话迭代式检索及RAGDiffusion多模态图像生成思路

使用LLM进行标书写作简单开源项目及openai O1实现思路再索引

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉