今天是2024年12月31日,星期二,北京,天气晴。
今天是2024年的最后一天,老刘来做老刘说NLP技术社区的2024年总结、回顾2024年大模型的一些变化,供大家参考。
回顾过去,是为了更好地重新出发。
一、老刘说NLP技术社区的2024年总结
2024年,是老刘说NLP技术社区的第三年,也是老刘说NLP公众号的第四年。
在这里,简单给各位读者和社区成员做个年终总结。
2024年,我们以公众号文章、技术社区群两个主要阵地,围绕着文档智能+知识图谱+大模型三驾马车展开建设,系统深入三者之间的结合,做了许多有趣且有意义的工作。
在公众号文章创作上,老刘说NLP依旧保持着高频的写作,笔耕不辍,2024年全年累计发表 文章300+ ,并陆续专题化,形成了 RAG(137)、知识图谱(141)、事件图谱(44)、知识图谱+大模型(43)、大模型+数据(38)、文档智能(35)、大模型评估(35)、预训练模型(36)、知识图谱+RAG(32)、大模型+文档智能(24)、大模型应用(24)、领域大模型(23)、embedding(20)、大模型幻觉(18)、大模型微调(18)、文本分析(17)、Prompt工程(17)、大模型训练(13)、多模态RAG(11)、Agent(10)、事理图谱(11)、AI搜索(6)、Openai o1(5)、大模型信息抽取(4) 等30+专题,内容知识体系进一步完整。
在技术社区线上交流上,根据月度汇报、半月度汇报、外部技术专家邀请的方式,技术社区共举行线上分享25次,紧密围绕文档智能+知识图谱+大模型主题展开分享,进一步跟进RAG、文档理解等前沿进展,并授人以鱼,不如授人以渔,对碎片化时代如何进行高效阅读,如何培养自身的学习能力展开阶段性介绍。
但是,到了后面我陆续的发现,这种以“讲”为单位的方式,还并不体系化,因此,我进一步通过剪辑的方式,对线上分享进行了知识点切分和重组,并形成了知识图谱、大模型、RAG三部曲,按照专题进行重组,形成了10节课,从而能够更好地进行索引。
2024年2月开始,我在想,是否可以通过每日早报的形式进行跟进,这样的话,可以借助自己的专业认知,对外部的信息流进行过滤,然后在第二天回顾前一天发生的一些技术上的进展,并且标注出来源,这样长期以来,慢慢积累,就可以形成一个很大的索引库,社区成员就可以基于这个底库进行快速索引,并深入理解。因此,这也是今年的一个意义比较大的点,已经陆陆续续积累了300多天的日报,进一步夯实了社区的知识体系。
公众号和社区一直在壮大,总会有一些朋友加入,这是十分令人欣慰的。回想起这几年,给大家捋一捋心路历程。
2024年,是老刘说NLP技术社区的整整三周年,走的其实并不容易,靠的是一种自律和信仰。
2017年开始做github,持续坚持做了3年,做了许多开源的事情,包括最开始的知识图谱问答项目,目前在很多学术论文中也能看到这些影子。当时的想法是,很多轮子是没有的,自己可以做一些补齐,但越到后面我越发现,国内的开源生态并不太友好,每天都会收到大量的邮件,要求手把手教学,要求分享等,这种伸手党的氛围,其实并不利于开源发展。
因此,到了2021年,我开始在想,授人以鱼,不如授人以渔,或许,我可以分享一些技术上的认知,这样大家可以根据这种思路来做个更多的实践。因此,2021年8月份开始,老刘说NLP公众号这个阵地开始了,以知识图谱/事理图谱为切入点,开始做技术分享,当然,整个技术都是在往前走的,技术一直在变,所以内容的主题也一直在变化,从知识图谱到事理图谱,再到大模型,再到RAG,再到文档智能,这些也和自身的工作内容轨迹是相跟随的。当然,公众号的内容,其实是自己的一个技术总结,这一点很重要,因为不是为了给别人看而写,完全是自身的一个自驱学习记录,所以从写作方式上,内容上,可以更为灵活,顺带分享给大家,长期以往,自身的知识储备就越来越多,收益还是很好的。
但是,到了22年之后,又有了一个新的想法,那就是,是否可以以技术群的方式,把一群志同道合的人召集起来,这样能够有个讨论的环境,能够有所反馈,可以搭建一个教师-学生的平台,在外部信息庞杂的形势下,可以培养一批有清醒认识的人,可以进行一些分享,可以收集一些问题,因此,社区在22年一月份正式开始了。当然,这个后续设定收费制(这个从经验来讲是必须的,因为纳入门槛之后,可以过滤掉许多人,有利于社区的健康发展,社区可以更好地进行良性互动),并且更好地倒逼社区往前发展,更好地做更多有趣、有意义的建设。
回顾这三年,从github到公众号再到技术社区,走的其实并不容易,难在坚持、坚守和这份自律。这几年也悟出来一个道理,极致自律,其实换来的是极致自由。而多总结,多回顾,多积累,多反思,抓住问题的根,能够在外部环境不断变化的情况下,保持自身的前进,保持自身的独立思考能力。
其实,在技术上,又何尝不是,从毕业后工作这几年,看到了知识图谱的兴盛和泡沫,也看到了近两年大模型的预期拉满以及到现在的骑虎难下,但这并不是技术本身的特质,而是外部人的因素所赋予的。外部一直在变,有时变好,有时变坏,但不变的,一定是自己的内在,并且对技术一直前进发展的长期信念。
二、回顾2024年大模型的一些变化
社区在去年的今天,也就是2023年12月31日,进行了2023年的年终总结,那时候,我们所看到的,都是大家在大模型方面做的一些火热之事,百模大战,github上涌现出了许多各种微调模型,领域微调十分盛行,开源模型竞赛、榜单评测你方唱罢我登场,大家都过着你追我赶的日子,并且对大模型有着极高的期待。
但一年之后,大模型的形势悄然发生了一些变化,老刘根据自身的观察和跟进,简单归纳下一下几点【有些狭隘,不一定准确】。
1、领域大模型微调提的少了,RAG无处不在
领域大模型微调提的少了,这是一个很明显的趋势,与2023年大家都在进行领域sft相比,RAG作为一种新的潮流显然更为大家所熟知。至于为什么会这样。我们可以看下基本逻辑。一个是得益于当前大模型能力的提升,2024年,以qwen,deepseek为代表的开源模型,在模型能力上,的确有大幅的提升【这个在llmarena的评测以及大家的体感上有直接说明】,这种提升,也很大概率地显示出了其在一些领域上的迁移性,迁移性好一些了,微调的必要性自然就会变小;一个是大家在落地的过程中,逐渐意识到,微调的成本并不低,需要收集领域的数据,还需要进行清洗、做数据配比等,这个与可以快速进行适配的RAG检索增强生成范式相比,成本并不具备优势,所以关注度就会偏向后者;一个整个大模型的开发开源环境逐渐成熟起来,琳琅满目的RAG框架,与其配套的embedding模型、ranking模型、长文本模型、rerank模型、切分策略、文档解析工具、排序策略、向量化数据库等的逐步补全,极大地降低了RAG部署的成本和难度,因此RAG也就变成了无处不在的方案。当然,后续的发展,就变成了GraphRAG,多模态RAG的范式,但这些范式已经相对固定了,在25年不会有太大的变化。
2、Agent的饼逐步被戳破,workflow的本质越来越为大家所认识
Agent的饼,即大模型可以做一切,这个其实是在2023年的年底大家开始说的,给定一个目标,大模型可以自行的进行目标分解,分解成多个执行步骤,并且能够在每个环节,都可以自动地调用一些工具,进行工具的参数解析,并自行迭代控制,直到任务顺利完成。这种想法是很好的,但受限于外部任务的复杂度以及llm自身能力的不足和输出的不稳定以以及验收需求的低容错和快响应,越来越多的试错表明,llm这条路走的并不太顺。因此,大家开始慢慢回过头来想想为什么。回归到技术本身,大家慢慢开始发现,这些agent,本身核心就是任务编排,就是任务流,有些场景任务,其执行步骤、终止条件是可以通过编排设定出来的,并不需要llm进行规划,这样反而更为稳定。llm也并不一定要参与其中每一个环节,之前的bert这些小模型在某些任务场景上,也安全可以胜任。这种转变是很重要的,这样能能够让大家将注意力放到具体的业务场景里,去挖掘场景需求,去捋清楚场景的执行步骤,去组合出更多的业务模式,从而更好地解决业务问题。
3、以文档理解、视频、音频创作的多模态技术受到广泛关注
RAG方案的盛行,直接带火了文档理解OCR这个方向,因为文档各异,有各种格式,各种布局,需要对文档中的图片、表格、段落、公式这些进行解析,传统OCR的方式在图表上无能为力,并且泛化性不够。而以GPT4-V为代表的多模态模型在文档上表现出来的效果,的确给人一种耳目一新的感觉,所以这块也涌现出了许多工作,如intern-vl,qwen-vl等,虽然速度很慢且有幻觉,但让人看到期望。另外,openai-sora,快手的可灵,chatTTS这些多模态开源项目推进,使得notellm播客这些迅速流行,也降低了大家进行功能集成的门槛。个人觉得,这些其实是2024年最令人鼓舞的事情,多模态的进展,在2025年也会有更多的期待。因为,相较于多模态,文本侧的进展显得并不是太顺利,这也与文本应用场景的实际难度强相关。文本这块在2024年最大的进展,就是长文本的进展,这一额一度引发了一些关于长文本模型替代RAG范式的一些争论(虽然没有什么太大的意义)
4、知识图谱与大模型的结合以一种新的形式回来了,但依旧举步维艰
以GraphRAG为代表的范式,探索了一种将知识图谱/Graph+LLM的新范式,并且在一些特定场景下,取得了优于传统RAG的效果,这是一个好事情,是个好的突破口。知识图谱以一种新的形式回来了,其内涵也发生了改变,可以变成schema-free的形式,可以将任何元素进行图谱化,比如chunk之间、chunk和实体之间、实体和实体之间、实体和社区之间,包袱丢掉一些,能走的更远。但这从另一个角度来看,这个是其实是知识图谱在革自己的命,把自己的精髓给丢掉了。此外,在实际的应用过程中发现,与其带来的收益相比,其引入的成本并不很低,所以又变成了一些算账的问题。当然,2025年,知识图谱和大模型的结合,也有一些新进展,例如用知识图谱来检测和修正大模型幻觉,引入规则来引导大模型生成,但这些依旧很小众。
5、放眼2025年,应用场景挖掘+多模态跟进+传统小模型回顾值得关注
未来总是不值得也不能够进行预测的,因为近年来的事情变化太多,所以,我们其实是无法预料到未来一年甚至未来三个月的变化。但是立足现在的现实,我们可以做个总结,并基于这个总结,做一点点狭隘的展望。2024年,经过2年的发展,大模型的能力已经初步建成,以qwen\qwen-vl\llama\deepseek-vl等为代表的开源文本/多模态模型已经初步成型,llamafactor、,swift等微调框架,vllm等推理框架,langchain\ragflowa等rag框架等、chattts、audiollm等基础设施已经有了,并且水平达到一定瓶颈,这些在25年不会有太多突破性的变化,但使得我们在2025年有了做事情的基本盘;在技术策略侧,RAG的优化策略,文档处理的策略,强化微调的优化策略,cot等策略,大家也人手一份,在方法论上,大家其实大差不差,指导也是有的,有了基本的指引;所以,这两点为2025年的开局其实打下了很好的基础。但这种基础也带来了一些压力,因为大家陷入了同质化,同质化直接加剧竞争,需要深挖各种场景,大模型其实并没有新增太多的场景,做的更多的是对之前业务的技术方案替换,并且还是以更多资源消耗代替的,但资源消耗这块,随着硬件资源的升级,可能在2025年会有一些好转,但这种好转又会反过来更加剧应用压力,所以,这是大家所需要关注的。
站在现在这个时间点,我们要感谢2024年,在技术上给了我们许多惊醒,有太多人在技术上奉献了很多事情,当然也要感谢自己。
我们要相信一句话,技术本身是没错的,技术也不会泡沫,泡沫这些都是外部推力所营造的,所以这很主观,不存在所谓泡沫,只存在决定这个泡沫是否产生的预期管理,预期管理的好,那么看到的就是希望,否则则是一地鸡毛。
写在最后
如今,在2024年的最后一天,老刘在此感谢,感谢老刘说NLP公众号近4.5W个读者,感谢老刘说NLP技术社区的各个成员,你们是老刘说NLP不断前行的动力和支撑,路虽远,行则将至。对技术保持敬畏之心,保持长期主义,保持自省,保持谦逊之心,不卑不亢,不悲不喜。
2025年,大家一起更好、更坚定的加油。
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入