LLM 又过了一年!!!

科技   2024-12-26 00:02   吉林  


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | NLP工作站
作者 | ybq
LLM 的第二年就要结束了,如果 2023 年的主题叫“从零到一”,那么 2024 年的主题无疑是“颠覆认知”。

过去的颠覆

年初的观点,年末的笑话,在 LLM 的大时代下,技术的迭代变更就是这么快,当下的认知和见解很可能三个月后就被打脸。
如果细分这些被颠覆的认知,其背后大概有两个层面的原因:
  • 实践出真知:很多原本符合直觉的东西,在实际做了之后,就会发现未必如此。例如,在实操 continue pretrain 之前,我以为更多的 pretrain 语料会让模型通用和领域都有提升,实操之后我意识到“领域能力的增强一定伴随着通用能力的下降,cpt 无法提升模型通用能力”,cpt 的重心应放在如何防止通用能力丢失,而不是如何强化领域能力。强如 qwen 团队,为了提高 qwen2.5 的 math / code 能力,某些中文通用场景较 qwen2 略有下降;为了提高 qwen2.5 的逻辑推理能力,模型经常会不遵循“直接输出答案” 这一指令。
  • 机械降神:OpenAI 几乎是以一己之力,逼迫所有从业者接受“用推理时间换取模型在复杂问题上的准确性”这一方案,在那之前,几乎没有团队敢如此尝试(由于尚不知道 o3 的技术路线,本文我依然用 o1 指代逻辑推理增强模型)。
无论是在实践中摸爬滚打,还是听大神指点迷津,都间接促进了大模型从业者们的进步,本质上是一桩喜事。我毫不质疑,我这篇文章的观点和想法依旧会被颠覆,但无所谓了,学新知识嘛,被打脸不寒碜。墨守陈规踌躇不前,跟不上前沿技术的步伐,那才是丢人的事情。
言归正传,从年初到年末,今年到底有多少被颠覆的认知呢?大概如下吧:
  • 角色扮演模型大红大紫 —— 付费聊天无人买单
  • agent 近在咫尺 —— agent 前路漫漫
  • 文本退位,多模态是 AGI 的未来 —— o1 有话说:AGI 的辟路先锋还是文本
  • dpo 简单好用 —— o1 有话说:rl 是 llm 核心技术
  • llm 不适合复杂逻辑推理 —— o1 有话说:啊?
  • llm 需要更快更好 —— inference_scaling_law:要想好,就得慢
  • moe 是 GPT4 的关键 —— 黑客的情报害人不浅
  • llama:行业的灯塔 —— qwen / deepseek:国产的荣光
  • 初创公司勃勃生机 —— bytedance:请问 money 这个单词怎么读
  • ……
这些被颠覆的认知大概就是过去一年的国产大模型发展总结吧 —— 以“role_play / agent / 多模态”三驾马车为开场,以国产开源模型崛起为高潮,以 o1 横空出世为落幕。

当下的迷茫

目前,大模型已经能覆盖 95% 用户的需求了:信息抽取,文案设计,表格生成,简单代码,简单问答…… 乍一看这似乎是件喜事,可作为从业者的我却开心不起来一点。一个不可忽视的“矛盾”摆在眼前:这 95% 的需求均是简单任务,并不需要模型有很强的能力,那剩下的 5% 涉及到复杂逻辑推理的需求,到底该不该继续投入呢?
行百里者半于九十,这 5% 的需求背后,是 AGI 的技术瓶颈,是以 o1 为代表的新技术范式,是算法从业者最想深钻最想花时间去攻克的难题 —— 但同时,也是天价的算力投入。
继续加大投入,也许 2025 年上半年国产大模型就能追上 o1 的脚步,但收益呢?攻克了 5% 的难题并不会带来更多的日活,大部分的用户并不需要模型有复杂的逻辑能力。甚至连互联网圈最引以为傲的技术影响力都不一定能获得,有影响力需要建立在 OpenAI 没有抛出新技术方向的前提下。
我的子标题是“当下的迷茫”,不过实话说我毫不迷茫,我是一定要去学最前沿的技术方向的。我只是有点担心我的老板会迷茫,进而导致我的精力无法全部投入在这些方向。哎,倒也无妨,有一种加班叫为自己加班。
还是希望每个老板都能支持自己的员工去攻克新的技术瓶颈,求求了,满足下孩子们的技术梦吧!

未来的方向

“合成数据,Agent,o1”是曹宇老师认可的未来比较重要的三个方向,我十分认同,而且我觉着这三个方向的提出是有逻辑关系在的:
  • 合成数据是基石:如 Ilya 所说,我们只有一个互联网来提供数据,因此我们需要更多更好的 pretrain / alignment 数据;
  • o1 是技术手段:通过 o1,让 llm 具有逻辑思考能力,一个不会思考的模型是和智能毫不沾边的;
  • agent 是目标:AGI 的最终目标一定是 agent,这个毋庸置疑。
每个人对 agent 都有自己的理解和定义,我的定义则是:一个能与环境进行交互的智能体。
前面我说过,2024 年初的时候,大家都认为 agent 很快就能实现。为什么?因为 function_call 的技术路线已经突破了。通过让 function_call 调用 API,我们轻易就能让 llm 和环境进行交互。然后,各家公司的 agent 模型应运而出,却都像一个没灵魂的躯壳,完全让用户提不起兴趣。
问题出在哪里?我个人觉着是这个 agent 没有思考能力,导致和环境的交互太死板了。毕竟目前的 function_call,本质就是把一堆 if else 语句变成训练语料让模型来背,遇见代码就 call_python_API,遇见天气就 call_weather_API。当我把 prompt 写出来的时候,就能预测到模型会调什么函数了。
如果我们给 function_call 再配一个大脑(o1)呢?试想一下:
  • 我们给模型抛出一个问题,模型通过 cot 认为自己的知识无法回答,于是调用了 call_rag;
  • 拿到 rag 结果后再 cot,发现 rag 的结果有很多冲突的内容,感觉不是很置信,于是修改了 query 并且再次 call_rag;
  • 检索结果还是很奇怪,通过 cot,模型决定不再 call_rag 了,它去 call_other_llm 了,把问题抛给别的模型,拿到别的模型的结果并返回给了你;
  • 你发现它花了很长时间还是给了错误答案,很生气,喷它了;
  • 它很委屈,通过 cot 反思自己,觉着自己已经做出了当下的最优抉择,就决定把自己的三次调用 API 的过程告诉你,向你解释它尽力了。
  • ……
一个配备了大脑和 function_call 的模型,“模型与环境交互几次 / 什么时机下交互 / 该用什么交互方式” 都是通过 cot 思考出来的,而不是通过 sft 给训死的。我们每次和它交互的结果都是无法预测的,它的每一条回复,每一次调用 API 都是有理有据的,甚至因为 do_sample 的缘故每次脑回路还会不太一样。换言之,它的回复全是惊喜!
我不知道大家对 agent 的定义是怎么样的,但如果能成功把 o1 加持给 agent,我认为我心中的 agent 是已经实现了 —— 数据 + o1 + agent,冲冲冲!

写在最后

大模型的效果是如此惊艳,以至于大家无法判断,距离 AGI 的最后一步到底是触手可及,还是咫尺天涯 —— 希望 2025 年可以看出一些端倪吧。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理
关注AI前沿技术,助力AI学者进步
 最新文章