LLM（大语言模型），我们距离应用还差什么？

文摘 2024-10-12 17:39 江苏

本篇成于2024年8月底，O1发布半个月之前，我与同事讨论，再次坚定，无论是技术路线上，还是需求上，启发式搜索都应当是重要的发展路线，当时也是觉得这些讨论极有价值，怕忘了，就写成文章记录下来。写完了半个月后，O1发布了，就像是照着剧本走一样。也如我所想，O1展现出数学和逻辑推理能力之后，O1展现出数学和逻辑推理能力之后，业界讨论的重点变为，如何将这种“推理”能力泛化到其他领域，也如同预想中一样。
所以我依旧认为，OpenAI没有发什么石破天惊的东西，还是合乎逻辑的一次发展。
本文的展望也可看作是对O1技术原理的通俗化的解读，实则，笔者认为，这就是一个显而易见的技术道路，但是整个业界现在居然还要靠OpenAI一家机构去维持想象力，更有“O1给大模型方向续命了一年”之说，我深感悲哀。
我一直希望，我们不要被所谓“领头羊”所裹胁，大胆发挥想象力，按照正确的发展逻辑继续开发下去。

距离2022年底，ChatGPT发布，已有一年半有余。这一年半，我们看到各种基于 ChatBox 的 app、产品层出不穷，一片繁荣景象。但如果看一下数据，我们就会发现，好像大多数人仍旧没有使用大模型，大模型产品似乎仍处于一个“圈地自嗨”的状态。

而在之前的文章里面，也论述道：当前大模型的形式（即聊天框），对于大多数用户来讲是低效的，诚然现在很多产品已经做了一些改进，让用户输入更加容易，可看上去起到的作用有限。这其中确实有当前大模型能力上的问题，哪怕在已有的形态下，也没有让用户感觉到自己的问题被解决。但有时我也不禁在想，是不是大模型，或者 AI 的发展上，缺失了什么东西？

我心中的大模型应用

现阶段，大模型当然距离想象中那种可以颠覆时代的AI，还有不小的距离。但也不可否认，大模型迈出了关键的一步，即搞定了自然语言。它让人可以以人的方式和机器交互，而非去适应机器的交互方式。最起码，现在的大模型，是可以很好地将我们说出的话，转化成一个或几个机器的指令的。

所以我们可以看到，挂载了外部计算器的模型，能“很好”地计算数学题。挂载了互联网的大模型，能一定程度上有机利用搜索结果，回答问题。以及使用了各种专业工具，形成的各种“智能体”。

不过，正如前面所说，现在的大模型能够很好地将我们说出的话转化成【一个或几个】指令，确实能够让我们做一些事情变得更加简单，但若如想象中一样，让大模型充当我们的生活助手，这种程度显然是不够的。

除此之外，要做到彻底颠覆我们和机器的交流方式，单单靠C端用户，也是不够的。AI显然有更加广阔的海洋，即在产业中应用起来。除了使用某一垂直的技术帮助我们完成一些重复性工作，或危险作业等。AI应当还可以更进一步，达到“完成任务”的能力的，也就是，能够自己将任务拆解成步骤，并根据每一步的结果，去决定怎么使用已有的资源（工具、设备、知识等），最终解决问题。任务可以变得越来越复杂，

我想这个前景大家都有想到，但是如我所见，无论是评测标准，还是各家登场的各种东西，似乎都没有往这个方向发展。虽然 AppBuilder（或者 AgentBuilder，whatever），似乎有一点儿这个意思，但实际观察下来，也更加像是demo。感受上是，产业内很多朋友可能仍旧在前大模型时代的路径依赖中，或互联网产品的路径依赖中。

诚然，现在大模型的能力远远满足不了我们上述说的这些应用要求，但是任何一个破坏性创新，都不是“准备好了”才登场的，应用与反馈应当形成一个闭环，才能促进基础技术计划，最终积攒出来一个跃迁。我相信AI在不远的未来是能够发展到那一步的，起码在垂直领域上。那么，方向是什么呢？

逻辑推理？不，确定性！

算数学题，或者逻辑推理，成为了各家大模型主要宣传点之一。然而我们可以从各种不同的角度去论证，仅靠大模型自身，掌握逻辑推理能力，基本上是不可能的。其实，我们想弄出来一个能解决世界上所有逻辑推理问题的AI，也是不可能的。所以，在之前的讨论中，我也持有这样一种观点，即算数学题，或者掌握逻辑推理，这类任务本身，对大模型这种形式是没意义的。毕竟，人类在处理这类问题的时候，往往也是在借助其他工具的。

但是，逻辑推理类任务的衍生意义，我们是不能全盘否定的。这类问题最大的意义在于，给模型带来了逻辑推理的经验性指导。如同我们上学时一样，实则训练的更多的不是怎么样解题，而是记住解体思路，甚至训练成一种条件反射，即，我们看到了一道题，就知道怎么样去拆解；拆解出来的每一个小问题，我们知道使用什么样的工具去解决；解决问题的过程中，一定也会遇到一些新的问题，我们同样知道解决它的方向在哪；最终一个个小步骤的结果汇总到一起，得到最终的答案。当然，工作和生活中，碰到问题，我们更多也是经验先行：（基于认知心理学的实验）深耕某一领域的专家，看问题的视角和新手大不相同，也是大量训练，经验主义的结果。

这个过程中，我们的输入和输出是按阶段不断地反馈的，也就是认知心理学中所说“工作记忆”的过程，这也是我之前说，当前大模型更大的挑战应当是在于如何更加精准使用记忆。

形式化地说，这个能力，是将自然语言描述的需求，转化成一系列确定性的工作流程，其最直观的任务的确是数学题和逻辑推理，但真正的应用点显然不是这两个领域，甚至可以说，过于执着于这两个领域，可能会让模型能力走向一个非常奇怪的方向，甚至O1出现后，一些badcase，似乎也佐证了这一观点。

启发式搜索之野望

真正要解决这类问题，实际上是要让模型具备两个能力：

对用户不同需求灵敏识别的能力，现在LLM已大体具备
结合自身内化及外部的各种资源，包括知识、工具、设备，去step-by-step规划出一个最可能解决问题的，确定性流程的能力，即启发式搜索能力

是的，我们又回到了那个AI的终极问题，启发式搜索。实际上，启发式搜索每一步需要的估值，和经验主义是天生匹配的，超大规模数据中总结出的经验，天然能够解决掉很多搜索中的剪枝问题，这可能正是非确定性推理的最好的时代。

所以，很久之前，我表达过，AlphaGo 使用统计模型结合启发式搜索的思路，是解决这种确定性流程的深度规划能力的一个很合理的路径。当然，大模型时代之后，启发式搜索的过程的确是要被内化到模型能力中的，大模型能够自己找到方向，并通过自身每一步输出去向下调整。实际上，理想态也应当是，大模型作为一切的中控，去决定每一步需要使用什么样的信息，辅助自己解决问题。

这种让模型具备启发式搜索能力的训练方法，如今我们其实也见到了，就是Q-Star，深度学习自身的启发式搜索方法。或许未来也会有更加进阶的训练方法。我想，将Q-Star作为所谓逻辑推理，或者解决数学题的通路来宣传，可能是考虑到所谓舆论接受度，但我想这一方法被提出来，定然不是为了那么点儿小问题而存在的。

最后想说的

正如李彦宏所说，大模型需要的不是一个DAU有多么大的超级应用，而应当是渗透到生活的方方面面，“超级能干”的应用。它不仅仅是能够写文案，当搜索引擎等等，而应当能够为各种任务提供解决方案。于C端，它能成为每个人的生活助手，帮助人做出选择、决策，并能够解决生活中更加具体的问题；于B端，它也应当能够成为一个合格的中控，完成一系列的流程。

而想到达到那种愿景，单单靠行业内的人是远远不够的，甚至这两年，我们也见到了，行业内主流的想象力、榜单之类的，似乎也停留在这些应用上，甚至技术人员的做事方法可能还停留在前LLM时代。这固然有当前模型的基础能力尚没有那么强大的原因，但是我们要知道，任何一个破坏性创新的技术，其推出产品的时候，都不是那么完美的，都是靠着市场上真正的需求来完成自身的迭代，在市场上占据住自己的位置。

而且，哪怕是极早期的产品，也都会有一批创新者用户，去帮助产品优化。技术和用户，永远都是双向奔赴的，所以我想不仅仅是行业内的人需要走出去，也需要让行业外的大家走进来，共同去开发这一片星辰大海。

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247487099&idx=1&sn=20a22d8bda363224b2ca64ec0d2a28fe

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？