大模型相关的产品化路径思考|奇绩大模型笔记 #3

文摘   2024-08-27 22:30   北京  

《奇绩大模型笔记》是奇绩基于内部搭建的通用智能分析和研究体系,为创业者整理的有关前沿技术创新和应用实践洞察的笔记。


前两篇笔记探讨了通用智能的本质,以及构建通用智能的关键原则——Scaling Law。在理解上述内容的基础上,本篇笔记将重点讨论如何付诸实践,旨在为创业者提供探索大模型可行产品化路径的建议。


本文提纲:

  1. OpenAI 的产品化探索

  • ChatGPT 产品化挑战:用户心智

  • GPTs  产品化挑战:数据

  • GPT-4o 产品化破局:蒸馏 + 端到端

  1. 产品化关键路径思考:需求理解与蒸馏应用

  • 产品化的出发点:理解人类需求的三位一体本质

  • 产品化的思考维度:选择蒸馏何种模型,考虑数据可得性,选择蒸馏源

  • 模型蒸馏 / RAG / Agent


由于技术和产业发展非常快,基于新的洞察,笔记内容也会不断更新迭代。同时,为帮助用户更直观地理解,我们开发了“可互动 PPT+文字阐述”编辑器,效果如下:


如已提交申请表,可点击阅读原文查看


欢迎扫描下方二维码加入 #奇绩大模型笔记创业者交流群,与奇绩和更多创业者一起探索通用智能。






正文

OpenAI 的产品化探索


传统的自然语言处理首先从理解语句的结构和语义开始,人的先验在其中扮演重要角色。比如,分清楚词语是名词还是动词。确定是名词后再查询知识图谱,了解到该词语对应的是一个产品,该产品有哪些属性。所有的自然语言处理任务,包括 summarization(文本摘要)、sentiment(情感分析)等,都在此基础上展开。

然而,真正的自然语言理解需要推理(reason)。同样一句话,讲述对象不同,讲话的语境不同,都会有不同的含义。

以 GPT-4 为代表的模型具备了推理能力,在自然语言理解方面取得了重大突破。从模型层面看,Open AI 无疑是领先者,但从模型产品化的角度,OpenAI 最初的探索,如 ChatGPT 和 GPTs 都做得不够好。

  1. ChatGPT 产品化挑战:用户心智


首先,以 ChatGPT 为例。基于模型的突破, ChatGPT 能够在与人类的交互中更准确地理解语言的意图。相较于过去的 Alexa 等系统,它不需要用户小心翼翼地输入特定指令。但是,至少从目前来看,这并不意味着 ChatGPT 是一个好的产品。

要使其成为好的产品,OpenAI 首先需要回答,ChatGPT 在能够理解人类语言意图的基础上,具体可以满足何种需求。

Perplexity 提供了一个较好的方向,即信息获取和问题研究。GPT 模型在训练中使用了大量公开互联网数据。互联网中,尤其是维基百科、知乎等平台上,存在很多高质量信息。其中包含了许多关于如何解答问题的方法,包括怎么拆解、分析问题,以及怎么对问题进行研究。这些问题通常与人类生活、学习、工作等息息相关。

然而,可惜的是,由于 ChatGPT 从诞生之初就被认为是全能选手,什么都会,因而容易给人造成“大杂烩”的印象。同时,在很多场景中,ChatGPT 的回答并不如人意。相比之下,专注于上述任务的 Perplexity 似乎能更好地占据用户心智。这也是我们认为 ChatGPT 在实际应用和产品的市场定位方面面临较大挑战的一个重要原因。

  1. GPTs  产品化挑战:数据


除了 ChatGPT,OpenAI 还发布了 GPT 商店(GPTs)。其核心是想做 Web Agent,基于用户上传的与任务相关的数据进行推理,帮助用户完成表单自动填写和其他复杂任务。这一想法的实现同样面临较大挑战。

难点在于,模型预训练过程中缺乏用户完成特定任务的数据,而该类数据对模型推理能力至关重要。通常情况下,此类数据只存在于提供服务的应用程序后台中,而非公开的互联网上。例如,要完成商品预定,只有亚马逊等电商平台的后台数据中保有用户的浏览和选品行为记录。同样,针对旅游预订任务,也只有各大旅行 APP 的后台数据可以捕捉不同用户的订票行为差异。模型无法从互联网上观察和学习到这些差异化的行为模式。

正如上篇笔记提到的,“无法观察到的东西就无法学习”。如果模型在预训练阶段不能获取此类数据,那么当用户上传新数据时,其上下文窗口(context window)中就会缺乏相关的推理路径,难以进行有效推理,也无从优化

因此,要开发一个成功的 Web Agent,在起步阶段就应考虑是否能够建立相应的数据闭环,以及后续能否获得源源不断的新数据。对 OpenAI 而言,关键的问题就在于,相关应用平台很难向其开放后台数据。另外,截至目前,GPT 系列模型的训练几乎用尽了互联网上所有可用于推理的任务数据和思考路径数据。

  1. GPT-4o 产品化破局:蒸馏 + 端到端


那么,OpenAI 将如何继续探索模型的产品化路径?目前来看,答案是蒸馏。

OpenAI 近期发布的 GPT-4o 论文印证了这一点。GPT-4o 是通过蒸馏得到的端到端模型,实现了从声音输入到声音输出。这篇论文具有典型意义。

正如第一篇笔记所言,一方面,当前产业中活跃的大多是规模较小的模型。其中一部分重要原因是模型本身也需要生存。在同样能推理的情况下,较小的模型有更强的生命力。而超大规模模型除了用于探索超智能,另一个重要作用正体现在蒸馏上。

另一方面,要实现通用智能,就要逐步去掉人的先验知识,以数据驱动的方式实现从输入到输出的端到端映射。只有端到端的模型才能理解复杂的语义和语境。例如,GPT-4o 作为一个端到端的模型,可以理解“(喘息声)我要来不及了”这一表达中显示了人在说这句话时面临的情境是紧急的。而传统的语音识别和合成技术难以做到这一点。

需要说明,端到端意味着一定要有具象,可以输入环境信息,输出行动。但这里的端到端与具身智能不同,解码之后是输出语音和文字,而真正采取行动,也就是接下来执行各类工作流的仍然是人。对具身智能而言,解码之后的行动是直接执行各类操作,如控制设备。

OpenAI 用 GPT-4o 开启的新一步产品化探索是值得借鉴的。目前,OpenAI 尚未将蒸馏作为服务提供,但这可能会成为其未来发展方向之一。



产品化关键路径思考:

需求理解与蒸馏应用


那么,基于对 OpenAI 产品化探索路径的观察,作为创业者,应该如何寻找机会呢?

目前,市场上只有少数公司在开发大规模预训练模型。如果以人的学习过程类比,这些模型等同于被培养到了大学二年级的水平。接下来,创业者要做的就是“选专业”,找到自己的细分领域,蒸馏相应的模型。

  1. 产品化的出发点:理解需求


要找到合适的“专业”,首先应该理解需求。

从人类社会发展的角度出发,无论是农业时代、工业时代、信息时代,还是我们刚刚开始步入的通用智能时代,人类需求的本质都是三位一体的,即通过感知、思考和行动这三个体系来系统性地满足需求

首先,人类需要检索、收集信息(感知);其次,需要利用大脑和工具进行思考、规划(推理);最后,需要基于工作流,利用手、脚和各类设备来采取行动,满足具体需要。

透过三位一体框架,可以看到,对当前的人类社会来说,信息感知的问题已基本得到解决。我们一方面可以通过搜索引擎和知识平台,以及书籍、杂志等获取公开信息;另一方面,也可以从企业内部文档和数据库等资源中获得丰富的私有信息。

而在推理层面,基于现有分工体系,人类社会大多数情况下仍依靠人的大脑 + 辅助工具进行推理,比如医生、护士、财务分析师所从事的工作。事实上,我们可以将每个人每天在工作、生活中为了解决问题、完成任务而进行推理的过程视为 RAG(Retrieval-Augmented Generation)。

例如,接到老板要求制定一个将销量提高 20% 的营销策略时,员工第一步首先会做 R(Retrieval),无论是上互联网搜索信息,还是翻看一本书,都是做信息检索;第二步,浏览找到的资料,根据索引找到所需内容,这一步是 ICL(In-context learning)。在 ICL 的过程中,需要计算自注意力(self-attention),比如判断需要学习的内容主要出现在哪本书的哪几个段落;当开始思考问题,尝试提出方案时,就是解码(Decoding)的过程,通过交叉注意力机制,将过去的知识与新获取的信息结合在一起。最后,需要产出一份提案,这就是生成(Generation)。

基于这个提案,人们接下来就会采取行动。其中比较常见的是工作流,大多通过人与人协同来完成任务。比如,组织内、外部的人员可能会开始协同推进方案的实施。另外,还包括其他行动类型,如编写代码、操作设备等。


  1. 产品化的思考维度


通过三位一体框架理解人类社会的需求本质后,创业者下一步要做的就是选择场景,定义需求,以及找到办法满足需求

选择场景实际上是“选专业”,即选择蒸馏何种模型的过程。人类社会是一个复杂体系,不同场景有不同需求。创业者既可以选择从单一场景切入,做垂直领域的通用推理,比如开发医生助手、律师助手;也可以从企业或家庭的整体场景入手,做 MOE(Mixture-of-Experts)。

无论采用何种模式,核心是要对潜在业务场景的价值有清晰认知,判断该场景是否值得投入

第一篇笔记提到,通用智能的本质是推理。在具体实践中,用好大模型的关键就在于利用其推理能力系统性创造价值。因此,创业者首先需要回答:当前,目标场景中的推理是谁在做,成本是多少,效率有多高,效果有多好,以及应用大模型之后相关的指标能否有显著优化。回答上述问题的过程实际上也是定义需求、寻找途径以满足需求的过程。

在此基础上,创业者还应进一步考虑推理所需数据的可得性。正如第二篇笔记中提到的,一是判断能否有清晰的路径可以获得足够的任务路径数据和思考路径数据;二是判断在模型用起来后,能否获得更多的同类数据形成闭环。

另外,从技术供给端看,蒸馏源也是不容忽视的考量因素,即在什么基础模型上进行蒸馏。一个可选项是开源模型。同时,在选择模型时应当对模型的 Scaling 做预评估。通过拟合来预判模型参数需要达到什么规模,才能适应相应的数据集,使损失函数值达到预期效果,满足该场景下的需求。

例如,如果要蒸馏一个外科医生模型,7B 的参数规模可能太小。外科医生具备的知识体系非常复杂,数据熵很复杂,因此需要确保模型参数规模足够大,以使模型学到相关数据的熵结构。但如果蒸馏的是律师模型,参数量要求可能更少。

最后,模型蒸馏好之后,需要考虑的重要环节就是持续预训练和持续学习。


  1. 模型蒸馏 / RAG / Agent


基于蒸馏模型,可以进一步开发应用。当然,创业者也可以围绕产业链上下游,研发各类硬件,包括 AI 原生硬件、芯片等。

从应用开发的角度,通过前文的分析,RAG 和 Agent 的商用空间较为可观。

正如前文所述,当前有大量价值创造的工作依赖人脑 + 工具进行推理,每个人每天都在进行 RAG。而人的推理能力是有限的,难以同时处理和记忆大量复杂的长上下文信息理论上,只要找到可以利用通用智能的推理能力显著提高效率、降低成本或优化效果的业务场景,同时有可用的有效数据,能够建立数据闭环,就有机会采用 RAG 或 Agent 系统性地创建创业项目。

但目前,RAG 或 Agent 的实践还面临一些挑战,创业者需要尝试找到解决办法。比如,由于自回归模型的错误是累积的,之前生成 token 时产生的误差可能会在后续步骤中被继承和放大,进而影响生成的效果。因此,RAG 的每一次推理不能太长。而对 Agent 而言,主要挑战之一是数据。尽管 Agent 可以将推理路径拆分成很多小的步骤,因而在误差累积方面的问题不严重,可以视为在 RAG 基础上实现了推理链路的扩展,但要做到步骤的自动拆分需要使用合成数据。例如,针对财务规划和股票交易的推理任务,我们需要有足够的思考链路数据。另外,尽管目前为了达到好的任务规划和执行效果,可以手动搭建 Agent 框架,但未来一定要逐步去除手工搭建的部分,以数据驱动的方法实现端到端。





扫描下方二维码添加小助手,第一时间获取《奇绩大模型笔记》最新内容。

加入 #奇绩创业社区#
扫描创业营二维码,提交奇绩创业营申请表,即可【免费】加入社区,【滑动】查看并免费领取创业社区独家资源:

左右滑动查看更多资源

奇绩创坛
像联合创始人一样,手把手与你一起创业。奇绩创坛成立于2019年,使命是在源头最大化驱动创新,核心产品是创业营,每年举办两届,陆奇博士和合伙人全身心投入3个月,通过创业营投资加速,提供长期帮助。
 最新文章