真假◎智能原生(AI Native)应用极其挑战

科技   2024-11-12 23:58   北京  

智能原生(AI Native)应用是这次AI带来的最大的变化,当然也就孕育最大的机遇。远不是所有的应用都是智能原生应用,甚至包括以AIGC为核的各种产品,也并非智能原生应用。

智能原生应用背后有一条脉络,从技术到应用的表现,但因为根子是编程的模式,非程序员估计不好理解,所以10.7 19:00 琢磨事AI碰撞局社区会做一场线上的小活动,以OpenAI Swarm为例子用非技术语言碰撞这点,感兴趣的同学联系shuixiu2024。程序员出身的同学建议自己直接读程序。

假的智能原生应用

到现在为止很多工具其实并非智能原生应用,比如把大模型封装下,然后生成图片,最典型就是过去的MJ,这是模型或者套壳工具,但不是智能原生应用。

当然,把人脸识别算法嵌入到原来的应用中,比如加入个刷脸闸机的园区通行系统,这也不是智能原生应用。这点以前写过很多,参见:AI的脉络:非共识时刻的认知价值

之前经常用下面这张爱立信的图来描述智能原生的含义:

左侧是AI算法的单点应用,右侧核心依赖于AI算法的才是智能原生应用。找准这个才能找准技术带来的变量。

当然这里不是说非智能原生应用就不创造价值,而是说它不是眼下LLMs所代表的最大变化。

OpenAI Swarm Demo的特征

只看图会有点虚,很巧的是OpenAI Swarm提供了个例子。

下面我贴段代码,然后做解读,这段代码也不复杂,可以当自然语言看。

注:https://cookbook.openai.com/examples/orchestrating_agents 程序员能看,里面讲清楚了模型和应用的角色边界。

上面代码其实就做了这样2件事情:

1.  创建了退款、销售、导引三个智能体。每个智能体包含了角色的定义、功能。(参照:角色中心式计算:AI大模型颠覆性的起点与终点

2.  导引负责把用户的需求导引到销售或者退款智能体。销售和退款智能体负责具体干活。

再然后Swarm这个项目里面是具体细节,负责把这些设定在不同的时机变成变成提示词扔给大模型,再把大模型返回的内容转换成具体的函数调用。然后负责把各种五花八门的请求转化成具体账户上的购买或者退款操作(操作相关数据库)。

这看着很简单,但和过去的巨大区别已经出来了。

真智能原生应用与划时代的点

过去的程序要分解也有两部分:一部分是退款、销售这样的直接功能;一部分则是在各种情况下执行这两个操作,比如到底喜欢什么款式,喜欢什么付款方式等。程序员干的事主要就是处理各种输入,把它转换为最终的退款、销售这样的操作。这部分占工作量的百分之八十。

现在好了,程序员这第二部分工作模型直接根据用户说的就干了。为了让这样的应用跑起来就需要定义上面的Agent,然后构建一种和LLMs的持续交互机制。

并且这个模式随着AI能力的越来越通用和强大,几乎可以干任何事。

也许这还是有点抽象,我们拿特斯拉自动驾驶做个类比。

自动驾驶不管环境多复杂,其实输出的就三个操作:方向盘操作、加速、刹车。

一种方法是写规则(早期),比如:如果前面碰见违规行人,就减速这类。大概样子就下面这样:

Explicit Planning&Control那地方沉淀大量规则来处理事出现行人了、信号灯什么样等等。这也能用,但显然的第一维护的成本太高,第二如果出现没处理过的情况就死菜了。

那变成智能原生后什么样呢?

(source:https://www.thinkautonomous.ai/blog/tesla-end-to-end-deep-learning/

这一共是三个阶段,Full Deep Learning是个过渡阶段,上面是过去的基于规则,中间是两套神经网络,最后则是端到端模型。甚至有人现在也认为特斯拉的自动驾驶也还是这个阶段,而不是纯粹的端到端阶段。但不管怎样,过去人负责设定规则的部分,扔给模型了。

这就能够处理人不知道,数据知道的情况,但坏处确实就是黑盒了,引发新的安全问题。

这是划时代的点,过去的所有应用不是这个样子。

智能原生面临巨大挑战

特斯拉的FSD12想必开销巨大,但你细想也就搞定了三个操作。而智能原生真的实现,那意味着把每个行业的N个操作都整成上面的模型。这显然是巨大机会和蓝海,但挑战无疑是全方面的。

从下面这个粗略的概括上,我们可以看到这种挑战来自于哪里:

智能原生应用= LLMs + 操作性功能(functions) + 流程设定 +提示词

第一,对于LLMs,是精度和成本问题。因为要执行大量方法调用,不是几个几百个,而是完成任何一个功能都是几万次调用。那出错怎么办?出错是有成本的,有些操作可能导致整个数据就错了,比如这个人没买过某产品,就被误操作成了买过,那怎么整?(不是tokens的成本)

好消息是从Glean等的进展来看,这个精度至少在Copilot上是可用了。

第二,交互过程中怎么精确给各个具体功能设定调用参数,比如购买行为同时需要型号、价格、优惠政策等。这些东西都靠人补充就崩溃了。需要一套有效的系统,根据用户信息、系统的信息、提示词进行拆分。

AI碰撞局上,澜码的周健分享过一个方法,正是在解决第二点的一个思路这是很难的。

(By 澜码周健)

AIGC的意义

AIGC中的代码生成在上述框架里会具有特殊的意义。假如生成的代码精度足够高,智能原生程序可以修补自己。

想象一种场景,整套产品跑跑,突然出错了,那可以设置一个维修的智能体,去检查错误,然后生成代码,自己对自己进行修补。

所以不要再因为计算不行低估LLMs的能力,如果它代码生成能力上来,这些就都不是事儿。凡是过去代码能干的事,就都不是事儿。

软件吞噬世界,AI吞噬软件大概出发点就在这里。

底层逻辑

弄清楚上面这些有什么用?其实可以避免走错路。

Sam Altman讲了个点(大意):如果你做了个应用,每天担心LLMs的进展会不会把自己覆盖掉,那你大概率是选错方向了。反之,如果每次LLMs的进展都让你兴奋,那基本是对的。

真的智能原生程序不可能有前面的问题。为了说清楚,还是用一个之前提到过的公式:

智能效能 = LLM的“智商” x 现实理解纵深

做智能原生应用的,显然核心任务是构建一套理解现实纵深的系统,这套系统要给LLM准备好条件,让它能够把自己的威力发挥出来。

这是智能原生系统的本质。在这个出发点上,当然LLMs越进展,你产品的价值越大。

而这样的智能原生系统就一定是系统型超级应用,表现为:智能优先、万物皆数、实时反馈、中心决策。

参见:大致没差的AI判断,和大佬说的不怎么一样

黑盒的本质含义

一说模型的黑盒,更多的时候大家会想到安全问题,但如果换个视角就会发现这是个执行权的迁移过程。

智能原生的本质含义在于人类向AI模型让渡很多很多的权利。为了靠谱一点当然要让AI在好使之外更安全,所以需要对齐等等。(经济现实上Sam Altman是对的,但人文情怀上Ilya是对的)。

单线的经济合理性就是我们之前说的:

如果我们相信一种效能更高的方式一定替换低的,那就智能原生的方式就一定会变成现实,并且重构人类在经济体系中的角色。

问题根本不是这个会不会发生,而是发生的快慢以及后果。企业家负责让他发生,体现效率,治理层面负责让它不成为脱缰的野马,最终的综合也许就是一种新的文明形态,参见:第九生命:从文明限度的角度看AI

小结

差不多一年前,我写了一系列的这类文章,反响一般,但现在回看确实有种历史在按照预想展开的感觉,还是很让人高兴的。这些文章具体包括:

角色中心式计算:AI大模型颠覆性的起点与终点

图灵测试2.0:怎么判断AI到底能干什么不能干什么

智能原生:AI蓝海世界的关键钥匙

AI Agent:大模型与场景间的价值之桥,但不适合当纯技术看

开源大模型LLaMA 2会扮演类似Android的角色么?

AI大模型没有商业模式?

现在看这就是智能原生的基本框架,没啥太大错误。其中智能原生应用必然是系统型超级应用一点,现在也很少人讲,但未来可能会越来越清楚。

------------------------------------------------------------------------

AI碰撞局往期的记录:

AI碰撞局”到底是个什么局?

琢磨事AI碰撞局第一期小记

琢磨事AI碰撞局第二期小记

AI落地,何以破局关键何在?(暨碰撞局第三期小记)

为什么国内海外生态如此不同?(暨第四期AI碰撞局小记)

总结AI成功产品,透视AI的下一步(暨琢磨事AI碰撞局第五期小记)

【国发院AI碰撞局活动回顾】创作型AI智能体案例分享与碰撞

【校友组织活动】国发院数字联盟|AI碰撞局第二局:AIGC SaaS产品出海案例实践分享与碰撞

大模型+机器人案例分享与碰撞(暨国发院AI碰撞局第三局小记)

当AI碰到领域的既有权责体系会发生什么(暨国发院AI碰撞局第四期小记)?

AI的智能体之困(暨AI碰撞局第十期小记,顺祝国庆快乐)

大模型行业的挑战—来自自动驾驶行业的经验

目标检测和深度学习
本公众号专注深度学习、计算机视觉相关技术、咨询。追求纯粹的技术,享受学习、分享的快乐,会不定期的推送人工智能前沿科技、相关模型代码实现、会议顶尖论文等学术资料和知识,欢迎大家分享和投稿!
 最新文章