科创人 | 天云数据雷涛:不止于ChatGPT,我们如何培育智能?

科技   科技   2023-03-02 19:00   北京  

影响乔布斯有一本书叫《禅与摩托车维修艺术》,核心讲的就是不同文化、不同思维模式的跨界连接,我们怎么在拥有理性思考的同时还能保持感性追求。自2021年起,《科创人》举办近10期“数智思维私董会”,努力将哲科思维与技术思维相融合,构建面向复杂时代的数智思维原则,帮助企业决策者在深水区、无人区快速生成最大概率有效的解题方案。

《科创人》有幸邀请到智思维私董会核心导师、国家人工智能最高奖项“吴文俊人工智能科学技术奖”获得者、天云数据CEO 雷涛,就近期火爆的ChatGPT进行深度分享。

分享一组数据, Hugging Face上Transformer开源框架的模型有13万,其实在潜移默化之中业内已经发生了一个巨大的变化。

ChatGPT的强大和局限

——集合全人类知识的Milestone

在两千三四百年前,亚历山大大帝就想把全人类的图书集中在雅典,形成了我们现在的图书馆。我个人比较爱看书,但是头疼去图书馆找书,因为找不到,那是 2000 年前的编目机制,按照历史、文学、音乐去编录。在互联网初期的时候,也是遵循这种机制信息组织方法。以雅虎为例,我们看到的是自动化的网页,其实它还是依据编目机制这套信息组织逻辑,按照历史、新闻、社会、军事分门别类地做目录。

编目逻辑的应用价值已经很有限了,因为信息本身它是多样性的,它一旦被你的需求导向,就像波粒二象性一样,只能服务于目标,所以一个琳琅满目的门户网站,很残酷地被一个简单的搜索框淘汰掉。

但是搜索现在也有自己的问题,我们可能翻了十几页都没看到想要的搜索结果。所以更多基于概率方法的算法,开始被先验决定后验的方法所替代,比如淘宝的商品选择。然而,这又会带来另外一个问题:小概率事件的大概率呈现,最后,我们自己把自己编织在一个文化茧里。

有人说ChatGPT是不是可以替代搜索引擎?其实Chat重新聚合了一次人类的知识集,只是聚合这种知识集用了一个新的方法——凝缩,也就是隐马尔可夫的概念。不光是ChatGPT,像Google、Meta,都出现了性能可观的大模型,它可以提供一个知识凝练的沉淀。

首先它不是人类知识的浓缩和沉淀。人类的语言涵盖着大量的常识和知识,基于神经网络连接主义的概率统计,它没有知识的逻辑性也就造成了它的局限。一旦知识与知识之间有推理、有逻辑,而它没有构建这种常识逻辑,就会出现“创造不存在的知识”、“主观猜测提问者意图”等问题,更有甚者可能会产生含有种族主义或攻击性的文本,这些风险和危害都是不可忽略的。

第二个就是ChatGPT善于转述,比如公文报告。如果我们想写一个冠冕堂皇的、但又不想说明白的、只想春秋笔法的,用Chat这种模式,其实非常容易获得结果。

华裔科幻作家Ted Chiang 讲了一个施乐复印机的故事,非常形象地把有损模型表达出来了:施乐复印机第一次使用了图像识别技术去复印,效率高,只是精度与原件有细微差别。但恰恰有一个客户很特殊,一家德国建筑公司,他的工人注意到他们的施乐复印机有一些奇怪的行为:当他们复印一所房子的平面图时,复印件与原件有细微但重要的区别。在原始平面图中,该房屋的三个房间都有一个长方形,说明其面积:房间的面积分别为14.13、21.11和17.42平方米。然而,在复印件中,所有三个房间都被标注为14.13平方米的面积。最终发现,这是个bug,摄施乐复印机用了浓缩技术,当复印机发现 14 平米的和 17 平米的房间的形状一模一样,他在信息的策略上就压缩了,所以再复印出来,实际上是用有限的信息去复制了损失。

这个经典的语言模型是一个有损模型不能够精确地回到语言本身,它可能会给一个错误答案但这不是我们低估它的理由,它依然给了我们一个新的能够掌握全人表述的能力。

-- 广告--



工程繁荣已至,产业化契机初现

在产业化逻辑里的,企业成长路径为4个阶段,理论体系—技术逻辑—工程—产业化。对照这个路径可以看到:

在理论阶段:感知机,1957年出现的;神经网络,20 世纪 40 年代后出现的;反向传播算法,1960年代。我们的理论体系就绪,其实是发生五六十年以前了。

再看技术阶段我们今天谈transformer。之前谈CNN卷积神经网络和RNN循环神经网络。我稍微解释一下, CNN其实是视觉计算,单反的像素就是CNN所做的事情,CNN是做像素上下左右的连接,是对视觉信号体系的知识抽象。RNN将上一个时间点的隐藏状态作为当前时间点的输入,是对时序数据的局部抽象表达。RNN需要大规模的经验去训练机器,扔给他一张图片,他学一次;扔给他一张图片,他学一次;他的每一次学习就跟小学生一样,学完就忘。对之前的东西也不关心、不记得,我们叫他狗熊掰棒子,RNN不能记住前两轮的内容。

如何让他有点记忆?LSTM长短记忆,在我们皮质神经元的交流之下,我们放一个海马体来存储一些我们常识型的记忆,存的都是一些、记忆深刻的事情,也就是我们会记方差最大的。比如心动的奖励、糟糕的惩罚。RNN更多的是解决时间序列,帮助你把记忆深刻的事情回溯。RNN是对CNN的一个补偿。

Transformer负责文本空间上下文的连接,通过权重和方式实现对全局语义的表达,这种抽象能力都是通过连接主义带来的。这些技术是在什么时候实现的?2017 年《Attention is all you need》这篇论文,也就是 5 年左右的光景。

到了工程阶段开始繁荣:如何将这样一个算法框架包装成一个可交付的能力?两年以前,GPT 3. 0 的时候已经出了很多金句了,我当时也试用了一下:

“Whats your dream?”

“My dream is to become a machine beautiful enough that a soul would want to live in it.”

他回答的很哲学,他说我希望有一个美丽的身形,beautiful body,而且后面 enough,让我的灵魂愿意进入其中。一个美丽的皮囊和有趣的灵魂,修饰得非常好。

ChatGPT现在跟微软合作,上亿用户上来,微软云怎么做到的?这种能力是不是开始大规模工程化,变成了一个下游应用,落地成我们现在大家都在讨论的一些内容,这是一个产业落地逻辑。

大模型的产业价值:自动生成知识图谱

大模型只是一个语言模型,当我们拿到大语言模型并不能够在逻辑上去判断什么,而在行业实践中,无论是工业还是金融,都需要有很深入的逻辑判断,这些逻辑在我们人类的知识结构里。如果你想把这些知识结构构建成知识图谱,成本很高,那么怎么帮你去构建?能不能将这种大模型的意图理解能力和我们的专业知识(深度学习、连接主义)能力合二为一?

连接主义就是从输入到输出,我们把它中间的一个状态表达出来。比如数学模型y=f(x),从 x 到y,可微分可求导。一旦表达出来了,连续状态,抽象出来的 f 就变成了替代我们原来经验规则的商业逻辑。原来我们可能用一堆归纳方法陈述了一堆逻辑,现在我们可以用连接主义。

我们的大部分知识经验没有被信息化,或者是很难被从复杂的信号体系里抽象出来去信息化的。因为我们现在掌握的信息化工具,无论 SQL 也好、 Java 也好,都很笨重,都是面向流程的,不是面向知识的。所以大模型给了我们一个符号主义的模型和大模型之间的连接通道,我们可以使用大模型来帮我们去构建复杂的长程推理树状结构,以及这种隐示图形结构的高维化。

我讲几个例子。这是某大型股份制商业银行的一个项目,他们想帮政府放补贴。我们看了一下,仅佛山就 6 万多个政策。政府很勤勉,出的政策林林总总,这就出现一个问题,这么多政策怎么去找到适用的企业?我们看了一下,政策虽然很多但都很结构化。企业存续期多少、研发投入占比多少、利润多少,全是这种类似的结构。这样的政策,能不能通过大模型做抽取,再把这些规则写到专家系统里面,这就可以把政策快速下达。我们客户因为这个项目还拿了个奖。当时我问他,银行做这个事情干嘛?其实他们是要通过找到好的中小企业,通过政策解读这种方式赋能给到前端营业厅的对公业务经理,让业务经理能够直接跟客户对话,帮客户试算出来你该拿多少钱。这个项目用了大模型,对我们企业带来的最直接好处就是我们没有投一个程序员,是免代码交付的方式,把一个大量、复杂的文本框架变成了一个可自动执行的结构。

第二个案例,比如我们中石化的案例,要整理大概 400 多万篇科技文献,这些科技文献与企业的最终测景、勘测非常相关,但这些内容又是差异化的,都是一些专业内容,我们怎么去用这样的知识结构?先把几千篇文档扔给专业人员去做语义标注,他关心什么以及什么关系,用标签用标注,然后迁移到480 million 文本的大模型上做定义。在大模型上做微调,是最常见的一种方法。像这种例子非常多,我们给券商做PNN募集说明要素识别、国债收益率预测、财务粉饰模型,都是标注、抽取,抽取完了以后的内容,再放回结构化的知识图谱,快速构建知识图谱。

大模型的价值在于通过对泛化模型微调以后,他去把实体抽出来,自动生成知识图谱构建知识图谱的挑战是,人工成本太高,专家也只能给你干其中一部分,画不出一个上百亿节点的知识树。但通过大模型,可以用自动化的方法去构建专业领域的知识树,这个价值非常大。这是我们对工业产业的思考。

对ChatGPT的理解不应局限于生产力

基于这些,我们也提出一些思考和问题。

第一个问题,工业规模化经济体系为什么没有催生出ChatGPT,而是出现了OpenAI?

我的理解,推动美国100年科技进步的一个核心是曼哈顿计划。范内瓦·布什写的《无尽的前沿》,在报告里提倡了一个线性理论:只要大力支持科学研究,就可以自动产生技术和工业的优势。工业规模化经济的流水线生产,需要细化的专业分工,需要有专业的研究力量在专业赛道上探索的足够深,所以大学出现了。

在曼哈顿计划之前,大学拿不到一分政府的钱,曼哈顿计划提供了一个新的扶持学校思路。在二战的时候搞原子弹,这种能力不是任何企业能去做的,所以大学在工业时代扮演了一个非常关键的角色和价值。

其次,面向不确定性的知识经济,一个核心方法就是组合创新。

著名经济学家阿瑟在《技术的本质》一书中写到,大部分技术的重大突破来自于对已有技术的重新组合,组合即是一种创新。像以特斯拉为核心,你打开让特斯拉成功的机器,它并没有说机器盖子里头有一个钢铁侠的核裂变内核。其实它里面用的是普通的松下电池,是松下早期的产品。他是在早期普通电池的基础之上,使用了大量软件定义的工程、电池重组技术。

在这个体系之上,我们就要重新思考,技术就不能够仅当做一个生产力去看待,而是回到亚当斯密要素的思考方式。

-- End--

【活动合作】17801045882(同微信)


科创人
记录科创人成长之路,凝练数智思维、迎战复杂时代。
 最新文章