编者按
数据要素正在以投入替代、价值倍增和资源优化三种模式在千行百业创造价值发挥作用。回顾人工智能的发展历程,算法从统计、机器学习发展到深度学习,算力从单片机发展到GPU,都是人类经验逐步让渡于海量数据的过程,也是人类带着数据冲击机器智能新上限的经历。从人类既定经验为主到从数据中学习规律为主,从解决单一问题转为激发通用“智能”的新模式,将如何体现并发挥数字要素的上述三重价值,需要我们重新审视。
在大模型发展的道路上,每一次通用大模型能力的跃迁,都会形成对散点应用和解决的碾压;大模型通用智能带来的价值成效,将超过若干个碎片化场景应用的总和。基于上述的发现与认识,再来重新审视数据要素议题的前提,即“数据要素如何创造价值”这一问题时, 我们形成了两点面向未来的思考:第一,大模型发展与数据要素价值创造互为因果,大模型正在驱动数据要素以“激发通用智能”的新模式创造价值,如何整合大规模高质量数据用于大模型训练,既是推动大模型发展的切入口,也会成为进一步挖掘数据要素价值的胜负手;第二,需要厘清数据要素催化大模型发展的投入优先级,遵循人工智能在过去数十年发展习得的经验,尊重技术和市场规律,使其帮助我们最终筛选出中国发展通用大模型的特色道路。
数据要素成为政、产、学、研共同关心与关注的热门议题。我们认为值得为探讨数据要素议题设置一个前提,那就是系统和科学地理解“数据要素如何创造价值”。所谓“科学理解”既是指要具备兼顾微观具象世界与宏观抽象世界的全面视角,也是指要保持动态思考、吐故纳新的理性姿态。我们不妨从产业实践入手,从过去二十多年产业数字化转型的过程中, 总结数据要素创造价值的具体特点。再展望未来十年, 观察以生成式人工智能(大模型)为代表的技术特征, 推出数据要素创造价值的新模式。
01
数据要素创造价值的三种模式
“实践是检验真理的唯一标准”,据此,中国社科院信息化研究中心主任姜奇平提出,“使用是检验(数据要素)价值的唯一标准”。要理解数据要素价值,最朴素往往也是最为有效的方式是回到数据创造价值的现场去深入观察。
让我们先把目光投向中国快递行业。
2023年,中国快递业务量累计完成1320.7亿件, 占全球快递总量60%以上。而2000年,这一数字才刚刚突破1亿。在包裹绝对数量增长的同时,配送速度也稳步提高,为用户提供更好的消费体验。
以中国快递行业二十多年高质量发展为参照,阿里云智能副总裁安筱鹏博士基于经济学视角,总结出数据要素创造价值的三种模式,得到了一一验证。第一,投入替代。即数据要素可以用更少的物质资源创造更多的物质财富和服务。菜鸟集团于2014年首次推出电子面单,经过研发与推广,逐步成为全行业的数字化基础设施之一。一张小小的热敏纸电子面单取代传统的五联单,不仅从根本上提高了配送准确率,也大幅度减少了资源投入。据统计,仅2021年,因为电子面单的推广而节省的纸张相当于少砍伐10万棵树木。相当于一片90万平方米的森林。第二,价值倍增。即数据要素融入劳动、资本、技术等每一个单一要素,使得单一要素的价值产生倍增效应。手持PDA与配套应用,今天的快递员已经被数字化的软硬件充分“武装”。与二十年前相比, 快递员并没有“跑得更快”,但是数据在为其工作提效, 可以实现“送得更多”。第三,资源优化。即数据要素提高了劳动、资本、技术、土地等传统要素之间的资源配置效率。基于用户消费习惯、道路交通效率等大数据, 优化物流仓库选址和路径规划已经成为全行业主流。科学选址在降低建设与运营成本的同时,实现物流网络整体效能最优化。
在中国快递行业飞速发展的历程中,数据要素所创造的价值是巨大而清晰的。不仅是物流,数据要素正在以投入替代、价值倍增和资源优化三种模式在千行百业创造价值发挥作用,这正是我国过去二十年里走入数字化生活和生产方式的源动力。
02
从人工智能发展历程
看数据要素价值创造
2022年末到2024年初,从ChatGPT惊艳亮相到Sora面世,在短短时间内不断刷新人类对智能的认知边界。在这段时间里,我们见证了数据价值的极度放大:大模型从数据中学习人类的语言习惯、推理逻辑,在诸如文本生成、语言翻译、情感分析、复杂任务分解与完成等多个领域取得革命性的进步,甚至在视频生产中体现了物理运行规律,从而被称为“世界模拟器”。数据不仅是训练这些复杂模型的基石,也是持续推动它们进化的动力。对此,OpenAI的联合创始人伊尔亚·苏茨克维(Ilya Sutskever)曾经在访谈中用一句抽象的话来概括——“The models just want to learn !”这并不是说模型真的有学习意愿,而是解释模型就是如此被设计的,从尽可能多的数据中自动学习隐式的规则与经验,并通过算法和算力的优化不断改进学习的效率和范围。
早在1970年代,美国国防部高级研究计划局(DARPA)赞助的语音识别竞赛中,不同的比赛队伍选择了两种截然不同的设计思路:一种是利用人类已知的知识,依赖于对人类语言的深入理解,使用手工编写的规则来描述语音和语言的结构,例如将音节组合成单词,或根据上下文确定单词的发音。另一种是依赖数据,采用统计从大量语音中抽取特征,尽管人类研究者也不能理解和解读这些特征和规律。在DARPA的竞赛中,基于数据的新方法显示出其优越性,特别是在处理大量、复杂和多变的语音数据时, 新方法能够更好地适应不同的口音、方言和噪声条件。这次竞赛的结果直接导致自然语言处理技术路径发生重大转变,统计学与计算能力逐渐成为该领域的主导。
2004年,DARPA再次发起无人驾驶挑战赛。第1年的比赛如同一系列车祸的现场,被称为“沙漠溃败”。一年半后第二次赛事启动,但这次也有两种技术路线:一种是依赖于人类已有的经验和总结,例如事先探查沙漠路径,给车辆设计突破路途中障碍物的专门程序等;另一种还是依赖数据,以机器学习学习道路特征来进行导航和脱障,同时加强对道路数据的实时采集, 让无人车能够“随机应变”。这一次,又是依赖数据的第2条技术路线获得了胜利,并且奠定了现代自动驾驶的架构基础。
后续的人工智能赛事逐步为全球所熟知,例如,2016年AlphaGo以数百万局人类棋手的对局数据训练,学习了高水平的棋局策略和模式,而第2个版本AlphaGo Zero则完全依赖于自我对弈生成的数据迭代训练,产生了超越人类棋手的知识和经验,达到前所未有的围棋水平。
这每一次不同类型的比赛,算法从统计、机器学习发展到深度学习,算力从单片机发展到GPU,但都是人类经验逐步让渡于海量数据的过程,也是人类带着数据冲击机器智能新上限的经历。
03
AGI的发展遵循扩展定律
AlphaGo展示了深度学习令人惊艳的能力,但是仅限于单一任务围棋对弈。随后,人工智能广泛应用于产业实践,从淘宝的“猜你喜欢”,到城市大脑计算和疏导交通流量,都是一个特定模型解决一个具体问题。这种“一事一模”的方式,使得人工智能科学家和工程师局限于碎片化的场景,更延缓着产业数字化的进程,限制着数据继续发挥价值的效率。
为何不能用一个模型解决所有问题?扩展定律(Scaling Law)是人工智能产业内环的破局共识:用更大的模型,更多的算力,从更多的数据中学到更多的隐式知识和通用能力。从GPT 1到GPT 3不断尝试,在将参数规模提升100倍,训练数据量提升50倍, GPT 3.5(chatGPT)出现了能力“涌现”:全球1亿多用户涌入验证了模型可以像人类一样的理解上下文和对话,而模型还具备更深层的泛化(generalization) 和思维链(CoT,chain of thought)能力,可以对未知情况做出合理推断,把复杂问题拆解成简单任务分步解决。这正是人类期待的AGI雏形:一个基础通用的大模型可以写诗作画,可以改造程序编码、文档编辑等各种工具软件,可以“附身于”机器人,以具身智能加快机器人研发进程,并且改变了科研范式,使得生物医学、材料科学、工业仿真等领域都带来了新的突破。OpenAI团队对此总结并发表了著名论文《自然语言模型的扩展定律》(Scaling Laws for Neural Language Models)。
中国的大模型发展道路也在验证这一点。以阿里巴巴通义千问为例,2023年8月以来,连续发布7B、14B、72B和200B参数版本。伴随着参数规模的扩大, 模型能力显著增强。而另一家大模型独角兽企业月之暗面的创始人杨植麟给出更为直接的判断:“ AI研究了七八十年,唯一有效的东西其实是scaling law,就是不断放大数据、算力和算法这几样生产要素。”
04
新模式:从解决单一问题到
激发通用“智能”
前文所述的数据要素创造价值的三种模式,即投入替代、价值倍增、资源优化,在当下和未来相当长的时间里都持续有效。但本文试图去描述,是遵循scaling law,从人类既定经验为主到从数据中学习规律为主,从解决单一问题转为激发通用“智能”的新模式。
在大模型技术出现之前,针对某一特定场景,需要特定的数据要素与特定其他要素融合,从而解决单个问题实现单一价值。而今天,数据要素的价值不再以特定场景为起始锚点,而是展现出了“全能选手”的实力与潜力。我们以一家AI独角兽Jasper AI为观察样本,这家辅助生成广告文案的优秀应用,在2022年公司营收7500万美元,估值更是达到15亿美元。但在ChatGPT发布后,生成性能远超Jasper AI,随即Jasper AI网站的访问流量下降了近40%,7个月后, 它开始发布裁员通告。在大模型发展的道路上,每一次通用大模型能力的跃迁,都会形成对散点应用和解决的碾压。但换个视角,大模型通用智能带来的价值成效,将超过若干个碎片化场景应用的总和。
基于上述的发现与认识,再来重新审视数据要素议题的前提,即“数据要素如何创造价值”这一问题时, 我们形成了两点面向未来的思考:
第一,大模型发展与数据要素价值创造互为因果。2007年,图灵奖获得者吉姆·格雷(Jim Gray)在生前最后一次演讲中就提出了著名的“第四范式” 。他认为人类开展科学研究的范式,经历了实验观察、理论推理、计算机模拟等三个阶段后,因为新型信息技术的进步,催生出全新范式“数据密集型科学发现” (data-intensive scientific discovery)。大模型的出现本身证明了“第四范式”这一论断的正确性,同时大模型的发展与应用也是“第四范式”付诸于实践的有效载体。大模型的发展以数据要素投入为前提。数据不仅是人工智能模型的输入原料,同时也为模型的持续创新提供推动力,发挥着创新要素的作用。而大模型正在驱动数据要素以“激发通用智能”的新模式创造价值。因此,如何整合大规模高质量数据用于大模型训练,既是推动大模型发展的切入口,也会成为进一步挖掘数据要素价值的胜负手。
第二,厘清数据要素催化大模型发展的投入优先级。当前,大模型已经成为中美竞争的焦点之一。通用大模型的研发与场景应用从来就不是选择题,我们既需要大模型“作诗”,也需要“做事”,即加快大模型与实体经济深度融合,助力实现高质量发展。事实上, 大模型既能“作诗”又能“做事”,是克服了上一代人工智能“一事一模”的发展缺陷,是聚合碎片化场景、加速数据服务千行百业的关键。如果把训练大模型比如为培养孩子的过程,那么优先级不在于培养其背唐诗或者弹钢琴等特定技能,而在于通过数据与算力的投入,直接提高孩子的“智商”(通用能力)。因为“智商” (通用能力)提高了,各类技能(场景应用)将快速掌握。我们需要遵循人工智能在过去数十年发展习得的经验, 需要警醒,不要割裂甚至对立“作诗”与“做事”,技术和市场规律会帮助我们最终筛选出中国发展AGI的特色道路。
数据要素的价值已经被足够重视和期待,但数据要素价值的新模式还没有被充分认知和接受。如同人类当年矢志不渝地向月球迈进,今天我们同样怀揣着对通用人工智能(AGI)技术研发、对“数据二十条” 与产业的碰撞结合的坚定信念, 即数据要素将如同推动登月计划的燃料,推动人类既有智慧和全新科技力量交融共生。MI·专题
作者
袁媛 阿里研究院执行院长
徐琪方 阿里研究院高级专家
原文刊载于《管理视野》杂志第36期,标题有修改。
- END -
版块介绍 — 产业之声
紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。
推荐阅读
Reading
2、观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”
3、阿里云内部全面推行AI写代码,未来20%代码由通义灵码编写
6、安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示
7、【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践
11、《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪