罗汉君语:
一年一度的罗汉堂数字经济年会已于7月落下帷幕。50余位顶尖社会科学家、科技专家和商业前沿实践者,就“AI对经济社会发展的影响及趋势”展开激辩,可谓百家争鸣,酣畅淋漓。
即日起本号将陆续发布经整理的演讲、讨论内容。点击文末#2024罗汉堂数字经济年会直达合集。
1. 技术层面,以大语言模型为代表的AI的未来发展方向和边界是什么?我们距离实现通用人工智能(AGI)还有多远?
2. 经济层面,AI的经济逻辑是什么?将在多大程度上和以什么样的节奏影响经济?其边界在哪里?对于处在不同发展阶段的国家而言,AI的影响又有何不同?
3. 产业层面,各行业将如何应对和拥抱AI?
问题既定,亟待解惑。我们邀请了顶尖的科学家、经济学家、商业实践者“就题发挥”、各抒己见。
上海科学智能研究院院长、复旦大学浩清特聘教授漆远就专门在演讲中对第一个问题做了解答。
此外,漆远也在随后的圆桌对话环节,与纽约大学经济学教授、2011年诺贝尔经济学奖得主托马斯·萨金特(Thomas Sargent)、复旦大学副校长、计算机科学技术学院教授姜育刚展开了观点碰撞。本文将详细梳理漆远在演讲中的观点,及其与萨金特、姜育刚的脑暴。
嘉宾介绍 PROFILE
Yuan Qi
漆远
上海科学智能研究院院长
复旦大学浩清特聘教授
嘉宾介绍 PROFILE
Thomas Sargent
托马斯·萨金特
纽约大学经济学教授
2011年诺贝尔经济学奖得主
罗汉堂学术委员会成员
嘉宾介绍 PROFILE
Yugang Jiang
姜育刚
复旦大学副校长
计算机科学技术学院教授
演讲整理
Scaling law还有红利,但能耗是个挑战
“机器学习近年来的发展可以用‘戏剧性的变化’来形容,背后的根本是scaling law(尺度定律)在起作用。但仅凭scaling law来扩大模型参数规模,并不能带领AI迈向AGI。” 在2024罗汉堂数字经济年会上,漆远的演讲开门见山。
约十年前,漆远还在蚂蚁金服担任首席AI科学家,带领团队把核心机器学习系统的参数从200万提升到上亿,彼时已是了不得的成就。
十年后,算力澎湃,世界上主流人工智能模型的参数都到了百亿、千亿级别,漆远在上海科学智能研究院(以下简称:上智院)带领团队研发的“女娲”生命科学大模型,以及上智院与复旦研发的“伏羲”气象大模型,也崭露头角。
漆远早年于麻省理工学院获得博士学位,是美国普渡大学计算机系和统计系终身教授,长期从事深度学习、加强学习等人工智能领域的前沿研究和应用
“Scaling law依然还有很大发展潜力”,漆远在演讲时说:人脑里的链接是百万亿到千万亿级别的,而GPT-4最大模型的参数才到万亿级,这样算来,AI模型的参数量起码还有100倍甚至1000倍的增长空间。
问题在于,AI和人脑在能耗上存在巨大差异。
“人脑功耗是15-20瓦,且在活动时只有不到10%的神经元被同时激活;而目前的深度学习网络模型在推理时神经元都在进行计算,一张GPU的峰值功率就是几百瓦 。”他解释道,这种现象叫AI的过参数化。
因此,当大模型达到百万亿、千万亿参数级别时,地方供电都要受到挑战。
漆远表示,目前国内外都已开始关注可控核聚变等新型能源技术,以便能够解决未来可能面临的能源短缺问题;同时业内人士也在硬件、软件层面优化深度学习模型,以减少不必要的计算和资源消耗。
由上智院和复旦大学开发的伏羲气象大模型即实现了千倍加速,“一张GPU卡(图形处理器)就可以跑起来。其规模、能耗皆远小于垂直领域的其他气候气象大模型。”他介绍到。
打造AI“爱因斯坦”,深耕灰盒可信
如暂搁置能耗问题,且假设人工智能参数规模已实现阶跃式提升,通用人工智能(AGI)是否马上就要实现?
漆远认为:“不会。如果仅靠参数规模扩大,基于transformer自回归架构的大模型还不足以支撑AI走到AGI,更关键的是智能的深度。”
他举了个例子。1997年IBM的Deep Blue就已击败当时的国际象棋世界冠军,但直到2015年AlphaGo才开始在复杂度高出许多的围棋领域击败职业棋手。这之间的主要差距不仅是参数规模的变大,更是算法的智能化。
AlphaGo对战韩国围棋九段棋手李世石(图源网络)
那么,AGI发展的方向在哪里?
漆远认为,应结合快思考的“黑盒”预测和慢思考的“白盒”推理,形成“灰盒”可信大模型,以实现AGI的最高目标之一,“发现复杂世界的未知规律,打造‘AI爱因斯坦’。”
(注:漆远此处引用了诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)《快思考,慢思考》一书。该书认为:人类的快思考是直觉的、无意识的思维方式,情感化且不费力,通常用于处理日常任务和紧急情况;而人类的慢思考是有意识、有逻辑的思维方式,需要集中注意力,通常用于复杂问题。)
他解释道:今天的深度学习是对数据的模拟和压缩,擅长观测、捕捉到数据中的模式和关系(快思考的“内插预测”),并不擅长对数据范围以外的新情况进行预测或推演(慢思考的“外插推演”),更不擅长多步的逻辑推演。
而人类“最强大脑”爱因斯坦,并未囿于有限的物理观测数据,通过自己的“合成数据”和黎曼几何等数学工具,及其强大的逻辑推演能力,提出了狭义和广义相对论,超越牛顿经典力学,解释了宇宙的工作原理。
“要实现AGI, 先要有一次巨大的突破,人工智能要像爱因斯坦那样,能减少数据依赖,探索规律,甚至可以提出新的假设去做验证。”漆远说。
漆远教授演讲视频请戳
观点交锋
演讲后,漆远在圆桌环节与萨金特、姜育刚展开了讨论,对话涉及过拟合问题、AGI的实现、因果关系缺失等问题。下文将用蓝色标注漆远教授的观点,红色标注萨金特教授的观点, 紫色标注姜育刚教授的观点。
落座圆桌对话,各位大佬先就刚才的演讲顺势讨论起来。
姜育刚教授在演讲中主要提到了大模型的幻觉、隐私和版权泄漏等问题,并提出:机器的记忆力强于人类,但学习和泛化能力不如人类。(他举了个例子,小孩看一两张老虎的图片,就能认出卡通老虎也是老虎,但机器看一千张老虎图片后,可能还是识别不出卡通老虎也是老虎。)
第四次现场参加罗汉堂数字经济年会的萨金特教授就“借题发挥”说:“要想婚姻幸福,就得记忆短暂!”
玩笑过后,老爷子解释道:如果AI模型的参数过多,就可能会产生过拟合的问题。即模型记住了训练数据中的噪声和细节,但在新数据上表现不佳,泛化能力不足。
但漆远认为,深度学习中的参数数量是可以多一些的,只是要把握好度,有助于训练和提高性能,并不一定就是过拟合。他举例说,“一个模型可能只需要3个参数,但用10个参数可能就更容易训练,效果更好,这并不意味着过拟合”。
他还说,机器学习时可能会遇到能垒(energy barrier),即在优化过程中,算法因为遇到局部最优解,而找不到全局最优解。而过参数化模型,可更灵活地调整参数,能跳脱出局部最优解,找到全局最优解。
姜育刚教授认为:目前的大模型在某些方面确实好用,但它们是在模拟人的思维,还未能模拟人的行为,尤其是在情感方面与人类仍有很大差距。而模拟人的行为、与物理环境交互学习,也就是“具身智能”,是迈向AGI的关键一步,这就涉及到和硬体、机器的结合,现在来看还有很多局限。
萨金特则表示,更多的数据并不会带来模型的显著改变。他也用爱因斯坦的例子提出了一个观点:
“爱因斯坦在提出相对论时并没有大量的实验数据支持,他主要依赖的是迈克尔逊-莫雷实验的结果——该实验证明了光速恒定,而凭借光速恒定这一小小基础,相对论得以构建。”
萨金特继续说:现代物理学有两个标准模型——粒子物理学和宇宙学模型,两者参数都不多,粒子物理学模型的参数还不到60个。虽然这两个模型的数据规模都已高达多位数了,但模型参数并未扩大,模型也没有显著改变。说到这儿,老爷子还很严谨地补充了句,可参照大数定律(Law of large numbers )和中心极限定理(Central limit theorem)。
甚至,他认为:“神经网络之所以有效,是因为参数数量的增长速度,要慢于其数据规模的增长速度。”
“这是一场比赛(race),不是吗?”萨金特问。
“是的,没错,这是一场比赛。”漆远回应到。