网易云音乐、QQ音乐等平台收听本栏目
■受访者:张奇 复旦大学计算机科学技术学院教授、博士研究生导师,“眸思”(MouSi)大模型负责人,MOSS大模型核心人员高校所承担的角色更多地是进行技术验证,即探索技术路径的正确性和可行性;而大模型产品化需要企业的介入。
张奇
复旦大学计算机科学技术学院教授、博士研究生导师
“眸思”(MouSi)大模型负责人
MOSS大模型核心人员
2023年上半年,由复旦大学自然语言处理实验室开发的大语言模型MOSS在全国掀起热议。经过仅半年的时间,多模态大模型“眸思”(MouSi)横空出世。“眸思”虽与MOSS读音相似,但和基于文本的MOSS不同,它能够理解并识别图片内容。2024年3月,基于“眸思”为视障者量身打造的“听见世界”APP上线。只需一枚摄像头和一对耳机,便能将画面转化成语言,描绘场景、提示风险,让视障者出行更安全、生活更便捷。在这背后,高校团队在AI产学研融合中扮演着怎样的角色?大模型在产业化的过程中有哪些策略选择?未来的突破点在哪里?《复旦金融评论》:2023年复旦大学自然语言处理实验室发布了国内首个类ChatGPT模型MOSS,您作为该团队的核心成员,能否分享一下团队是如何实现这一突破的?是因为研究的预见性,还是因为团队在执行上展现出了非凡的速度和效率?张奇:首先,ChatGPT不是一夜之间就出现的。早在2020年,GPT-3就已经发布了。当时,我们就开始与多家企业展开合作,着手进行相关的预训练工作。在2021年,我们就已经与合作伙伴共同推进了相关项目的发展。得益于这些技术积累,当2022年底ChatGPT发布时,我们能够迅速调动已有的技术快速响应。其次,我们的实验室在国内自然语言处理(NLP)领域一直处于领先地位。自20世纪90年代起,我们便开始深耕NLP研究,对NLP的各个方面有着深刻的理解和前沿的认知。这也是为什么ChatGPT一问世,MOSS就能够迅速在算法上复现的原因之一。《复旦金融评论》:在MOSS发布后,仅用半年时间,多模态大模型“眸思”横空出世。MOSS和“眸思”的模型有何关联?张奇:MOSS和“眸思”是由我们实验室开发的两个不同的模型。MOSS是一个对话式大型语言模型,而“眸思”是一个多模态大模型,能够理解并识别图片内容。这也意味着我们实验室的研究从原本基于GPT3.5的文本模型转向围绕GPT4-v复现多模态大模型。随着“眸思”项目的推进,我们开始思考它还能做些什么。“眸思”多模态的处理能力(联合语言和视觉的力量)就像是为MOSS增添了“一双眼睛”。只需拍摄一张照片,“眸思”就能准确描述出周围的环境。这一特性启发我们将“眸思”模型应用于辅助视障人士的公益性项目。想象一下,视障人士只需用手机拍张照片,“眸思”就能告诉他们前面有没有障碍物,或者周围有什么重要的事物,帮助他们更方便地“看清世界”。《复旦金融评论》:“眸思”的定位是什么?To B还是To C呢?能否分享一下您对未来在这一领域深入研究的具体计划或愿景?张奇:“眸思”的定位其实既不To B也不To C,它更偏向技术验证。虽然它能够对现实世界的知识进行提问和回答,对拍照的内容进行解释,但这些功能目前更适合作为演示(demo)或娱乐用途。在真实的商业应用中,我们期望AI模型能够执行特定的任务,如分析金融财报中的图表。尽管“眸思”作为多模态模型具备一定的处理图像的能力,但它的表现只能达到50分、60分的水平,远远达不到商业应用落地的标准。如果要落地,模型的表现必须达到90分以上。当然,从60分提升至90分需要巨大的投入,而这在高校中通常是难以实现的。To B和To C的产品开发有着显著的不同。对于To B来说,首先需要精准选择服务场景,深入理解企业的具体需求和业务流程。To B服务不是单纯的项目执行,而是要将众多企业的共性需求提炼出来,形成标准化的产品或服务。换言之,To B的关键在于能否将这些需求汇总并打造出一个综合性的解决方案,使其能够被广泛接受。另外,To B对产品质量的要求极高,不是简单的合格(60分)即可,而是要达到优秀(85分、90分甚至95分)的水平。企业客户需要的是高度定制化的服务,他们可能只关注几个核心功能,但这些功能必须做到近乎完美。相比之下, To C产品可能只需要达到60分或70分的水平,用户可以接受并使用。但同时,To C产品需要支持大量的功能,以满足用户的多样化需求。虽然单个用户可能只常用其中的三至五个功能,但累积起来,产品可能需要支持数百甚至上千种功能,且每个功能至少需要达到可用的状态。简而言之,To B要在专业领域深入挖掘,达到极高的专业水平,而To C要广泛覆盖,满足多样化的需求。对于大模型的研发而言,虽然在技术层面存在许多共通之处,但在产品开发的具体方向上,To B和To C的路径和策略会有明显差异。《复旦金融评论》:也就是说,目前这些应用只是“眸思”模型一种多模态、跨模态的尝试,是冰山一角。
从实验室到市场:产学研融合下的大模型产业化
《复旦金融评论》:作为一个高校研究团队,“眸思”在资金投入和研发产出方面如何实现平衡?除了公益性质的项目,未来是否有计划做市场化的盈利项目?张奇:在大模型的研发和产业化过程中,资金投入是非常大的。不过,得益于2023年与企业的一些合作,我们对大模型的能力边界有了更深入的理解。这也帮助我们在后续的产业项目中能够更加明确大模型的潜力和应用范围。实际上,真正在“眸思”项目的资金投入相对较少,并且研发团队也少走了一些弯路。“眸思”的核心工作是验证研究路径的可行性,也就是确定我们能够达到的技术高度、模型的优势与局限、是否具有商业可行性,以及如果落地所需的资金规模。在这一过程中,我们并不需要巨额资金从零开始对模型进行预训练,也不会使用千亿参数规模的大模型。我们利用实验室内部已有的积累,包括之前项目的结余资金来以一种可持续的方式逐步推进研发,这就类似于一个滚动发展的过程。一旦“眸思”完成,可能吸引更多企业合作,尤其是在多模态领域。这一方面增强我们产品落地的能力,另一方面也推动我们的研究和开发工作,从而形成良性循环。另外一个“眸思”目前主要在做的项目是为个人和企业提供知识问答服务。用户可以在单卡3090这样的硬件上,利用我们的“智工”知识问答平台,实现对内部知识的高效检索和问答。具体来说,我们将数千篇论文上传至平台,平台将自动进行PDF文件解析,使得用户能够直接针对这些文档进行询问并获取答案。在进行前期研究的过程中,我们发现当前市场上缺少一种既能够私有化部署又成本较低的知识问答系统,而且它不仅要能够精确地解析PDF的复杂版式,还要实现高准确率的问答功能,同时避免产生幻觉(即生成与现实不符的信息)。因此,我们致力于开发一套能够满足这些需求的产品,为个人和企业用户提供更加智能化的服务。同时,我们的系统支持全离线操作,无需访问互联网资源。这意味着所有的模型推理和PDF解析工作都可在本地完成。这个项目是我们正在计划未来孵化的业务方向。《复旦金融评论》:当投资公司选择与复旦大学合作项目时,他们通常是出于哪方面的考虑?投资方是如何评估和看待投资周期长和回报预期不确定的情况?张奇:目前国内对大模型的投资大致可以分为两个方向。第一个方向是开发通用型模型的企业,这类企业可能像Open AI一样,未来有潜力成长为价值千亿美元的公司。它们能够执行各种To C的任务,包括类似于内部调用GPT-4等高级功能。然而,我认为在国内要实现类似GPT-4的效果,没有百亿级的资金支持是非常困难的。对我们而言,筹集百亿级的投资是不现实的。因此,我们团队采取了另一种策略。我们专注于开发特定场景下的任务型产品,就像我前面提到的适用于企业或者内部的知识问答平台。我认为这个方向具备较大的发展潜力,并且成本效益较高,不需要巨额投资就能实现商业化。这一商业逻辑对于我们来说更为清晰和现实。《复旦金融评论》:高校技术转移工作是一项具有高度专业性和复杂性的系统工程。近年来,复旦大学在机构与制度方面进行了不断地探索,先后成立了技术转移中心和科学技术研究院。在技术转移的道路上,技术团队做了哪些努力?张奇:在技术转移方面,目前我们采取了两阶段的策略。第一阶段,我们与荣耀、海康威视等企业合作,在2023年进行了一系列大模型在实际应用场景中的落地尝试。这些探索包括为荣耀新款手机提供“一语成篇”功能,以及开发“任意门”等创新应用,这些都是通过项目合作形式以实现技术输出。第二阶段,我们在探索一种更为系统的技术转移模式,即通过公司化运作来输出技术。目前,这一过程仍在进行中,我们计划直接采用产品技术作价入股的方式,直接成立公司,以这种模式推进产业化。《复旦金融评论》:2023年,大厂扎堆加入AI大模型战局,掀起“百模大战”。复旦大学、清华大学、智源研究院、中科院自动化研究所、上海人工智能实验室等高校和研究所也陆续推出了自己的大模型。您认为企业与高校在这一过程中各自承担的角色是什么?张奇:我个人认为,要将大模型产品化,必须依托企业完成。从整体资金消耗的角度来看,国内所有致力于开发此类模型的公司都面临着巨额的投资需求。要打造一个性能优异的通用大模型,所需的资金量是巨大的,可能从数十亿元起步,而开发像GPT-4这样的大模型,其成本更是可能达到数百亿元。这样的资金规模是高校难以承担的。因此,产品化的任务由企业主导完成更为合理。高校的角色更多地是进行技术验证,即通过小规模实验进行初步验证、探索技术路径的正确性和可行性。《复旦金融评论》:近几年,一些科技公司AI负责人转投学界。例如,原京东高级副总裁周伯文加入清华电子工程系、蚂蚁集团原首席AI科学家漆远加盟复旦。您如何看待人工智能领域业界大牛纷纷进入学界的这一现象?张奇:我认为这需要从另一个角度来看待这个问题。在大模型尚未出现之前,AI在工业界的应用相对有限,主要局限于特定的单一任务,这些任务无法通用化,也不能轻易扩展到多任务处理,因此需要大量的专业人才对其进行深入研究。在这种情况下,只有科技型公司才有能力进行如此规模的投入,并设立相应的AI岗位。随着深度学习的兴起,我们见证了一批学者从学界转向业界。然而,当深度学习在业界得以稳定应用后,这些原本进入企业的学者又选择回归学界。而这时大模型技术的出现,这批学者不仅为学术研究提供了新的机遇和方向,还有可能促进学界与业界进行更深入的合作,实现产学研的紧密结合。智胜未来:中国AI突围之战
《复旦金融评论》:鉴于AIGC在内容生成方面展现出的巨大潜力,越来越多的人开始关注“AIGC+”,类似于过去的“互联网+”“AI+”。您认为现在的“AIGC+”和之前的“AI+”哪个更适用于描述现在的发展趋势?
张奇:我觉得之前的“AI+”还有很多问题未解决。AIGC的核心优势在于其生成能力,包括生成图片、视频等,本身就具备广泛的应用前景。没有把文本生成列入在内是因为以往的文本模型更多强调的是分类,而不是内容生成。但随着生成技术的发展,所有自然语言处理的任务都被视为生成式的结果,将其统一于AIGC的框架之下。
我个人认为“AI+”的概念更为合适。一方面是因为它涵盖了AI技术与各个领域的结合,而不仅仅是内容生成。以天气预报为例,它采用的是纯数据+大模型的技术。如果将这样的技术应用于工业界,可以极大地提高预测关键数据的准确性,从而有助于实现节能减排、优化生产调度等目标。
另一方面,我认为并不是所有问题都必须采用生成式方法来解决,它本身也存在一些固有的局限性和缺陷。只能说在目前探索AGI的过程中,生成式可能是比较合适的一个数据驱动模式,但要是完成别的任务的话,生成式未必是最合适的。
《复旦金融评论》:您认为目前AI领域遇到的难题是什么?是否有赶超国外的机会?
张奇:自2022年起,Open AI已减少了发表大型论文的频次,导致许多关键技术细节不为外界所知。尽管如此,根据目前公开和非公开的信息,技术上的难点似乎并不是特别多。然而,要精通这些技术,依然需要巨大的成本进行实验和测试。
举个简单的例子,虽然我们知道钢材的成分比例,但要生产出高质量的钢材,还需要遵循特定的温度曲线进行加热和冷却。没有这条曲线,就无法炼出好钢。类似地,大模型的训练也需要遵循特定的“曲线”——即一系列的参数调整和训练步骤。虽然,大模型以Transformer架构为基础,甚至Sora用的很多技术可能是国内先提出来的,但要将这些技术产品化,需要大量的调校与测试。而每一次测试都可能涉及数千个GPU卡,运行数周,其成本可能高达数十万甚至上百万。所以,真正的难点在于是否有充足的资金支持长期且大规模的研究。
还有一点很重要的是,当前我们已知的进度,如Sora、GPT—4o或Open AI推出的其它应用,极有可能是它们一年前甚至更早就开始布局的产品。这意味着我们要追赶的不仅是当前的技术,还有它们未来的规划。即使我们能够在短时间内模仿现有的技术,国际同行可能已经在新的领域取得了进展。要想实现大幅度的赶超,我们就需要全面掌握并超越他们的现有和未来技术。
《复旦金融评论》:就正在研究和应用这些技术而言,您认为AI领域可能会存在哪些突破?
张奇:在小模型的研究上,实际上很难预测哪些想法最终会取得突破。即便是现在被尊称为“深度学习之父”的杰弗里·辛顿(Geoffrey Hinton),他在该领域早期也曾面临项目资助难和论文无人问津的困境。这表明,当前可能已经存在一些有潜力的研究方向,但它们仍在等待被发现和重视。
就目前而言,可能的一个方向是实现通用人工智能(AGI)。然而,AI真正要解决的更多是因果推理和逻辑问题。这是一个开放性的问题,也是未来研究需要探索的方向。
但我认为如果想在AI领域实现真正的突破,可能需要下决心“换道超车”,探索新的方法和路径。例如,放弃传统的大数据、大模型、大算力的模式,转而研究小模型、小数据的可行性,或者寻找其他可能的新途径。关键还是在于鼓励广泛的尝试和探索。尤其是学术界应该倡导多元化的研究思路,鼓励研究人员探索不同的理论,而不是让所有人都集中在单一的研究路径上。
注:2024年6月2日,“AI教父”、英伟达创始人、CEO黄仁勋(Jensen Huang)全面展示 AI “核弹”带来的新产业革命。
图片来源:unsplash
《复旦金融评论》:鉴于大模型研发的高成本和技术挑战。您认为国内大模型研发和应用,会被算力和数据“卡脖子”吗?资金投入对于大模型开发有着怎样的重要性?
张奇:算力和数据短缺是个全球性问题。我认为与其说大模型的研发和应用会被算力和数据“卡脖子”,不如说是与资金投入的多少有关。我估算在资金充足的条件下,要达到GPT-4级别的模型开发,仅技术层面的投入就可能需要40亿元起步。如果遇到一些技术挑战,成本可能进一步攀升至50亿元。这还不包括数据采购、标注、整体运算、后续推广、以及运维的费用,整体来说这是一个百亿级的投入。
大模型的研究和开发已不再是一个小团队短时间内能快速迭代上线的项目。在移动互联网时代,一个小团队可能几周内就能开发出一个应用并推向市场。但大模型,即使是一个初步的演示版本,也需要数千万甚至上亿的投资。要开发出能与Open AI竞争的产品,所需的投资更是高达十几亿到二十几亿。
《复旦金融评论》:据我所知,一些已经获得投资的团队,比如研发Kimi的月之暗面近期从阿里手中融资了近8亿美元,其中部分或折算成了算力。您如何看待这样的投入方式?
张奇:在大模型的研发中,资金的分配主要集中在三个方面:人才、数据和算力。对于通用大模型,算力成本往往占据主导地位,大约占总成本的70%至80%,而人力资源的开支可能只占10%左右。
资金的注入实际上主要用于购买算力。以阿里巴巴对Kimi的投资为例,将资金直接转化为云计算资源,并在阿里云平台上进行内部结算,对双方而言都是一个双赢的策略。
在具体的产品开发上,不同模型的研发成本投入比例会有所差异。对于我们自己的产品来说,算力的投入可能占到总成本的40%或50%,而人力资源则占30%。然而,当前所有大模型研究的一个共同点是对算力的需求极大,这与以往的AI公司有很大的不同,过去的AI公司可能有70%的成本是直接投入到人力资源上。
《复旦金融评论》:当下,随着AI技术的快速发展,对新时代AI人才的需求和培养带来了新的思考与挑战。您认为现阶段的中国人工智能教育需要注重对人才哪些能力的培养?
张奇:首先,在AI领域,人才培养的核心应当聚焦于解决根本性问题,而不仅仅是追随当前的技术潮流。真正的人才培养应该具有前瞻性,着眼于AI的长远发展。AI技术的基础在于统计机器学习和分布式计算等领域,因此,我们应该从根本上培养人才,强化他们的基本技能。无论未来技术如何演变,统计学和数学的基本原理是不变的,这些是AI人才必须掌握的基础知识。
其次,AI教育还应该侧重于鼓励创新思维和培养敢闯敢试的心态。即便在大模型技术广受欢迎的今天,使用小模型或传统方法如支持向量机(SVM)也有可能取得优异的成果。同时,AI教育也应该鼓励学生关注因果推理和贝叶斯网络等这类前沿领域,这些可能是未来AI发展的重要方向。培养人才从多角度思考问题,不局限于当前的热门话题,这就要求教育者和学者有更广阔的视野。
然而,这种人才培养模式面临的挑战在于学生通常需要在有限的时间内完成学业并发表研究成果。通常来说,热门领域的研究更容易获得关注和发表机会,但这可能会限制学生探索新领域的意愿。从这一角度来说,教育体系可能需要整体变革,以支持这种全面的人才培养模式。这并非仅仅是中国所面临的问题;全球的教育体系都应当在这方面寻求改进。
□本文仅代表受访者个人观点,仅供读者参考,并不作为投资、会计、法律或税务等领域建议。
□编辑 | 葛雯瑄
□视觉 | 葛雯瑄
□图片来源 |“眸思”官方视频、 “眸思”官方网站、unsplash
推荐阅读
(点击查看相关内容)
↙↙点击“阅读原文”,优惠订阅《复旦金融评论》单期