AI奇点说第七期回顾丨打通大模型最后一公里!人人可用的大模型离我们还有多远?

科技   2024-09-03 18:41   上海  


AI奇点说

《AI奇点说》直播栏目由WAIC Circle生态共建伙伴计划联合上海人工智能与元宇宙产业联盟等多方合作伙伴共同推出,旨在打造一档聚焦人工智能领域的深度对话类节目。每月2期90分钟的深度互动,邀请高校、顶级平台及企业精英人群,围绕AI轻松愉快地想象世界与产业的未来。


引言


2024年以来,大模型领域风云变幻。开源的风从海外吹到了国内,开源生态正逐渐成为左右大模型发展的关键力量,我们不禁要问:对于B端和C端用户而言,开源和闭源有何区别?开源生态未来还有哪些可想象的空间?我们距离“人人可用大模型时代”还有多远?《AI奇点说》第七期聚焦大模型未来发展,邀您共同探索人人可用大模型的无限可能!


本文将为您呈现此次直播的精彩内容,如需观看直播回放请关注“世界人工智能大会”视频号。


精彩观点 


陈 冉


开放传神(OPENCSG)

创始人&CEO



在商业模式的竞争中,开源策略更有可能成为最终的赢家。


谢伟迪


上海交通大学副教授

人工智能实验室青年科学家



多模态模型在现阶段的显著成就,大部分还是归功于语言。


毛明江


财联社TMT主编

AI daily总编辑



人人都可以成为开发者,人人都能用上大模型。我们要做好充足的准备,主动学习AI,引领AI潮流。


顾 钧


EMQ开源社区运营总监



倘若个体具备扎实的逻辑思维能力以及清晰阐述自身需求的能力,那么大模型可以帮助你很好地完成编程任务。


本文目录 

1、如何看待大模型的开源闭源之争?

2、对于B端和C端用户而言,开源和闭源有何区别?

3、多模态模型在视觉领域有哪些突破?

4、人人都能用上大模型”的一天大概什么时候能实现?

5、如何看待具身智能与大模型相结合带来的前景?



1、如何看待大模型的开源闭源之争?

毛明江

最近国内外开源闭源两大阵营激烈交锋,马斯克起诉奥特曼OpenAI变成了CloseAI,扎克伯格、周鸿祎、杨立昆等人都认为开源模型才是未来,李彦宏、斯密特等人一直坚定闭源模型走的更远,各位嘉宾如何看待大模型的开源闭源之争?




陈 冉

对于开源和闭源的讨论,其实是在讨论开源和闭源的商业模式谁能走得更远、谁能帮助企业和个人从中获益。在大模型兴起的时代背景下,我坚信开源策略具有更为显著的合理性,这一观点根植于以下五大关键要素:第一,Transformer及其算法的本质属性即为开放与共享,这一特性即排除了闭源的必要性。第二,大模型的质量在于数据,正因如此,基础模型的开源显得尤为重要,它如同教育资源的广泛普及,旨在促进知识的无界流通与应用。当然,在面向企业(ToB)的具体场景下,出于保护商业秘密的考量,闭源策略亦有其合理性。第三,算力其实是大模型一个关键要素,现在有很多基于算力的开源体系也已经出来。第四个要素是人才,人才作为技术创新的核心驱动力,其间的交流与合作对于提升整体技术水平至关重要。开源环境为人才搭建了宽广的交流平台,促进了知识与技能的深度融合与提升。最后一个就是所谓的应用层,谈及此,大模型本身也没有必要闭源。


上个时代是代码的时代,不难看到在代码快速演进的过程中,开源的代码,尤其是开源的社区赢到了最后。倘若不谈商业模式,就没必要谈开源和闭源,开源和闭源的最终目的是为商业模式服务,谁能从中受益非常关键。综上,开源与闭源在商业模式的竞争中,开源策略更有可能成为最终的赢家。




谢伟迪

从科研的角度来说,过往算法的开发往往需从C++着手,而今,算法研发的便捷性显著提升,这一转变的核心驱动力在于开源文化的盛行。开源不仅促进了代码的广泛共享,还激发了全球开发者在开源社区中的积极贡献与协作,从而推动了技术的持续进化与革新。因此,从科研的角度出发,我坚定地站在开源这一立场。


此外,对于人工智能现在的底层基本原理,我们其实不是特别明晰。倘若采用闭源策略,即仅提供输出结果而隐藏内部逻辑与过程,这无疑为科研探索设置了障碍,限制了研究者对技术本质的深入理解与剖析。对于科研而言,这种信息不对称不仅无益于知识的积累与传播,更可能阻碍创新思维的萌发与突破。因此,从科研探索与知识共享的角度考量,我更加倾向于开源模式,它为我们提供了透明、开放的研究环境,推动科研事业不断向前发展。




顾 钧

就当前大模型的实际应用而言,开源与否对于普通开发者而言,在现阶段或许并未构成显著差异性的优势。以我们过往的开源向量数据库项目为例,该项目初期即设定了对GPU的依赖,然而,现实情况却是,绝大多数开发者并未配备GPU资源,这直接导致了即便大模型选择开源,其对于这部分开发者的实际效用也极为有限。


诚然,随着技术进步与市场需求的变化,如《黑神话:悟空》等高性能游戏的出现,促使部分用户升级了硬件配置,包括GPU,但这并未从根本上解决大模型普及所面临的算力瓶颈问题。大模型不仅算法复杂,对计算资源有着极高的要求,而且其背后往往依赖于庞大的数据集,这些数据集的获取、处理及使用权限均存在诸多限制。部分数据虽已公开版权,但仍有大量数据由如OpenAI等机构专有授权使用,难以广泛分发。在此情境下,即便大模型的结构得以开源,缺乏足够算力和数据资源的普通开发者也难以有效利用,更难以对模型进行有意义的调整与优化。对于企业而言,其意义也微乎其微。当前大模型的开源状态更多呈现出一种“无感”的态势,即虽然模型被开放,但由于算力、数据、评估体系等多方面的限制,普通开发者难以从中获得实质性的帮助与提升。


2、对于B端和C端用户而言,开源和闭源有何区别?

毛明江

各位嘉宾认为目前市场上开源和闭源的模型各有哪些优劣势?对于B端和C端用户而言,开源和闭源有何区别?




陈 冉

首先,让我们深入探讨开源与闭源策略的本质动机及其背后的逻辑。闭源模式,历来多为行业巨头所采纳,这往往源于它们雄厚的资源基础,包括丰富的研发人才储备与稳健的现金流。在某一阶段内,闭源策略可能占据主导地位,但随后,随着市场需求的演变,开源文化逐渐兴起并繁荣。开源的盛行,从根本上讲,是源自于广大开发者群体及中小企业在面对技术瓶颈或特定需求无法满足时的集体诉求。当现有资源或解决方案无法满足这些群体的迫切需求时,开源便成为了他们探索新路径、共同解决问题的有效途径。当前,许多企业选择将项目开源,其首要考量之一便是期望借助广泛的社区力量,加速产品的成熟与发展。这种策略视开源为一种手段,旨在通过吸引更多的开发者参与贡献,共同推动项目的成长,最终实现商业价值的最大化。当然,开源并非意味着企业放弃盈利目标,本质而言,开源和闭源都是企业在追求商业成功与公司利益的过程中,所采取的一种策略形式。


在探讨B端与C端业务中应采取开源还是闭源策略时,我认为这并非一个绝对化的选择,而是需根据企业具体情况与战略目标综合考量的复杂问题。若企业追求构建一个开放性的生态系统,渴望获得持续的用户反馈,依赖广泛的研发人员参与以推动技术创新,或需构建一个完善的生态链以高效服务上下游合作伙伴,同时有国际化布局及多样化发展需求,那么开源策略往往更为适宜。此外,若企业所持有的技术并非核心竞争优势所在,缺乏高度专有的技术壁垒,那么闭源策略的必要性便相对减弱。当前,C端市场普遍倾向于闭源模式,这主要归因于C端用户付费意愿及习惯的多样性,所以说开源和闭源没有界限。就像我们公司在做开源的生态、开源的产品,也会选择部分内容进行闭源。对于生态体系中的广大企业而言,实现盈利的关键在于清晰定位自身产品、明确用户群体、设计合理的商业模式、确定产品形态,并深刻理解投资人的关注点与企业的长远目标。在此基础上,企业方能更加精准地选择开源或闭源策略。




顾 钧

这个问题同时也反映出了业界对开源与闭源概念理解上可能存在的某些误区,因为本质而言,开源的核心在于技术的开放共享,而非产品的全面开放,因为产品的范畴远远超越单纯的技术层面,其复杂性及综合性要求更高。以日常使用的智能助手为例,它当中有大模型的部分,但也有很多不是大模型的部分,很难把所有的端到端的服务全部开源出来,因为这样过于复杂。而且对于一个开源的项目来讲,通常它会聚焦在一个开源的系统或者具体的技术上,因此整个开源项目的技术委员会才能有效地运作,因为我们在讲一个比较具体的事情,而非构建一类系统。我们公司现在也在做开源技术,基于此,我们会有自己的企业级的产品,所以这也是两个不同层面的东西。我们也会有云的产品,其复杂性与综合性相较于企业级产品又有所提升。因此,在探讨开源与闭源策略时,准确区分技术与产品层面至关重要。


3、多模态模型在视觉领域有哪些突破?

毛明江

大模型领域最火的技术莫过于多模态,多模态已经逐渐走进我们的日常生活而且变得越来越智能,这背后有哪些技术的支撑?多模态模型在视觉领域有哪些突破?或者说,哪些方向比较具有前景?




谢伟迪

多模态这个概念最早出现在神经科学领域,科学家们思考小孩是怎么学会智能的、怎么获取智能的,小孩在三岁之前其实不是特别智能,但是他通过不断地去摸索、听声音、看东西、尝东西和摸东西,这些各种各样的信号促使他变得智能,所以大家就想到人变得智能是由多个模态的信号带来的。个人而言,我较为羡慕语言这个领域的成功,因为他们真的找到了一种方式能够大规模地把所有的知识注入到一个模型当中。其实现在我们做的大部分多模态都是用语言的知识注入到语言模型,它可以阅读人类所有的书籍,把这些知识全部注入进去,其他的模态向它对齐,它再隐性地把知识传到其他各个模态,这就是我们现在在做的事情。因此,多模态模型在现阶段的显著成就,大部分还是归功于语言。


4、“人人都能用上大模型”的一天大概什么时候能实现?

毛明江

目前只有开发者在跟大模型打交道,在开源生态的加速下,未来是不是有可能“人人都可以成为开发者,人人都能用上大模型”,这一天大概什么时候能实现?开源生态未来还有哪些可想象的空间?




谢伟迪

诚然,作为科研人员,我们对此不是特别乐观,并未觉得在一年之内,GPT-5出来后能将所有的问题全部解决,至于这一愿景的实现时程,我个人的判断是在一两年内尚难企及。在技术难点方面,尽管NLP取得了长足的进步,但是在其他模态包括视觉方面,尚未见证任何突破性成就。以Sora为例,尽管外界对其生成视频的能力寄予厚望,然而实际操作中,其生成的视频内容往往存在数学逻辑上的瑕疵,如几何关系的失真,显示出缺失对透视几何与物理原理的深刻理解。当然国内现在部分大模型相当成功,但这种生成式的模型总的来说解决不了我们Vision的核心问题,Vision的数据量不是靠堆算力就能堆上去的。对于人类历史上生产出来的文字,假如把所有的数据全部电子化,用所有的互联网知识来训模型,大概率半年能训出来,但视觉是不一样的,一个模型甚至都跑不过用户上传的数据量。科学研究表明,人类所接收的信息中,高达90%源于视觉信号,其余10%归属于其他模态。所以如果视觉未能得到根本性突破,那这个大模型无疑将缺失至关重要的一环。




陈 冉

首先,让我们聚焦于美国的一项关键数据:高达87%的企业已积极采纳AI技术,而仅有5%的企业尚未将AI纳入其视野。在企业内部,雇主对掌握AI技能的员工需求已突破80%的门槛,且超过90%的雇主期望员工能主动学习与掌握AI知识,这明确昭示了“人人可用大模型”的时代已经到来。进一步探讨,我们触及到第二个层面——即人人是否拥有自己的大模型。在2023年之前的行业生态中,所有努力均聚焦于服务人类。然而,如何高效提取并利用数据,使之具备学习能力,这一过程不仅技术复杂,且与法律法规紧密相连。特别是涉及生命信息的处理,其合法性、道德边界的界定,均需经历漫长的过程。正如人与人之间通过身份证与DNA来界定身份与关系,那大模型如何进行区分?如何确保数据的独特性、避免复制,这也涉及到安全问题。此外,让每个人都拥有跟机器对话的机会,这种方式我们称之为“具身智能时代”,在我看来最近三五年能够实现。最后一个时代我认为是虚拟的世界,多模态技术落地的障碍之一在于时间、空间等概念的向量化难题。倘若真能向量化,那么算力是不是像上个时代的石油一样,能够实现按需分配?显然这是不存在的,因为这不符合商业逻辑。因此,要达到一个由大模型全面代表个体的时代,预计还需五年乃至更长时间,这期间需要构建严格的监管体系、伦理框架以及技术上的不断突破,以确保技术的健康发展与社会的和谐共生。




顾 钧

关于“可用”的定义,其衡量标准并非仅限于个体用户的视角,企业层面的考量同样重要。当前,我们已步入一个人人可用大模型的时代,只不过这个时代可能不是我们想象中的那么便利,因为别人可用的时候,可能并非是你想他可用的时候,所以怎么样对齐大家的预期,我觉得是一个更加有挑战的问题。黄仁勋曾指出,以后大家都可以用自然语言进行编程,我认为其中最大的挑战其实并不是在大模型这一层,而是在对人的基础教育这一层,即个体是否具备扎实的逻辑思维能力以及清晰阐述自身需求的能力。假如具备这些能力,那模型可以帮助你很好地完成编程任务。


5、如何看待具身智能与大模型相结合带来的前景?

毛明江

有些事物看似遥不可及,但有些事物可能真的能够很快实现,以具身机器人为例,这一领域的快速发展预示着其有能力在不久的将来显著替代众多人类工作的场景。那么,针对具身智能与大模型相结合所带来的广阔前景,三位嘉宾各自持有怎样的见解与期待呢?




陈 冉

具身智能在大模型尚未出现之前,其实已经出现很久了,大模型的出现为具身智能注入了强劲的动力,加速了其发展的步伐。然而,关于具身智能是否能有效服务于我们碳基生命体,其核心并非单纯的技术问题。技术层面,我们现已具备模拟人类体貌特征的能力,这无疑是科技进步的显著标志。但关键在于,如何让这些技术成果具备类似于人类的情感体验与认知,这远非单纯的技术革新所能解决。此外,数据的合法合规性同样不容忽视。哪些数据是适宜且合法的使用范围,哪些则可能触及法律与道德的边界,这些问题对于技术的可持续发展至关重要。虽然具身智能的应用场景已初露端倪,预示着未来无限的可能,但其真正融入并服务于人类社会的道路,仍将是一个充满挑战与探索的漫长过程。




谢伟迪

Boston Dynamics完全做的是控制系统、控制理论,仅凭线性控制策略,无需依赖庞大的模型或复杂的神经网络,即可实现高度的稳定性与精准性。当前,具身智能领域之所以备受瞩目,部分原因在于众多原本深耕于Vision与自Language领域的专家纷纷转向Robotics,旨在将成熟的视觉技术融入机器人,赋予其视觉感知与理解能力,使之能够识别距离、精准抓取、执行如倒水等复杂任务。这一过程不仅彰显了技术的跨界融合,也凸显了大模型在推动机器人技术快速发展中的关键作用。


在硬件层面,提升机器人的综合能力与灵活性,往往意味着需要增加更多的电机。然而,更多的电机也意味着更高的计算需求与成本,可能导致机器人响应速度减缓,尽管灵活性有所提升。反之,若追求速度而减少电机数量,则可能牺牲部分灵活性。当前,众多致力于具身智能的公司正竞相展示其机器人手部的多功能性,如处理碎玻璃、折叠衣物、辅助老年人进食、为儿童穿衣以及为成人剃须等。这些实践不仅展现了机器人技术的广泛应用潜力,也促使更多AI领域的专业人才转向这一领域,共同推动机器人技术的快速发展。




顾 钧

具身智能是一个很有意义的技术方向,但就可能的商业化场景,还具有很大的想象空间。具身智能作为机器人技术中的一个细分领域,属于尖端技术范畴,尽管机器人已经广泛渗透到我们的日常生活中,从家庭清洁到工业生产线上的玻璃涂胶、焊接等各个环节,均可见其身影。值得注意的是,当前市场上已存在的非高度智能机器人,其成本已被大幅压缩至较低水平,相较于人工而言,具有显著的经济优势。然而,对于具身智能机器人而言,其商业化后的成本是否仍能保持竞争力,尤其是相较于人工的成本优势,这是一个值得深入探讨的问题。若其成本高昂,可能会成为其大规模推广的障碍。此外,具身智能的发展还伴随着深刻的伦理问题。当机器人达到高度智能水平,人类或许无需再掌握大量技能与知识,个人学习动力的减弱可能导致知识传承的断裂,这可能会引发一系列复杂问题。


WAIC Circle生态共建伙伴计划

为进一步深化构建大会平台,促进行业对接与赋能,在2023世界人工智能大会启动会上,大会首次正式对外宣布启动“WAIC Circle生态共建伙伴计划”。大会邀请多方合作伙伴共同搭建多维平台,通过全年形式多样的活动载体,进一步激活大会资源,打造WAIC生态圈,促进人工智能领域的“共创、共建、共融、共治、共享、共赢”。







点击阅读原文观看WAIC 2024精彩

世界人工智能大会
聚焦人工智能行业前沿,跟踪世界人工智能大会信息
 最新文章