一文回顾2024年世界人工智能大会

文摘 2024-07-09 09:16 浙江

图源（WAIC大会官方）

2024年世界人工智能大会（WAIC）在上海成功举行，由国家部门和上海市人民政府联合主办。本次大会以"以共商促共享以善治促善智"为主题，特色鲜明：创新性地采用"1+3+10+X"论坛架构，深入讨论AI伦理、大模型等关键议题；吸引了500多家企业参展，展览面积达到52,000平方米，展出1500多项创新技术和产品；通过六大智能体验场景提供沉浸式体验，让与会者直观感受AI技术的应用；汇聚全球领军人物，增强国际交流与合作，展现中国在AI领域的创新成就；并通过"三奖三赛"等活动激发创新激情，培养和吸引AI领域人才，为全球人工智能的发展贡献中国智慧和上海方案。

1、大会概览与核心议题

1.1大会的发展历程

自2018年首次举办以来，世界人工智能大会（WAIC）已成为全球AI领域的重要盛事。它不仅展示了中国在AI技术上的快速发展，也促进了全球科技的交流与合作。2024年的WAIC特别重要，它在AI技术迅猛发展和全球经济转型的大背景下，以"以共商促共享以善治促善智"为主题，深入探讨了AI伦理、治理和应用，强调了AI技术在服务人类社会中的积极作用，体现了推动全球AI健康发展和国际合作的共同愿景。

每一年，大会的主题和议程设置，都反映了当时人工智能发展的重点趋势，这一点，从历年WAIC大会的主题上我们也可以看出：

2018年“人工智能赋能新时代”
2019年“智联世界，无限可能”
2020年“智能世界，共同家园”
2021年“智联世界，众智成城”
2022年“智联世界，元生无界”
2023年“智联世界，生成未来”
2024年“共商促共享以善治促善智”

本届WAIC大会聚焦核心技术、智能终端和应用赋能三大板块，特别关注大模型、算力、机器人技术和自动驾驶等领域。大会汇聚了500多家企业的1500多项展品，其中包括多项备受瞩目的"人工智能+"创新应用和新产品首发。

1.2会议论坛的特色形式

2024年WAIC的会议论坛采用了创新的“1+3+10+X”层级架构，涵盖了从开幕式到全体会议，再到多个分论坛和圆桌讨论。

"1+3+10+X"层级架构是2024年世界人工智能大会（WAIC）会议论坛的独特组织形式，具体解释如下：

"1"代表开幕式：作为大会的开端，开幕式通常包含重要嘉宾的致辞、主题演讲和大会的总体介绍，为接下来的论坛活动定下基调。
"3"指的是三场全体会议：这三场全体会议通常聚焦于人工智能领域的全球治理、产业发展和科学前沿等宏观议题，为与会者提供行业发展的全局视角。
"10"代表十个主题论坛：这些论坛深入探讨AI伦理治理、大模型技术、数据安全、算力发展、具身智能、AI for Science、智慧工业、自动驾驶、投融资以及教育与人才培养等十个关键领域，每个论坛都围绕一个特定主题进行深入交流和讨论。
"X"表示多个分论坛和圆桌讨论："X"代表数量可变的分论坛和圆桌讨论，它们提供了更为灵活和多样化的讨论平台，可以覆盖更广泛的子主题和新兴议题，允许与会者根据兴趣选择参与不同的讨论。

这些议题不仅关注技术的创新和应用，也着重讨论了AI技术发展中的伦理、法律和社会问题。

1.3大会的国际化特色和行业领军人物的参与

WAIC的国际化特色体现在其广泛的国际参与度和多元文化的交融。大会吸引了来自世界各地的顶尖科学家、企业家、政府官员、专家学者、国际组织代表、投资人和初创团队等，共同构成了一个多元化、高层次的交流平台。

（一）、国务院总理李强

李强总理在开幕式上致辞，强调了人工智能作为新一轮科技革命和产业变革的重要驱动力量，同时指出了在法律、安全、就业、道德伦理等方面面临的新课题。他提到中国积极拥抱智能变革，推进人工智能创新发展和安全治理，并发布了《全球人工智能治理倡议》。李强总理提出了三点建议：深化创新合作释放智能红利，推动普惠发展弥合智能鸿沟，以及加强协同共治确保智能向善。他呼吁国际社会共同努力，推动人工智能服务全球发展、增进人类福祉。

（二）、百度董事长李彦宏

李彦宏在产业发展主论坛上发言，再次谈及了大模型开源与闭源的争议，并表达了对闭源路线的支持。他认为开源模型在学术研究和教学领域有其价值，但在商业化应用场景中，闭源模型更具优势。李彦宏还强调了大模型应用的重要性，提出大模型的重点应该是落地应用，并预测未来将出现数百万量级的智能体，形成一个庞大的智能体生态。

（三）、中国工程院院士、阿里云创始人王坚

王坚院士在与亚马逊前首席科学家安德烈斯·韦斯安的深入交流中，讨论了算力瓶颈问题。他认为算力与电力的瓶颈不是人工智能领域需要担心的问题，而是基础设施建设需要考虑的。他提出，所有的问题都应该在动态过程中解决，并强调中国在发电量方面的优势，认为中国是最不需要担心能源问题的国家。

（四）、图灵奖得主罗杰·瑞迪

罗杰·瑞迪教授在WAIC上强调了AI治理和安全问题的重要性，并提倡将AI视为增强人类心智能力的工具。他认为教育体系需要改革，以培养适应AI时代需求的人才，并分享了自己在AI领域的远见和贡献。

（五）、图灵奖得主曼纽尔·布卢姆

曼纽尔·布卢姆教授分享了他对AI风险的兴趣，特别是网络风险的放大效应和AI的可计算性问题。他回顾了自己对意识的研究历程，介绍了有意识的图灵机（CTM）模型，并分享了他在教学上的经验。

2.展览展示与创新亮点（仅展示部分）

2.1商汤科技

（一）、商汤“日日新5.5”大模型

这是商汤科技推出的最新大模型版本，具备显著增强的多模态能力，支持混合模态输入和输出，以及长文档处理等多项功能

图源（商汤科技）

商汤绝影展示了基于“日日新5.5”大模型的智能驾驶产品，包括可解释、可交互的自动驾驶大模型DriveAGI，以及行业首个车载生成式交互界面“随心界面”（FlexInterface）和“随意操控”（AgentFlow）等车载AI Agent应用。

（二）、商汤Vimi可控人物视频生成大模型

这款面向个人消费者的大模型，能够根据一张照片生成高质量、动作连贯的人物视频，支持多种驱动方式，包括视频、动画、声音和文字，且荣获大会最高荣誉“镇馆之宝”。

图源（商汤科技）

商汤科技推出的Vimi大模型，解决了市场上现有产品在人物动态视频生成中的一些常见问题：

精准控制：与仅能控制头部表情的技术不同，Vimi能够精确控制人物的面部表情及半身范围内的自然肢体动作。
自动生成细节：Vimi不仅能让人物动作自然，还能自动生成匹配的头发、服饰和背景变化。
光影效果：它还能合理生成光影变化，使视频效果流畅自然，画面美观。
稳定性强：Vimi能稳定生成长达1分钟的视频，效果不会随时间推移而降低，满足了长时间视频创作的需求。

Vimi的推出，为视频创作者提供了一个强大的工具，克服了之前产品的限制，让创作更自由、更高效。

图源（商汤科技）

2.2快手大模型集体亮相

（一）、大语言模型快意

在以“新AI·新应用·新生态”为主题的大模型论坛上，快手首次展示了其大模型矩阵，包括视频生成大模型“可灵”和图像生成大模型“可图”

图源（快手）

快手自研"快意大模型"（KwaiYii），沿用了Transformer decoder-only技术架构，设计有13B、66B、175B三种参数规模，在MMLU/C-Eval/GSM-8K/HumanEval等榜单上取得领先结果，开启了短视频场景下大模型落地时代。

（二）、文生图模型可图

图源（快手）

快手的"可图大模型"（KOLORS）是一个由快手团队自主研发的先进图像生成工具，具有以下特点：

中文特色理解：它深入理解中文语境，能够根据中文文本生成相应的图像。
长文本语义理解：它能够处理长文本，准确理解并捕捉文本中的复杂语义。
精美画质：它生成的图像画质精美，符合人类审美标准，充满创意。

用户可以轻松使用"可图大模型"小程序，低门槛地创造高质量的图像作品。

图源（快手）

（三）、视频生成大模型

图源（快手）

快手的可灵大模型自发布以来取得了显著的成绩：

用户申请量超过50万，目前已有超过30万用户得以体验这款技术。
生成的短视频数量超过700万条，突显了其广泛的应用和受欢迎程度。

作为全球首个面向用户开放的真实影像级视频生成大模型，可灵的推出受到了国际关注，甚至吸引了众多外国网友的羡慕和兴趣。

图源（快手）

可灵Web端上线、更高清画质、首尾帧、镜头控制、文生视频开放到10s；可图开源

在这次的WAIC大会上，快手隆重宣布，可图大模型正式开源。

图源（快手）

2.3人形机器人组成的“十八罗汉”

图源（网络）

每年的WAIC大会都会官宣一份「镇馆之宝」名单，这是大会展览的最高荣誉，评选维度包括科技含量、市场前景、创新性以及社会经济效益等，入选数量不超过10个。在今年入选的八大镇馆之宝中，首当其冲的就是人形机器人阵列。

图源（网络）

在本次世界人工智能大会（WAIC）上，"青龙"全尺寸开源公版机器人作为阵列领队首次亮相，由国家地方共建人形机器人创新中心研发。其他参与展示的机器人来自达闼、复旦大学、傅利叶等14家知名公司。通过软硬件的解耦合，这些机器人能够同步执行统一的动作，展现了人形机器人领域的最新进展。

2.4通义灵码

图源（阿里云）

阿里云的通义灵码是一款基于通义大模型的智能编码辅助工具，它能够提供实时代码续写、自然语言生成代码、单元测试生成、代码优化和注释、智能问答以及异常排查等功能。这款工具以其毫秒级的速度生成代码建议，显著提高了开发者的编码效率。在中国信通院的评估中，通义灵码获得了最高等级的认证。目前，插件下载量已达到350万，每天推荐代码超过3000万次，被开发者采纳的代码行数超过亿行。阿里云通过全员推行AI编码，使得30%的新增业务代码由通义灵码编写，研发效率提升了10%。此外，通义灵码已服务于金融、汽车、新零售、互联网等多个行业的企业。

2.5基于蚂蚁百灵大模型的“支付宝智能助理”

在本届展会上，蚂蚁集团旗下的支付宝首次亮相了其创新产品——"支付宝智能助理"。这款基于蚂蚁集团自主研发的百灵大模型打造的AI生活管家，正致力于为用户提供全面的生活服务。

作为国内领先的服务型超级App，支付宝通过智能助理实现了服务的进一步升级。用户只需在支付宝首页下拉，即可快速唤起智能助理。通过简单的对话交互，用户便能便捷地获取出行、健康、政务、金融等众多领域的数字生活服务，总计超过8000项。支付宝智能助理不仅能进行智能对话，还能直接帮助用户办理各种事务。

图源（支付宝）

图源（网络）

2.6智谱AI Zhipu AI

2024年1月，智谱AI团队推出了具有里程碑意义的新一代基座大模型GLM-4，标志着团队在AI领域的技术独立性和安全性迈出了重要一步。该模型从底层算法到预训练框架，再到国产硬件的适配，全部由智谱AI团队自主研发，确保了技术的安全性和可控性。

智谱AI的开源模型系列在全球范围内广受欢迎，累计下载量已超过1700万次，并荣获Hugging Face平台上最受欢迎的人工智能机构之一。智谱AI的产品线全面对标OpenAI，包括基座大模型、对话模型、多模态模型和代码模型等，展现了其在AI领域的全面实力。

图源（智谱AI）

在消费者端，智谱AI推出的清言app下载量已突破千万，拥有超过30万个活跃智能体，证明了其产品的市场接受度和用户基础。同时，智谱AI的大模型开放平台已服务超过40万家企业客户，每日的tokens消耗量高达600亿，这一数字不仅凸显了平台的活跃度，也反映了智谱AI在企业服务市场的领先地位。

2.7YOGA Book 9i AI元启

图源（联想）

联想YOGA Book 9i AI元启版在2024年世界人工智能大会上备受瞩目，作为全球首款AI双屏360°翻转本，它以其创新的多形态使用方式和强大的性能配置脱颖而出。搭载英特尔酷睿Ultra 7 155U处理器和联想自研LA3 AI控制芯片，这款设备不仅确保了流畅的多任务处理能力，还提供了快速的数据传输。其珠宝外观设计和雾海蓝配色，结合CNC流光腰线设计，为用户带来了全新的视觉和使用体验。

2.8特斯拉赛博越野旅行车

图源（网络）

在WAIC上，特斯拉以其Cybertruck（赛博越野旅行车）成为焦点，展示了其在电动汽车技术与人工智能领域的深度融合。Cybertruck以其创新的48V低压架构，突破了传统汽车设计，提供了更高的能效和智能化功能扩展空间。作为首款采用线控转向系统的量产车型，Cybertruck实现了安全而灵敏的转向操控，同时，其坚固的外骨骼设计能够抵御各种恶劣环境的考验。性能方面，Cybertruck拥有近5吨的牵引能力和1134千克的最大载荷，展现出卓越的越野性能。搭载HW4.0硬件的FSD完全自动驾驶技术，Cybertruck在自动驾驶领域同样走在行业前列。

2.9智能飞行器展示区

这些产品利用人工智能算法实现实时飞行决策和精准操控，预示着未来城市立体交通、物流和应急救援的新变革。上海通过其民用航空产业优势，推动低空经济产业的一体化发展，致力于成为低空经济的创新和商业应用中心。展示的eVTOL飞行器以其安全性、低成本和低噪音等特点，被誉为未来的"空中出租车"，展现了人工智能在航空领域的应用潜力

图源（网络）

3.从WAIC2024看人工智能三大趋势

3.1AI智能体的进一步发展

在2024年世界人工智能大会（WAIC2024）上，AI智能体（AI Agent）的进一步发展受到了广泛关注。大会展示了AI智能体在实用性和个性化方面的显著进步，它们不再仅仅是概念性的存在，而是成为了能够提供真实、多样化服务的工具，深入人们的日常生活和专业领域。这些智能体通过多模态交互能力，结合语音、视觉和文本等，为用户提供了更自然、直观的互动体验。随着技术的不断进步，AI智能体还能够实现自主学习和环境适应，根据用户行为和反馈进行自我优化，提供更精准的服务。

在行业应用方面，AI智能体展现了深入理解特定行业需求和集成专业知识的能力，为企业客户打通流程、治理数据和重塑业务架构提供了新的解决方案。智能体商店的概念也为用户提供了选择和自定义智能体的灵活性，从而满足个性化需求。此外，AI智能体的协同性和工具使用能力，使得它们能够自动化执行复杂任务，提高工作效率，并与现有系统无缝集成。

李彦宏称，智能体代表着AI时代的未来趋势。

图源（网络）

3.2人形机器人逐渐成熟

在本次大会上，人形机器人技术的成熟度得到了显著展示。展出的超过25款人形机器人不仅在形态上呈现多样化，更在技术层面展现了高度的肢体灵敏度和先进的硬件配置，如自主研发的"青龙"机器人所展示的精细操作能力。行业专家们对此技术的未来应用持乐观态度，预计人形机器人将在智能制造、家庭服务等多个领域实现商业化部署。

图源（网络）

同时，随着技术迭代的快速进展，人形机器人在认知和交互能力上也在不断提升，尽管目前对物理世界的理解尚有局限。此外，一些企业如达闼已经开始预售人形机器人，显示了该技术的商业化前景。具身智能领域的深入研究，包括构建知识驱动的智能模型和开发能与现实世界交互的智能系统，为人形机器人的进一步发展提供了理论和实践基础。城市级数字训练场和开源研究平台的建设，为人形机器人的训练和评测提供了重要支持。整体来看，人形机器人技术的成熟和应用前景在WAIC2024上得到了充分的展现和积极的展望。

3.3国产算力的“春天”

国产算力领域展现出了突破性的进展，正通过创新技术应对国际市场的挑战。国产芯片厂商已实现万卡规模集群的能力，推动了AI大模型训练的关键基础设施建设。异构算力架构的引入，提高了不同芯片的协同效率，优化了算力利用率。同时，电信运营商探索的超高速并池计算技术，有望解决跨地域算力整合的问题，提升国产算力的整体效能。这些发展不仅彰显了国产算力的自主创新，也为AI技术的未来应用打下了坚实的基础。

图源（网络）

END

http://mp.weixin.qq.com/s?__biz=Mzg3MTY5NDAwNw==&mid=2247515607&idx=1&sn=f279d3337ac5a489b71590d98c40c253

杭州文创数字科技研究院

杭州文创数字科技研究院由杭州市科学技术局指导，致力于通过数字艺术品应用与衍生场景研究、数字IP商业化创新和沉浸式场景营造、乡村数字化治理开发、虚拟主播场景应用、数字媒体社群传播、3D数字设计应用等服务推进文化数字科技创新和应用场景有效落地。