邮箱|yokyliu@pingwest.com
在2024年的AI领域,我们正在见证一个有趣的转折。
OpenAI的进展节奏明显放缓,GPT-5迟迟未能问世,“Scaling Law”成了天方夜谭,即便是年初震撼业界的视频生成模型Sora,也未能如期实现“全面开放”的承诺。
这种现象背后折射出一个深层问题:基于Internet数据训练的大模型,正在触及其认知边界。简单堆砌参数量和扩充训练数据,已经难以带来质的突破。与此同时,具身智能、可穿戴设备以及重获关注的AR/VR技术,都在指向一个共同的方向:AI必须与物理世界建立更紧密的联系。
从Internet到World,从AI到Physical AI,这个转向标志着AI发展的新阶段。物理AI不仅仅是对现实世界的表面模仿,而是要将物理世界的基本规律和真实特性融入AI系统的底层设计中。它的终极目标是构建一个“多维度物理世界模拟器”,这远比生成二维视频的Sora要复杂得多。
物理AI的发展之所以相对滞后,不是因为不重要而是因为非常困难。首先是物理世界数据的稀缺性,真实世界的物理数据采集成本高昂且难度大;其次是算法范式的根本差异,需要模拟几何关系、光线传播、力学规律等物理现象,而不是简单模仿人类神经网络;最后是计算资源的巨大需求,对现有算力形成了更大压力。
然而,尽管物理AI还没有进入大众语境,却已经开始对于各行业产生真切的影响。在计算机视觉领域,它帮助自动驾驶汽车理解真实道路环境;在工业制造中,它让机器人更精准地执行复杂任务;在元宇宙世界里,它正在构建符合物理规律的虚拟空间。
这些都预示着,物理AI不仅仅是下一个技术风口,更是打开现实与数字世界之间的桥梁。在这个充满想象力的赛道上,一些企业已经开始展现出独特的技术积累,正在将物理世界的规律编织进AI的未来图景中。
“3D界的ImageNet”
熟悉AI的人,不可能不知道ImageNet。这个数据集的出现,犹如一颗重磅炸弹,彻底改变了计算机视觉的发展轨迹。
2009年,整个AI发展到了图像识别的关键节点。身在斯坦福的李飞飞及其团队,敏锐地意识到数据集的重要性。他们发起了名为“ImageNet”的项目,通过互联网收集图片并进行人工标注。这个浩大的工程最终收录了超过1400万张图片,覆盖了2万多个类别,并对所有开发者开放,为图像识别和分类技术的发展奠定了基础。
ImageNet的影响力远超预期。它不仅提供了训练数据,更催生了著名的ImageNet挑战赛。2012年的这场比赛成为了AI历史的转折点。
今年刚获得诺贝尔物理学奖的辛顿教授,带着他的两名学生开发了基于卷积神经网络(CNN)的模型AlexNet。这个创新性的模型将图像识别的准确率从75%左右一举提升到了84%,掀起了深度学习革命的序幕。这个突破让学术界和产业界彻底轰动,标志着AI正式进入图像时代。
六年后的2018年,一个堪称“3D界的ImageNet”的项目悄然诞生。英国帝国理工大学计算机机器人视觉实验室与一家中国公司合作,推出了室内场景认知深度学习数据集InteriorNet。它包括了1600万组像素级标签数据,1.5万组视频数据,总计约1亿3千万张图像数据,用于训练和测试AI系统在室内环境中的视觉识别和理解能力。
这是迄今为止全球最大的室内场景数据集,而且已经全面开放。
让人意外的是,参与这个突破性项目的中国公司,是一家不被公众所熟知的企业:群核科技,但你一定熟悉它旗下的一款3D空间设计产品:酷家乐。
基于高性能计算对物理世界的渲染,群核科技平台积累了海量的设计方案和超过3.2亿的3D模型,它们天然包含了完整的三维空间信息,也记录了设计师对空间的专业理解。更重要的是,庞大的用户群体持续创作的设计方案和商品素材,为群核提供了源源不断的数据来源,还保证了数据的准确性和多样性。
为什么要创建一个“3D版的ImageNet”?群核科技首席科学家、酷家乐KooLab实验室负责人唐睿告诉我们:“当我们拥有了大量的空间数据后,我们开始思考能否应用在其他研发场景中。与帝国理工大学的合作是探索空间数据在无人机试飞的仿真实验中的应用,此后,我们基于物理正确的渲染引擎,将空间数据应用在了具身智能等其他前沿科技中,也就是群核空间智能平台SpatialVerse在做的事情。”
室内场景数据集的稀缺性在哪?与二维图像相比,要完整描述一个三维物体,需要处理几何关系、材质属性、空间位置等呈指数级增加的复杂参数。即便是描述一把普通椅子,也需要精确记录每个部件的尺寸、形状、材质的光学特性等多维信息,还包括椅子与桌子之间的物理距离。传统的数据采集方式不仅成本高昂,还面临着隐私保护和法律合规等诸多限制,这使得高质量三维数据的获取成为了一个行业难题。更具挑战性的是,室内空间物理数据的采集还面临着隐私保护和合规性的严峻考验。
不过,这些场景虽然具备物理正确,但是离真实的生活状态比较远,比如在酷家乐平台上有大量的家居场景设计方案,这些方案的桌子、客厅都是非常整洁,但现场生活中客厅可能会有玩具,生活垃圾。群核空间智能平台又做了一件事:通过将真实的生活元素渲染入设计场景,让这个虚拟空间更接近生活真实状态。举个例子,原先扫地机器人在清理猫屎时是通过碰撞,这样就很糟糕,现在通过在虚拟空间进行预训练能准确识别猫屎等。
这些优势使得群核在为具身智能、大模型和AIGC、AR/VR企业提供定制化数据服务时,其核心价值得以显现。
“破壁人”
那么问题来了,要将真实的物理数据对应到数字世界进行操作,需要打破二者间的“次元壁”。
在人类生存的空间本身存在大量物理数据,我们能将他们翻译成机器能够听懂的语言。群核矩阵(CAD)引擎,并发布自主研发的百亿级参数的多模态CAD大模型,能对物理世界产生的或存在的设计数据进行了翻译、兼容和数据流转。
想象一下,当建筑师在图纸上画下一道道墙线,这条线不仅代表了一个简单的几何形状,还包含了墙体的厚度、材质、位置等诸多信息。多模态CAD大模型逆向解析引擎就像一个经验丰富的工程师,能够准确识别图纸中的每个元素,理解它们之间的关系,并将这些非结构化的信息转换三维结构化为计算机可以理解的数据。
但仅仅理解单一的CAD图纸是远远不够的。在实际工程中,设计信息往往以多种形式存在:2D图像图纸、3D模型、设计说明,甚至是施工规范。这就需要多模态CAD大模型的支持。相比语言大模型对空间描述的模糊与不确定性,CAD大模型能够实现对空间更准确和结构化的表述。
这个“大脑”能够同时处理多种形式的输入,提取关键特征,学习设计规则,最终将所有信息统一转换为标准化的数字表达。
当多模态CAD大模型将物理世界的非结构化数据统一转译并,生成数字世界的三维结构化数据后,群核矩阵(CAD)引擎的另两大技术几何参数化引擎、BIM引擎就像是数字世界和物理世界的另一架桥梁,在设计完成后,它们再逆向转为非结构化数据,进一步生成效果图、施工图等,指导施工和生产。
简单地说,就是完成了从物理世界到数字世界的逆向解析,再从数字世界返回物理世界的正向建模的全过程。
而将这个过程的能力抽象出来,其实也对应着一种人类的智能:将复杂的物理世界数据高质量压缩并提取特征,存储在计算机中,同时保持反向重建的能力。
对于数据处理的核心算法+大量真实的应用场景,使群核能够沉淀出更最大的空间数据集。
“你相信光么?”
机器能够读懂物理世界,在于技术对于数据的结构化处理,而人类要想读懂数字世界,最根本的差异在于:数字世界是没有光的。
物理世界中的所有“可视化”,本质上都是光粒子运动的结果——反射、折射、散射等一系列物理反应的组合。没有光,我们就无法判断一把椅子的形状、颜色、位置,以及与其他物体的力学关系。
呈现一把椅子,从根本上来说,就是在重现特定空间中的光粒子分布。在数字设计领域,这个过程被称为真实感渲染。群核科技的渲染引擎正是基于这一原理构建,通过精确计算光线在空间中的传播路径,模拟不同材质的光学特性,实现物理正确的视觉效果。
但渲染只是整个技术体系的一部分。在设计过程中,系统需要同时处理多个物理维度的问题。一件家具的设计不仅要满足视觉审美,更要符合力学原理。这在一定程度上体现在群核的产品中,系统能够在设计阶段就对方案进行力学分析,及时发现结构性问题。
在实现真实感渲染时,群核科技的渲染引擎采用了基于物理的渲染方法(Physically Based Rendering,PBR)。这种渲染技术的核心是解算渲染方程,通过计算光线与物体表面的相互作用来模拟真实世界的光照效果。系统在处理每个材质时,都会考虑其微观表面结构,包括表面粗糙度、金属度等物理属性,从而准确还原材质的反射特性。
尤其当设计师调整屋内光线时,群核启真(渲染)引擎基于光线追踪技术可以模拟物理世界中光线在虚拟场景中的光学现象,包括反射、折射、散射等,进而带来堪比真实世界的渲染效果,使创作者的作品更写实。而且借助 AI 技术对画面光影、色彩等元素进行真实感增强,启真(渲染)引擎攻克了传统渲染器在有机物真实感渲染上的难题,并且可以渲染物理世界 99% 的材质。
技术的核心优势来源于数据积累,由于大量的数据来源于物理世界又被应用在物理世界中,在这个过程中,自然完成了一些物理AI中最重要的一环:物理正确。
与当前市场上备受关注的Sora等生成式AI产品相比,群核的方案展现出明显的物理正确性优势。这个差异的根源在于训练数据的性质:Sora主要依赖二维视频数据,这些数据虽然视觉丰富,但与物理世界缺乏本质联系。其生成内容中经常出现的物理错误,如不合理的物体运动或材质表现,正是这一局限的直接体现。
相比之下,群核科技多年来积累的是完整的三维数据,包含几何信息、物理参数、材质属性等多个维度。这些数据不仅经过专业设计师验证,更重要的是与实际工程实践保持密切关联。配合专门的物理引擎,这些数据支撑起了一个更接近现实的物理世界模拟器。
“当4颗GPU改变世界”
在辛顿的故事里,之所以全世界轰动,原因之一在于识别准确率的断崖式提升,原因之二在于AlexNet只基于4颗英伟达GPU,就打败了谷歌用16000颗CPU所构建的谷歌猫。这一成果震惊了整个学术界和工业界,彻底改变了深度学习的发展轨迹。
人们发现在特定的计算场景下,对于算力的使用效率远大于规模。
理论上,空间里所存在的光粒子是无限的,有如人脑神经元一样复杂,所以还原正确的物理世界,同样对底层算力提出了极高要求。能够同时渲染10颗光粒子、100颗粒子还是10000颗粒子,决定了渲染的速度,取决于并行计算的效率。
群核的故事同样起于对GPU算力的“解锁”。三位创始人长期专注于计算机图形学、高性能计算等方向。创业前,黄晓煌曾在英伟达负责CUDA开发,彼时一本名为《Physically Based Rendering: From Theory to Implementation》的书开启了他对物理AI探索的好奇心。
但彼时,在还原物理世界这一步,渲染出图的平均速度在1-2个小时左右,且一张图的成本高达千元。
能否用一个更低成本的云端GPU集群,用廉价的显卡来实现商用超级计算的性能,将“渲染”的价格和时间成本打下来,甚至获得更好的渲染效果?
2011年,群核创始团队用低价显卡集合成一个端云协同的高性能GPU集群,并通过优化算力资源的调度策略,大幅度提升GPU利用率。这使得算力成本大幅降低,并实现更快的计算速度。
在群核更新的四代渲染引擎中,第一代技术通过基础并行优化,重构了渲染管线,将渲染时间从小时级降至分钟级。第二代技术增强了真实感的渲染能力。第三代技术实现了云端实时和光线追踪,通过自研算法和动态负载均衡,让设计师能够在实时环境中进行创作。今天亮相的第四代基于渲染和AI的融合,在渲染速度、逼真度、通用性和智能化层面都实现了大幅提升。
从几小时到几秒钟再到实时,将1000元的出图成本降到免费,本质上是进一步提高计算效率保证计算效果的结果。
具有深厚CUDA开发背景的团队也为群核带来了独特优势。他们深知GPU架构的特点,能够从底层优化计算效率。比如,通过优化内存访问模式,减少数据传输开销;通过智能任务分配,提高GPU核心利用率;通过计算流水线重构,最大化并行计算效果。这些技术积累让群核在处理复杂渲染任务时具备了明显的性能优势。
比如通过智能分析场景复杂度,提前规划计算资源分配,大幅提升了GPU利用效率。系统能够根据不同场景特征,动态调整渲染策略,在保证效果的同时最大化计算效率。
在工业设计领域,实时渲染技术可以用于产品原型验证,大幅减少实物样品的制作成本。在建筑设计中,它能够支持实时的方案调整和效果预览,提高设计效率。在虚拟现实领域,实时更是实现沉浸式体验的基础。
拥有了计算能力、可实践的应用场景,和长期的数据积累后,一个新的想象空间正在打开。
如同当年的4颗GPU改变了的人工智能发展的轨迹一样,物理AI的大门也正在被推开。
结尾:
1993年,黄仁勋与合伙人Chris Malachowsky和Curtis Priem共同创立了NVIDIA。创立之初,他们想为个人电脑市场提供高性能的图形处理解决方案。
随着精品化游戏的发展,高清的效果和酷炫的动画使得视频游戏行业对图形处理能力的需求日益增长。1999年NVIDIA推出了GeForce 256,这是世界上第一个被定义为“GPU”(图形处理单元)的产品。GPU它能够处理复杂的3D图形任务,也仅仅是为了提升了游戏的视觉效果。
2006年,黄仁勋开始推动英伟达开发CUDA开发平台,CUDA使得开发者能够利用GPU的强大计算能力来处理各种复杂的计算任务。
万事俱备后,AI的东风来了。
随着深度学习算法的发展,对计算能力的需求急剧增加,而GPU并行计算的处理能力成了AI研究和应用的天然选择。紧接着,GPU被用于游戏、专业视觉、自动驾驶、云计算、大模型等多个科技领域。英伟达也不断推出RTX(实时光线追踪技术)和DLSS(深度学习超采样技术),进一步提升了图形处理和AI应用的性能。
一个时代的机遇,总会留给准备好的人。
于群核而言,或许也到了这样一个节点。