前几天大家的朋友圈被英伟达GTC刷屏了,这家人工智能时代最幸运的公司再一次赚足了眼球。英伟达的产品线实在太过丰富,黄教主每年的演讲中也在不断更新PPT、更新自家产品和技术的分类以应对市场的变化,今天我们就来好好梳理一下这些叫人眼花缭乱的产品。
机器学习中用到高性能计算的场景有两种,一种是训练training,通过“喂”大量数据调整神经网络架构的参数,一种是推理Inference,训练完成后的神经网络,参数已经确定,用它来批量完成特定任务。公众的传统印象都认为英伟达是一家芯片公司,其核心能力来自于对芯片底层硬件架构的设计,提供训练深度学习模型的强大算力。然而老黄从2014年就开始宣称Nvidia是一家AI软件公司,它的CUDA生态中出现了越来越多的开发者工具、中间件、计算库、应用等,英伟达将自己的触角向推理端全面延伸。正如GTC上老黄演讲的最后一页PPT展示的那样,英伟达依靠自己的算力优势构建起了AI时代的最强生态。
开创计算新纪元——NVIDIA家族系列产品
Training——DGX
英伟达的DGX系列是用于训练机器学习的AI超级计算机,可以为AI工程师提供在桌面、数据中心和云端的强大开发工具,能够在更大更复杂的深度神经网络上大幅缩短训练耗时。
NVIDIA DGX AI超级计算机
NVIDIA DGX-1内置八块Tesla V100,拥有每秒960万次的浮点运算能力,过去 Titan X 需花费八天训练的神经网络,用 DGX-1只需八个小时,它相当于是“把 400 个服务器装进一个盒子里”。DGX station是一台个人工作站,搭载了四块Tesla V100,相当于用于深度学习的PC。
NVIDIA DGX-1内置8块Tesla V100
HGX-1是公有云服务器,内置八块 Tesla V100,设计时就考虑了公有云服务器必需的多种任务处理与全能性。同时英伟达还推出了GPU Cloud,目的是解决深度学习工程师创建和设置开发环境的痛点,这是一件相当费时费力的事情,有时甚至会花费长达一个月的时间,现在只需要下载一套英伟达优化整合好的深度学习软件包,就可以在几分钟内设置好本地开发环境,开发者所有需要的库和框架都包含在内,并且用容器 NVDocker 隔离。
NVIDIA HGX 服务器已被华为、浪潮、联想等领先的云服务器厂商采用
Inference in the Datacenter
——Tesla
英伟达的传统优势一直被认为在training上,但今年以来英伟达重磅发布了一系列产品和架构,其对于inference的野心显露无疑。英伟达的Tesla系列产品被应用于数据中心的推理计算,通过Volta架构+TensorRT生态英伟达正式进军推理领域。
NVIDIA TESLA P100数据中心加速器
Volta架构
Volta架构是继Pascal之后的新一代GPU架构,也就是老黄说的凝聚了NVIDIA数千名工程师数年的心血、研发投入达30亿美金的新架构,所采用的处理器工艺已达到了“光刻工艺的极限”。Tensor Cores是Volta的一种新核心,它是一种全新的张量运算指令。深度学习需要大量矩阵和矩阵相乘的运算,Volta 架构将用于执行4*4矩阵操作的计算单元集合在一起,实现更高的FLOPS(每秒浮点计算),以某些精度来看吞吐量达到前一代Pascal架构的12倍。
Pascal架构 vs. Volta架构
深度学习引擎TensorRT
本次GTC大会黄教主发布了最新版本的TensorRT 3推理引擎,TensorRT可编程,支持所有框架,能加速所有网络结构。简单来说,一边是大公司开发出来的机器学习框架,比如TensorFlow、Caffe2、Microsoft Cognitive Tookit、Mxnet、Pytorch、theano等,一边是英伟达的各种加速硬件,比如Tesla P4、Tesla V100、DRIVE PX 2、JETSON TX2、NVIDIA DLA等,TensorRT在中间充当桥梁作用,将各种训练完的模型简单快速而又高效地部署到各种硬件上去。
NVIDIA TensorRT全球首款可编程 AI 推理加速器
Inference in the Edge
——Jetson
Jetson是英伟达推出的嵌入式人工智能超级计算平台,和名片一样大小,可以通过接口将其连到外部电路板上进行开发,完成后部署到各种终端上,包括摄像头、无人机、机器人、无人小车等,令其具备人工智能计算能力。Jetson的发布也标志着英伟达在终端人工智能领域的布局又往前迈进了一步。目前采用了Jetson平台的有京东仓储机器人、自动送货无人机,海康威视双目智能人脸摄像机(前端)与视频云结构化服务器(后端)。
NVIDIA Jetson嵌入式人工智能超级计算平台
NVIDIA Jetson开发者套件
自动驾驶平台NVIDIA Drive
英伟达在自动驾驶上的硬件有两种:一是针对L2/L3自动驾驶的Drive PX2 Parker,另一个是针对L4/L5自动驾驶的Drive PX Xavier。
NVIDIA DRIVE PX 2
英伟达为了让各位小伙伴愉快地使用它的芯片开发自动驾驶汽车,还构建了NVIDIA DRIVE整体架构,其中包括了:
Drive OS,自动驾驶操作系统;
Driveworks SDK,包含有API中间件、开发工具与技术支持,可完成视觉感知、高精度地图绘制、定位、路径规划四大功能,这是自动驾驶最基本最核心的能力。
Drive AV,自动驾驶应用,你可以将其理解成一个演示平台,即告诉你使用英伟达的硬件能够做出什么东西来,有点类似于高通常给硬件厂商做的参考设计。
NVIDIA DRIVE整体架构
为什么每一层都分别取了自己的名字呢?老黄的回答是,因为每一层都是开放的。也就是说,你要用英伟达的硬件、主板或芯片,但是其他部分如操作系统你想自己开发,没有问题;如果除了应用之外,其他底层的堆栈你都想用英伟达的,也没有问题。NVIDIA DRIVE每一层都是开放的,适用于不同类型、不同技术的公司。
自主机器处理器Xavier
Xavier是英伟达发布的针对自动驾驶的SoC,Xavier 同时具备 CPU 的单线程性能,CUDA 的并行加速能力,以及 DLA 的计算机视觉特殊功能,并且英伟达将会把Xavier DLA(深度学习加速器) 开源供所有开发者使用、修改。虽然Xavier是为自动驾驶开发的,但DLA的开源瞄准了更加广阔的嵌入式和IoT市场,提供有inferance功能的硬件解决方案,这将对整个芯片产业产生深远的影响。
NVIDIA Xavier自主机器处理器
开源硬件加速项目NVDLA
英伟达计划开源深度学习加速器DLA的源代码和指令集,这样开发者可以针对不同应用场景下的需求进行剪裁,嵌入式硬件开发的门槛将会被极大地降低。英伟达选择开源战略,是在进一步巩固自己的技术生态系统,同时通过“开源硬件+软件+服务”的产品形态向“刀架+刀片”式的商业模式过渡。
机器人模拟环境Isaac
黄教主还非常关注的一个方向就是自动机器人,并且他强调这很可能是人工智能下一个最重要的领域。英伟达推出了全新的机器人训练方式“Project Isaac”,也就是在构建的虚拟环境种进行机器人训练。凭借这种全新技术,用户完全不需要再在机器人实物上进行重复的调试和实验,完全可以将整个场景搬到虚拟世界当中,并且利用GPU的学习能力,让机器自行学会最佳处理方式。最关键的是,它所生成的算法完全能够移植到NVIDIA Jetson这样的终端AI芯片平台之上,直接让终端的机器人凭借之前学习的经验运行。
Isaac虚拟机器人训练环境
面对如此进击的英伟达,
AI芯片创业公司还有机会吗?
众所周知,芯片的研发周期长、成本高,DLA的开源使AI芯片的开发门槛极大降低。伴随着深度学习应用的不断涌现,软硬件一体化设计的需求越来越强烈,一些公司可以基于DLA开发自己的深度学习加速器。这样会有越来越多的公司利用开源资源实现自己的独特硬件,进入到AI芯片领域,对创业公司会造成一定的冲击。
不过从另一方面看,人工智能还处在比较早期的发展阶段,技术路线处于百花齐放的状态。英伟达的开源硬件项目会推动整个AI生态的发展,但并不代表会扼杀掉其他创新。各种AI应用都有其特殊性,英伟达追求的通用性和AI应用的独特性之间存在天然的gap,这就是创业公司的生存空间。英伟达不会也没有必要去切入每一个细分市场,对特定场景的理解和提供高效率低能耗的解决方案上,创业公司可以比英伟达做得更好。最后就要看谁跑得更快,谁能抢位成功在细分市场站稳脚跟了。
小研聊科技,帮助投资者理解科技。欢迎关注公众号,联系小研,加入私享群,和大牛们共同探讨科技创投最新趋势。