ST首颗AI MCU，揭开神秘面纱

文摘 2024-12-11 23:51 广东

大约一年前，ST披露了公司首颗集成了AI加速器的MCU STM32N6。在当时，通用MCU巨头并没有透露太多关于这颗芯片的细节。近日，ST终于揭开了这颗被期待已久芯片的神秘面纱。

意法半导体表示，公司正式推出了 STM32N6。按照他们所说，这是其首个包含 Neural-ART 协处理器的芯片系列，用于微型机器学习（tinyML）和设备上边缘人工智能（edge AI）工作负载。伴随着这颗芯片的亮相，STM32N6，微控制器技术又向前迈出了重要一步。

在STM32N6 的新闻发布会上，意法半导体微控制器、数字 IC 和 RF 产品部总裁 Remi El-Ouazzane 和通用 MCU 部门总经理 Patrick Aidoune 分享了他们的见解。

El-Ouazzane 表示：“我们相信，这个世界中的东西可以在边缘感知、自主推断、智能驱动和自动连接。STM32N6 体现了这一愿景，标志着微型边缘设备 AI 能力的重大飞跃。”这一愿景依赖于三大支柱：边缘 AI、增强安全性和云集成。这些进步旨在改进实时应用、减少数据传输和增强安全性，从而实现新的应用和商业模式。

Remi El-Ouazzane 进一步指出：“我们即将迎来微小边缘的重大转型。这一转型涉及用 AI 模型不断增强或取代我们客户的工作负载。目前，这些模型用于分割、分类和识别等任务。未来，它们将应用于尚未开发的新应用。”

“STM32N6 是首款采用我们的 Neural-ART 加速器 NPU 的 STM32 产品。它将利用我们独特的 AI 软件生态系统包的新版本。这标志着 AI 硬件加速 STM32 漫长旅程的开始，它将以任何其他嵌入式处理解决方案都无法实现的方式实现应用程序和产品的创新。”Remi El-Ouazzane补充说。

在El-Ouazzane 看来，这甚至标志着人工智能硬件演进的重要转折点。

回顾历史，他表示，AI 硬件演进中发生过两件大事：2017 年苹果推出的 A11 Bionic 芯片，这是首款包含 AI 加速的应用处理器；2016 年 Nvidia 推出的 Pascal 架构，证明了 GPU 用于 AI 活动的前景；第三件关键事件是 STM32N6，它为小型边缘设备带来了强大的人工智能功能。

一颗专为边缘AI设计的MCU

据介绍，STM32N 是一款专为边缘人工智能用途而设计，融合了低功耗、复杂处理能力以及一系列适用于工业、消费和汽车用途的功能。

回到这颗芯片的历程，在去年的 Embedded World 的现场演示中，ST首次披露了 STM32N6，并在与 STM32H747 的正面较量中展示了其性能。据当时的介绍，STM32N6 运行定制的 You Only Look Once (YOLO) 衍生神经网络，经过训练可在实时视频中定位人物，性能提高了 75 倍，但运行时钟频率还不到一半。

演示结束后，该公司进行了第二次比较：STM32N6 声称其设备机器学习推理速度比 STM32MP1（一款运行频率为 800MHz 的双核 Arm Cortex-A7 应用级处理器）快 25 倍。

STMicro 的 Miguel Castro 在谈到当时演示的流畅性能时解释道：“STM32N6 将其 AI 计算任务重定向到 ST Neural-ART 加速器，并将其预览功能重定向到 STM32N6 的机器视觉管道，从而使 Cortex-M 可以灵活地处理其他任务。”

具体而言，STM32N6 芯片基于 Arm Cortex-M55 内核，运行速度高达 800MHz，而 Neural-ART 协处理器运行速度高达 1GHz，可提供每秒 600 千兆次运算 (GOPS) 的计算能力，功耗为每瓦每秒 3 万亿次运算 (TOPS/W)。其他协处理器包括用于 2D 图形的 Chrom-ART 加速器、用于圆形和其他非方形显示器的 Chrom-GRC“图形资源切割器”、“2.5D”NeoChrom 图形加速器、能够处理 1080p15 或 720p30 的 H.264 视频编码器，以及针对 30 帧/秒的五百万像素摄像头的图像信号处理器 (ISP)。

有趣的是，这些芯片不包含任何板载闪存；相反，它们提供“无闪存”内存配置，具有 4.2MB 连续嵌入式 RAM（STM32 设备上有史以来最大的 SRAM），以及用于多种内存类型的外部接口，包括伪静态 RAM (PSRAM)、同步动态 RAM (SDRAM) 以及 NOR 和 NAND 闪存。有 Arm TrustZone 安全子系统、抗侧信道攻击和高速 AES 加速选择、租户感知防火墙，以及实现 SESIP 3 级和 PSA 3 级安全认证的目标。

得益于这些配置，STM32N6为开发人员提供了高性能和灵活性，它也成为ST 迄今为止最强大的 STM32 MCU。

在ST看来，这颗MCU将会成为一颗标志性的AI MCU产品，主要得益于其以下几方面的配置：

1、强大的 Cortex-M55

STM32N6 首先是 STM32。事实上，它是 ST 最强大的 STM32，主要是因为它是ST第一款使用 16 nm FinFET 工艺节点的微控制器。通过采用这种光刻技术，我们确保能够以 800 MHz 的速度运行 Cortex-M55。它还使我们能够在 STM32 上嵌入最大数量的 RAM，同时包含众多 IP。STM32N6 还配备了支持时间敏感网络的千兆以太网模块、六个 SPI 和两个 I3C 接口、两个 12 位 ADC、四个 32 位高级定时器等。

2、独特的摄像管线

由于ST预计客户会在机器视觉应用中将 STM32N6 与摄像头配合使用，得益于其 NPU 和整体性能，ST在这颗MCU中加入了最新的图像信号处理器 (ISP)，与STM32MP2 上的相同，并与 STM32 ISP IQTune 软件兼容。该软件确保开发人员无需聘请昂贵的第三方服务提供商来根据 CMOS 传感器、镜头、照明条件等调整 ISP。

STM32N6还支持 MIPI CSI-2，因此 STM32N6 支持移动应用上最流行的摄像头接口，而无需与此特定摄像头串行接口兼容的外部 ISP。因此，STM32N6 可以更轻松地处理来自多个图像传感器的图像，并为系统提供面向未来的保障。

3、2.5D GPU、大量嵌入式 RAM 和 H.264 编码器

此外，STM32N6 还为 GUI 开发人员提供了独特的内存配置。STM32N6的 4.2 MB RAM 可以存储 1280 x 800 显示器的双帧缓冲区。STM32N6 还配备 Octo 和 Hexa SPI 闪存接口，用于获取外部闪存中的资产，并将资产缓存在外部 RAM 中，而不会出现瓶颈风险。

STM32N6 还嵌入了ST的 NeoChrom GPU、H.264 编码器以及 JPEG 编码器和解码器。结合其大容量嵌入式 RAM 和快速闪存接口，这款新旗舰 MCU 可实现新应用，例如具有丰富 UI 的安全面板和来自摄像头传感器的视频流。这也意味着开发人员现在可以设想将神经网络与 GUI 结合运行，而无需使用多个 MCU，因为 NPU、GPU 以及多媒体编码器和解码器可以减轻处理器的负担，从而在单个设备上实现更多功能。

4、全面的工具和合作伙伴生态系统

ST定制了 Neural-ART 加速器，而且其离 STM32N6 的核心如此之近，这意味着 ST 可以提供全面的软件工具生态系统，极大地促进和优化使用 STM32N6 创建新的支持 AI 的应用程序。它从ST Edge AI Suite开始，这是一个免费软件工具、用例和文档库，可帮助开发人员为智能边缘创建 AI，无论他们的经验水平如何。ST Edge AI Suite 还包括 Edge AI 开发者云等工具，它在ST的 STM32 model zoo提供专用神经网络、用于真实世界基准测试的板场等。

ST 的努力确保工程师能够使用现有框架。因此，ST开发了一项核心技术 (ST Edge AI Core)，用于优化和转换来自流行 AI 框架的神经网络，以充分利用 Neural-ART 加速器。

此外，ST的生态系统还旨在加强与众多硬件和软件合作伙伴的合作，并且我们不断致力于融入更广泛的生态系统。例如，开发人员可以将STM32Cube.AI 与 NVIDIA TAO Toolkit 结合使用，将 AWS STM32 ML 用于 Edge Accelerator ，或者在Hugging Face上体验我们的模型动物园，该动物园托管着越来越多的 STM32 AI 内容。

一颗自研的NPU

在ST这款MCU中，自研的NPU无疑是其最大的亮点。

ST也透露，公司的团队自 2016 年以来一直在开发这颗名为ST Neural-ART 的加速器。ST表示，公司在 2019 年发布的 STM32Cube.AI 软件解决方案直接受到当时对 ST Neural-ART 加速器进行的研究和开发的影响。

然后，随着行业采用 STM32Cube.AI，ST看到工程师如何使用其解决方案来创建创新的边缘 AI 产品。于是，公司对 Neural-ART 加速器进行了调整，发布了一些独特的产品。ST认为，没有其他通用 MCU 制造商拥有如此深度定制和优化的边缘 AI 硬件和软件生态系统。

至于为何需要在AI MCU中集成NPU。

按照ST在白皮书中所说，典型的嵌入式处理器核心设计用于使用指令提取 - 解码 - 执行（fetch – decode – execute ）的顺序计算，并非旨在尽可能高效地运行 AI 模型。这是因为神经网络计算拓扑通常涉及大量内存访问以及累积和乘法运算，而这些运算在传统的顺序架构中并未得到优化。需要一种不同的架构，能够在典型的嵌入式功耗和硅片面积限制内执行快速高效的 AI 推理，而神经处理单元 (NPU) 的出现是为了满足这一要求。

如下图所示，将 NPU 与中央处理单元 (CPU) 和图形处理单元 (GPU) 进行比较有助于了解其在 AI 和 ML 应用方面的独特优势。下表重点介绍了主要功能和差异：

ST指出，NPU 效率极高，特别适合能源受限的环境，例如基于微控制器的应用。它们为解决各种边缘 AI 用例提供了最佳解决方案，同时保持低功耗。而在将NPU 与微控制器的集成后，又大大扩展了 MCU 的功能，使其能够处理以前无法处理的更复杂的 AI 任务。

传统上，由于处理能力和能效有限，MCU 仅限于较简单的 AI 应用，例如低分辨率图片分析、时间序列分析或低帧率。然而，随着 NPU 的加入，这些微控制器现在可以执行高级 AI 功能，例如语音识别、对象分类、姿势估计和对移动速度更快、体积更小的物体进行对象分割定位。通过将 AI 推理任务卸载到 NPU，MCU 可以专注于其他关键功能，确保高效和实时处理。

具体到 STM32N6 中的 Neural-ART 加速器。据ST介绍，该NPU拥有近 300 个可配置乘法累加单元和两个 64 位 AXI 内存总线，吞吐量为 600 GOPS。这比该公司最快的 STM32H7（不具备 NPU）高出 600 倍。这种突破性的架构不仅允许每个时钟周期进行更多操作并优化数据流以防止出现瓶颈，而且还针对功耗进行了优化，实现了令人印象深刻的 3 TOPS/W。

NEURAL-ART 加速器架构概述

从架构上看，ST的Neural-ART 加速器集成了多个专用硬件加速器，能够支持各种推理内核。这些加速器通过可重构数据流处理引擎动态连接，确保灵活高效的处理。该架构包括可配置数量的卷积加速器，定点 MAC 可配置为 16 位或 8 位精度。

1、用于三相逆变器和全桥转换器驱动器的高级计时器

2、可通过计时器事件触发快速精确的 ADC

3、5 V 电源

4、通用计时器上的输入捕获，可更轻松地处理速度反馈

5、仅适用于直流电机的编码器操作模式

ST 还确保其 Neural-ART 加速器在发布时支持的 AI 运算符比业内普遍支持的运算符要多。新款 STM32N6 已经兼容来自 TensorFlow Lite、Keras 和 ONNX 的最多数量的 AI 运算符，ST致力于在未来不断增加支持的运算符数量。此外，使用 ONNX 格式的能力意味着数据科学家可以将 STM32N6 用于最广泛的 AI 应用。

在具体测试中，如下图所示，这个NPU性能表现也惊人。

ST强调，突破性的 Neural-ART Accelerator 集成到 STM32 微控制器中，使它们能够高效地处理边缘设备上的 AI 推理任务。这种集成代表了使边缘 AI 既实用又普及的重大进步，符合 ST 提供更智能、更节能的解决方案的使命。新一代 NPU 也充分利用了 ST 在微控制器技术和 AI 方面的丰富专业知识，为各种应用提供了强大、高效且可扩展的解决方案。

简而言之，ST不仅希望推出比竞争解决方案更优化的硬件，而且还希望推出一个更易于访问的平台，让开发人员能够使用他们当前的工作流程并缩短产品上市时间。

瞄准三种应用场景

El-Ouazzane 表示，STM32N6 已在全球 ST 客户中获得了巨大关注。他指出：“我们看到的势头让我们相信 STM32N6 很可能成为 STM32 历史上收入最快达到 1 亿美元的产品之一。”该设备能够将硬件加速与内存优化相结合，使其成为竞争激烈的 MCU 市场中的重要产品。

ST也强调，STM32N6 已经在智能家居、工业自动化等各个行业掀起了波澜。总体而言，ST 发现了这颗MCU非常适用的三种主要应用场景：

1. 改善当前用途：无需额外硬件，STM32N6 即可提高当前解决方案的效率。El-Ouazzane 展示了其软件解决方案如何让 MCU 管理预测性维护和异常检测。他指出，该用例在没有任何 AI 硬件加速的情况下运行标量资源，由软件支持。对于希望将机器学习纳入其现有产品的开发人员来说，此功能提供了一个价格合理的解决方案。

2. 将应用程序迁移到 MCU：另一个重要用途是将任务从耗电的微处理器转移到更节能的 STM32N6 MCU。El-Ouazzane 表示，“我们将要发布的 STM32N6 产生了一个重要的转折点，降低了功耗和物料清单。”在保持成本和能效的同时，该用例允许更广泛的应用程序从人工智能中获益。

3. 开启新开发：开发全新的应用程序可能是最有趣的用例。El-Ouazzane 表示：“将大量 TOPS [每秒万亿次操作] 打包到 MCU 中，可以实现以前无法想象的边缘工作负载。”这些设备包括小型低功耗设备中的实时分析和自主决策等功能，即使现在还处于早期开发阶段，也有可能改变各个行业。

在ST看来，STM32N6 是一个新的里程碑，因为正如 NPU、GPU、嵌入式 RAM、Cortex-M55、外设和其他规格所示，它通过启用计算机视觉、音频处理等新用例，改变了 MCU 上的高性能边缘 AI 应用程序。即使没有 NPU，STM32N6 仍然通过提升高级视频和多媒体应用程序赢得了旗舰 STM32 的桂冠，允许增强的 UX 和复杂的 UI，而这些以前需要专用且更昂贵的 MCU。

简而言之，STM32N6 通过使高端和边缘 AI 应用程序更易于访问和使用，开创了计算的新时代。

作为一款被寄予厚望的产品，STMicro 已确认将在发布时提供两个 STM32N6 系列：STM32N6x7 系列包括 Neural-ART 协处理器，而 STM32N6x5 系列则将其取消，用作通用高性能微控制器；这两个系列也将提供带或不带硬件加密加速块的版本。所有型号都包括 Arm 的 Helium 矢量扩展，可在微控制器内核上运行时增强机器学习工作负载。这两条产品线共同带来了新一代的效率和智能。

ST表示，参与这场革命的最佳方式是购买现有的 STM32N6 开发板，公司目前也提供 Nucleo 开发板和 Discovery Kit，并刚刚发布了 STM32CubeN6，这是一款带有中间件和示例代码的专用软件包。我们还更新了 ST Edge AI Suite 以支持新设备，TouchGFX Designer 附带该套件的板级支持包，以确保开发人员能够快速使用新设备并创建令人印象深刻的 UI。我们还很高兴地宣布，采用 STM32N6 的第三方开发板将在稍后推出。

值得一提的是，按照ST所说，基于 STM32N6 构建的开发套件已宣布售价为 185 美元，而NUCLEO 开发板售价为 56.25 美元。在 10 月份向部分客户提供样品后，这些新部件现已大量供应。

芯视点

讲芯片的故事，我们是认真的！