传说中的STM32N6终于要来了?盘点近期AI MCU/MPU大事记

文摘   2024-11-29 11:45   四川  

关注+星标公众,不错过精彩内容

作者 | 付斌

来源 | 电子工程世界


把NPU放进MCU,已经不是什么新鲜事,但STM32好像来得一直有点慢。早在2022年,ST就曾宣布,STM32N6将成为ST首个加入NPU的产品。而后,在Embedded World 2023 上,ST又展示了这款产品。对工程师来说,这款产品一直非常神秘,又非常诱人,毕竟能跑AI的STM32谁不想试一试。

最近,关于STM32N6有了确切的消息,今年年底或亮相STM32峰会(报名链接:https://bbs.eeworld.com.cn/thread-1299660-1-1.html),同时在近期放出了更多细节。

意法半导体微控制器、数字和射频产品部总裁Remi El-Ouazzane更是霸气地说道:“意法半导体是‘微型边缘人工智能之王’。”


STM32N6有什么细节值得关注



首先,ST对于STM32N6这一产品披露了更多细节。

El-Ouazzane表示ST在大约30个月前宣布了STM32N6,它已经在开发中,并被全球50多家客户采用,反馈非常好。他更是立下了豪情壮志,预计STM32N6将成为ST收入最快达到1亿美元的产品之一。

“STM32N6的推出可能是AI出现后第三次推出开创性的产品。前两个是2016年推出的 Nvidia的Pascal,表明GPU可用于AI,以及Apple于2017年推出的A11仿生芯片,这是第一个为AI提供硬件支持的应用处理器。”

如此自信并非没有原因,根据El-Ouazzane介绍,ST的微控制器客户群中AI MCU应用强劲增长,2024年前9个月通过公司的边缘AI开发工具启动了超过51000个活跃项目,是上一年的三倍。

虽然ST没有说明推出这些内核的时间表或可能采用的制造工艺技术,但EEWorld在ST的官方页面中找到了其中一些细节:

STM32N6是ST首款集成自研硬件NPU神经网络硬件处理单元的通用微控制器,其算力可达0.6TOPS(每秒0.6万亿次运算)。STM32N6还集成了新IP和视频外设,如MIPI CSI摄像机、机器视觉图像信号处理器(ISP)、H.264视频编码器和支持时间敏感网络(TSN)端点的千兆以太网控制器。此外,STM32N6是一款通用STM32产品,符合工业客户的所有要求,包括在高温环境中工作。

其次在NPU方面,ST也公布了自己的路线图。

ST在自研NPU已经不是什么秘密。El-Ouazzane表示:“ST在微控制器中的通用处理内核方面与Arm紧密合作,但与一些较小的微控制器供应商不同,ST选择不使用Arm提供的AI硬件内核。”EEWorld认为,很多有实力的厂商都选择了自研NPU,比如NXP就从Arm Ethos转到自研,毕竟NPU属于AI MCU的核心科技,自己做可以更贴合自己的产品线,也能打造更好的生态。而且不光MCU要用NPU,MPU、跨界MCU之类的产品也要用NPU。

三年前,意法半导体开发了第一款神经网络加速器Neural-ART 1,作为STM32N6微控制器的内核。其最大性能为4.6 TOPS,能效为1~5TOPS/W,具体取决于应用。这是基于使用INT8数据类型。

El-Ouazzane说:“我们的路线图是进一步发展第二代数字内存计算D-IMC,这将带来比第一代 4 倍的性能提升,我们预计第三代的性能将比第二代再提升10倍。“带有D-IMC的Neural-ART 2将能够达到18TOPS和20~40TOPS/W的幻灯片,Neural-ART 3被描述为具有混合架构和50+ TOPS/W的性能。同样,据说性能是针对 INT8 数据类型的。

最后再来复盘一下STM32的Portfolio,其中包括价格和8位MCU媲美的STM32C0系列,STMU0、U5这样的低功耗MCU,STM32WBA这样的专注无线的MCU,高性能的STM32H7以及更高性能的STM32MP2 MPU,STM32N6则定位高性能MCU。

目前,ST已经建立了传感、音频、诗句NANOEDGE AI STUDIO、STM32 Cube.AI以及硬件的完整生态,保证开发者能够在MCU和MPU上优化和运行AI模型,帮助工业用户快速落地。


NXP的RT700和i.MX 94相继登场



恩智浦10月推出了拥有NPU的跨界MCU i.MX RT700,至此,恩智浦MCU、跨界MCU、应用处理器三大系列均拥有了NPU。也就是说,恩智浦整个产品线都内置了AI/ML加速器功能,算力覆盖从10G到几T TOPS。

R700相比于前代产品,提升幅度非常之大,可以说是“降维打击”,早在发布之前就引发了工程师群体的讨论。相比上一代产品,其在边缘提供高达172倍的速度提升和119倍的节能,同时功耗比上一代产品降低了30~70%。

通过与前代对比,不难发现RT700整体设计更倾向于把特定工作分流于其他子系统,从而获得更好的功耗和效率。RT700主要包括三个子系统,包括额外的一个M33+DSP的“传感计算子系统“,一个eIQ Neutron NPU的AI子系统,一个基于RISC-V的2.5D GPU的图像子系统(可通过LCD或MIPI提供720p@60Hz)。

不止如此,RT700还将主CPU的 M33内核频率提升到325 MHz (RT500为200 MHz, RT600为300 MHz);将片上SRAM最高增加到7.5 MB (RT500最高5 MB, RT600为4.5 MB),减少对于外部存储的访问,以防止耗电;针对可穿戴设备应用,首次支持eUSB(嵌入式USB),提供比原来USB更好的安全和加密性能。

紧接着在11月20日,NXP发布i.MX 94系列应用处理器,成为首个集成以太网时间敏感网络(TSN)交换机的i.MX应用处理器系列,结合实时处理与工业网络协议支持,实现工业控制。

i.MX 94系列64位应用处理器采用多核设计,最多配备四个Cortex-A55内核,两个Cortex-M33内核和两个Cortex-M7内核,用于增强实时处理能力。NPU方面,恩智浦的eIQ Neutron NPU具备0.5 TOPS的机器学习性能,可提供实时预测性维护和操作指导以及缺陷扫描和机器诊断。

值得关注的是,i.MX 94系列率先集成2.5 Gbps以太网TSN交换机,兼备快速初始化和低功耗模式支持。支持等多种工业协议,涵盖传统实现及新开发协议,如OPC-UA FX和OPC-UA PubSub等。支持传统的串行现场总线协议,如Profibus、Modbus、CANopen和IO-Link,以及基于以太网的实时网络协议,如Profinet、EtherCAT、Ethernet/IP和CC-Link等。此外,还支持这些协议的TSN实现,包括AVB/TSN、以太网OPC-UA和Profinet Over TSN等。


TI给C2000塞了个NPU



TI在最近也推出了搭载NPU的C2000产品TMS320F28P55x系列(简称F28P55x系列),并号称是业界首款具有集成神经处理单元(NPU)的实时微控制器产品。

F28P55x的NPU具有600~1200MOPS(每秒百万操作)的能力(600MOPS at 75MHz on 8bWx8bD,1200MOPS at 75MHz on 4bWx8bD),与仅基于软件的实现相比,最多可提供10倍的NN推理周期改进。这个算力看似很低,但要知道,C2000本身是比较专的MCU,所以不是追求多少TOPS的产品,其在频率上的表现非常亮眼,达到了75MHz。

实时内核则采用C28x系列的32位150MHz DSP MCU,通过浮点单元(FPU)、三角函数数学单元(TMU)和VCRC(循环冗余检查)扩展指令集得到进一步增强,加快了实时控制系统中关键的通用算法的速度;拥有独立的32位浮点加速器150MHZ CLA,其拥有专用内存资源,可以直接访问典型控制系统中所需的键外围设备。

带NPU怎么用?根据TI的说法,过去在电弧检测和预测性维护上面,都是用软件做,同时还要专门的MCU。而现在,C2000上配备一个NPU,在单芯片上就能做一些专用的AI算法,可以帮助系统实现超过99%的故障检测准确率。比双芯片解决方案更简洁,准确率更高。


英飞凌有自研也有Arm Ethos



今年4月,英飞凌发布新一代PSOC Edge产品组合。从具体产品来看,有用Arm NPU的,也有自家神经网络加速器:PSOC Edge E83和E84内置Arm Ethos -U55 NPU处理器,

E81采用Arm Helium DSP技术和英飞凌NNLite神经网络(NN)加速器(一种用于加速神经网络的专有硬件加速器)。

PSoC Edge器件搭载高性能Arm Cortex-M55 ,包括与Arm Ethos-U55 和 Cortex-M33配对的Helium DSP支持,以及英飞凌的超低网络神经网络加速器。引线器件采用超低功耗22nm嵌入式RRAM 技术。

PSoC Edge E83和E84内置Arm Ethos-U55微型NPU处理器,与现有的Cortex-M系统相比,其机器学习性能提升了480倍,并且它们支持英飞凌NNlite神经网络加速器,适用于低功耗计算领域的机器学习应用。

从应用角度来看,使用E81 MCU可以实现基本功能,如LCD显示和基于云的语音识别。而对于更高级的恒温器,设计人员可以选择E83 MCU,实现本地语音识别和更多的智能功能。最高端的设备则可以选择E84 MCU,实现更复杂的功能,如手势和运动控制、图形用户界面等。

Alif:NPU、Matter、BLE 5.3全都要



今年4月,Alif也更新了一款非常强大的MCU,Ballett系列,据称这是第一个包含蓝牙低功耗 (BLE) 、Matter 以及神经处理单元 (NPU) 加速器的微控制器,用于机器学习和人工智能(ML 和 AI)工作负载。

Alif总裁兼联合创始人Reza Kazerounian在谈到该产品时表示:“Alif Semiconductor 的 Balletto 系列产品旨在通过适应高比特率音频和 Matter 生态系统的平台,应对当今无线音频和智能家居行业面临的BLE挑战。随着多协议支持的推出,再加上我们行业领先的AI/ML 支持的MCU,构建电池寿命友好的互联智能边缘设备变得更为简单。”

Balletto芯片围绕Arm Cortex-M55内核构建,具有Helium矢量处理扩展(运行频率高达 160MHz)和 Ethos-U55 神经处理单元 (NPU) 协处理器,Alif 表示,每个芯片可提供高达 46GOPS算力。这些部件还包括用于安全任务的专用Arm Cortex-M0+芯片,以及处理网络堆栈的RISC-V内核。

该网络堆栈连接到蓝牙5.3低功耗 (BLE) 和IEEE 802.15.4.2011射频,后者支持Matter 智能家居标准,前者包括BLE音频和Auracast 功能——在该公司提出的一个用例中得到了充分证明,可应用于真无线立体声 (TWS) 耳机和助听器中。Alif 还表示,Balletto部件可能是可穿戴设备的理想选择。

该芯片的其他功能包括高达2MB的零等待状SRAM和2MB MRAM、SPI接口、I3C、USB 高速、两个CAN FD通道、DAC和24位 Σ-Δ 模数转换器 (ADC) 的模拟前端、具有 2D 图形处理器的摄像头和显示接口,以及多达77个GPIO引脚。

从官网上,我们还看到,Alif已经在设计采用Ethos-U85的下一代产品。根据Alif的说法,由于认识到Ethos-U85的潜力,Alif成为首批在Arm发布该技术时获得许可的合作伙伴之一。

据了解,与上一代产品相比,Ethos-U85性能提升四倍,能效提高20%,同时,其MAC单元可从128个扩展到2048个(在1GHz 时,算力实现4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。


参考文献

[1]ST:https://www.stmcu.com.cn/mkt_info/3012

[2]EEnews:https://www.eenewseurope.com/en/st-adds-to-roadmap-for-ai-capable-microcontrollers/

------------ END ------------



●专栏《嵌入式工具

●专栏《嵌入式开发》

●专栏《Keil教程》

●嵌入式专栏精选教程


关注公众号回复“加群”按规则加入技术交流群,回复“1024”查看更多内容。


点击“阅读原文”查看更多分享。

嵌入式专栏
作者黄工【strongerHuang】,专注分享嵌入式软件、硬件、工具等相关内容,通过专栏形式精选并整理更多嵌入式相关教程。关注并回复“1024”查看更多教程。
 最新文章