每日一芯|芯动力科技GPU芯片

文摘   2024-09-30 11:26   上海  

基于RPP架构设计的GPU芯片AE7100


产品描述


芯动力科技自主研发的RPP架构,作为全球首款专为并行计算设计的芯片架构,实现了低成本、低功耗、低延时、高性能、快速部署和广泛应用的全方位平衡,为AI计算领域带来了颠覆性的创新解决方案。该架构深度融合了CGRA与CUDA语言,成功攻克了可重构阵列编程的难题,显著提升了并行计算效率。其独特的存算一体化技术创新,不仅优化了内存访问,降低了功耗,还大幅提升了边缘AI芯片的运算效率。


基于RPP架构设计的AE7100芯片在同等算力下,其总面积仅为英伟达AGX芯片的1/3,却集成了高达1024个计算核,尺寸小巧,仅为17mmX17mm,非常适合嵌入式和边缘计算应用。AE7100芯片不仅支持多种编程语言,简化了应用开发流程,而且其能效比高达Nvidia Jetson Xavier的5倍。此外,该芯片还具备强大的编程灵活性,支持RPP汇编及CUDA C/C++,进一步降低了开发门槛。


AE7100芯片已成功适配Llama3-8B、Stable Diffusion、通义千问等先进模型,其应用领域已广泛覆盖边缘大模型、工业自动化、安全监控、内容过滤、医疗影像及信号处理等多个领域,展现出了强大的市场潜力和应用价值。


RPP目前已量产,且销售额已突破千万,并预计未来几年将持续保持高速增长。


技术指标:

核心架构:可重构并行处理器架构(RPP)

计算单元:单核RPPCore,1024算术处理单元(ALU),8092矩阵处理单元(MAC16)

计算性能:INT8 32TOPS/BF16 16TFLOPS/FP32 1TFLOPS

存储单元:LPDDR4 128bit,最大支持16GB,吞吐率59.7GB/s

视频解码:支持H.265/HEVC Main/Main10 Profile QL5.1 High-tier;H.264/AvC Main/High/High 10 Profile QL5.2

图像处理:支持JPEG Encoder/Decoder,分辨率高达32768x32768

外部接口:PCIe express 3.0x4

电源接口:0.8V/18V/3.3V

工艺节点:14nm

典型功耗:<8W

封装形式:FanOut FCCSP 17mmx17mm


应用情况


芯动力的商用落地进展显著,其产品核心竞争力突出,凭借独特的RPP架构和高效能、低功耗的特性,在市场上脱颖而出。在销量和营收方面,芯动力已经取得了可喜的成绩,RPP产品的销售额已突破千万,并且预计未来几年将持续保持高速增长。随着市场推广的深入,芯动力有望进一步提升市占率,并在全球边缘服务器、AI芯片及智能加速卡市场中占据领先地位。


芯动力的产品具备规模化复制性,能够满足不同应用场景的需求。在主要应用领域,如边缘大模型、泛安防、工业自动化、医疗影像、信号处理等,芯动力的产品已经展现出领先性和有效性,为客户提供了高效稳定的解决方案。这些应用领域的拓展不仅提升了芯动力的业务价值,也进一步增强了其进口替代能力,有望推动国产品牌在全球市场的崛起。


一、泛安防市场


主要客户:

以浪潮为代表的硬件集成商,其目标客户为安防领域的央企类客户,如金融行业中的银行,以及能源、电力、化工等对安全性要求较高的行业客户。


应用案例:

RPP芯片已成功应用于中国银行的多个分行,作为其安防系统的核心组件,提供了高效、安全的智能化处理能力。


与某知名硬件集成商合作,RPP芯片被集成到其安防解决方案中,为多个高端商业楼宇提供智能化的安防监控和管理。


二、信号处理(FFT计算)市场


主要客户:

院所及高端DSP需求客户,他们对算力、功耗和安全性有极高要求,且软件层算法层保密需求高。


应用案例:

RPP芯片已成功替代某院所原有的高端DSP芯片,应用于雷达信号处理系统,实现了FFT变换、滤波和信号检测的显著性能提升,同时降低了功耗和成本。


与多家公司合作,RPP芯片作为其信创方向产品的核心组件,为卫星信号和毫米波雷达等应用场景提供了高效、可靠的信号处理解决方案。


三、工业摄像机市场


主要客户:

工业摄像头制造商,特别是那些专注于高端、高精度机器视觉应用的厂商。


应用案例:

与美国独角兽企业Element Bioscience合作,RPP芯片被集成到其工业摄像头中,为生物科学领域的研究提供了高精度的图像分析和处理能力。


与某国内知名工业视觉领域厂商合作,开发了新一代智能工业摄像头,该摄像头在质量检测、测量、运动规划和3D成像等方面表现出色,且功耗和成本显著降低。


四、AI PC市场


主要客户:

全球市场排名首位的PC厂商,以及其他寻求在AIPC赛道上形成差异化竞争的终端厂商。


应用案例:

-已通过全球市场排名首位终端厂商全球筛选并获得各项指标首位


已通过全球市场排名首位终端厂商全球筛选并获得各项指标首位,即将与该PC厂商合作,RPP芯片被成功集成到其最新的AIPC产品中,相比传统的嵌入式解决方案,该产品在功耗、成本和性能上均表现出显著优势,为用户提供了更加智能、高效的个人电脑体验。


预计2025年获得几十万颗级别订单,到2027年在PC端实现30亿元人民币的收入。

综上所述,RPP芯片在泛安防、信号处理、工业摄像机以及AI PC等多个市场均展现出了强大的竞争力和广泛的应用前景。通过与主要客户的紧密合作和不断创新,RPP芯片有望在未来实现更广泛的市场应用和更高的收入增长。


产品对标


RPP芯片技术,以其独特的并列处理器架构和存算一体化技术,展现出了显著的性能优势,尤其在对比国外相关芯片产品时更为突出。


与英伟达的AGX Xavier芯片相比,RPP-R8芯片在计算能力上具备更高的潜力,拥有1024个ALU(算术逻辑单元),远超Xavier的512个CUDA cores。同时,RPP-R8芯片的总面积仅为110mm2,较Xavier的360mm2有了大幅缩减,这意味着RPP-R8在较小的尺寸下实现了更高的计算能力。在深度学习网络resnet-50的测试下,RPP-R8每秒可以处理1500张图像,功耗却低于15W,其性能远超Xavier每秒处理500张图像的表现。


与英伟达的主流GP-GPU相比,RPP芯片在计算密度上具有显著优势。在相同的芯片面积和功耗下,RPP能够输出更多的计算能力,从而降低了服务器的成本并实现了更低的功耗。具体来说,使用14nm工艺的RPP可以每秒处理1700张图片,而英伟达的Jetson Xavier仅能处理不到500张。在功耗效率方面,RPP-R8每秒每瓦的处理能力是能耗表现最好的Xavier芯片的5倍。


进一步与英伟达的Pascal系列GP100芯片相比,RPP在芯片尺寸、功耗以及成本方面均展现出明显优势。GP100作为世界上最大、功耗最高、计算能力最强的芯片之一,其功耗高达300W。然而,RPP在相同的芯片尺寸和工艺制程下,有望形成压倒性的竞争优势,其功耗仅为GP100的十分之一到四分之一左右。


此外,与英伟达的Pascal系列GP100等通用图像处理器相比,RPP在芯片尺寸和功耗方面也具有明显优势。GP100作为世界上最大、功耗最高、计算能力最强的芯片之一,采用了16纳米工艺,集成了153亿晶体管,功耗高达300W。然而,RPP在芯片尺寸和功耗方面仍有很大的改进空间,在相同的芯片尺寸和工艺制程下,RPP有望形成压倒性的竞争优势。同时我们也降低了对流片资金的需求,同时采用3D堆叠的SRAM封装技术替代昂贵的HBM2,进一步降低了成本和工艺难度。在性能指标上,我们的RPP-R8芯片在14nm工艺下支持32路摄像头输入,功耗仅为15W,芯片尺寸仅为110平方毫米。而我们正在研发的下一代芯片RPP-R36计划通过芯粒技术实现两个维度的扩展:一是算力的提升;二是边缘应用场景I/O Die接口的扩展。这些性能指标均领先于国内外同类技术。与国内外同类技术相比,如英伟达的A100 GPU,RPP架构展现出以下显著优势:更高的计算单元密度(提高了约10倍)、更低的功耗(约为GPU的十分之一到四分之一)、更强的算力和边缘应用I/O扩展能力,以及较低的生产和研发成本。


与国内外同类技术相比,RPP架构展现出更高的计算单元密度、更低的功耗、更强的算力和边缘应用I/O扩展能力,以及较低的生产和研发成本等显著优势。这些优势使得RPP芯片技术在全球范围内具有强大的竞争力。

 


未经授权,不得转载

ICDIA(IC Show)2024中国集成电路设计创新大会9月全新启航!

2024金芯奖 · 汽车电子创新评选火热开启!申报通道正式开放

第二十一届中国通信集成电路技术及应用大会暨上合新区集成电路产业创新发展大会在青岛胶州成功召开

我国集成电路产业发展中的“内卷化”研究与应对建议

《中国集成电路》严正声明

我国三代半进入高速增长阶段

中国半导体行业协会召开第八届理事会专家委员会成立大会暨第一次工作会

这场办了30个年头的IC设计业盛会,缺你不可


CIC集成电路
·把握信息时代芯脉搏·掌舵变局当下核动力· 中国半导体行业协会(CSIA)会刊《中国集成电路》(CIC)杂志唯一官方认证账号。 引领发展,推动创新,推广应用,CIC创刊28载,始终潜心凝聚集成电路中国力量。
 最新文章