基于RPP架构设计的GPU芯片AE7100
产品描述
芯动力科技自主研发的RPP架构,作为全球首款专为并行计算设计的芯片架构,实现了低成本、低功耗、低延时、高性能、快速部署和广泛应用的全方位平衡,为AI计算领域带来了颠覆性的创新解决方案。该架构深度融合了CGRA与CUDA语言,成功攻克了可重构阵列编程的难题,显著提升了并行计算效率。其独特的存算一体化技术创新,不仅优化了内存访问,降低了功耗,还大幅提升了边缘AI芯片的运算效率。
基于RPP架构设计的AE7100芯片在同等算力下,其总面积仅为英伟达AGX芯片的1/3,却集成了高达1024个计算核,尺寸小巧,仅为17mmX17mm,非常适合嵌入式和边缘计算应用。AE7100芯片不仅支持多种编程语言,简化了应用开发流程,而且其能效比高达Nvidia Jetson Xavier的5倍。此外,该芯片还具备强大的编程灵活性,支持RPP汇编及CUDA C/C++,进一步降低了开发门槛。
AE7100芯片已成功适配Llama3-8B、Stable Diffusion、通义千问等先进模型,其应用领域已广泛覆盖边缘大模型、工业自动化、安全监控、内容过滤、医疗影像及信号处理等多个领域,展现出了强大的市场潜力和应用价值。
RPP目前已量产,且销售额已突破千万,并预计未来几年将持续保持高速增长。
技术指标:
核心架构:可重构并行处理器架构(RPP)
计算单元:单核RPPCore,1024算术处理单元(ALU),8092矩阵处理单元(MAC16)
计算性能:INT8 32TOPS/BF16 16TFLOPS/FP32 1TFLOPS
存储单元:LPDDR4 128bit,最大支持16GB,吞吐率59.7GB/s
视频解码:支持H.265/HEVC Main/Main10 Profile QL5.1 High-tier;H.264/AvC Main/High/High 10 Profile QL5.2
图像处理:支持JPEG Encoder/Decoder,分辨率高达32768x32768
外部接口:PCIe express 3.0x4
电源接口:0.8V/18V/3.3V
工艺节点:14nm
典型功耗:<8W
封装形式:FanOut FCCSP 17mmx17mm
应用情况
芯动力的商用落地进展显著,其产品核心竞争力突出,凭借独特的RPP架构和高效能、低功耗的特性,在市场上脱颖而出。在销量和营收方面,芯动力已经取得了可喜的成绩,RPP产品的销售额已突破千万,并且预计未来几年将持续保持高速增长。随着市场推广的深入,芯动力有望进一步提升市占率,并在全球边缘服务器、AI芯片及智能加速卡市场中占据领先地位。
芯动力的产品具备规模化复制性,能够满足不同应用场景的需求。在主要应用领域,如边缘大模型、泛安防、工业自动化、医疗影像、信号处理等,芯动力的产品已经展现出领先性和有效性,为客户提供了高效稳定的解决方案。这些应用领域的拓展不仅提升了芯动力的业务价值,也进一步增强了其进口替代能力,有望推动国产品牌在全球市场的崛起。
一、泛安防市场
主要客户:
以浪潮为代表的硬件集成商,其目标客户为安防领域的央企类客户,如金融行业中的银行,以及能源、电力、化工等对安全性要求较高的行业客户。
应用案例:
RPP芯片已成功应用于中国银行的多个分行,作为其安防系统的核心组件,提供了高效、安全的智能化处理能力。
与某知名硬件集成商合作,RPP芯片被集成到其安防解决方案中,为多个高端商业楼宇提供智能化的安防监控和管理。
二、信号处理(FFT计算)市场
主要客户:
院所及高端DSP需求客户,他们对算力、功耗和安全性有极高要求,且软件层算法层保密需求高。
应用案例:
RPP芯片已成功替代某院所原有的高端DSP芯片,应用于雷达信号处理系统,实现了FFT变换、滤波和信号检测的显著性能提升,同时降低了功耗和成本。
与多家公司合作,RPP芯片作为其信创方向产品的核心组件,为卫星信号和毫米波雷达等应用场景提供了高效、可靠的信号处理解决方案。
三、工业摄像机市场
主要客户:
工业摄像头制造商,特别是那些专注于高端、高精度机器视觉应用的厂商。
应用案例:
与美国独角兽企业Element Bioscience合作,RPP芯片被集成到其工业摄像头中,为生物科学领域的研究提供了高精度的图像分析和处理能力。
与某国内知名工业视觉领域厂商合作,开发了新一代智能工业摄像头,该摄像头在质量检测、测量、运动规划和3D成像等方面表现出色,且功耗和成本显著降低。
四、AI PC市场
主要客户:
全球市场排名首位的PC厂商,以及其他寻求在AIPC赛道上形成差异化竞争的终端厂商。
应用案例:
-已通过全球市场排名首位终端厂商全球筛选并获得各项指标首位
已通过全球市场排名首位终端厂商全球筛选并获得各项指标首位,即将与该PC厂商合作,RPP芯片被成功集成到其最新的AIPC产品中,相比传统的嵌入式解决方案,该产品在功耗、成本和性能上均表现出显著优势,为用户提供了更加智能、高效的个人电脑体验。
预计2025年获得几十万颗级别订单,到2027年在PC端实现30亿元人民币的收入。
综上所述,RPP芯片在泛安防、信号处理、工业摄像机以及AI PC等多个市场均展现出了强大的竞争力和广泛的应用前景。通过与主要客户的紧密合作和不断创新,RPP芯片有望在未来实现更广泛的市场应用和更高的收入增长。
产品对标
RPP芯片技术,以其独特的并列处理器架构和存算一体化技术,展现出了显著的性能优势,尤其在对比国外相关芯片产品时更为突出。
与英伟达的AGX Xavier芯片相比,RPP-R8芯片在计算能力上具备更高的潜力,拥有1024个ALU(算术逻辑单元),远超Xavier的512个CUDA cores。同时,RPP-R8芯片的总面积仅为110mm2,较Xavier的360mm2有了大幅缩减,这意味着RPP-R8在较小的尺寸下实现了更高的计算能力。在深度学习网络resnet-50的测试下,RPP-R8每秒可以处理1500张图像,功耗却低于15W,其性能远超Xavier每秒处理500张图像的表现。
与英伟达的主流GP-GPU相比,RPP芯片在计算密度上具有显著优势。在相同的芯片面积和功耗下,RPP能够输出更多的计算能力,从而降低了服务器的成本并实现了更低的功耗。具体来说,使用14nm工艺的RPP可以每秒处理1700张图片,而英伟达的Jetson Xavier仅能处理不到500张。在功耗效率方面,RPP-R8每秒每瓦的处理能力是能耗表现最好的Xavier芯片的5倍。
进一步与英伟达的Pascal系列GP100芯片相比,RPP在芯片尺寸、功耗以及成本方面均展现出明显优势。GP100作为世界上最大、功耗最高、计算能力最强的芯片之一,其功耗高达300W。然而,RPP在相同的芯片尺寸和工艺制程下,有望形成压倒性的竞争优势,其功耗仅为GP100的十分之一到四分之一左右。
此外,与英伟达的Pascal系列GP100等通用图像处理器相比,RPP在芯片尺寸和功耗方面也具有明显优势。GP100作为世界上最大、功耗最高、计算能力最强的芯片之一,采用了16纳米工艺,集成了153亿晶体管,功耗高达300W。然而,RPP在芯片尺寸和功耗方面仍有很大的改进空间,在相同的芯片尺寸和工艺制程下,RPP有望形成压倒性的竞争优势。同时我们也降低了对流片资金的需求,同时采用3D堆叠的SRAM封装技术替代昂贵的HBM2,进一步降低了成本和工艺难度。在性能指标上,我们的RPP-R8芯片在14nm工艺下支持32路摄像头输入,功耗仅为15W,芯片尺寸仅为110平方毫米。而我们正在研发的下一代芯片RPP-R36计划通过芯粒技术实现两个维度的扩展:一是算力的提升;二是边缘应用场景I/O Die接口的扩展。这些性能指标均领先于国内外同类技术。与国内外同类技术相比,如英伟达的A100 GPU,RPP架构展现出以下显著优势:更高的计算单元密度(提高了约10倍)、更低的功耗(约为GPU的十分之一到四分之一)、更强的算力和边缘应用I/O扩展能力,以及较低的生产和研发成本。
与国内外同类技术相比,RPP架构展现出更高的计算单元密度、更低的功耗、更强的算力和边缘应用I/O扩展能力,以及较低的生产和研发成本等显著优势。这些优势使得RPP芯片技术在全球范围内具有强大的竞争力。