【寒武纪:飞桨框架&PaddleX重磅发布】天风计算机缪欣君团队

文摘 2024-09-13 07:00 上海

天风计算机团队

作者 | 缪欣君详细信息请联系 | 刘鉴李航

摘要

来源: 飞桨PaddlePaddle视频号专题直播课

1、思元370系列芯片和加速卡：

寒武纪推出的AI芯片，采用台积电7纳米工艺，最高int8算力达256TOPS，支持芯片间高速互联技术，加速训练。

、MLU370推理和训练产品：

MLU370 S4是半高半长产品，性能是同密度GPU的两倍；MLU370 X4面向训练，支持MLU-Link芯片间高速互联，具备高内存带宽。

3、寒武纪

基础软件平台：

提供通用平台，包括BANG异构计算平台、编译和运行工具、加速库（CNNL、CNNL-Extra）、通信库（CNCL）、云端辅助工具（DCMM、CNTOPO）、流处理工具（CNStream），以及AI框架和推理引擎（MagicMind）。

4、PaddleX框架和模型产线：

支持云端和多硬件本地端运行，提供丰富的模型库和场景，支持低代码开发和模型产线设计，高效支持寒武纪370系列。

5、实战案例:

手写汉字识别和行人跌倒检测两个案例，展示了从模型选型、数据校验、模型微调到模型测试的完整流程，并提供了将训练好的模型集成到项目中的方法。

建议关注：

自主AI算力的国内企业：寒武纪

风险提示：AI算力景气度下降的风险、公司产品供应端的风险、AI芯片竞争加剧的风险、客户集中度较高的风险

思元370系列芯片和加速卡

思元370系列芯片和加速卡是寒武纪首颗采用Chiplet芯粒技术的AI芯片，公司使用了台积电的7纳米的工艺，最高的int8最高算力达到了256TOPS, 同时公司也使用了另一个芯片间互联的技术来加速训练。

MLU370推理和训练产品

MLU370 S4和X4这两款推理产品左边是公司的MLU 370 S4，它是一个半高半长的一个尖端的产品，在相同的一个密度下这样的性能会达到两倍的 GPU的能力，在2U的空间中，可以部署到最高8卡的一套解决方案。右边的产品是MLU370 X4，它是面向训练的专门面向训练的的芯片。

MLU 370X8具备两倍370X4的内存带宽，并且支持了MLU-Link芯片间高速互联, 能够在模型训练中取得很好的性能。

MLU370X8的最大功耗是250瓦，它的产品形态是全高全长双槽类的形态，最高支持PCIe 4的一个协议。

寒武纪基础软件平台

寒武纪的基础软件平台，整体软件平台是各个产品线通用的一套平台，硬件上一层有自己的BANG异构计算平台，提供了编译工具、运行工具以及调试工具。在上一层的话也提供了加速库，其中包括 CNNL、CNNL-Extra等高性能计算库。通信口叫做CNCL提供了结合通信的能力。云端的辅工具，包括DCMM、CNTOPO这样一套工具。同时也具有CNStream的一套流处理的工具。再上一层是AI框架，框架层具有Inference Engine、Framework还有一些通用工具。在推理引擎方面，MagicMind对标Nvidia的Tesla T的工具。

在框架方面，公司在做PaddlePaddle、PyTorch、TensorFlow寒武纪特定的版本。在往寒武纪上做一些相应的适配，包括Megatron-LM、DeepSpeed、TransformerEngine、FlashAttention等，基于下面这一套一等技术软件栈，支持互联网、金融、交通、能源、运营商这样一个全场景的AI行业应用。

寒武纪3.0版本，可以从飞桨官网上进行试用，选择Linux、pip、寒武纪来进行下载。

PaddleX360 beta在寒武纪上的适配和使用

PaddleX的整体框架，从下往上看可以看到PaddleX的运行环境支持云端运行，也支持多硬件的本地端运行，模型开发环境包括分享模型框架和多联件的各类型模型套件等，寒武纪提供了模型产线工具，包含基础模z型产线和特定模型产线，通过模型产线，可以系统性的解决各类实际场景中的问题，这样PaddleX可以广泛利用到各个领域。

PaddleX核心亮点：

1）支持丰富的模型和场景。2）支持迭代码开发，使得开发和部署更加便捷。3）模型产线的设计，支持多模型串联，支持端到端的解决问题。4）对寒武纪370系列的高效支持。

功能详解：

丰富的模型库、全面的场景，方便大家来选择，包含分类检测、OCR分割持续等等常用的模型。

在寒武纪370上，已经支持39个模型，涉及到5个类别，主要包含分类、检测、OCR、分割、持续等等这些常用的模型。

PaddleX模型产线：

PaddleX提出了一个模型产线的概念，然后也内置了一些已有的模型产线可以直接来使用，如进行推理预测和部署，可以看到中间一条线直接用来进行推理，如果推理效果不理想，就可以用单模型开发工具对模型进行一个微调，微调后再通过产线测试，如果能达到想要的效果，然后再进行推理预测和部署，所有这些操作寒武纪都提供了一个非常简易的接口，方便大家直接来进行使用。

PaddleX一个显著特点就是低门槛、低代码，只需要一条命令就能完成数据校验，模型评估和模型推理。

利用代码进行数据校验、模型评估、模型推理。除此之外，还支持开发者对一些常用的超参数进行修改，对于模型优化中的是都已经暴露在模型对应的配置文件中了，可以通过命令行方便的修改替换。

在介绍两个实战案例之前，先讨论环境配置。环境配置是开发中常见的问题，提供了稳定的基础镜像和依赖包来统一环境，推荐大家使用这种方法。具体操作步骤在X的仓库文档中有详细说明。

实战案例

1）手写汉字识别案例。手写汉字识别是OCR领域的难题。可以使用内置模型快速体验，但内置模型的识别效果可能不理想，因此需要进行模型微调。

微调步骤如下：

选择模型：基于CPU测试结果，选择轻量级的PP-OCRv4_mobile模型进行微调。
数据收集与标注：使用社区提供的手写体中文识别数据集，包含训练集和评估集，确保数据格式正确。
参数配置：使用官方权重加速模型收敛，如有需要，可替换为自定义权重。训练中断时，可加载断点继续训练。

模型调优：

确定训练轮次和学习率。
固定训练轮次为20轮，批大小为8，使用4卡训练，总批大小为32。
训练精度最高的最优学习率为0.0002。
增加训练轮次至80轮，精度提升逐渐放缓，表明模型接近最优性能。

接下来，可以通过PaddleOCR的API将训练好的模型集成到项目中。具体步骤如下：

指定设备和模型路径：设置设备为MLU，并指定模型的路径。
创建OCR实例：使用PaddleOCR库创建一个OCR实例。
进行推理：调用OCR实例的推理方法，传入图像文件进行识别。

2）第二个案例，是选择了一个检测模型，案例选择的是行人跌倒检测，与第一个案例一样，关于检测模型的开发。模型开发通常包括以下几个步骤：模型选型、数据校验、模型微调和模型测试。

模型选型：使用PaddleX内置的检测模型进行快速体验。通过一条命令，我们对图片进行推理，使用的模型是PP-YOLO-S。但通用检测模型会检测出所有物体，包括人物，而我们只需要检测跌倒的人。因此，我们需要对模型进行微调。
数据校验：在数据校验阶段，使用global_mode参数进行数据格式转换和数据划分，以满足PaddleX的要求。
模型微调：我们选择轻量级的PP-YOLO-S模型进行微调。通过调整训练参数，我们发现当学习率为0.06，训练轮次为150时，模型表现最佳。
模型测试：训练完成后，我们使用mAP（平均精度）来评估模型精度。mAP是交并比（IoU）的平均值，IoU越大，模型精度越高。我们使用PaddleX进行测试，发现模型能够正确检测出跌倒的人。

最后提供了实战作业，鼓励大家体验PaddleX，并在开源仓库中提问和交流。对于使用MLU进行训练和推理的问题，可以直接在PaddleX中指定设备为MLU。

计算机牛骨挖掘机

追求最极致的用户体验，追求最快的市场响应速度！

最新文章

DeepSeek R1 论文原文及解读【天风计算机缪欣君团队】

【美国AI芯片禁令发布，重申国产算力头部公司份额有望提升】天风计算机缪欣君团队

转载 | To B Agent: Salesforce首席科学家再发长文【天风计算机缪欣君团队】

转载 | 端侧 To C Agent基础: 存算一体【天风计算机缪欣君团队】

转载 | 中芯国际赶上台积电，具备潜在环境优势的三大关键因素【天风计算机缪欣君团队】

【年度策略：从互联网到云再到AI，AI Agent下的三大投资机会】天风计算机缪欣君团队

【应届生& 社招招聘】天风证券研究所计算机团队

转载 | 从字节、英伟达到OpenAI，一致的选择: Agent【天风计算机缪欣君团队】

转载｜黄仁勋CES演讲：AI Agent拉开AI全新时代序幕

【重要深度-重发: 云厂商有望开启国产算力规模采购】天风计算机缪欣君团队

2024全市场涨幅第一，2024年天风计算机标签：计算机之王

【豆包这个刚需功能，有限开放】天风计算机缪欣君团队

【驱动Tokens爆发: 介绍豆包一个杀手级场景】天风计算机缪欣君团队

转载 | OpenAI又一大佬离职，结论很明确了【天风计算机缪欣君团队】

【字节豆包: 推理算力测算一张表】天风计算机缪欣君团队

转载 | 汉得 × 豆包: 共创AI智能体【天风计算机缪欣君团队】

豆包TO B生态链核心：汉得&创达【天风计算机缪欣君团队】

最全梳理: 豆包生态产业链【天风计算机缪欣君团队】

深度系列十二丨AI Agent与端侧新入口共筑AI应用【天风计算机缪欣君团队】

【桑达股份三季度点评: 收入保持高增，全面助力数据要素价值开发】天风计算机缪欣君团队

【南网科技三季度点评: 试验检测与智能设备高增，产业整合成效显著】天风计算机缪欣君团队

【桑达股份三季度点评: 收入保持高增，全面助力数据要素价值开发】天风计算机缪欣君团队

【创业慧康三季度点评: 稳步推进云转型战略，数据服务与AI创新赋能】天风计算机缪欣君团队

【嘉和美康三季度点评: AI赋能提升产品竞争力，助力医院数据要素价值开发】天风计算机缪欣君团队

【不只是信创：资金支撑叠加供需共振，泛信创自主可控有望加速】天风计算机缪欣君团队

【TSMC事件的长期影响: 加速国产算力行业格局集中，利好具备全国产供应链头部厂商】天风计算机缪欣君团队

【跳出成交量看同花顺: 居民财富管理被动化的长期核心受益者】天风计算机缪欣君团队

【麒麟信安三季度点评：信创驱动24Q3增长加速，股权激励彰显高增信心】天风计算机缪欣君团队

【海光信息三季度点评: Q3收入增速持续高增，毛利率与存货创新高】天风计算机缪欣君团队

【金山办公三季度点评：三季度收入增速修复，信创+SaaS驱动基本面向上】天风计算机缪欣君团队

【福昕软件三季度点评: ARR持续高增长,订阅至转型过半，费用率下降可期】天风计算机缪欣君团队

【深度|一种新视角：从财务报表前瞻AI芯片厂商业务景气度】天风计算机缪欣君团队

【数据要素行业深度三：供应链与物流数据场景有望率先跑通，助力出海与统一大市场】天风计算机缪欣君团队

【一种新研究范式:从六维财务数据和软件生意的本质出发】天风计算机缪欣君团队

【强推金蝶国际：分子分母端共振，中期利润率回升能见度有望提升】天风计算机缪欣君团队

【海光信息: 信创PC芯片放量推动，上调24-26年收入增速】天风计算机缪欣君团队

【金山办公：上调公司未来三年盈利预测，显著受益信创新周期】天风计算机缪欣君团队

【实测|超级应用+AI，微信正在加入类Kimi功能】天风计算机缪欣君团队

【算力即国力，美白宫成立“智算中心基础设施特别工作组”，地方智算25/26年景气度有望进一步提升】天风计算机缪欣君团队

【寒武纪:飞桨框架&PaddleX重磅发布】天风计算机缪欣君团队

【神州数码H1点评：数云融合成效显著，服务器受益国产算力景气度提升】天风计算机缪欣君团队

【启明星辰H1点评：经营质量进一步改善，与移动战略协同收入有望持续高增】天风计算机缪欣君团队

【海外科技巨头季报回顾：不变的Scaling Law和变化的大模型场景与供应商】天风计算机缪欣君团队

【达梦数据H1点评：业绩增速超预期，生态优势或驱动份额提升】天风计算机缪欣君团队

【深度|难之如阴，动如雷霆: 云厂商有望开启国产算力规模采购】天风计算机缪欣君团队

【深度|智微智能:从数据中心到机器人，稀缺的算力全场景产品服务商】天风计算机缪欣君团队

【国投智能H1点评：提质增效成果显著，AI和企业数字化打开成长空间】天风计算机缪欣君团队

【金山办公H1点评：WPS AI持续迭代，B端订阅加速公有云转型】天风计算机缪欣君团队

【中望软件H1点评：3D CAD产品与增速亮眼，海外市场维持高增长】天风计算机缪欣君团队

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉