大模型推理的加速技术和硬件适配

文摘   2024-11-06 18:04   北京  

编译器与AI芯片的协同设计

编译器在MLOps中的作用和集成

新一代AI框架的设计和实现

异构计算资源下的AI框架优化

大模型训练的分布式策略和性能优化

大模型在不同行业的应用案例分析

DataFun 特别策划了 DataFunSummit2024: AI基础软件架构峰会,峰会含有四大重量级论坛,将聚集行业专家、学者及企业领袖,分享他们的研究成果和实践经验,探索 AI 基础软件架构的最新趋势与挑战。

感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:

无论你是架构师、技术决策者,还是大数据与AI领域的从业者,这次峰会都将为你带来无与伦比的学习和交流机会。

扫描海报二维码或点击「阅读原文」即可免费报名,不要错过与AI技术专家一同探索未来的机会!

推荐议题

卞正达 北京潞晨科技有限公司 CTO

个人介绍:师从尤洋教授,毕业于新加坡国立大学,现任潞晨科技CTO。曾获NOIP一等奖、华为Code Craft大赛金奖等多项编码大,在全球超算最顶尖会议SC上发表一作论文。7年高性能AI系统经验,Colossal-AI系统核心开发者。

演讲题目:Colossal-AI:AI大模型的挑战与系统优化

演讲介绍:深度学习技术在多个领域取得了突破性进展,但随着模型规模的不断扩大,对硬件资源的需求也日益增加。潞晨科技创造的Colossal-AI深度学习系统,通过集成高效的多维并行系统,异构内存管理系统和推理加速系统,帮助解决大模型大规模训练和推理中的效率和成本问题。Colossal-AI深度学习系统对主流开源模型如ViT, Stable Diffusion, Llama3等提供完善的支持和极致的加速。该系统已在自然语言处理、计算机视觉和生物信息学等领域得到广泛应用,并在ICML、NeurIPS等人工智能领域的顶级学术会议上获得了高度评价和广泛认可。

演讲提纲:

1. 大模型时代的挑战与机遇

2. N维并行和高效内存系统

3. Bnechmark和使用案例

4. Colossal-AI与潞晨云

听众收益:

1. 了解AI发展的最新现状,遇到的问题和潜在的解决方案

2. 了解Colossal-AI和潞晨云的细节与使用方法

落地挑战和方案重点:

1. 大模型训练推理所需资源量巨大,如何减少消耗

2. 高端显卡一卡难求,中小型创业者如何低门槛使用AI

秦续业 杭州未来速度科技有限公司 联合创始人

个人介绍:未来速度联合创始人 & CEO。公司核心产品 Xinference,提供了开源、企业版和云上版本的高性能大模型推理和部署平台。Xinference 目前已经取得了 5k+ 的 star,有超过 80 个来自全世界的贡献者。

演讲题目:Xinference:企业级大模型推理和部署平台

演讲提纲:

1. 大模型推理的基础知识

2. 大模型部署和推理面临的现状和各种可能困难

3. 现有的大模型推理和部署方案

4. Xinference 大模型推理和部署实践

听众收益:

1. 听众能够对大模型的运行原理和部署有基本了解

2. 听众能了解到大模型部署的一些使用案例

落地挑战和方案重点:

1. 大模型如何高效的在企业中部署,如何结合 AI 开发的生态

2. 文生图等领域如何高效利用资源来提供服务

蔡经纬 清华大学交叉信息研究院 博士研究生

个人介绍:主要研究方向为大算力多核/chiplet AI加速器的架构和编译器设计,在CCF-A计算机体系结构顶级会议ISCA、HPCA上以第一作者发表文章三篇,获得HPCA2024 Distinguished Artifact Award(1/410),国内首次,获得博士生青年托举项目支持,获得博士生国家奖学金。

演讲题目:识别、探索和理解AI加速器的DRAM通信调度优化空间

演讲介绍:现代AI加速器配备了越来越大的片上缓冲区,以提供更多机会来缓解日益严重的DRAM带宽压力。然而,现有关于缓冲区使用的研究仍主要集中在单层数据流调度优化上。随着缓冲区足够大,可以容纳大多数网络中的单层权重,单层数据流优化对DRAM通信的影响显著降低。因此,开发新的范式以充分利用日益丰富的片上缓冲资源来减少DRAM访问变得尤为重要,但这仍然是一个亟待解决的挑战。

为此,我们提出了细粒度层融合技术,并结合预取和延迟发送两种优化策略,旨在尽可能降低DRAM访问,同时缓解DRAM通信的不平衡。通过全方位优化DRAM通信,我们实现了2.44倍的性能提升。

演讲大纲:

1. 目前片上buffer优化DRAM通讯的技术及局限性

2. 层融合之后数据预取和延迟发送的重要性

3. 对数据的计算粒度和访存粒度进行表达

4. 探索以上定义的优化空间

5. 实验和分析

听众收益:

1. 对于使用片上buffer优化DRAM通讯这个关键问题有更深认识

2. 理解细粒度层融合以及预取以及延迟发送两个优化技术

落地挑战和方案重点:

1. 如何支持尽可能多的算子进行融合

2. 对于超大规模图搜索速度的优化

徐宗泽 DeepWisdom/MetaGPT 合伙人

个人介绍:徐宗泽,DeepWisdom合伙人之一,团队AgentOS事业部经理。佩斯大学硕士,河海大学(在读)博士;在DeepWisdom负责包括电力、零售、金融等多个领域的AI Infra的应用落地;拥有数千万级AI Infra能源项目实践落地经验,MetaGPT团队核心成员。

演讲题目:MetaGPT: Coding Through Chat With Agents

演讲介绍:本演讲将探讨智能体(Agent)技术的发展历程和未来方向。我们将回顾LLM时代主要开源项目,分析过去两年Agent领域的实质性进展,包括推理能力、记忆机制等。我们还将探讨多Agent协作的潜力及其对社会的影响。最后,我们将思考:在AI快速发展的今天,智能体技术将如何塑造我们的未来,我们又该如何引导其发展?

演讲提纲:

1. 过去两年的 LLM 和 Agent

2. LLM Agent 相关的开源项目

3. 通往 Multi-Agent 结局的一些想法

4. 参与开源 Agent 项目的一些建议

听众收益:

1. 洞悉Agent技术发展趋势:了解从单一智能体到多智能体协作的演进,把握行业最新动向。

2. 深入理解技术突破:掌握Agent领域近两年的关键进展,包括推理能力、记忆机制等核心技术的发展。

3. 前瞻性思考与实践指导:探讨多Agent协作对未来的影响,获得参与开源Agent项目的实用建议。

落地挑战和方案重点:

1. o1推理突破:探讨最新的推理技术(包括开源o1),如何显著提升Agent的问题解决能力。

2. 记忆机制创新:介绍情境记忆、程序记忆和动作记忆等新型记忆机制,及其对Agent性能的革命性影响。

3. 自动化学术研究:展示自动实验系统和自动SOP生成等前沿应用,揭示AI如何加速科研进程。

分享赢好礼


DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
 最新文章