Kimi开源底层推理框架，1小时GitHub揽星1.2k

科技 2024-11-28 21:29 广东

来源：量子位

什么？Kimi底层推理架构刚刚宣布：开！源！了！

你没听错，就是那个承载了Kimi线上80%以上流量的架构。

大约几小时前，月之暗面Kimi联合清华大学等机构，开源了大模型推理架构Mooncake。

根据官方介绍，本次开源将采用分阶段的方式：

逐步开源高性能KVCache多级缓存Mooncake Store的实现，同时针对各类推理引擎和底层存储/传输资源进行兼容。
其中传输引擎Transfer Engine现在已经在GitHub全球开源。

可以看到，Mooncake一经开源，已在GitHub狂揽1.2k star。

其最终开源目标是，为大模型时代打造一种新型高性能内存语义存储的标准接口，并提供参考实现方案。

月之暗面Kimi工程副总裁许欣然表示：

通过与清华大学MADSys实验室紧密合作，我们共同打造了分离式大模型推理架构Mooncake，实现推理资源的极致优化。
Mooncake不仅提升了Kimi的用户体验，降低了成本，还为处理长文本和高并发需求提供了有效的解决方案。
我们相信，通过与产学研机构开源合作，可以推动整个行业向更高效的推理平台方向发展。

实际上，这个项目早在今年6月就已启动，当时已受到业内广泛关注——

大模型推理架构Mooncake

今年6月，月之暗面和清华大学MADSys实验室联合发布了Kimi底层的Mooncake推理系统设计方案。

在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中，作者详细介绍了Mooncake这种系统架构。

该系统基于以KVCache为中心的PD分离和以存换算架构，大幅度提升了推理吞吐。

具体而言，Mooncake采用以KVCache为中心的解耦架构，将预填充集群与解码集群分离，并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源，实现KVCache的解耦缓存。

其核心在于以KVCache为中心的调度程序：

在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡

当面对流量高峰期时，Mooncake通过早期拒绝策略和预测未来负载的方法，来处理超载问题。

早期拒绝策略（Early Rejection Policy）

简单说，其核心思想是在请求实际开始处理之前，根据当前系统的负载情况预测是否有足够的资源来处理新的请求。

如果预测结果表明系统资源不足以保证请求的及时处理，系统就会在请求到达之前予以拒绝，从而避免了无效的资源占用和不必要的延迟。

预测未来负载（Predicting Future Load）

在Mooncake中，系统需要能够预测在未来一段时间内的负载情况，以便做出更准确的接受或拒绝请求的决策。

如何实现呢？？

通常来说，这种预测会基于当前的请求模式、系统的资源使用情况以及历史数据等信息。

再通过对信息的进一步分析建模，Mooncake就能够估计接下来的请求处理需求，并据此调整其调度策略。

论文实验结果显示，与基线方法相比，Mooncake在某些模拟场景中可以实现高达525%的吞吐量提升，同时遵守SLO（与延迟相关的服务级别目标)。

在实际工作负载下，Mooncake使Kimi能够处理75%以上的请求。

而且据许欣然在其他场合透露：

目前这套系统承载了Kimi线上80%以上的流量。

而现在，为了进一步加速该技术框架的应用与推广，Kimi联合清华大学等机构共同发布开源项目Mooncake。

参与开源的首批阵容包括：

AISoft、阿里云、华为存储、面壁智能、趋境科技等。

可以说，云计算、存储、AI模型玩家等产学研力量都聚齐了。

据悉，Mooncake开源项目从论文延伸，以超大规模KVCache缓存池为中心，通过以存换算的创新理念大幅度减少算力开销，显著提升了推理吞吐量。

目前Mooncake技术框架已正式开源上线，官方还表示：

欢迎更多企业和研究机构加入Mooncake项目共建，共同探索更加高效和先进的模型推理系统架构创新，让基于大模型技术的AI助手等产品，持续惠及更广泛人群。

论文：
https://arxiv.org/pdf/2407.00079
开源地址：
https://github.com/kvcache-ai/Mooncake

参考链接：
https://mp.weixin.qq.com/s/-8ZRbRxBOWNfkk3xMdcWVQ

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉