微软开源,CPU推理100B模型,速度飞起~

学术   2024-10-19 10:33   广东  

周末快乐!早上刷到这个可能挺多小伙伴喜欢的内容,分享一下。

微软最新开源框架,bitnet.cpp,致力于在CPU上对超大尺寸模型的推理,不仅能跑,还能达到人工阅读的速度(每秒5~7个token)!

bitnet.cpp 是 1bit LLMs(如 BitNet b1.58)的官方推理框架。它提供了一套优化的内核,支持在 CPU 上对 1.58 bit模型进行快速无损的推理(接下来将支持 NPU 和 GPU)。

目前,在 x86 CPU 上,加速范围为 2.37 倍到 6.17 倍,能耗降低在 71.9% 到 82.2% 之间。

bitnet.cpp 可以在单个 CPU 上运行 100B BitNet b1.58 模型,达到与人阅读相当的速度(每秒 5-7 个token),显着增强了在本地设备上运行 LLMs。

项目地址:https://github.com/microsoft/BitNet

详情请见上仓库地址~


NLP前沿
一手ai news分享 \x26amp; 热点paper解读
 最新文章