周末快乐!早上刷到这个可能挺多小伙伴喜欢的内容,分享一下。
微软最新开源框架,bitnet.cpp,致力于在CPU上对超大尺寸模型的推理,不仅能跑,还能达到人工阅读的速度(每秒5~7个token)!
bitnet.cpp 是 1bit LLMs(如 BitNet b1.58)的官方推理框架。它提供了一套优化的内核,支持在 CPU 上对 1.58 bit模型进行快速无损的推理(接下来将支持 NPU 和 GPU)。
目前,在 x86 CPU 上,加速范围为 2.37 倍到 6.17 倍,能耗降低在 71.9% 到 82.2% 之间。
bitnet.cpp 可以在单个 CPU 上运行 100B BitNet b1.58 模型,达到与人阅读相当的速度(每秒 5-7 个token),显着增强了在本地设备上运行 LLMs。
项目地址:https://github.com/microsoft/BitNet
详情请见上仓库地址~