轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

科技 2024-11-17 10:30 中国

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2401.02385.pdf
项目地址：https://github.com/jzhang38/TinyLlama/blob/main/README_zh-CN.md

计算机视觉研究院专栏

Column of Computer Vision Institute

小身板，大能量。

当大家都在研究大模型（LLM）参数规模达到百亿甚至千亿级别的同时，小巧且兼具高性能的小模型开始受到研究者的关注。

小模型在边缘设备上有着广泛的应用，如智能手机、物联网设备和嵌入式系统，这些边缘设备通常具有有限的计算能力和存储空间，它们无法有效地运行大型语言模型。因此，深入探究小型模型显得尤为重要。

接下来我们要介绍的这两项研究，可能满足你对小模型的需求。

TinyLlama-1.1B

来自新加坡科技设计大学（SUTD）的研究者近日推出了 TinyLlama，该语言模型的参数量为 11 亿，在大约 3 万亿个 token 上预训练而成。

TinyLlama 以 Llama 2 架构和分词器（tokenizer）为基础，这意味着 TinyLlama 可以在许多基于 Llama 的开源项目中即插即用。此外，TinyLlama 只有 11 亿的参数，体积小巧，适用于需要限制计算和内存占用的多种应用。

该研究表示仅需 16 块 A100-40G 的 GPU，便可在 90 天内完成 TinyLlama 的训练。

该项目从上线开始，持续受到关注，目前星标量达到 4.7K。

TinyLlama 模型架构详细信息如下所示：

训练细节如下：

研究者表示，这项研究旨在挖掘使用较大数据集训练较小模型的潜力。他们重点探究在用远大于扩展定律（scaling law）建议的 token 数量进行训练时，较小模型的行为表现。

具体来说，该研究使用大约 3 万亿个 token 训练具有 1.1B 个参数的 Transformer （仅解码器）模型。据了解，这是第一次尝试使用如此大量的数据来训练具有 1B 参数的模型。

尽管规模相对较小，但 TinyLlama 在一系列下游任务中表现相当出色，它的性能显著优于同等大小的现有开源语言模型。具体来说，TinyLlama 在各种下游任务中都超越了 OPT-1.3B 和 Pythia1.4B 。

此外，TinyLlama 还用到了各种优化方法，如 flash attention 2、FSDP（ Fully Sharded Data Parallel ）、 xFormers 等。

在这些技术的加持下，TinyLlama 训练吞吐量达到了每 A100-40G GPU 每秒 24000 个 token。例如，TinyLlama-1.1B 模型对于 300B token 仅需要 3,456 A100 GPU 小时，而 Pythia 为 4,830 小时，MPT 为 7,920 小时。这显示了该研究优化的有效性以及在大规模模型训练中节省大量时间和资源的潜力。

TinyLlama 实现了 24k tokens / 秒 / A100 的训练速度，这个速度好比用户可以在 8 个 A100 上用 32 小时训练一个具有 11 亿参数、220 亿 token 的 chinchilla-optimial 的模型。同时，这些优化也大大减少了显存占用，用户可以把 11 亿参数的模型塞入 40GB 的 GPU 里面还能同时维持 16k tokens 的 per-gpu batch size。只需要把 batch size 改小一点，你就可以在 RTX 3090/4090 上面训练 TinyLlama。

实验中，该研究主要关注具有纯解码器架构的语言模型，包含大约 10 亿个参数。具体来说，该研究将 TinyLlama 与 OPT-1.3B、Pythia-1.0B 和 Pythia-1.4B 进行了比较。

TinyLlama 在常识推理任务上的性能如下所示，可以看出 TinyLlama 在许多任务上都优于基线，并获得了最高的平均分数。

此外，研究者在预训练期间跟踪了 TinyLlama 在常识推理基准上的准确率，如图 2 所示，TinyLlama 的性能随着计算资源的增加而提高，在大多数基准中超过了 Pythia-1.4B 的准确率。

表3表明，与现有模型相比，TinyLlama 表现出了更好的问题解决能力。

手快的网友已经开始整活了：运行效果出奇得好，在 GTX3060 上运行，能以 136 tok / 秒的速度运行。

「确实是快！」

小模型 LiteLlama

由于 TinyLlama 的发布，SLM（小型语言模型）开始引起广泛关注。德克萨斯工农大学的 Xiaotian Han 发布了 SLM-LiteLlama。它有 460M 参数，由 1T token 进行训练。这是对 Meta AI 的 LLaMa 2 的开源复刻版本，但模型规模显著缩小。

项目地址：https://huggingface.co/ahxt/LiteLlama-460M-1T

LiteLlama-460M-1T 在 RedPajama 数据集上进行训练，并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估，结果如下图所示，在参数量大幅减少的情况下，LiteLlama-460M-1T 仍能取得与其他模型相媲美或更好的成绩。

以下为该模型的性能表现，更详细内容请参阅：

https://huggingface.co/datasets/open-llm-leaderboard/details_ahxt__llama2_xs_460M_experimental

面对规模大幅缩小的 LiteLlama，有网友好奇，它是否能够在 4GB 的内存上运行。如果你也想知道，不如亲自试试看吧。

参考链接：

https://twitter.com/_akhaliq/status/1744009616562819526

https://twitter.com/XiaotianHan1/status/1743824496916656275

https://twitter.com/abacaj/status/1743303507594097136

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

零样本通用分割框架（附源代码）

CRAS-YOLO：多类别船舶检测与分类模型

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

Drone-YOLO：一种有效的无人机图像目标检测

“空中城管”上岗丨城管无人机赋能城市精细化管理

CRAS-YOLO：多类别船舶检测与分类模型

YOLO界再起波澜！新一代目标检测器又有新突破！

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

Yolov7实战，实现网页端的实时目标检测

训练好的深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

超Transformer模型实现SOTA性能！CoMamba或成实时协同感知最有前景的解决方案？

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉