开源真卷！Google开源Gemma 2大模型

文摘 2024-06-28 07:44 荷兰

Google 发布了最新的开放大语言模型 Gemma 2，共涉及4 个开源模型 (2 个基础模型和 2 个微调模型) 。HF模型地址：

https://hf.co/collections/google/g-667d6600fd5220e7b967f315

Gemma 2 是什么？

Gemma 2 是 Google 最新的开放大语言模型。它有两种规模：90 亿参数和 270 亿参数，分别具有基础 (预训练) 和指令调优版本。Gemma 基于 Google DeepMind 的 Gemini，拥有 8K Tokens 的上下文长度：

gemma-2-9bhttps://hf.co/google/gemma-2-9b90 亿基础模型。
gemma-2-9b-ithttps://hf.co/google/gemma-2-9b-it90 亿基础模型的指令调优版本。
gemma-2-27bhttps://hf.co/google/gemma-2-27b270 亿基础模型。
gemma-2-27b-ithttps://hf.co/google/gemma-2-27b-it270 亿基础模型的指令调优版本。

Gemma 2 模型的训练数据量约为其第一代的两倍，总计 13 万亿 Tokens (270 亿模型) 和 8 万亿 Tokens (90 亿模型) 的网页数据 (主要是英语) 、代码和数学数据。我们不知道训练数据混合的具体细节，只能猜测更大和更仔细的数据整理是性能提高的重要因素之一。

Gemma 2 与第一代使用相同的许可证，这是一个允许再分发、微调、商业用途和衍生作品的宽松许可证。

Gemma 2 的技术进展

Gemma 2 与第一代有许多相似之处。它有 8192 Tokens 的上下文长度，并使用旋转位置嵌入 (RoPE)。与原始 Gemma 相比，Gemma 2 的主要进展有四点：

滑动窗口注意力: 交替使用滑动窗口和全二次注意力以提高生成质量。
Logit 软上限: 通过将 logits 缩放到固定范围来防止其过度增长，从而改进训练。
知识蒸馏: 利用较大的教师模型来训练较小的模型（适用于 90 亿模型）。
模型合并: 将两个或多个大语言模型合并成一个新的模型。

与预训练数据集混合类似，关于微调数据集或与 SFT 和RLHF相关的超参数的细节尚未共享。

滑动窗口注意力

滑动窗口注意力是一种用于减少 Transformer 模型中注意力计算的内存和时间需求的方法，已在Mistral等模型中使用。Gemma 2 的新颖之处在于每隔一层应用滑动窗口 (局部 - 4096 Tokens) ，而中间层仍使用全局二次注意力 (8192 Tokens) 。我们推测这是为了在长上下文情况下提高质量 (半数层仍然关注所有 Tokens) ，同时部分受益于滑动注意力的优势。

滑动窗口注意力https://hf.co/papers/2004.05150
Mistralhttps://hf.co/papers/2310.06825

软上限和注意力实现

软上限是一种防止 logits 过度增长而不截断它们的技术。它通过将 logits 除以最大值阈值 (soft_cap)，然后通过 tanh 层 (确保它们在 (-1, 1) 范围内) ，最后再乘以阈值。这确保了最终值在 (-soft_cap, +soft_cap) 区间内，不会丢失太多信息但稳定了训练。

综合起来，logits 的计算公式为：logits ← soft_cap ∗ tanh(logits/soft_cap)

Gemma 2 对最终层和每个注意力层都采用了软上限。注意力 logits 上限为 50.0，最终 logits 上限为 30.0。

在发布时，软上限与 Flash Attention / SDPA 不兼容，但它们仍可用于推理以实现最高效率。Gemma 2 团队观察到，在推理过程中不使用软上限机制时，差异非常小。

注意：对于稳定的微调运行，仍需启用软上限，因此我们建议使用 eager 注意力进行微调，而不是 SDPA。

知识蒸馏

知识蒸馏是一种常用技术，用于训练较小的学生模型以模仿较大但表现更好的教师模型的行为。这是通过将大语言模型的下一个 Token 预测任务与教师提供的 Token 概率分布 (例如 GPT-4、Claude 或 Gemini) 结合起来，从而为学生提供更丰富的学习信号。

根据 Gemma 2 技术报告，知识蒸馏用于预训练 90 亿模型，而 270 亿模型则是从头开始预训练的。

在后期训练中，Gemma 2 团队生成了来自教师 (报告中未指定，但可能是 Gemini Ultra) 的多样化补全集，然后使用这些合成数据通过 SFT 训练学生模型。这也是许多开源模型的基础，如Zephyr和OpenHermes，它们完全基于较大大语言模型的合成数据进行训练。

Zephyrhttps://hf.co/HuggingFaceH4/zephyr-7b-beta
OpenHermeshttps://hf.co/teknium/OpenHermes-2.5-Mistral-7B

尽管有效，但这种方法存在缺点，因为学生和教师之间的模型容量不匹配可能导致 训练-推理不匹配，即学生在推理期间生成的文本与训练期间看到的文本不同。

为解决这个问题，Gemma 2 团队采用了“在线蒸馏”，其中学生从 SFT 提示生成补全。这些补全用于计算教师和学生 logits 之间的 KL 散度。通过在整个训练过程中最小化 KL 散度，学生能够准确地模拟教师的行为，同时最小化训练-推理不匹配。

“在线蒸馏”https://arxiv.org/pdf/2306.13649

这种方法非常有趣，正如我们在社区中看到的那样，在线 DPO 等在线方法会产生更强的模型，而在线蒸馏的一个优势在于只需要教师的 logits，因此无需依赖奖励模型或大语言模型作为评审员来改进模型。我们期待看到这种方法在未来几个月中是否会在微调人员中变得更受欢迎！

模型合并

模型合并是一种将两个或多个大语言模型合并成一个新模型的技术。这是相对较新和实验性的，可以不使用加速器进行。Mergekit是一个流行的开源工具包，用于合并大语言模型。它实现了线性、SLERP、TIES、DARE 和其他合并技术。

模型合并https://hf.co/blog/mlabonne/merge-models
Mergekithttps://github.com/arcee-ai/mergekit

根据技术报告，Gemma 2 使用了Warp，这是一种新型合并技术，分三个独特阶段进行合并：

Warphttps://arxiv.org/abs/2406.16768

指数移动平均 (EMA)：在强化学习 (RL) 微调过程中应用。
球形线性插值 (SLERP)：在多个策略的 RL 微调后应用。
向初始化线性插值 (LITI)：在 SLERP 阶段之后应用。

Gemma 2 的评估

Gemma 模型的表现如何？以下是根据技术报告和新版开源 LLM 排行榜对其他开源开放模型的性能比较。

开源 LLM 排行榜https://hf.co/spaces/HuggingFaceH4/open_llm_leaderboard

技术报告结果

Gemma 2 的技术报告比较了不同开源 LLM 在之前开源 LLM 排行榜基准上的性能。

	Llama 3 (70B)	Qwen 1.5 (32B)	Gemma 2 (27B)
MMLU	79.2	74.3	75.2
GSM8K	76.9	61.1	75.1
ARC-c	68.8	63.6	71.4
HellaSwag	88.0	85.0	86.4
Winogrande	85.3	81.5	83.7

该报告还比较了小型语言模型的性能。

Benchmark	Mistral (7B)	Llama 3 (8B)	Gemma (8B)	Gemma 2 (9B)
MMLU	62.5	66.6	64.4	71.3
GSM8K	34.5	45.7	50.9	62.3
ARC-C	60.5	59.2	61.1	68.4
HellaSwag	83.0	82.0	82.3	81.9
Winogrande	78.5	78.5	79.0	80.6

开源 LLM 排行榜结果

注意：我们目前正在新的开源 LLM 排行榜基准上单独评估 Google Gemma 2，并将在今天晚些时候更新此部分。

如何提示 Gemma 2

基础模型没有提示格式。像其他基础模型一样，它们可以用于继续输入序列的合理延续或零样本/少样本推理。指令版本有一个非常简单的对话结构：

<start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
LaMDA<end_of_turn>
<start_of_turn>model
LaMDA who?<end_of_turn><eos>

必须精确地复制此格式才能有效使用。稍后我们将展示如何使用 transformers 中的聊天模板轻松地复制指令提示。

使用 Hugging Face Transformers

随着 Transformers版本 4.42的发布，你可以使用 Gemma 并利用 Hugging Face 生态系统中的所有工具。要使用 Transformers 使用 Gemma 模型，请确保使用最新的 transformers 版本：

版本 4.42https://github.com/huggingface/transformers/releases/tag/v4.42.0

pip install "transformers==4.42.0" --upgrade

以下代码片段展示了如何使用 transformers 使用 gemma-2-9b-it。它需要大约 18 GB 的 RAM，适用于许多消费者 GPU。相同的代码片段适用于 gemma-2-27b-it，需要 56GB 的 RAM，使其非常适合生产用例。通过加载 8-bit 或 4-bit 模式，可以进一步减少内存消耗。

from transformers import pipeline
import torch

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-9b-it",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

messages = [
    {"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
    do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)

可以自动量化模型，以 8-bit 甚至 4-bit 模式加载。加载 4-bit 模式的 270 亿版本需要大约 18 GB 的内存，使其兼容许多消费者显卡和 Google Colab 中的 GPU。这是你在 4-bit 模式下加载生成管道的方式：

pipeline = pipeline(
    "text-generation",
    model=model,
    model_kwargs={
        "torch_dtype": torch.bfloat16,
        "quantization_config": {"load_in_4bit": True}
    },
)

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！

我们的口号是“生命不止，学习不停”！

NLP工作站

日常分享AIGC前沿知识&落地经验总结，也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍

最新文章

LLM实践系列-从零开始预训练1B级别大模型的心路历程

也许是2024年最值得一去的大模型国内年会！

LLM实践系列—大模型的拒绝采样2

实测腾讯开源的Hunyuan-Large大模型，感觉。。。

LLM实践系列-昇腾910B上进行Qwen2.5推理

LLM实践系列-细聊LLM的拒绝采样

面向中文有害表情包（meme）的综合性检测

OpenAI-O1之下，我们技术该何去何从

CartesianMoE：通过笛卡尔积路由提升专家间的知识共享

LLM实践系列-拯救Continue Pretrain的数据

超全！一文详解大型语言模型的11种微调方法

LLM实践系列-详谈Tokenizer训练细节

LLM实践系列-数据去重之Simhash&Minhash分析与实现

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

全是细节 | 聊一聊做SFT的经验

Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

长文 | Reverse-o1：OpenAI o1原理逆向工程图解

全是细节 | 聊一聊做Pretrain的经验

Quest：一种以查询为中心的长文本数据合成方法

如何提升角色扮演大模型的拟人能力？

Qwen2.5系列模型开源，你值得拥有！！！

长文 | 探索基于RL的新LLM scaling范式

大模型千卡训练-经验指北

浅谈OpenAI o1的价值意义及RL 的Scaling Law

六个问题带你看懂什么是理工科学霸-OpenAI o1！

大型语言模型实战指南

大模型论文淘金

DPO，RM，RLHF 傻傻分不清楚

如何获取高质量数据进行代码指令调优？

浅谈大模型角色扮演：从当红炸子鸡到无人问津

将端侧大模型进行到底-MiniCPM3-4B开源

Qwen2-VL：Qwen系列已在开源的路上一骑绝尘

大模型微调终极指南

这段时间搞大模型的血和泪

综述 | 大模型的可控文本生成

大模型是泡沫吗？

大模型 VS 小模型

探讨大模型预训练与微调之间的相互作用

大模型时代，什么样的算法工程师更吃香？

没有等来Qwen2.5，但等来了Qwen2-Math

浅谈-领域模型训练

大模型微调到底有没有技术含量？

MOE系列模型-浅谈

大模型预训练开源数据集-整理

一大堆Llama3.1-Chinese正在袭来

浅谈Llama3.1，从结构、训练过程、影响到数据合成

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

RegMix-用回归任务解决大模型数据混合问题

开源真卷！Google开源Gemma 2大模型

让AI应用成为你的创意游乐场 - 快速搭建AI应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉