Llama 3退位，腾讯Hunyuan强势登顶

学术 2024-11-05 15:55 湖北

腾讯刚刚开源宇宙最强Moe模型，人性化的提供了推理&训练框架

github: https://github.com/Tencent/Tencent-Hunyuan-Large/blob/main/README_CN.md
hf: https://huggingface.co/tencent/Tencent-Hunyuan-Large

优势

高质量合成数据：通过合成数据增强训练，Hunyuan-Large能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据
KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐
专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，并为整体性能做出贡献
长上下文处理能力：预训练模型支持高达256K的文本序列，Instruct模型支持128K的文本序列，显著提升了长上下文任务的处理能力
广泛的基准测试：在多种语言和任务上进行广泛实验，验证了Hunyuan-Large的实际应用效果和安全性

推理框架

本次开源提供配套Hunyuan-Large模型的 vLLM-backend 推理框架。我们在vLLM开源框架的基础上适配了Hunyuan-Large模型，譬如，新增的CLA结构可以很大程度节约显存(KV-Cache部分节省50%)，保障超长文本场景。此外通过FP8的量化优化，相比FP16/BF16常规量化，在最大限度保障精度的条件下，节省50%显存，吞吐提升70%。

训练框架

Hunyuan-Large开源模型已经支持huggingface格式，支持用户采用hf-deepspeed框架进行模型精调，同时我们也支持利用flash-attn进行训练加速，为此，我们把相关的训练脚本和模型实现也开放给到社区，方便研发者在此基础上进行后续的模型训练和精调的操作

Benchmark评估榜单

Hunyuan-Large 预训练模型

与具有相似激活参数大小的Dense和MoE竞争对手相比，实现了最佳的整体性能。对于MMLU、MMLU-pro、CMMLU等基准评测，Hunyuan-Large的性能始终保持在最佳水准，证实了它在聚合任务上的综合能力。Hunyuan-Large在常识理解和推理以及经典的NLP任务，如QA和阅读理解任务（CommonsenseQA， PIQA，和TriviaQA）方面也表现出色。在数学能力方面，Hunyuan-Large在GSM8K和Math数学数据集上优于所有基线，在CMATH中文数据集上也取得了最好的成绩。同时我们观察到Hunyuan-Large在所有中文任务（例如，CMMLU, C-Eval）中实现了整体最佳的性能。

Model	LLama3.1-405B	LLama3.1-70B	Mixtral-8x22B	DeepSeek-V2	Hunyuan-Large
MMLU	85.2	79.3	77.8	78.5	88.4
MMLU-Pro	61.6	53.8	49.5	-	60.2
BBH	85.9	81.6	78.9	78.9	86.3
HellaSwag	-	-	88.7	87.8	86.8
CommonsenseQA	85.8	84.1	82.4	-	92.9
WinoGrande	86.7	85.3	85.0	84.9	88.7
PIQA	-	-	83.6	83.7	88.3
NaturalQuestions	-	-	39.6	38.7	52.8
DROP	84.8	79.6	80.4	80.1	88.9
ARC-C	96.1	92.9	91.2	92.4	95.0
TriviaQA	-	-	82.1	79.9	89.2
CMMLU	-	-	60.0	84.0	90.2
C-Eval	-	-	59.6	81.7	91.9
C3	-	-	71.4	77.4	82.3
GSM8K	89.0	83.7	83.7	79.2	92.8
MATH	53.8	41.4	42.5	43.6	69.8
CMATH	-	-	72.3	78.7	91.3
HumanEval	61.0	58.5	53.1	48.8	71.4
MBPP	73.4	68.6	64.2	66.6	72.6

Hunyuan-Large-Instruct

与具有相似激活参数的llm相比在大多数的任务上实现了一致的性能提升，表明我们的post-training十分有效。在不同类别的基准测试中，我们发现我们的Instruct模型在MMLU和MATH数据集上取得了最好的性能。值得注意的是，在MMLU数据集上，我们的模型表现出了显著的提升，相比与LLama3.1-405B模型高出2.6%。这种增强表明Hunyuan-Large-Instruct在广泛的语言理解任务中具有优越的理解和推理能力。该模型在MATH数据集上的表现进一步强调了它的实力，相比于LLama3.1-405B高出了3.6%的指标。值得注意的是，仅用520亿个激活参数就实现了精度的飞跃，证明了Hunyuan-Large-Instruct的卓越能力。

Model	LLama3.1 405B Inst.	LLama3.1 70B Inst.	Mixtral 8x22B Inst.	DeepSeekV2.5 Chat	Hunyuan-Large Inst.
MMLU	87.3	83.6	77.8	80.4	89.9
CMMLU	-	-	61.0	-	90.4
C-Eval	-	-	60.0	-	88.6
BBH	-	-	78.4	84.3	89.5
HellaSwag	-	-	86.0	90.3	88.5
ARC-C	96.9	94.8	90.0	-	94.6
GPQA_diamond	51.1	46.7	-	-	42.4
MATH	73.8	68.0	49.8	74.7	77.4
HumanEval	89.0	80.5	75.0	89.0	90.0
AlignBench	6.0	5.9	6.2	8.0	8.3
MT-Bench	9.1	8.8	8.1	9.0	9.4
IFEval strict-prompt	86.0	83.6	71.2	-	85.0
Arena-Hard	69.3	55.7	-	76.2	81.8
AlpacaEval-2.0	39.3	34.3	30.9	50.5	51.8

http://mp.weixin.qq.com/s?__biz=MzkyOTU5NzY1Mw==&mid=2247489807&idx=1&sn=49816544797ae8d6759e599395ee0fc0

NLP前沿

一手ai news分享 \x26amp; 热点paper解读

最新文章

测试时训练(TTT)太强了！

大模型也能"反悔"了！

Merkle树+RAG，Cursor的秘密曝光!

GraphRAG进化，效率翻倍！

8个月炼出好"钢"，Steel-LLM开源了~

OpenAI发布GPT学习法则~

465次实验炸出大模型量化真相

Qwen2.5.1 Coder系列开源来袭！冲！

一篇大模型RAG最新综述

解密o1，六大推理秘诀大曝光！

GraphRAG 0.4来袭：增量更新+DRIFT，起飞~

Llama 3退位，腾讯Hunyuan强势登顶

文本分块的天花板来了~

三连发！1.7B小模型把大厂干懵了~

给RAG装上眼睛，性能暴涨39%！

AI助攻SCI，这招太强了

KAG来了，RAG慌了！

传统RAG凉凉？多模态RAG带来工业级革命

AutoRAG开源：RAG界的AutoML终于来了！

智谱大气！首个语音到语音国产大模型开源

大模型数学能力翻车实锤！Apple新研究暴露真相~

prompt要自己写自己了！大厂扎堆放大招~

Claude昨夜王炸！新模型暴打o1，还能玩电脑~

RAG遇上知识冲突，Google祭出终极大招~

向o1看齐，google开源RAG推理扩展，提升近60%

微软开源，CPU推理100B模型，速度飞起~

Llama3 太炸裂了！远超过去的体验！

英伟达一夜封神，开源新模型打进全球前三！

忘记社区，lightrag开源graph的又一用法

entropix，终于找到了真正解决幻觉的方法了

是时候更新vllm了，新版吞吐提升2倍

openai今天open了2下，prompt自动生成器、Agent框架开源

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

现实再次给大模型带来沉重打击

cde，世界上最好的 BERT 大小文本嵌入模型

卷疯了！开源社区离openai o1越来越近~

openai突发上架新模型：gpt4t-lu-test

SFT无需指令，响应微调开源~

点赞送书啦！大模型应用落地指南

Meta刚开源llama 3.2多模态，就被打败了~

cot-decoding，谷歌把o1的底裤都开源了

openai终于open了，开源了，别骂了~

免费送！我们出版了首本大模型RAG书籍

如果思维链都满足不了你，那思维图尼？

RL驱动的Reflection炼丹，谷歌开源SCoRe

大模型Agent，如何利用历史经验自我进化？

OpenAI o1时代，RLHF和多模态我全都要！！！

Qwen2.5系列开源来袭！冲！

达到草莓的70%！首个open o1项目开源

疯狂24h后，openai o1有哪些新的秘密？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉