Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

科技 2024-11-19 18:32 北京

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

国产大模型，最近有点卷。

这不，刚在写代码这事儿上刷新SOTA，Qwen2.5系列又双叒突然更新了——

一口气读三本《三体》不费事，并且45秒左右就能完整总结出这69万token的主要内容，be like：

还真不是糊弄事儿，“大海捞针”实验显示，这个全新的Qwen2.5-Turbo在100万token上下文中有全绿的表现。

也就是说，这100万上下文里，有细节Qwen2.5-Turbo是真能100%捕捉到。

没错，Qwen2.5系列新成员Qwen2.5-Turbo，这回主打的就是支持超长上下文，并且把性价比卷出了花儿：

上下文长度从128k扩展到1M，相当于100万个英文单词或150万个汉字，也就是10部长篇小说、150小时语音记录、30000行代码的量。

更快的推理速度：基于稀疏注意力机制，处理百万上下文时，首字返回时间从4.9分钟降低到了68秒，实现了4.3倍加速。

关键是还便宜：0.3元/1M tokens。这意味着，在相同成本下，Qwen2.5-Turbo可以处理的token数量是GPT-4o-mini的3.6倍。

看到这波更新，不少网友直接爆出了***：

有人直言：这么长的上下文这么快的速度下，RAG已经过时了。

还有人开启大赞特赞模式：现在在开源领域，Qwen比Llama还值得期待了。

上下文能力扩展不影响性能

除了一口气啃下3本长篇小说，Qwen官方还展示了Qwen2.5-Turbo超长上下文的更多实用功能。

比如快速掌握一整个代码库的信息。

如Demo所演示，上传包含Qwen-Agent仓库中所有代码文件的文本文件（13.3万token），只需几秒钟，大模型就能读完全部代码并准确输出各种细节。

用户：这个存储库中有哪些Agent子类？提供它们的文件路径。
Qwen2.5-Turbo：

一口气读7篇论文，完成论文分类、论文摘要，也不在话下：

我们也实际测试了一下。可以看到，在没有给任何提示的情况下，Qwen2.5-Turbo能准确掌握不同论文的细节信息，并完成对比分析。

除了大海捞针实验之外，Qwen团队还在更复杂的长文本任务上测试了Qwen2.5-Turbo的能力。

包括：

RULER：基于大海捞针的扩展基准，任务包括在无关上下文中查找多“针”或回答多个问题，或找到上下文中出现最多或最少的词。数据的上下文长度最长为128K。
LV-Eval：要求同时理解众多证据片段的基准测试。Qwen团队对LV-Eval原始版本中的评估指标进行了调整，避免因为过于严苛的匹配规则所导致的假阴性结果。数据的上下文长度最长为128K。
Longbench-Chat：一个评价长文本任务中人类偏好对齐的数据集。数据的上下文长度最长为100K。

结果显示，在RULER基准测试中，Qwen2.5-Turbo取得了93.1分，超过了GPT-4o-mini和GPT-4。

在LV-Eval、LongBench-Chat等更接近真实情况的长文本任务中，Qwen2.5-Turbo在多数维度上超越了GPT-4o-mini，并且能够进一步扩展到超过128 tokens上下文的问题上。

值得一提的是，现有的上下文长度扩展方案经常会导致模型在处理短文本时出现比较明显的性能下降。

Qwen团队也在短文本任务上对Qwen2.5-Turbo进行了测试。

结果显示，Qwen2.5-Turbo在大部分任务上显著超越了其他上下文长度为1M tokens的开源模型。

和GPT-4o-mini以及Qwen2.5-14B-Instruct相比，Qwen2.5-Turbo在短文本任务上的能力并不逊色，但同时能hold住8倍于前两个模型的上下文。

此外，在推理速度方面，利用稀疏注意力机制，Qwen2.5-Turbo将注意力部分的计算量压缩到了原来的2/25，在不同硬件配置下实现了3.2-4.3倍的加速比。

现在，在HuggingFace和魔搭社区，Qwen2.5-Turbo均提供了可以在线体验的Demo。

API服务也已上线阿里云大模型服务平台，跟OpenAI API是兼容的。

至于模型权重什么时候开源？

阿里通义开源负责人林俊旸的说法是：目前还没有开源计划，但正在努力中。

反正HuggingFace联合创始人Thomas Wolf是帮咱催上了（手动狗头）。

Demo传送门：
https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo

参考链接：
https://qwenlm.github.io/zh/blog/qwen2.5-turbo/

— 完 —

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了！

首批嘉宾阵容在此，观众报名通道已开启！欢迎来到MEET智能未来大会，期待与您一起预见智能科技新未来！

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247759738&idx=5&sn=57eea739fa8f58d8049fd0c3e80041fe

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI

上下文能力扩展不影响性能

鱼羊发自凹非寺
量子位 | 公众号 QbitAI