首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

文摘 2024-05-07 17:55 上海

正文共：1502字预计阅读时间：4分钟

转自：量子位作者：梦晨发自凹非寺
▼

赛脖古将不定时分享优质内容，大家可以把赛脖古公众号设为★星标，第一时间获取最新推送，以防错过。

【导读】堂堂开源之王Llama 3，原版上下文窗口居然只有……8k，让到嘴边的一句“真香”又咽回去了。

在32k起步，100k寻常的今天，这是故意要给开源社区留做贡献的空间吗？

开源社区当然不会放过这个机会：

现在只需58行代码，任何Llama 3 70b的微调版本都能自动扩展到1048k（一百万）上下文。

背后是一个LoRA，从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来，文件只有800mb。

接下来使用Mergekit，就可以与其他同架构模型一起运行或直接合并到模型中。

所使用的1048k上下文微调版本，刚刚在流行的大海捞针测试中达到全绿（100%准确率）的成绩。

不得不说，开源的进步速度是指数级的。

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI，一个企业AI解决方案初创公司。

而对应的LoRA来自开发者Eric Hartford，通过比较微调模型与原版的差异，提取出参数的变化。

他先制作了524k上下文版，随后又更新了1048k版本。

首先，Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练，得到Llama-3-70B-Instruct-Gradient-1048k。

具体方法如下：

调整位置编码：用NTK-aware插值初始化RoPE theta的最佳调度，进行优化，防止扩展长度后丢失高频信息
渐进式训练：使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是，团队通过自定义网络拓扑在Ring Attention之上分层并行化，更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。

最终使模型的训练速度提高了33倍。

长文本检索性能评估中，只在最难的版本中，当“针”藏在文本中间部分时容易出错。

有了扩展好上下文的微调模型之后，使用开源工具Mergekit比较微调模型和基础模型，提取参数的差异成为LoRA。

同样使用Mergekit，就可以把提取好的LoRA合并到其他同架构模型中了。

合并代码也由Eric Hartford开源在GitHub上，只有58行。

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。

不过可以看到，中文开发者社区已经关注到了这一进展。

524k版本LoRA：
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k版本LoRA：
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

合并代码：
https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

参考链接：
[1]https://twitter.com/erhartford/status/1786887884211138784

end

往期推荐

几张图看懂华为Pura70系列，看完就明白!

苹果再次发出警告：90多个国家和地区的 iPhone 用户要小心间谍软件

【Elmo】超强浏览器插件，极简主义AI辅助工具

马斯克：两年内AI将比人类聪明，确信中国AI不会落后于西方

点赞鼓励一下

http://mp.weixin.qq.com/s?__biz=MzkzNjQ5MzAxMA==&mid=2247491719&idx=2&sn=449463de0d20a8d0e5bde7cfb17eb806

新技术分享，前沿科技探查

最新文章

纯血鸿蒙被海外热议：速度惊人，能力强悍，“求海外版”！

iPhone16销量暴涨20%？苹果AI落后2年，库克急了

特斯拉“面包车”震撼发布，自动驾驶未来之战已打响

微信鸿蒙原生版官宣，界面清爽，网友求推广

淘宝饿了么偷偷开通“先用后付”？别再替我“贷款”了！

新造车9月销量：卷低价奏效，“理小零”创新高

苹果将推廉价新品，用 M5 芯片！

Sam Altman 发布新开发工具！AI 领域大跃进：通往 AGI 之路更清晰，开发者的新时代来了！

苹果头显遭 Meta 暴击！如何突出重围？

刚刚，SpaceX“龙”飞船再发射！接宇航员回家

惊！特斯拉被锁：车联网时代，你的汽车安全吗？

突发！高通拟全盘收购 Intel

微信朋友圈能发Live实况照片了！安卓用户可能要等等了

BP机爆炸事件：台湾公司撇清责任，爆炸原因扑朔迷离

iPhone16出厂将预装iOS18正式版，老iPhone依旧流畅使用

Apple Watch的10年之作：所有的升级你都看得到

华为狙击苹果

iPhone16系列5999元起售，会不会发售当天就破发？

手机厂商集体宣布，这类App下架！网友发现新机不如旧机好用了...

苹果微信只能二选一？临近发布会，网友很认真

马斯克炫耀新机房，特斯拉超级计算集群内部曝光

英伟达Blackwell芯片供应将暴增！老黄：量大管饱！

扎克伯格公开信：我错了！下次不敢了！

亿万富豪亲自上阵：SpaceX 首次私人太空行走任务即将开启！

《黑神话：悟空》卖爆，单机游戏要翻身了？

苹果终于开放NFC芯片，开发者得先付钱

iPhone 16继续挤牙膏，四年了，依然毫无新意

波音头大了，星际客机变星际牢笼，宇航员何时归来？

马斯克xAI公司Grok 2测试版，AI界的新宠儿即将发布

500兆瓦！特斯拉超级计算集群命名为“Cortex”，耗电量惊人

多家大厂宣布大模型价格跳水，一场新的“烧钱”游戏？

OpenAI首席科学家离职，曾参与驱逐CEO，这是被秋后算账了吗？

OpenAI泄密者，投奔马斯克

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

几张图看懂华为Pura70系列，看完就明白!

阿里云们的2024：打不完价格战，卷不动大模型

苹果再次发出警告：90多个国家和地区的 iPhone 用户要小心间谍软件

马斯克：两年内AI将比人类聪明，确信中国AI不会落后于西方

【Graphy 】高颜值图表制作AI工具

【Dora AI 】一键生成可交互式 3D 网站

增强插件KeepChatGPT——让你跟chatGPT聊天有更好的体验

HelloAI｜[译]Voyager：一个基于大型语言模型的开放式具体化代理

大象P转身开箱即用！港大、南大、清华等抢先开源“复刻”版DragGAN

StableStudio 重磅开源！人手一个 Midjourney不是梦

Midjourney 中文官方版内测已开放！可通过腾讯QQ频道免费试用

围猎马斯克星链的战役打响，中国“星链”即将开建！

SpaceX第三代猛禽V3推力达到269吨，马斯克：之前星舰终究是做小了

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉