NeurIPS'24|大模型LoRA超级变体!仅需参数0.4%达微调效率巅峰!

文摘   2024-10-23 10:00   美国  

随着大模型应用发展的深入,参数高效微调(PEFT)凭借定制化、精准性等优势,成为大模型优化的热门方式,其中,LoRA引入‌低秩矩阵,实现了不输全面微调的下游适应性能,但是,增长的训练需求也带来了存储和传输成本,为了显著提升LoRA计算效率,NeurIPS'24最新收录工作VB-LoRA,创新提出了分而共享机制,通过向量库进行全局参数共享,仅需LoRA参数0.4%,调优效率全面超越LoRA!

为了帮助大家掌握大模型顶会微调方法,研梦非凡于10月23日晚(周三),邀请了从事大模型研究的王导师,独家讲解《VB-LoRA:超越LoRA!大模型微调效率巅峰!》(AI前沿直播课NO.76),从大模型全量微调、PEFT,到LoRA及相关变体,重点讲解顶会方法VB-LoRA架构、实验,并介绍相关方法AM-LoRA,最后代码演示微调过程,1节课速通LoRA参数微调技术,get论文改进和实战知识点!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可领取130篇精选论文(30篇LoRA最新论文&代码&顶会方法+100篇大模型必读


unsetunset10.23直播课内容概览unsetunset

01 研究背景

  1. 关注问题
  • 大模型全量微调
  • 参数高效微调(PEFT)
  • LoRA变体VB-LoRA(NeurIPS’24)
  1. 主要贡献
  • 分而共享机制(divide-and-share)
  • 通过向量库进行全局参数共享
  • 既减少参数量也保证了模型效果

02 知识准备

  1. LoRA方法原理
  2. LoRA相关变体

03 VB-LoRA方法(重点)

  1. 模型架构
  2. Divide分解原理
  3. Share共享原理
  4. 参数量分析
  • 全量微调 vs LoRA微调 vs VB-LoRA

04 实验分析

  1. 实验设置
  2. 结果分析

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可领取130篇精选论文(30篇LoRA最新论文&代码&顶会方法+100篇大模型必读

05 相关工作

  1. 南开大学最新论文(2024.9)
  • AM-LoRA:通过注意力机制自适应混合LoRA以实现语言模型的持续学习
  1. 关注问题
  • 大模型灾难性遗忘问题
  • 开源工作O-LoRA
  1. 主要贡献
  • 创新提出AM-LoRA
  • 持续学习方法、稀疏学习策略
  1. 持续学习方法
  2. AM-LoRA介绍
  3. 实验相关

06 代码实现(重点)

  1. LoRA基础微调演示
  2. VB-LoRA微调演示

直播课导师介绍

  • 王导师

【学术背景】985硕出身,拥有丰富的深度学习研究、论文发表经验,多篇SCI论文、EI会议论文(一作)

【研究方向】大语言模型、视觉语言模型、多模态学习,以及自然语言处理、进化算法等

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可领取130篇精选论文(30篇LoRA最新论文&代码&顶会方法+100篇大模型必读


unsetunset研梦非凡科研论文指导unsetunset

idea并不是直接拍脑门拍出来的,是一遍一遍实验、跑代码、改模型、思路修正的过程中产生的。研梦非凡1V1定制化论文指导,和研梦导师一起找idea,研梦导师指导实验,共同解决数据问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!
<<< 左右滑动见更多 >>>
👇🏻全程1v1论文辅导扫码咨询助教


unsetunset研梦非凡部分导师介绍unsetunset

研梦非凡导师团队,来自海外QStop50、国内华五、C9、985高校的教授/博士导师/博士后,以及世界500强公司算法工程师、国内外知名人工智能实验室研究员等。

这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~

<<< 左右滑动见更多 >>>

👇🏻扫码加助教为你匹配合适课题的大牛导师


我们不是小作坊哦~我们背靠研途考研(就是张雪峰老师和徐涛老师在的那个研途考研),做教育十余年,重交付,重口碑,是我们一贯的公司理念!

包包算法笔记
大模型技术和行业认知
 最新文章