【论文日报】LLM合集：HuggingFace开源一站式AutoTrain大模型微调平台

文摘 2024-10-23 10:42 中国香港

1. AutoTrain: No-code training for state-of-the-art models

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

随着开源模型的发展，使用自定义数据集训练（或微调）模型已成为开发针对特定工业或开源应用解决方案的重要部分。然而，目前还没有单一工具可以简化跨不同模态或任务的训练过程。我们提出了一个名为AutoTrain（又称AutoTrain Advanced）的开源、无需代码的工具库，它可以用于训练（或微调）不同任务类型的任务模型，如：大型语言模型（LLM）微调、文本分类/回归、标记分类、序列到序列任务、向量模型微调、视觉语言模型（VLM）微调、图像分类/回归，甚至表格数据上的分类和回归任务。AutoTrain Advanced 是一个提供最佳实践的开源库，用于在自定义数据集上训练模型。该库可在 https://github.com/huggingface/autotrain-advanced 获取。

论文: https://arxiv.org/pdf/2410.15735

2. SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

SAM 2 已成为图像和视频分割的强大基础模型，为各种下游视频应用铺平了道路。SAM 2在视频分割中的关键设计是其记忆模块，该模块从先前帧中激发对象感知的记忆以预测当前帧。然而，其贪婪选择的记忆设计遭受了“错误累积”的问题，其中错误或遗漏的掩码会传递并影响后续帧的分割，从而限制了SAM 2在复杂长时视频中的性能。为此，我们引入了SAM2Long，这是一种无需训练的视频对象分割策略，该策略考虑了每个帧内的分割不确定性，并以受限树搜索方式从多个分割路径中选择视频级别的最优结果。在实践中，我们在整个视频中保持固定数量的分割路径。对于每一帧，基于现有路径提出多个掩码，创建各种候选分支。然后，我们选择具有更高累积分数的相同固定数量的分支作为下一帧的新路径。处理最后一帧后，累积分数最高的路径被选作最终分割结果。得益于其启发式搜索设计，SAM2Long对遮挡和对象再现具有鲁棒性，并能有效分割和跟踪复杂长时视频中的对象。值得注意的是，SAM2Long在所有24个头对头比较中平均提高了3.0分，在长期视频对象分割基准（如SA-V和LVOS）中的J&F指标上，最高提高了5.3分。代码已发布在https://github.com/Mark12Ding/SAM2Long。

论文: https://arxiv.org/pdf/2410.16268

3. FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors

NeRF在少量样本场景中面临显著挑战，主要由于过拟合和长时间训练以实现高保真渲染。现有方法，如FreeNeRF和SparseNeRF，使用频率正则化或预训练先验，但难以处理复杂的调度和偏差问题。我们引入了FrugalNeRF，这是一种新的少量样本NeRF框架，利用多尺度下的权重共享高效地表示场景细节。我们的主要贡献是一种跨尺度几何适应机制，根据跨尺度的重新投影误差选择伪地面深度。这指导训练而不依赖于外部学习的先验，能够充分利用训练数据进行训练。此外，它还可以整合预训练先验，提高质量而不减慢收敛速度。在LLFF、DTU和RealEstate-10K上的实验表明，FrugalNeRF在其他少量样本NeRF方法中表现出更优性能，同时显著减少训练时间，使其成为高效和准确3D场景重建的实用解决方案之一。

论文: https://arxiv.org/pdf/2410.16271

4. PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

近期，多模态基础模型的发展在视觉-语言理解方面取得了显著进步。早期尝试还探索了多模态大语言模型（MLLMs）在生成视觉内容方面的潜力。然而，现有工作在统一的MLLM框架内未能充分解决不同图像生成任务的不同粒度需求，从文本到图像生成所需的多样性到图像操作所需的精确可控性。在本文中，我们提出了PUMA，以增强统一MLLM的多粒度视觉生成能力。PUMA将多粒度视觉特征作为MLLM的输入和输出，优雅地解决了各种图像生成任务在统一MLLM框架内的不同粒度需求。经过多模态预训练和任务特定指令微调后，PUMA在多种多模态任务中表现出色。这项工作代表了朝着真正统一的MLLM迈出的重要一步，该MLLM能够适应各种视觉任务的粒度需求。代码和模型将在https://github.com/rongyaofang/PUMA发布。

论文: https://arxiv.org/pdf/2410.13861

5. SemiEvol: Semi-supervised Fine-tuning for LLM Adaptation

监督微调（SFT）在使大规模语言模型（LLMs）适应特定领域或任务方面至关重要。然而，在实际应用中，可用的标注数据有限，这给SFT带来了严重的挑战，难以获得满意的结果。因此，一个数据高效的框架，能够充分利用标注和未标注数据进行LLM微调，备受期待。为此，我们提出了一种半监督微调框架，名为SemiEvol，从传播和选择的角度进行LLM适应。对于知识传播，SemiEvol采用双层方法，通过权重内部和上下文内部方法，将知识从标注数据传播到未标注数据。对于知识选择，SemiEvol整合了一种协作学习机制，选择更高质量的伪响应样本。我们使用GPT-4o-mini和Llama-3.1在七个通用或特定领域的数据集上进行了实验，展示了在目标数据上的显著性能提升。此外，我们还将SemiEvol与SFT和自我进化方法进行了比较，突显了其在混合数据场景中的实用性。

论文: https://arxiv.org/pdf/2410.14745

6. CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

高效的准确评估对于大型语言模型（LLMs）的持续改进至关重要。在各种评估方法中，主观评估因其与现实使用场景和人类偏好高度一致而受到了广泛关注。然而，基于人类的评估成本高且缺乏可重复性，因此精确的自动化评估在这一过程中至关重要。在本文中，我们提出了CompassJudger-1，这是首个开源的一站式评判LLM。CompassJudger-1是一款通用的LLM，展示了显著的多功能性。它能够：1. 作为奖励模型进行单一评分和两模型对比；2. 根据指定格式进行评估；3. 生成批评；4. 执行各种任务，如同一个通用LLM。为了在统一的环境中评估不同评判模型的评估能力，我们还建立了JudgerBench，这是一个新的基准，涵盖了各种主观评估任务，覆盖了广泛的主题。CompassJudger-1提供了一种全面的解决方案，适用于各种评估任务，同时保持了适应多样需求的灵活性。CompassJudger和JudgerBench均已开源，可在https://github.com/open-compass/CompassJudger获取。

论文: https://arxiv.org/pdf/2410.16256

自动驾驶之星和生成式AI与具身智能知识星球，新人优惠券来袭，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

http://mp.weixin.qq.com/s?__biz=MzkzMjY1MDI0OQ==&mid=2247487072&idx=2&sn=02646053be3dfd273c2dd7dadd4f51a6

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

某合资主机厂研发中心裁员

为何机器人难以打通「任督二脉」？

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

PointLLM：使大型语言模型能够理解点云

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

小鹏AI日的「9点必读」：机器人比车难做10000倍

端到端量产论文精选！

智驾公司中层leader的生存之道

智能座舱：能不能把今天的内卷，变成明天的诗和远方？

介绍一种transformer稀疏神经网络的硬件加速器算法

特朗普上台对中国汽车行业的影响：自动驾驶与芯片行业的双重挑战

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

华为李大锋：数字钥匙的安全与体验-华为数字钥匙方案介绍|2024车身电子技术论坛（11月14日，上海）

这些年我们一起追过的自动驾驶端到端范式！

"35岁程序员"在自动驾驶赛道的悲哀：职业发展的困境与挑战

具身智能的前景如何？是否适合读博？

自动驾驶的明日之星：世界模型带来的革新与挑战

自动驾驶赛道的挑战与机遇：裁员与业务缩减背后的故事

快手 Kuaishou AI 全景解析

小鹏「端到端」及「纯视觉」的法宝，终于一次说清了

【自动驾驶之星社区】上海线下大模型活动圆满落幕 —— 探索自动驾驶的新边界

1024，致敬那些改变世界的代码诗人

Open3DTrack 面向开放词汇的3D多目标跟踪 !

自动驾驶之星社区一周经典内容整理！

「AI 汽车大战」的三个真相

我们回来啦！自动驾驶之星社区大模型线下活动（10月26号上海）报名开始啦！

传小马智行即将公开申请IPO，赴美上市迈出关键一步

自然资源部审图中心副主任：智能驾驶测绘的安全隐患

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

工作的意义是什么？

首个以人类行为端对端自动驾驶系统HE-DRIVE：基于扩散模型实现OpenScene轨迹规划最新SOTA

魔视智能获新一轮融资，或为IPO做准备

开源SOTA项目Voxel-SLAM：完整、精确且多功能的激光雷达-惯性SLAM系统

如何快速将特斯拉3D感知移植到擎天柱？有可能只需要HeightFormer

高阶智驾平权时代，BEV+Transformer架构或成必杀技？

视频生成和具身智能强强联合！谷歌&卡内基梅隆&斯坦福发布Gen2Act：泛化超棒！

自动驾驶之星社区大模型线下活动报名开始啦！（10月26号上海）我们回来啦！

自动驾驶之星社区一周经典内容整理！

Tesla We Robot发布会总结

全面了解端到端自动驾驶的研发现状、挑战与策略应对（二）

自动驾驶量产经验整理！

百度汽车云3.0 ，为端到端自动驾驶量产落地提速

大模型入门笔记整理记录

地平线通过港交所上市聆讯，即将IPO

全面带你了解端到端大模型的底层逻辑（一）

大模型中LLM训练技巧(干货满满！！)- SFT

【论文日报合集】英伟达开源MaskLLM剪枝技术，显著降低LLM推理成本

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉