1. AutoTrain: No-code training for state-of-the-art models
随着开源模型的发展,使用自定义数据集训练(或微调)模型已成为开发针对特定工业或开源应用解决方案的重要部分。然而,目前还没有单一工具可以简化跨不同模态或任务的训练过程。我们提出了一个名为AutoTrain(又称AutoTrain Advanced)的开源、无需代码的工具库,它可以用于训练(或微调)不同任务类型的任务模型,如:大型语言模型(LLM)微调、文本分类/回归、标记分类、序列到序列任务、向量模型微调、视觉语言模型(VLM)微调、图像分类/回归,甚至表格数据上的分类和回归任务。AutoTrain Advanced 是一个提供最佳实践的开源库,用于在自定义数据集上训练模型。该库可在 https://github.com/huggingface/autotrain-advanced 获取。
论文: https://arxiv.org/pdf/2410.15735
2. SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
SAM 2 已成为图像和视频分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2在视频分割中的关键设计是其记忆模块,该模块从先前帧中激发对象感知的记忆以预测当前帧。然而,其贪婪选择的记忆设计遭受了“错误累积”的问题,其中错误或遗漏的掩码会传递并影响后续帧的分割,从而限制了SAM 2在复杂长时视频中的性能。为此,我们引入了SAM2Long,这是一种无需训练的视频对象分割策略,该策略考虑了每个帧内的分割不确定性,并以受限树搜索方式从多个分割路径中选择视频级别的最优结果。在实践中,我们在整个视频中保持固定数量的分割路径。对于每一帧,基于现有路径提出多个掩码,创建各种候选分支。然后,我们选择具有更高累积分数的相同固定数量的分支作为下一帧的新路径。处理最后一帧后,累积分数最高的路径被选作最终分割结果。得益于其启发式搜索设计,SAM2Long对遮挡和对象再现具有鲁棒性,并能有效分割和跟踪复杂长时视频中的对象。值得注意的是,SAM2Long在所有24个头对头比较中平均提高了3.0分,在长期视频对象分割基准(如SA-V和LVOS)中的J&F指标上,最高提高了5.3分。代码已发布在https://github.com/Mark12Ding/SAM2Long。
论文: https://arxiv.org/pdf/2410.16268
3. FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors
NeRF在少量样本场景中面临显著挑战,主要由于过拟合和长时间训练以实现高保真渲染。现有方法,如FreeNeRF和SparseNeRF,使用频率正则化或预训练先验,但难以处理复杂的调度和偏差问题。我们引入了FrugalNeRF,这是一种新的少量样本NeRF框架,利用多尺度下的权重共享高效地表示场景细节。我们的主要贡献是一种跨尺度几何适应机制,根据跨尺度的重新投影误差选择伪地面深度。这指导训练而不依赖于外部学习的先验,能够充分利用训练数据进行训练。此外,它还可以整合预训练先验,提高质量而不减慢收敛速度。在LLFF、DTU和RealEstate-10K上的实验表明,FrugalNeRF在其他少量样本NeRF方法中表现出更优性能,同时显著减少训练时间,使其成为高效和准确3D场景重建的实用解决方案之一。
论文: https://arxiv.org/pdf/2410.16271
4. PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
近期,多模态基础模型的发展在视觉-语言理解方面取得了显著进步。早期尝试还探索了多模态大语言模型(MLLMs)在生成视觉内容方面的潜力。然而,现有工作在统一的MLLM框架内未能充分解决不同图像生成任务的不同粒度需求,从文本到图像生成所需的多样性到图像操作所需的精确可控性。在本文中,我们提出了PUMA,以增强统一MLLM的多粒度视觉生成能力。PUMA将多粒度视觉特征作为MLLM的输入和输出,优雅地解决了各种图像生成任务在统一MLLM框架内的不同粒度需求。经过多模态预训练和任务特定指令微调后,PUMA在多种多模态任务中表现出色。这项工作代表了朝着真正统一的MLLM迈出的重要一步,该MLLM能够适应各种视觉任务的粒度需求。代码和模型将在https://github.com/rongyaofang/PUMA发布。
论文: https://arxiv.org/pdf/2410.13861
5. SemiEvol: Semi-supervised Fine-tuning for LLM Adaptation
监督微调(SFT)在使大规模语言模型(LLMs)适应特定领域或任务方面至关重要。然而,在实际应用中,可用的标注数据有限,这给SFT带来了严重的挑战,难以获得满意的结果。因此,一个数据高效的框架,能够充分利用标注和未标注数据进行LLM微调,备受期待。为此,我们提出了一种半监督微调框架,名为SemiEvol,从传播和选择的角度进行LLM适应。对于知识传播,SemiEvol采用双层方法,通过权重内部和上下文内部方法,将知识从标注数据传播到未标注数据。对于知识选择,SemiEvol整合了一种协作学习机制,选择更高质量的伪响应样本。我们使用GPT-4o-mini和Llama-3.1在七个通用或特定领域的数据集上进行了实验,展示了在目标数据上的显著性能提升。此外,我们还将SemiEvol与SFT和自我进化方法进行了比较,突显了其在混合数据场景中的实用性。
论文: https://arxiv.org/pdf/2410.14745
6. CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
高效的准确评估对于大型语言模型(LLMs)的持续改进至关重要。在各种评估方法中,主观评估因其与现实使用场景和人类偏好高度一致而受到了广泛关注。然而,基于人类的评估成本高且缺乏可重复性,因此精确的自动化评估在这一过程中至关重要。在本文中,我们提出了CompassJudger-1,这是首个开源的一站式评判LLM。CompassJudger-1是一款通用的LLM,展示了显著的多功能性。它能够:1. 作为奖励模型进行单一评分和两模型对比;2. 根据指定格式进行评估;3. 生成批评;4. 执行各种任务,如同一个通用LLM。为了在统一的环境中评估不同评判模型的评估能力,我们还建立了JudgerBench,这是一个新的基准,涵盖了各种主观评估任务,覆盖了广泛的主题。CompassJudger-1提供了一种全面的解决方案,适用于各种评估任务,同时保持了适应多样需求的灵活性。CompassJudger和JudgerBench均已开源,可在https://github.com/open-compass/CompassJudger获取。
论文: https://arxiv.org/pdf/2410.16256
自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧