10.24-3|自我引导优化偏好对齐；进化搜索实现最优的动态模型压缩；差异采样，知识蒸馏，离线蒸馏

文摘 2024-10-24 09:51 西藏

语言模型对齐与压缩：自我引导优化偏好对齐；进化搜索实现最优的动态模型压缩；差异采样，知识蒸馏，离线蒸馏

Aligning Large Language Models via Self-Steering Optimization

2024-10-22｜CAS, Alibaba Group, UCAS|🔺11

http://arxiv.org/abs/2410.17131v1
https://huggingface.co/papers/2410.17131
https://github.com/icip-cas/SSO

研究背景与意义

在自然语言处理领域，随着大型语言模型（LLMs）的快速发展，如何有效地对其进行自动化对齐成为了研究的热点。现有的对齐方法大多依赖于人工标注的偏好数据，这不仅耗时耗力，而且难以保证数据的质量和一致性。因此，开发一种无需人工干预的自动对齐方法具有重要的理论和实际意义。本文提出的自我引导优化（Self-Steering Optimization, SSO）算法，旨在通过生成高质量的偏好信号，解决当前对齐方法中的一些局限性，从而推动自动化对齐的研究进展。

研究方法与创新

自我引导优化（SSO）是一种新颖的方法，主要通过以下几个关键步骤实现：首先，SSO通过预定义的原则生成对政策模型的偏好信号；其次，在训练过程中，SSO确保所生成的信号具有较高的准确性，并保持选择和拒绝响应之间的一致性差距；最后，SSO在模型的在线和离线训练中均表现出色，能够有效提升奖励模型的训练效果。

SSO的创新点在于其独特的设计理念：通过引导模型生成近乎在政策上的偏好信号，减少了对人工标注的依赖，同时保持了信号的学习能力和准确性。这种方法不仅提升了对齐的效率，还为后续的模型优化提供了可靠的基础。

实验设计与结果分析

本研究通过对Qwen2和Llama3.1两个基础模型进行实验验证，评估了SSO的有效性。实验结果表明，SSO在多个主观和客观基准上均取得了显著的性能提升。具体而言，在AlpacaEval 2.0和MT-Bench等评估中，SSO模型的表现优于传统的对齐方法，且在数学推理等任务上表现尤为突出。这些结果表明，SSO能够有效生成高质量的偏好数据，进而提升模型的对齐效果。

结论与展望

本文提出的自我引导优化（SSO）方法为大型语言模型的自动对齐提供了一种新的思路。通过生成高质量的偏好信号，SSO不仅减少了对人工标注的依赖，还提升了模型的整体性能。未来的研究可以进一步探索SSO在其他自动化对齐框架中的应用潜力，以及优化其信号生成机制，以实现更高效的模型对齐。

EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

2024-10-18｜ETH Zürich, Yandex, Skoltech, IST Austria, NeuralMagic|🔺4

http://arxiv.org/abs/2410.14649v1
https://huggingface.co/papers/2410.14649
https://github.com/IST-DASLab/EvoPress

研究背景与意义

随着大型语言模型（LLMs）的广泛应用，模型的计算成本和存储需求日益增加，这促使研究者们探索模型压缩技术。现有的压缩方法主要集中在量化、稀疏化和结构化剪枝等方面。然而，这些方法通常依赖启发式算法来评估各层的重要性，且假设误差单调性，即模型的整体压缩误差与各层的误差和成正比。本文提出了一种新的动态压缩方法EvoPress，旨在通过进化搜索实现最优的动态模型压缩，克服现有方法的局限性。

研究方法与创新

EvoPress的核心创新在于其动态、非均匀的压缩策略。该方法通过进化搜索框架，对每个层的压缩级别进行独立优化，以最大限度地提高模型的准确性，同时满足给定的压缩约束。具体而言，EvoPress采用以下步骤：

层级压缩评估：为每个层分配一个压缩级别，并评估其对模型输出的影响。
进化搜索算法：基于父代模型生成多个后代，通过变异操作调整压缩级别，并根据适应度函数选择最优后代。
动态适应性：在搜索过程中，算法能够根据当前模型的表现动态调整搜索策略，确保快速收敛。

EvoPress在多个流行的后训练压缩方法上进行了验证，包括层级剪枝、稀疏化和量化，结果显示该方法在准确性和压缩比上均优于现有技术。

实验设计与结果分析

本文的实验设计涵盖了EvoPress在不同压缩任务上的应用，包括深度剪枝、非结构化稀疏化和量化。实验结果表明，EvoPress在多个模型（如Llama和Mistral系列）上均实现了显著的性能提升。例如，在深度剪枝任务中，EvoPress能够在保持较高准确度的同时，达到更高的压缩率。此外，EvoPress在量化任务中的表现也优于传统的均匀量化方法，验证了其动态分配压缩级别的有效性。

结论与展望

EvoPress作为一种新的动态压缩框架，展现了其在大型语言模型压缩中的潜力。尽管目前的研究已证明其在多种压缩方法上的有效性，未来的工作可以进一步探讨不同压缩方法的结合，以及在实际应用场景中的推广。此外，EvoPress在压缩效率和模型性能之间的平衡，为后续研究提供了新的方向。

MiniPLM: Knowledge Distillation for Pre-Training Language Models

2024-10-22｜THU, Tencent Inc.|🔺4

http://arxiv.org/abs/2410.17215v1
https://huggingface.co/papers/2410.17215
https://github.com/thu-coai/MiniPLM

研究背景与意义

近年来，语言模型（LM）的发展主要依赖于模型规模的扩大，但这也带来了高昂的推理成本。在训练小型模型时，由于计算需求的增加，如何高效地进行预训练成为一个重要挑战。知识蒸馏（KD）作为一种有效的方法，能够通过大型教师模型来提升小型学生模型的性能。然而，现有的KD方法在预训练阶段面临效率、灵活性和有效性等多重挑战。

针对这些问题，本文提出了MINIPLM框架，旨在通过优化训练数据分布来提高小型语言模型的预训练效果。MINIPLM通过离线推理教师模型，避免了在线推理带来的额外计算开销，确保了KD的灵活性，并通过对训练数据的难度和多样性进行调整，提升了学生模型的知识获取能力。实验结果显示，MINIPLM在多个下游任务上显著提升了学生模型的性能，同时降低了预训练的计算需求。

研究方法与创新

MINIPLM的核心创新在于其提出的“差异采样”方法。该方法通过比较大型教师模型和小型参考模型的输出分布，优化学生模型的预训练数据分布。具体来说，MINIPLM首先从教师模型中获取知识，然后通过差异采样选择难度更高、信息更丰富的训练实例。这一过程不仅提高了训练数据的多样性，也确保了模型能够学习到更复杂的知识。

通过这种方式，MINIPLM能够在不增加计算成本的情况下，显著提升学生模型的性能。此外，MINIPLM的灵活性使其能够适用于不同架构和标记化方式的模型，从而扩展了KD的应用范围。

实验设计与结果分析

在实验中，研究团队对200M、500M和1.2B参数的学生模型进行了预训练，使用1.8B参数的教师模型进行知识蒸馏。实验结果表明，MINIPLM在9个广泛使用的下游任务上均超越了多个基线模型，尤其是在零-shot任务中的表现尤为突出。

具体来说，MINIPLM在多个任务上的准确率显著高于传统的KD方法，如Vanilla KD和SeqKD。此外，MINIPLM还在语言建模能力上表现出色，测试损失最低，显示出其在数据利用率上的优势。

结论与展望

总的来说，MINIPLM通过优化训练数据分布，成功地解决了传统KD方法在预训练阶段的多重挑战。其在提升学生模型性能的同时，降低了计算成本，展现了良好的灵活性和适应性。

然而，MINIPLM仍然依赖于教师模型的输出概率，这在某些情况下可能限制其应用。未来的研究可以探索如何在不同的模型架构和数据条件下进一步优化MINIPLM的性能，尤其是在数据稀缺的环境中。此外，结合其他KD方法可能会进一步提升MINIPLM的效果，值得深入研究。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉