12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

文摘 2024-12-16 02:02 西藏

大规模语言模型训练与优化：phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

Phi-4 Technical Report

2024-12-12｜Microsoft Research|🔺62

http://arxiv.org/abs/2412.08905v1
https://huggingface.co/papers/2412.08905

研究背景与意义

在当前大型语言模型（LLMs）的快速发展中，数据质量的重要性愈发凸显。论文《phi-4 Technical Report》介绍了一个拥有140亿参数的语言模型phi-4，其在训练过程中重视数据的质量，尤其是合成数据的运用。与传统模型主要依赖网络内容或代码等有机数据不同，phi-4在其训练过程中战略性地融入了合成数据。这种方法不仅提升了模型在科学、技术、工程和数学（STEM）领域的问答能力，还在许多推理相关的基准测试中超越了其教师模型GPT-4，显示出合成数据生成和后训练技术的潜力。

此外，phi-4的开发旨在解决传统无监督数据集的局限性，特别是在推理和问题解决能力方面的不足。通过高质量合成数据的设计与生成，phi-4不仅提升了模型的推理能力，也为未来的研究提供了新的方向和思路。

研究方法与创新

phi-4的研究方法建立在三个核心支柱上：合成数据的使用、优质有机数据的筛选，以及后训练技术的创新。

合成数据的使用：phi-4在预训练和中训练阶段大量使用高质量合成数据。这些合成数据通过多种技术生成，包括多代理提示、自我修订工作流和指令反转。这些方法确保了数据的多样性和复杂性，极大地提升了模型的推理和问题解决能力。
优质有机数据的筛选：研究团队对网络内容、书籍和代码库进行了精心的筛选与过滤，以提取出能够促进深度推理和教育价值的数据。这些数据为合成数据生成提供了基础，确保了生成数据的质量和相关性。
后训练技术的创新：phi-4在后训练阶段采用了新的SFT数据集和直接偏好优化（DPO）技术。这些技术通过拒绝采样和关键token搜索，进一步优化了模型的输出，确保模型在实际应用中的表现优异。

这些创新使得phi-4在推理任务上的表现与更大规模的模型相当，甚至超越了许多基准测试中的大型模型。

实验设计与结果分析

在实验设计方面，phi-4的评估基于多项标准基准，涵盖了推理、数学和编程等多个领域。实验结果显示，phi-4在多个推理相关任务上表现优异，尤其是在STEM领域的问答能力上，其得分显著高于同类模型。

基准测试表现：在标准基准测试中，phi-4在多个任务上取得了优异的成绩，例如在数学竞赛基准（MATH）和研究生级别的STEM问答（GPQA）中，其表现超越了GPT-4。
过拟合和数据污染的处理：研究团队采用了改进的数据去污染过程，确保模型在评估结果上不受基准测试集的影响。通过在新数据上进行测试，phi-4展现出强大的泛化能力，进一步证明了其训练方法的有效性。
多场景表现：phi-4在不同场景下的表现也得到了评估，结果显示其在处理复杂推理任务时的能力显著高于许多同类模型。

结论与展望

总的来说，phi-4在合成数据的使用、优质数据的筛选和后训练技术的创新方面展现出了强大的潜力。其在STEM领域的表现不仅证明了数据质量的重要性，也为未来的研究提供了新的思路。未来的研究可以进一步探索合成数据生成的多样性和复杂性，以及如何将这些技术应用于更广泛的领域，以推动语言模型的进一步发展。

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

2024-12-12｜HKU, Salesforce Research|🔺19

http://arxiv.org/abs/2412.09605v1
https://huggingface.co/papers/2412.09605
https://agenttrek.github.io

研究背景与意义

在当前的数字环境中，图形用户界面（GUI）智能体在自动化复杂任务方面具有巨大的潜力。然而，开发这些智能体的主要障碍在于缺乏高质量的多步骤轨迹数据，这对有效训练至关重要。现有方法依赖于昂贵且劳动密集型的人类标注，难以实现规模化。为了解决这一挑战，本文提出了AgentTrek，一个基于网络教程的可扩展数据合成管道。该方法通过自动收集网络教程，将其转化为任务目标和逐步指令，并利用视觉语言模型（VLM）智能体在真实数字环境中模拟执行，从而生成高质量的智能体轨迹。实验结果表明，使用这些合成轨迹训练的GUI智能体在基础和规划性能上显著优于现有模型，显示出网络教程引导重放作为大规模GUI智能体训练的可行策略的潜力。

研究方法与创新

AgentTrek的核心方法包括三个主要步骤：首先，从网络中提取和过滤与GUI任务相关的教程；其次，通过引导重放，VLM智能体在真实环境中执行任务，并记录其行为和思维过程；最后，使用收集到的轨迹数据训练和微调GUI智能体模型。该方法的创新之处在于其通过自动化流程生成高质量的轨迹数据，避免了传统人类标注的局限性。与现有方法相比，AgentTrek不仅在成本上更具优势，而且在生成的数据质量和多样性上也显著提升。

方法创新详解

自动化教程收集：

使用基于规则的过滤方法从大型数据集中提取网络教程，确保数据的相关性和质量。
结合先进的语言模型进行标注，提升教程内容的准确性和可用性。

引导重放：

VLM智能体根据提取的教程在真实环境中执行任务，记录其所有行为和内在思维过程，生成多维度的轨迹数据。
通过视觉语言模型评估生成的轨迹，确保其符合任务要求并达到预期效果。

模型训练：

采用纯视觉输入的智能体模型，专注于图形界面操作，避免了文本和HTML结构的复杂性。
通过结合AgentTrek数据和其他数据集，显著提升模型在多种任务中的性能。

实验设计与结果分析

实验设计包括对文本和视觉智能体的评估，分别使用WebArena和ScreenSpot等基准进行性能验证。结果显示，使用AgentTrek数据训练的智能体在任务完成率和准确性上均显著优于基线模型，尤其是在处理复杂的多步骤任务时，表现出更强的适应性和可靠性。

实验结果简述

WebArena评估：

使用AgentTrek数据的文本智能体在任务成功率上超过了多种开源基线和GPT-4o模型，证明了数据的广泛适用性。

ScreenSpot评估：

在视觉智能体的评估中，AgentTrek数据显著提升了模型的基础能力，尤其在图标和文本识别任务中表现突出。

结论与展望

AgentTrek的研究展示了通过网络教程生成高质量智能体轨迹数据的有效性，为未来的GUI智能体训练提供了新的方向。尽管目前的工作已经取得了显著成果，但仍需进一步探索数据合成的多样性和智能体模型的适应性，以应对更复杂的任务环境。未来的研究可以集中在优化数据生成管道和提升模型的智能化水平，推动数字智能体技术的进一步发展。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉