Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

学术 2024-10-18 16:08 北京

今日值得关注的大模型前沿论文

Meta 提出思维偏好优化 TPO
谷歌推出可穿戴基础模型 LSM
Meta 推出媒体生成基础模型 Movie Gen
康奈尔大学团队：从交互中回溯学习
AgentOccam：基于 LLM 的网络智能体
MLLM 能否理解中文图像背后的深意？
可高效私密推理的纯 Softmax 大语言模型

想要第一时间获取每日最新大模型热门论文？
点击阅读原文，查看“2024必读大模型论文”
ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～

Meta 提出思维偏好优化 TPO

大语言模型（LLM）通常经过训练，能够回答用户问题或遵循指令，与人类专家的回答方式类似。然而，在标准对齐框架中，它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂问题非常重要，但也可用于任何任务。

在这项工作中，来自 Meta 的研究团队及其合作者提出了思维偏好优化（TPO）方法，让现有的 LLM 具备这种思维能力，从而在不使用额外人类数据的情况下，进行一般指导。为此，他们采用迭代搜索和优化程序，探索可能的思维生成空间，让模型在没有直接监督的情况下学习如何思考。对于每条指令，候选思维都会使用一个法官模型进行评分，从而评估它们的反应，然后通过偏好优化进行优化。

研究结果表明，这种方法能在 AlpacaEval 和 Arena-Hard 考试中取得优异成绩，而且除了更传统的推理和问题解决任务外，还能在市场营销、健康和常识等非推理类别的思考中发挥作用。

论文链接：

https://arxiv.org/abs/2410.10630

谷歌推出可穿戴基础模型 LSM

由于具有各种健康跟踪功能，可穿戴传感器已变得无处不在。日常生活中的连续和纵向测量产生了大量数据；然而，如何利用这些观测数据获得科学和可行的见解并非易事。

在生成式建模（大型神经网络从大量文本、图像、视频或音频数据中学习强大的表征）的成功经验启发下，谷歌团队研究了传感器基础模型在计算、数据和模型大小方面的扩展特性。他们利用来自超过 16.5 万人的多达 4000 万小时的现场心率、心率变异性、皮肤电活动、加速度计、皮肤温度和高度计每分钟数据集，创建了 LSM 多模态基础模型，该模型建立在迄今为止最大的可穿戴信号数据集和最广泛的传感器模态基础之上。

研究结果确立了 LSM 在估算、内插法和外推法等任务中跨时间和跨传感器模式的 scaling laws。此外，他们还强调了 LSM 如何为运动和活动识别等任务提供具有采样效率的下游学习。

论文链接：

https://arxiv.org/abs/2410.13638

Meta 推出媒体生成基础模型 Movie Gen

Meta 团队推出了 Movie Gen，它是一种基础模型，可生成具有不同纵横比和同步音频的高质量 1080p 高清视频。他们还展示了其他功能，如基于指令的精确视频编辑和根据用户图像生成个性化视频。

他们的模型在文生视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成等多项任务上都达到了 SOTA。他们最大的视频生成模型是一个 30B 参数的 Transformer，其最大上下文长度为 73K video token，相当于以每秒 16 帧的速度生成 16 秒的视频。

他们展示了在架构、潜在空间、训练目标和数据整理、评估协议、并行化技术和推理优化等方面的多项技术创新，这使他们能够在训练大规模媒体生成模型时，从扩展预训练数据、模型大小和训练计算中获益。

论文链接：

https://arxiv.org/abs/2410.13720

项目地址：

https://www.youtube.com/playlist?list=PL86eLlsPNfyi27GSizYjinpYxp7gEl5K8

康奈尔大学团队：从交互中回溯学习

大语言模型（LLM）与用户之间的多轮交互自然包括隐式反馈信号。如果 LLM 对指令的响应出乎意料，用户很可能会通过重新措辞请求、表示沮丧或转向其他任务来发出信号。这些信号与任务无关，而且占据了一个相对有限的语言子空间，即使 LLM 在实际任务中失败了，它也能识别出这些信号。这就提供了一条无需额外标注即可从交互中不断学习的途径。

在这项工作中，康奈尔大学团队提出了 ReSpect，这是一种通过回溯从过去的交互中学习此类信号的方法。他们在一种新的多模态交互场景中部署了 ReSpect，在该场景中，人类指示 LLM 解决一个具有组合解空间的抽象推理任务。通过与人类的数千次交互，他们展示了 ReSpect 如何逐步将任务完成率从 31% 提高到 82%，而这一切都无需任何外部标注。

论文链接：

https://arxiv.org/abs/2410.13852

AgentOccam：基于 LLM 的网络智能体

通过使用大语言模型（LLM）执行个性化、标准化任务的智能体提高了人类的效率。网络任务（如在预算范围内预订酒店）的自动化越来越受到追捧。为满足实际需求，网络智能体也是各种智能体落地方案的重要概念验证范例，它的成功有望推动许多未来应用的发展。

先前的研究通常是手工制作网络智能体策略（如提示模板、多智能体系统、搜索方法等）和相应的上下文示例，这些策略和示例可能无法很好地推广到现实世界的所有场景。另一方面，关于网络智能体的观察/行动表征与其所基于的 LLM 的预训练数据之间不一致的研究还很有限。当 LLM 主要是为完成语言任务而非涉及具身导航动作和符号网络元素的任务而训练时，这种差异就尤为明显。

在这项工作中，亚马逊团队通过简单地改进其观察和行动空间，使其更好地与 LLM 的能力对齐，从而增强了基于 LLM 的网络智能体。这种方法使他们的基础智能体在各种网络任务中的表现明显优于以前的方法。

具体来说，在以通用网络交互任务为特色的基准测试 WebArena 上，他们的智能体 AgentOccam 分别以 9.8（+29.4%）和 5.9（+15.8%）的绝对优势超越了之前的 SOTA 和同时进行的工作，并通过观察和行动空间对齐将成功率提高了 26.6 个百分点（+161%）。他们在不使用上下文示例、新智能体角色、在线反馈或搜索策略的情况下实现了这一目标。AgentOccam 的简单设计凸显了 LLM 在网络任务中令人印象深刻的“零样本”性能，并强调了精心调整观察和行动空间对于基于 LLM 的智能体的关键作用。

论文链接：

https://arxiv.org/abs/2410.13825

MLLM 能否理解中文图像背后的深意？

随着多模态大语言模型（MLLM）能力的不断提高，对 MLLM 的高阶能力评估的需求也在不断增加。然而，目前还缺乏针对中文视觉内容的高阶感知和理解的 MLLM 评估工作。

为了填补这一空白，来自华中科技大学、中国科学院深圳先进技术研究院和 M-A-P 的研究团队提出了中文图像应用理解基准 CII-Bench，旨在评估 MLLM 对中文图像的高阶感知和理解能力。与现有的基准相比，CII-Bench 在几个方面都很突出。首先，为确保中文语境的真实性，CII-Bench 中的图片均来自中文互联网，并经过人工审核，相应的答案也由人工制作。此外，CII-Bench 还加入了代表中国传统文化的图片，如中国传统名画，这可以深刻反映模型对中国传统文化的理解。

通过在 CII-Bench 上对多个 MLLM 的广泛实验，他们取得了重大发现。首先，他们观察到 MLLM 与人类在 CII-Bench 上的表现存在巨大差距。MLLM 的最高准确率为 64.4%，而人类的平均准确率为 78.2%，最高达到 81.0%。随后，MLLMs 在中国传统文化图像上的表现较差，这表明它们在理解高层次语义方面存在局限性，并且缺乏对中国传统文化的深厚知识基础。最后，他们观察到，当在提示中加入图像情感提示时，大多数模型的准确率都有所提高。

论文链接：

https://arxiv.org/abs/2410.13854

可高效私密推理的纯 Softmax 大语言模型

专有语言模型的普及引发了对用户敏感数据隐私的担忧，从而强调了对私密推理（PI）的需求，即直接在加密输入上执行推理。然而，当前的 PI 方法面临着过高的通信和延迟开销，这主要是由于非线性操作造成的。

在这项工作中，纽约大学研究团队进行了全面分析，以了解非线性在基于 Transformer 的纯解码器语言模型中的作用。他们提出了 AERO，这是一个四步架构优化框架，通过系统性地去除 LayerNorm 和 GELU 等非线性因素并减少 FLOPs 数量，改进了现有的 LLM 架构，以实现高效的 PI。

他们首次提出了一种纯 Softmax 架构，它为高效 PI 量身定制，大大减少了 FLOPs。此外，他们还设计了一种新颖的熵正则化技术，以提高纯 Softmax 模型的性能。AERO 实现了高达 4.23 倍的通信量和 1.94 倍的延迟降低。他们将 AERO 与 SOTA 技术进行了对比，从而验证了它的有效性。

论文链接：

https://arxiv.org/abs/2410.13060

整理：李雯靖

如需转载或投稿，请直接在公众号内留言

点击「阅读原文」，查看“2024必读大模型论文”

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592474&idx=2&sn=b43988ec50e0d1148e58db66ab616ed5

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉