清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

学术 2024-10-23 18:45 北京

今日值得关注的大模型前沿论文

清华、腾讯团队提出 MiniPLM：预训练语言模型的知识蒸馏框架
中科院团队通过自转向优化对齐大语言模型
LLM 支持多智能体集成方法，可实现高效的 EHR 数据标注‍
大语言模型赋能个性化网络智能体
新国大团队提出针对 LLM 的自学式反样本推理

想要第一时间获取每日最新大模型热门论文？
点击阅读原文，查看“2024必读大模型论文”

ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～

清华、腾讯团队提出 MiniPLM：预训练语言模型的知识蒸馏框架

知识蒸馏（KD）被广泛用于使用教师大语言模型训练高性能的学生小语言模型（LM）。在预训练过程中，知识蒸馏虽然能有效地进行微调，但在效率、灵活性和有效性方面却面临挑战。现有的方法要么会因在线教师推理而产生高昂的计算成本，要么需要在教师和学生的 LM 之间进行 tokenization 匹配，要么可能会失去教师生成的训练数据的难度和多样性。

为了解决这些问题，来自清华大学和腾讯公司的研究团队提出了 MiniPLM，这是一个通过利用教师知识完善训练数据分布来预训练 LM 的 KD 框架。为了提高效率，MiniPLM 执行离线教师 LM 推理，允许对多个学生 LM 进行 KD，而不增加训练时间成本。在灵活性方面，MiniPLM 仅在训练语料库上运行，从而实现跨模型族的 KD。在有效性方面，MiniPLM 利用大型 LM 和小型 LM 之间的差异，提高了训练数据的难度和多样性，帮助学生 LM 获得多方面的复杂知识。

大量实验证明，MiniPLM 提高了学生 LM 在 9 个广泛使用的下游任务中的表现，提高了语言建模能力，并减少了预训练计算量。MiniPLM 的优势可以扩展到更大的预训练规模，这一点可以从扩展曲线的推断中得到证明。进一步的分析表明，MiniPLM 支持跨模型族的 KD，并提高了预训练数据的利用率。

论文链接：

https://arxiv.org/abs/2410.17215

GitHub 地址：

https://github.com/thu-coai/MiniPLM

中科院团队通过自转向优化对齐大语言模型

自动对齐开发了只需最少人工干预的对齐系统。自动对齐的关键在于为偏好学习提供可学习的、准确的偏好信号，而无需人工标注。

在这项工作中，来自中国科学院的研究团队及其合作者提出了自转向优化（SSO），这是一种在迭代训练过程中根据预定义原则自主生成高质量偏好信号的算法，无需人工标注。SSO 通过确保被选择和被拒绝的响应之间保持一致的差距来保持信号的准确性，同时使它们都符合政策，以适应当前政策模型的学习能力。SSO 有利于策略模型的在线和离线训练，也能加强奖励模型的训练。

他们用两个基础模型 Qwen2 和 Llama3.1 验证了 SSO 的有效性，表明它能在整个迭代训练过程中提供准确的政策偏好信号。在没有任何人工标注或外部模型的情况下，SSO 在六项主观或客观基准测试中都取得了显著的性能提升。此外，SSO 生成的偏好数据显著提高了奖励模型在 Rewardbench 上的性能。

论文链接：

https://arxiv.org/abs/2410.17131

LLM 支持多智能体集成方法，可实现高效的 EHR 数据标注‍

得克萨斯大学西南医学中心研究团队提出了一种由 LLM 驱动的新型多智能体集合方法，以解决 ML 中的一个关键难题——数据标注，尤其是大规模 EHR 数据集中的数据标注。对此类数据集进行人工标注需要专业领域的知识，而且劳动密集、耗时、成本高且容易出错。为了克服这一瓶颈，他们开发了一种 LLM 组合方法，并在两个实际任务中证明了它的有效性：（1）在 MIMIC-IV 中标记大规模未标记心电图数据集；（2）从电子病历的临床记录中识别健康的社会决定因素（SDOH）。

在权衡收益和成本后，他们选择了一批性能令人满意的各种开源 LLM。他们将每个 LLM 的预测视为一票，并采用多数投票机制和最小获胜阈值进行集合。他们在电子病历数据标注任务中应用了集合 LLM。通过使用集合 LLM 和自然语言处理，他们对包含 623,566 份心电图报告的 MIMIC-IV 心电图数据集进行了标注，估计准确率为 98.2%。他们将集合 LLMs 方法用于从 1,405 份电子病历临床记录的社会历史部分中识别 SDOH，也取得了很好的效果。

实验表明，集合 LLM 可以超越单个 LLM，甚至是最好的商业 LLM，而且该方法可以减少幻觉错误。通过研究发现：(1) LLM 集合方法大大减少了大规模EHR数据标注所需的时间和精力，实现了高精度、高质量的自动化流程；(2) 该方法可以很好地推广到其他文本数据标注任务中，如其在SDOH识别中的应用所示；(3) 一组不同 LLM 的集合可以超越或匹配最佳单个 LLM 的性能；(4) 集合方法大大减少了幻觉错误。

论文链接：

https://arxiv.org/abs/2410.16543

大语言模型赋能个性化网络智能体

网络智能体已成为根据用户指令自动完成网络任务的一个有前途的方向，可显著提高用户体验。最近，网络智能体已从传统智能体发展到基于大语言模型（LLM）的网络智能体。尽管取得了成功，但现有的基于 LLM 的网络智能体忽视了个性化数据（如用户资料和历史网络行为）在帮助理解用户个性化指令和执行定制操作方面的重要性。

为了克服这一局限，来自新加坡国立大学和香港科技大学的研究团队及其合作者首先提出了由 LLM 驱动的个性化网络智能体的任务，即整合个性化数据和用户指令，实现指令理解和操作执行的个性化。为了解决缺乏综合评估基准的问题，他们构建了一个个性化网络智能体基准（PersonalWAB），其中包括用户指令、个性化用户数据、网络功能以及三种个性化网络任务的两种评估范式。

此外，他们还提出了个性化用户记忆增强对齐（PUMA）框架，以使 LLM 适应个性化网络智能体任务。PUMA 利用具有特定任务检索策略的记忆库来过滤相关的历史网络行为。然后，PUMA 根据这些行为，通过微调和直接偏好优化调整 LLM，以执行个性化操作。广泛的实验验证了 PUMA 在 PersonalWAB 上优于现有的网络智能体。

论文链接:

https://arxiv.org/abs/2410.17236

新国大团队提出针对 LLM 的自学式反样本推理

机器学习的关键组成部分是用于训练的数据样本、用于学习模式的模型以及用于优化准确性的损失函数。与此类似，反数据样本（或反样本）、反学习方法和反向损失函数也有可能实现反学习。虽然之前的研究已经探索了解除学习方法和反向损失函数，但反样本的潜力在很大程度上仍未得到开发。

在这项工作中，来自新加坡国立大学的研究团队及其合作者提出了 UnSTAR：针对大语言模型（LLM）的自学式反样本推理（Unlearning with Self-Taught Anti-Sample Reasoning）。

他们的贡献有三个方面：首先，他们提出了反样本诱导解除学习的新概念；其次，他们利用误导性推理生成反样本，这有助于逆转已学关联并加速解除学习过程；第三，他们实现了细粒度的定向解除学习，允许在不影响相关知识的情况下有选择性地删除特定关联——这是以前的工作无法实现的。

论文链接：

https://arxiv.org/abs/2410.17050

整理：李雯靖

如需转载或投稿，请直接在公众号内留言

点击「阅读原文」，查看“2024必读大模型论文”

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592582&idx=1&sn=ad4bb4977ea038b16393c5787e219669

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉