今日值得关注的大模型前沿论文
机器人「手转」钢笔,100% 成功率
AtomThink:用于多模态数学推理的慢思考框架
文继荣团队:通过奖励引导树搜索增强 LLM 推理
首个医学影像生成框架:疾病进展的精确、逼真和个性化模拟
扁仓中医大模型
AmoebaLLM:构建任意结构的 LLM,实现高效即时部署
ViBe:具有「幻觉视频」的大规模文生视频基准
想要第一时间获取每日最新大模型热门论文?
点击阅读原文,查看“2024必读大模型论文”
ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~
机器人「手转」钢笔,100% 成功率
对于软体机器人系统来说,手部动态操控仍然是一项极具挑战性的任务。软体机器人系统在安全柔性交互方面表现出优势,但在高速动态任务方面表现较差。
在这项工作中,卡内基梅隆大学团队提出了 SWIFT 系统,这是一个使用柔性机器人手学习动态任务的系统。与以往依赖模拟、准静态动作和精确物体模型的作品不同,该系统仅使用真实世界的数据,通过试错来学习旋转钢笔,而无需事先明确了解钢笔的物理属性。通过从真实世界采样的自标注试验,该系统发现了笔的抓取和旋转原始参数集,使软手能够鲁棒可靠地旋转钢笔。在对每个物体进行 130 次采样操作后,SWIFT 在三支具有不同重量和重量分布的笔上实现了 100% 的成功率,证明了该系统对物体属性变化的通用性和鲁棒性。
这些结果凸显了软体机器人末端执行器执行动态任务(包括快速手部操作)的潜力。他们还证明,SWIFT 可通用于旋转不同形状和重量的物品,例如一把刷子和一把螺丝刀,成功率分别为 10/10 和 5/10。
论文链接:
https://arxiv.org/abs/2411.12734
项目地址:
https://soft-spin.github.io/
AtomThink:用于多模态数学推理的慢思考框架
在这项工作中,来自中山大学、香港科技大学和上海交通大学的研究团队及其合作者,通过将“慢思维”能力纳入多模态大语言模型(MLLMs),解决了多模态数学推理这一具有挑战性的任务。
与现有的依赖直接或快思维的方法相反,他们的主要想法是以 step-by-step 的方式构建由原子动作组成的长思维链(CoT),引导 MLLMs 执行复杂的推理。为此,他们设计了一个新颖的 AtomThink 框架,该框架由三个关键模块组成:(1)CoT 标注引擎,可自动生成高质量的 CoT 标注,以解决缺乏高质量可视化数学数据的问题;(2)原子步骤微调策略,可联合优化 MLLM 和策略奖励模型(PRM),以实现分步推理;(3)四种不同的搜索策略,可与 PRM 一起用于完成推理。
此外,他们还提出了 AtomMATH,一个大规模长 CoT 多模态数据集,和数学任务的原子能力评估指标。广泛的实验结果表明,所提出的 AtomThink 显著提高了基准 MLLM 的性能,在 MathVista 上实现了约 50% 的相对准确率提升,在 MathVerse 上实现了 120% 的相对准确率提升。
论文链接:
https://arxiv.org/abs/2411.11930
GitHub 地址:
https://github.com/Quinn777/AtomThink
文继荣团队:通过奖励引导树搜索增强 LLM 推理
最近,由于 OpenAI 发布的 o1 模型,测试时(test-time)扩展引起了研究界的极大关注。通过在推理阶段分配更多的计算资源,大语言模型(LLM)可以通过生成更多的思维 token 或多样化的解决方案来广泛探索解决方案空间,从而产生更准确的响应。然而,开发类似于 o1 的推理方法极具挑战性,研究人员一直在为推进这一开放研究领域做出各种尝试。
在这项工作中,来自中国人民大学的研究团队及其合作者对通过奖励引导树搜索算法增强 LLM 的推理能力进行了初步探索。该框架通过整合策略模型、奖励模型和搜索算法来实现。它主要是围绕树搜索算法构建的,其中策略模型在经过专门训练的奖励模型的引导下导航动态扩展的树。
他们深入探讨了实施这一框架所需的各种设计考虑因素,并提供了技术方面的详细报告。为了评估他们们方法的有效性,他们将重点放在数学推理任务上,并在四个具有挑战性的数据集上进行了广泛的评估,从而大大提高了 LLM 的推理能力。
论文链接:
https://arxiv.org/abs/2411.11694
首个医学影像生成框架:疾病进展的精确、逼真和个性化模拟
疾病进展建模对于提高临床诊断和预后的质量和效果至关重要,但由于缺乏对个体患者的纵向医学影像监测,建模工作往往受到阻碍。
为了应对这一挑战,来自伊利诺伊大学厄巴纳-香槟分校的研究团队及其合作者提出了首个医学影像生成(MVG)框架,该框架可对与疾病相关的图像和视频特征进行可控操作,从而对疾病进展进行精确、逼真和个性化的模拟。他们首先利用大语言模型(LLMs)重新捕捉疾病轨迹提示。接着,一个可控的多轮扩散模型模拟每个患者的疾病进展状态,创建逼真的中间疾病状态序列。最后,基于扩散的视频转换生成模型在这些状态之间插值疾病进展。
他们在胸部 X 光、眼底摄影和皮肤图像医学成像领域验证了这一框架。结果表明,MVG 在生成连贯、临床上合理的疾病轨迹方面明显优于基线模型。由资深医生进行的两项用户研究进一步验证和深入了解了生成序列的临床实用性。MVG 有可能帮助医疗服务提供者建立疾病轨迹模型,对缺失的医学影像数据进行插值,并通过逼真、动态的疾病进展可视化来加强医学教育。
论文链接:
https://arxiv.org/abs/2411.11943
扁仓中医大模型
大语言模型(LLM)推动了包括中医在内的医疗应用领域的重大进展。然而,由于中医理论与现代医学理论之间的巨大差异,以及专业、高质量语料库的稀缺,目前的医学 LLM 在中医诊断和综合征鉴别方面表现一般。
为了应对这些挑战,齐鲁工业大学的研究团队及其合作者提出了“扁仓中医大模型”,该模型采用两阶段训练过程,首先注入特定领域的知识,然后进行对齐。为了提高诊断和分辨能力,他们构建了预训练语料库、基于真实医院病历的指令对齐数据集,以及 ChP-TCM 数据集。
他们汇编了大量的中医和医疗语料,用于持续的预训练和监督微调,建立了一个全面的数据集,以完善模型对中医的理解。涉及 29 个模型和 4 个任务的 11 个测试集的评估证明了扁仓的有效性,为未来研究提供了宝贵的见解。
论文链接:
https://arxiv.org/abs/2411.11027
GitHub地址:
https://github.com/QLU-NLP/BianCang
AmoebaLLM:构建任意结构的 LLM,实现高效即时部署
人们越来越需要在各种现实世界的应用和平台中有效地部署大语言模型(LLM)。然而,由于特定应用对性能的要求各不相同,计算平台也在快速发展,资源限制和部署流程也各不相同,因此有效部署 LLM 的挑战变得日益突出。这些不同的要求要求 LLM 能够调整其结构(深度和宽度),以便在不同的平台和应用规范中实现最佳效率。
为了解决这一关键差距,乔治亚理工学院团队提出了 AmoebaLLM 框架,旨在即时推导出任意结构特征的 LLM 子网,这些子网达到了极高的精度-效率,并可在一次性微调后立即提炼。通过这种方式,AmoebaLLM 促进了针对各种平台和应用的快速部署。
具体来说,AmoebaLLM 集成了三个创新组件:(1)知识保护子网选择策略,该策略的特点是采用动态编程方法进行深度缩减,采用重要性驱动方法进行宽度缩减;(2)LoRA 的形状感知混合物,可在微调过程中缓解子网之间的梯度冲突;以及(3)以损失-幅度平衡为微调目标的本地蒸馏方案。广泛的实验验证,AmoebaLLM 不仅在 LLM 适应性方面树立了新标准,而且还成功地提供了在精度和效率之间实现 SOTA 权衡的子网。
论文链接:
https://arxiv.org/abs/2411.10606
ViBe:具有「幻觉视频」的大规模文生视频基准
大型多模态模型(LMM)的最新发展将其功能扩展到了视频理解。具体来说,文生视频(T2V)模型在质量、理解力和持续时间方面取得了显著进步,在根据简单的文本提示创建视频方面表现出色。然而,它们仍然经常产生幻觉内容,而这些幻觉内容明显表明视频是人工智能生成的。
来自南卡罗莱纳大学、古鲁大学、韦洛尔科技大学、印度理工学院、马萨诸塞大学阿默斯特分校的研究团队及其合作者提出了一个大规模的文生视频基准 ViBe,其中包含来自 T2V 模型的幻觉视频。他们确定了五种主要的幻觉类型:消失的主体、数字变异、时间畸变、遗漏错误和物理不协调。利用 10 个开源 T2V 模型,他们开发了首个大规模幻觉视频数据集,其中包括 3782 个由人类标注为这五个类别的视频。
ViBe 为评估 T2V 模型的可靠性提供了独特的资源,并为改进视频生成中的幻觉检测和缓解奠定了基础。他们将分类作为基线,并提出了各种组合分类器配置,其中 TimeSFormer + CNN 组合性能最佳,准确率达到 0.345,F1 分数达到 0.342。该基准旨在推动鲁棒的 T2V 模型的开发,使生成的视频更准确地与输入提示保持一致。
论文链接:
https://arxiv.org/abs/2411.10867
整理:李雯靖
如需转载或投稿,请直接在公众号内留言