Big Model weekly | 第44期

文摘   2024-11-09 10:01   北京  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

nextlocllm: next location prediction using LLMs

下一个位置预测是人类移动性分析中的关键任务,也是各种下游应用的基础。现有方法通常依赖于离散ID来表示位置,这在本质上忽视了空间关系,并且无法跨城市泛化。在本研究中,作者提出了NextLocLLM,它利用了大型语言模型(LLMs)在处理自然语言描述方面的优势及其在下一个位置预测中的强大的泛化能力。具体来说,NextLocLLM不是使用ID,而是基于连续的空间坐标对位置进行编码,以更好地模拟空间关系。这些坐标进一步标准化,以实现稳健的跨城市泛化。NextLocLLM的另一个亮点是其LLM增强的POI嵌入。它利用LLMs将每个POI类别的自然语言描述编码成嵌入的能力。然后通过非线性投影整合这些嵌入,形成LLM增强的POI嵌入,有效地捕获位置的功能属性。此外,任务和数据提示前缀,以及轨迹嵌入,被作为部分冻结的LLM主干的输入。NextLocLLM进一步引入了预测检索模块,以确保预测中的结构一致性。实验表明,NextLocLLM在下一个位置预测方面超越了现有模型,在监督和零样本设置中均表现出色。






文章链接:

https://arxiv.org/pdf/2410.09129

02

LLM\timesMapReduce: Simplified Long-Sequence Processing using Large Language Models

扩大大型语言模型(LLMs)的上下文窗口已成为一个关键研究领域,特别是对于涉及极长文本的应用。在本研究中,作者提出了一个无需训练的新颖框架,用于处理长文本,采用分而治之的策略实现全面文档理解。提出的LLM×MapReduce框架将整个文档分割成几个部分,供LLMs阅读,然后聚合中间答案以产生最终输出。分而治之的长文本处理框架面临的主要挑战在于,在分割文档时可能会丢失重要的长距离信息,这可能导致模型基于分割后的文本产生不完整或不正确的答案。中断的长距离信息可以分为两类:块间依赖和块间冲突。作者设计了一个结构化信息协议来更好地应对块间依赖,并设计了一个上下文信心校准机制来解决块间冲突。实验结果表明,LLM×MapReduce可以超越代表性的开源和商业长上下文LLMs,并且适用于几种不同的模型。






文章链接:

https://arxiv.org/pdf/2410.09342

03

Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning

在大型语言模型(LLMs)中进行准确的数学推理对于革新那些严重依赖此类推理的领域至关重要。然而,LLMs在数学推理的某些方面经常遇到困难,导致推理错误和结果错误。为了减轻这些问题,本文引入了一种名为链式自我修正(Chain of Self-Correction,CoSC)的新型机制,该机制专门设计为在LLMs中嵌入自我修正作为一种固有能力,使它们能够验证并纠正自己的结果。CoSC机制通过一系列自我修正阶段运作。在每个阶段,LLMs生成一个程序来解决给定问题,使用基于程序的工具执行该程序以获得输出,随后验证此输出。根据验证结果,LLMs要么进入下一个修正阶段,要么最终确定答案。这种迭代的自我修正过程允许LLMs完善它们的推理步骤,并提高它们的数学推理准确性。为了以低成本启用CoSC机制,本文采用了两阶段微调方法。在第一阶段,LLMs使用由GPT-4生成的相对较小的种子数据集进行训练,建立初始的CoSC能力。在第二阶段,通过使用第一阶段训练的模型生成的更大量的自我生成数据进行训练,进一步增强CoSC能力,而不再依赖付费的GPT-4。作者的综合实验表明,CoSC在现有的开源LLMs中显著提高了传统数学数据集上的性能。值得注意的是,作者的CoSC-Code-34B模型在MATH数据集上取得了53.5%的分数,这是公共领域中最具有挑战性的数学推理数据集,超越了ChatGPT、GPT-4等成熟模型,甚至超越了GPT-4V、Gemini-1.0 Pro和Gemini-1.0 Ultra等多模态LLMs的性能。需要注意的是,与这些专有模型不同,作者的CoSC以零样本的方式进行推理,无需示例。据作者所知,这是文献中首次将自我修正嵌入大型语言模型作为固有能力,并实现了显著的性能提升。






文章链接:

https://arxiv.org/pdf/2410.10735

04

Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

随着大型语言模型迅速发展以支持更长的上下文,它们在生成更长输出方面的能力存在显著差异。最近的研究表明,这种不平衡的主要原因可能源于在对齐训练期间缺乏长输出数据。鉴于这一观察,人们尝试使用填补这一空白的数据重新对基础模型进行对齐,从而得到能够在受到指令时生成长篇输出的模型。在本文中,作者探讨了在调整模型以生成长输出时数据质量的影响,以及从人类对齐(指令或聊天)模型的起点进行此类调整的可能性。通过精心策划数据,作者展示了在调整后的模型中,仅使用一小部分(3.74%)的训练数据实例和计算资源,就能实现类似的性能提升。此外,作者通过将调整方法应用于多个模型,评估了这些方法的普适性。研究发现,尽管不同模型在开箱即用时生成长输出的能力各不相同,但作者使用高质量数据和轻量级计算资源调整它们的方法,在所有实验过的模型中都能一致地带来显著的改进。






文章链接:

https://arxiv.org/pdf/2410.10210

05

Adapt-\infty: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection

来自不同发行商的视觉指令数据集在不同时间发布,通常包含大量语义上冗余的文本-图像对,这取决于它们的任务组成或参考来源。这种冗余极大地限制了终身可适应的多模态大型语言模型的有效部署,阻碍了它们随着时间改进现有技能和获取新能力的能力。为了解决这个问题,本文通过数据选择重新定义了终身指令调整(Lifelong Instruction Tuning,LiIT)的问题,模型自动选择从早期和新数据集中学习有益的样本,基于模型当前获得的知识状态。基于实证分析,表明使用静态重要性度量选择最佳数据子集对于具有演变分布的多任务数据集通常是无效的,作者提出了Adapt-∞,一种新的多向和自适应数据选择方法,它在LiIT期间动态平衡样本效率和有效性。首先,作者通过将基于梯度的样本向量分组来构建伪技能聚类。接下来,作者从选择专家池中为每个技能聚类选择表现最佳的数据选择器,包括作者新提出的评分函数,即图像定位得分。这个数据选择器从每个技能聚类中抽取最重要的样本子集进行训练。为了防止在LiIT期间数据集池的持续增长,这将导致过度的计算,作者进一步引入了一种聚类式永久数据修剪策略,从每个聚类中移除语义上最冗余的样本,保持计算需求可控。作者在一系列不同的多模态指令调整数据集上验证了Adapt-∞的有效性和效率,这些数据集涵盖了各种任务,包括(知识)视觉问答、多语言、定位、推理、仅语言和多图像理解任务。使用Adapt-∞选择的样本进行训练,减轻了灾难性遗忘,特别是对于罕见任务,并在使用原始数据集的一小部分的情况下,促进了整个连续体的正向迁移。





文章链接:

https://arxiv.org/pdf/2410.10636

06

Self-Data Distillation for Recovering Quality in Pruned Large Language Models

大型语言模型在自然语言处理方面取得了显著进展,但其部署需要大量的计算和内存资源。随着模型规模的扩大,压缩技术成为平衡模型质量和计算效率的重要手段。结构化剪枝,即移除模型中不太关键的部分,是一种减少复杂度的有前途的策略。然而,一次性剪枝常常导致显著的质量下降,特别是在需要多步推理的任务中。为了恢复丢失的质量,通常应用有监督的微调(SFT),但这可能导致模型学习的数据分布发生偏移,从而引发灾难性遗忘。因此,解决剪枝和SFT导致的退化对于保持原始模型的质量至关重要。在本研究中,作者提出了自我数据蒸馏微调来应对这些挑战。本方法利用原始的、未剪枝的模型生成一个保持语义丰富度的蒸馏数据集,并通过与基础模型的知识保持一致来减轻灾难性遗忘。从实证结果来看,自我数据蒸馏在提高平均准确率方面一贯优于标准的SFT,在HuggingFace OpenLLM Leaderboard v1上提高了高达8%的准确率。具体来说,当对Llama3.1-8B Instruct(即从32层减少到26层,将模型大小从8.03B减少到6.72B参数)进行6个解码器块的剪枝时,本方法保留了原始模型准确率的91.2%,而SFT仅为81.7%,同时将实际世界的FLOPs减少了16.30%。此外,本方法在不同数据集上有效扩展,随着数据集规模的增加,质量也得到提升。








文章链接:

https://arxiv.org/pdf/2410.09982

07

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

理解细粒度的时间动态对于多模态视频理解和生成至关重要。由于缺乏细粒度的时间注释,现有的视频基准测试大多类似于静态图像基准测试,无法有效评估模型对时间理解的能力。在本研究中,作者介绍了TemporalBench,这是一个新的基准测试,专门用于评估视频中细粒度时间理解。TemporalBench包含约10K个视频问题-答案对,源自约2K个高质量的人类注释,详细描述了视频剪辑中的时间动态。因此,该基准测试提供了一个独特的测试平台,用于评估各种时间理解和推理能力,如动作频率、运动幅度、事件顺序等。此外,它还支持对各种任务的评估,包括视频问答和字幕生成,短视频和长视频理解,以及不同类型的模型,如多模态视频嵌入模型和文本生成模型。结果表明,像GPT-4o这样的最先进模型在TemporalBench上的问题回答准确率仅为38.5%,显示出人类和AI在时间理解方面存在显著差距(约30%)。此外,作者注意到多项选择问答中一个严重的陷阱,其中LLMs可以检测到负面字幕中的微妙变化,并找到一个“集中化”的描述作为其预测的线索,对此作者提出了多重二元准确率(Multiple Binary Accuracy,MBA)来纠正这种偏见。作者希望TemporalBench能够促进研究,提高模型的时间推理能力。






文章链接:

https://arxiv.org/pdf/2410.10818

本期文章由陈研整理


往期精彩文章推荐




 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言


点击 阅读原文 查看更多!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章