点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
01
Baichuan-Omni Technical Report
GPT-4o的显著多模态能力和交互体验突出了其在实际应用中的关键作用,但它缺乏一个表现出色的开源对应物。在本研究中,作者介绍了Baichuan-Omni,这是第一个开源的7B多模态大型语言模型(MLLM),擅长同时处理和分析图像、视频、音频和文本的模态,并提供先进的多模态交互体验和强大的性能。作者提出了一个有效的多模态训练架构,从7B模型开始,经过两个阶段的多模态对齐和跨音频、图像、视频和文本模态的多任务微调。这种方法使语言模型能够有效处理视觉和音频数据。在各种全模态和多模态基准测试中展现出强大的性能,作者希望这一贡献能够作为开源社区推进多模态理解和实时交互的有力基线。
文章链接:
https://arxiv.org/pdf/2410.08565
02
On the token distance modeling ability of higher RoPE attention dimension
基于旋转位置嵌入(RoPE)的长度外推算法在扩展语言模型的上下文长度方面显示出了有希望的结果。然而,理解位置嵌入如何捕捉更长距离的上下文信息仍然是一个未解之谜。基于不同维度对应于RoPE编码中不同变化频率的直觉,本研究进行了维度级别的分析,以调查注意力头的隐藏维度与其在捕捉长距离依赖性方面的贡献之间的相关性。使用本研究的相关性度量,作者从各种长度外推模型中识别出一种特殊的注意力头,将其命名为位置头。这些头对长距离信息交互表现出强烈的关注,并在长输入处理中发挥关键作用,这一点通过作者的消融实验得到了证明。作者进一步展示了长度外推效率与这些头的高维注意力分配扩展之间的相关性。位置头的识别为未来长文本理解的研究提供了洞见。
文章链接:
https://arxiv.org/pdf/2410.08703
03
Mentor-KD: Making Small Language Models Better Multi-step Reasoners
大型语言模型(LLMs)通过利用思维链(Chain-of-Thought,CoT)提示,在各种复杂任务中表现出了显著的性能。最近,研究提出了一种知识蒸馏(Knowledge Distillation,KD)方法,即推理蒸馏,通过微调语言模型来转移由LLM教师模型生成的多步推理的语言模型的推理能力。然而,他们没有充分考虑两个挑战,即LLM教师模型提供的蒸馏集不足,涉及1)数据质量,和2)软标签提供。在本研究中,作者提出了Mentor-KD,它在解决上述挑战的同时有效地将LLMs的多步推理能力蒸馏到较小的LMs中。具体来说,作者利用一个导师,即中等大小的特定任务微调模型,在推理蒸馏期间为学生模型增加额外的CoT注释并提供软标签。作者进行了广泛的实验,并确认了Mentor-KD在各种模型和复杂推理任务中的有效性。
文章链接:
https://arxiv.org/pdf/2410.09037
04
Generation with Dynamic Vocabulary
本文介绍了一种新的动态词汇表,用于语言模型。它在生成过程中可以包含任意的文本跨度。这些文本跨度充当基本的生成单元,类似于传统静态词汇表中的标记。研究表明,能够原子性地生成多标记的能力可以同时提高生成质量和效率(与标准语言模型相比,MAUVE指标提高了25%,延迟减少了20%)。动态词汇表可以以即插即用的方式部署,因此对各种下游应用具有吸引力。例如,本文展示了动态词汇表可以无需训练地应用于不同领域。它还有助于在问答任务中生成可靠的引用(在不牺牲答案准确性的情况下显著增强引用结果)。
文章链接:
https://arxiv.org/pdf/2410.08481
05
Decoding Secret Memorization in Code LLMs Through Token-Level Characterization
代码大型语言模型(LLMs)在生成、理解和操作编程代码方面展现出了显著的能力。然而,它们的训练过程无意中导致了敏感信息的记忆,带来了严重的隐私风险。关于LLMs记忆中存在的研究主要依赖于提示工程技术,这些技术存在诸如广泛幻觉和低效提取目标敏感信息等局限性。在本研究中,作者提出了一种新的方法,基于标记概率对代码LLMs生成的真实和虚假秘密进行特征化。作者识别出四个关键特征,这些特征可以区分真实的秘密和幻觉的秘密,为区分真实和虚假的秘密提供了洞见。为了克服现有工作的局限性,作者提出了DESEC,这是一种分两个阶段的方法,利用从识别出的特征中衍生出的标记级特征来指导标记解码过程。DESEC包括使用代理代码LLM构建离线标记评分模型,并使用该评分模型通过重新分配标记可能性来指导解码过程。通过对四种最先进的代码LLMs进行广泛实验,使用多样化的数据集,作者证明了DESEC在实现更高可信率和提取更多真实秘密方面相比现有基线的优越性能。本研究的发现强调了作者的标记级方法在使对代码LLMs相关的隐私泄露风险进行广泛评估方面的有效性。
文章链接:
https://arxiv.org/pdf/2410.08858
06
Agents Thinking Fast and Slow: A Talker-Reasoner Architecture
大型语言模型使得各种代理能够通过自然对话与用户互动。因此,代理现在有了两个任务:对话和规划/推理。它们的对话回应必须基于所有可用信息,它们的行动必须有助于实现目标。与用户对话和进行多步推理和规划之间的这种二分法,可以看作类似于卡尼曼所介绍的人类“快速思考和慢速思考”系统。在本研究中,作者提出了一个由“谈话者”代理(系统1)组成的方法,它快速且直观,负责合成对话回应;以及一个“推理者”代理(系统2),它更慢、更审慎、更逻辑,负责多步推理和规划,调用工具,执行世界上的行动,从而产生新的代理状态。作者描述了新的谈话者-推理者架构,并讨论了它的优势,包括模块化和降低延迟。作者将讨论置于睡眠辅导代理的背景下,以展示现实世界的关联性。
文章链接:
https://arxiv.org/pdf/2410.08328
07
ElasticTok: Adaptive Tokenization for Image and Video
高效的视频Token化仍然是学习能够处理长视频序列的通用视觉模型的关键瓶颈。现有的方法受限于将视频编码为固定数量的Token,其中太少的Token会导致过于有损的编码,而太多的令牌则会导致过长序列长度。在本研究中,作者介绍了ElasticTok,一种根据先前帧自适应编码帧为可变数量令牌的方法。为了以计算上可扩展的方式实现这一点,作者提出了一种掩蔽技术,在每帧的令牌编码末尾丢弃随机数量的令牌。在推理过程中,ElasticTok可以动态分配所需Token——更复杂的数据可以利用更多Token,而更简单的数据只需要少量Token。作者在图像和视频上的实证评估证明了这种方法在高效Token使用方面的有效性,为未来更强大的多模态模型、世界模型和代理的发展铺平了道路。
文章链接:
https://arxiv.org/pdf/2410.08368
本期文章由陈研整理
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
提出观点,表达想法,欢迎
点击 阅读原文 查看更多!