前沿论文分享20240618

文摘 2024-06-18 21:30 湖北

今天的论文分享了位置编码BiPE方法、基准指令数据集FOLLOWIR和处理时间序列的AutoTimes方法。

快来和小编一起学习吧！

Two Stones Hit One Bird: Bilevel Positional Encoding

for Better Length Extrapolation

arXiv2024

这篇文章利用语言序列的内在分段特性，设计了一种新的位置编码方法，称为双层位置编码（Bilevel Positional Encoding，简称BiPE）。对于每个位置，BiPE融合了段内编码和段间编码。段内编码通过绝对位置编码识别段内位置，帮助模型捕捉其中的语义信息。段间编码通过相对位置编码指定段的索引，建模段与段之间的关系，旨在提高外推能力。理论分析表明，这种位置信息的解耦使学习更加有效。实验证明，BiPE在各种文本模态的广泛任务中，具有优越的长度外推能力。

论文链接

https://arxiv.org/pdf/2401.16421v1

Pipeline

与标准位置编码相比，BiPE（双层编码器）使用段内和段间编码来区分位置。绝对位置编码作为段内编码添加到输入嵌入，相对位置编码（RoPE 和 ALiBi等）在Transformer 注意力模块中作为段间编码。

Experiments

实验结果显示，BiPE-RoPE 和 BiPE-ALiBi 表现出优于 RoPE 和 ALiBi 的性能，证明了 BiPE 在长上下文建模中的有效性。

FOLLOWIR: Evaluating and Teaching Information

Retrieval Models to Follow Instructions

arXiv2024

大型语言模型（LLMs）在理解复杂指令方面表现出色，并推动了信息检索（IR）领域的进展。传统的信息检索多依赖于简单的查询，而忽略了复杂信息需求的灵活处理。本文提出了FOLLOWIR，一个用于评估和教学信息检索中指令跟随能力的基准数据集。微调了Mistral-7B-Instructv0.2，在指令跟随能力上得到了显著的提高。本文详细对比了现有的相关工作，如MSMarco数据集，强调了FOLLOWIR在使用高评估率语料库、真实世界人类生成指令以及人类验证的相关性判断方面的优势。

论文链接

https://arxiv.org/pdf/2403.15246v1

Framework

论文从三个现有的 TREC 集合中构建 FOLLOWIR。在成对评估框架中，模型在原始查询和指令以及更改后的指令上进行评估。如果模型正确理解指令，它将改变与更改相关的文档。提供给 TREC 注释器的真实世界指令（左）包括有关相关性的细粒度细节，以及包含否定的指令（粗体）。

Experiments

p-MRR 是一种新的成对评估指标，用于测量指令变化时的指令跟随能力，范围从 -100 到 100（越高越好）。实验发现，唯一能够成功遵循指令的模型是大型模型（3B 参数）或未接受过检索任务训练的指令调整的 LLM，但利用FOLLOWIR数据集可以有效改善上述问题。

AutoTimes: Autoregressive Time Series Forecasters

via Large Language Models

arXiv2024

基于时间序列与自然语言相似的序列结构，越来越多的研究证明了利用大语言模型进行时间序列分析的可行性。然而，先前的方法可能忽略了时间序列和自然语言对齐的一致性，导致LLM潜力的利用不足。为了充分利用从语言建模中学习到的通用令牌转换，AutoTimes将LLM重新用作自回归时间序列预测器。分析表明，AutoTimes继承了LLM的零样本和上下文学习能力。AutoTimes具有显著的方法通用性，并通过基于更大的LLM、附加文本或时间序列作为指令来实现更好的性能。

论文链接

https://arxiv.org/pdf/2402.02370v1

Framework

AutoTimes可以在不改变任何参数的情况下重新利用 LLM，它将时间序列标记为 LLM 的嵌入空间，并有效地利用固有的标记转换来自回归预测时间序列。AutoTimes 建立了时间序列的标记化并利用了分段中的文本协变量，通过下一个标记预测的一致训练任务来完成。

Experiment

实验结果表明，AutoTimes 在 M4 → M3 和 M3 → M4 场景中零样本预测结果都表现出比之前的深度预测器和 FPT 更优异的性能。得益于目标域的时间序列提示，AutoTimes还增强了LLM 的上下文学习能力。

The End

VLRLab

分享者：曹振彪郑元雷王资洋

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉