Mini-Omni 发布!语言模型能听、说也能实时思考!通过批判链式思维提升大模型的推理能力 | 大模型在代码生成任务评估综述

文摘   2024-08-30 16:59   广东  

前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、视觉语言模型、基准测试的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. Mini-Omni:语言模型能听、说也能实时思考

  标题:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

  相关领域:模型结构改进、多模态

  作者:Zhifei Xie,  Changqiao Wu

  分析:这篇论文提出了一种基于音频的端到端对话模型Mini-Omni,能够实现实时语音交互。它通过文本指导的语音生成方法和批量并行推理策略,在不降低原有语言模型能力的前提下,实现了实时语音交互的能力。此外,论文还介绍了用于优化语音输出的VoiceAssistant-400K数据集。

  地址:https://arxiv.org/pdf/2408.16725


2. Critic-CoT:通过链式思维批判提升大模型的推理能力

  标题:Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic

  相关领域:模型评估、数据集构建、奖励模型

  作者:Xin Zheng,  Jie Lou,  Boxi Cao

  分析:这篇论文提出了Critic-CoT框架,旨在通过逐步的链式思维推理和远程监督数据构建来提升大型语言模型(LLM)的批判能力,从而增强其推理性能。当前方法通常只是简单使用基本提示,而未进行进一步训练,导致准确率有限。论文通过实验证明了该方法能够在过滤无效解决方案或通过迭代精炼来提高任务解决性能。研究旨在通过训练对批判和精炼的反馈来提升LLM的生成能力。

  地址:https://arxiv.org/pdf/2408.16326


3. 大模型在生成高质量代码方面的评估

  标题:Examination of Code generated by Large Language Models

  机构:科隆莱茵应用技术大学

  相关领域:自然语言处理、机器学习、数据建模

  作者:Robin Beer,  Alexander Feix,  Tim Guttzeit

  分析:大型语言模型(LLMs),如ChatGPT和Copilot,正在改变软件开发方式,通过自动化代码生成,或许能够实现快速原型设计,支持教育,并提高生产力。因此,生成的代码的准确性应与人工编写的代码相媲美。本论文对LLMs在生成高质量正确代码方面的情况进行了评估:该论文让ChatGPT和Copilot生成Java和Python的简单算法,并对应生成相应的单元测试,评估生成的(测试)代码的正确性和质量(覆盖率)。该论文观察到了LLMs之间,语言之间,算法和测试代码之间以及时间变化之间的显著差异。本论文报告了这些结果以及实验方法,以便在未来对更多的算法、语言和LLM进行重复和可比的评估。

  地址:https://arxiv.org/pdf/2408.16601


4. 粤语NLP能走多远?大模型粤语能力的基准测试

  标题:How Far Can Cantonese NLP Go? Benchmarking Cantonese Capabilities of Large Language Models

  机构:香港大学、香港中文大学

  相关领域:模型评估、数据集构建

  作者:Jiyue Jiang,  Liheng Chen,  Pengan Chen

  分析:本文关注粤语自然语言处理的发展状况,特别是在大语言模型方面的应用。文章指出,虽然粤语有庞大的使用人群,但在NLP研究中却鲜有涉及。文章旨在建立新的基准测试,以评估大语言模型在粤语方面的表现,包括事实生成、数学逻辑、复杂推理和通用知识等方面。同时,文章也提出了未来的研究方向和推荐的模型,以推动粤语大语言模型的发展。

  地址:https://arxiv.org/pdf/2408.16756


5. CogVLM2:视觉语言模型

  标题:CogVLM2: Visual Language Models for Image and Video Understanding

  机构:清华大学

  相关领域:视觉语言模型、图像理解、视频理解

  作者:Wenyi Hong,  Weihan Wang,  Ming Ding

  分析:CogVLM2是一种新的视觉语言模型,旨在提高图像和视频理解的能力。它继承了VisualGLM和CogVLM的视觉专家架构,并进行了改进。作为图像理解模型,CogVLM2在预训练和后训练阶段都有优化的训练食谱,支持高达$1344 imes 1344$像素的输入分辨率。作为视频理解模型,CogVLM2-Video集成了多帧输入和时间戳,并提出了自动构建时间基底数据的方法。该系列模型已在多个基准测试上实现了最先进的结果。

  地址:https://arxiv.org/pdf/2408.16500

  代码:https://github.com/THUDM/CogVLM2; https://github.com/THUDM/CogVLM2,


6. 大模型在代码生成任务中的评估综述

  标题:A Survey on Evaluating Large Language Models in Code Generation Tasks

  机构:北京大学、微软亚洲研究院

  相关领域:机器学习

  作者:Liguo Chen,  Qi Guo,  Hongrui Jia

  分析:本文对当前用于评估大语言模型(LLMs)在代码生成任务中性能的方法和指标进行了综合阐述。随着自动化软件开发需求的迅速增长,LLMs在代码生成领域表现出巨大的潜力。文章首先概述了LLMs的历史发展及其在代码生成中的应用。接着详细解析了评估LLMs代码生成能力的方法和指标,包括代码正确性、效率、可读性以及基于专家评审和用户体验的评估方法。文章还考察了广泛使用的基准数据集,识别出其局限性并提出改进方向。具体而言,文章通过结合多个评价指标,如代码编译/解释成功率、单元测试通过率、性能和效率指标,来全面评估LLMs在代码生成任务中的应用实际效果。此外,文章还讨论了在评估LLMs代码生成过程中面临的挑战,如确保评价方法全面和准确以及适应软件开发变化的实践。这些分析与讨论为优化和提升LLMs在代码生成任务中的应用提供了宝贵见解。

  地址:https://arxiv.org/pdf/2408.16498


7. Smaller, Weaker, Yet Better:通过计算最优采样训练LLM推理器

  标题:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

  机构:加州大学、Google DeepMind

  相关领域:模型蒸馏、数据集构建

  作者:Hritik Bansal,  Arian Hosseini,  Rishabh Agarwal

  分析:本文探讨了在高质量合成数据训练下,强化语言模型(SE)与弱化语言模型(WC)在不同计算预算下的训练策略。研究发现,虽然WC模型产生的数据具有更高的覆盖率和多样性,但同时也存在较高的误报率。通过在不同的训练场景下(如知识蒸馏、自我改进和弱到强训练设置)对模型进行微调,结果显示使用WC数据生成的模型在多个基准测试中表现优于使用SE数据生成的模型。这一发现挑战了传统依赖SE模型生成合成数据的做法。

  地址:https://arxiv.org/pdf/2408.16737


8. WavTokenizer:音频语言模型中的高效声学离散码字分词器

  标题:WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

  机构:浙江大学、FAIR、阿里巴巴集团

  作者:Shengpeng Ji,  Ziyue Jiang,  Xize Cheng

  分析:这篇论文主要介绍了一种名为WavTokenizer的音频语言模型中的高效声学离散码字分词器。它在音频领域相较于先前的最先进模型具有几个优点:1)极高的压缩比,通过压缩量化器和离散码字的时间维度,24kHz采样率的一秒音频只需一个具有40或75个标记的量化器。2)改进的主观质量,尽管标记数量减少,但WavTokenizer在重建质量上实现了最先进的水平,并且内在包含更丰富的语义信息。为了实现这些结果,作者设计了一个更广泛的VQ空间,扩展了上下文窗口,并改进了注意力网络,引入了一个强大的多尺度判别器和一种逆傅里叶变换结构。他们在语音、音频和音乐等领域进行了广泛的重建实验,WavTokenizer在各种客观和主观指标上与最先进的模型相比表现出强大的性能。他们还测试了语义信息、VQ利用率和生成模型的适应性。全面的消融研究证实了WavTokenizer中每个模块的必要性。相关代码、演示和预训练模型可以在https://github.com/jishengpeng/WavTokenizer找到。

  地址:https://arxiv.org/pdf/2408.16532

  代码:https://github.com/jishengpeng/WavTokenizer


9. 语言模型在解决小学数学问题上的错误纠正

  标题:Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

  机构:FAIR、MBZUAI大学

  相关领域:预训练

  作者:Tian Ye,  Zicheng Xu,  Yuanzhi Li

  分析:这篇论文主要探讨了如何通过直接在预训练阶段使用包含错误纠正步骤的数据来提高语言模型在解决推理任务中的准确性。这种数据集由错误的解题步骤紧接着其纠正步骤组成。使用合成的数学数据集进行实验,结果显示,与只使用无错误数据进行预训练相比,使用包含错误纠正步骤的数据可以直接提高语言模型的推理准确性(即,通过简单的自动回归,而无需多轮提示)。此外,论文还详细讨论了许多相关问题,如这种方法与束搜索的区别、如何准备此类数据、是否需要对错误标记进行遮盖、所需的错误量以及此类数据是否可以推迟到微调阶段等。

  地址:https://arxiv.org/pdf/2408.16293


10. 数据格式化器2:使用AI迭代创建丰富的可视化

  标题:Data Formulator 2: Iteratively Creating Rich Visualizations with AI

  机构:微软研究院

  作者:Chenglong Wang,  Bongshin Lee,  Steven Drucker

  分析:为了创建丰富的可视化,数据分析师通常需要在数据处理和图表规范之间来回迭代,以实现他们的目标。然而,最近的LLM驱动的AI系统已经大大改进了可视化创作体验,例如通过LLM的代码生成能力来缓解手动数据转换障碍。但是,这些系统对于迭代可视化创作并不适用,因为它们通常需要用户在一个回合中提供完全描述要执行的复杂可视化任务的纯文本提示,这在许多情况下对用户和模型来说都是不现实的。本文提出了一种名为数据格式化器2的LLM驱动的可视化系统,旨在解决这些挑战。数据格式化器2允许用户通过混合UI和自然语言输入描述他们的可视化意图,并将数据转换委托给AI。为了支持迭代,数据格式化器2让用户导航他们的迭代历史记录并重用以前的设计来创建新的设计,这样他们就不必每次都从头开始。在一项与八名参与者的用户研究中,该论文观察到数据格式化器2使参与者能够制定自己的迭代策略来完成具有挑战性的数据分析会话。

  地址:https://arxiv.org/pdf/2408.16119


11. 大规模合成文档检索测试集

   标题:SynDL: A Large-Scale Synthetic Test Collection

   机构:微软、伦敦大学、谢菲尔德大学

   作者:Hossein A. Rahmani,  Xi Wang,  Emine Yilmaz

   分析:大规模测试集在信息检索研究中起着关键作用。然而,根据Mergentia和已公开数据集的研究,现有的信息检索研究多基于小型数据集,依赖人工评估者进行相关性判断,这是一个费时费力且昂贵的过程。最近的研究表明,大型语言模型具备与人类评估者相当但成本极大的可靠相关性判断能力。在这篇论文中,该论文通过增加语言模型的合成标签,扩展了TREC Deep Learning Track(DL)测试集,以允许研究人员在大规模上测试和评估他们的搜索系统。具体而言,这种测试集包括以前几年的跟踪中超过1,900个测试查询。该论文比较系统评价与过去几年的人工标签,发现该论文合成的巨大规模测试集可以导致系统排名高度相关。

   地址:https://arxiv.org/pdf/2408.16312


12. CardBench: 一个用于学习关系数据库基数估计的基准测试

   标题:CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases

   机构:Google

   相关领域:模型蒸馏

   作者:Yannis Chronis,  Yawen Wang,  Yu Gan

   分析:本文发布了一个用于学习基数估计的新基准测试,该基准测试包含数千个查询和20个真实世界的数据库。这些查询可用于训练和测试学习型模型,以提高数据库查询性能。基准测试比现有的要丰富得多,可以用于训练和测试学习型模型。该论文通过使用图神经网络和Transformer等模型对各种数据集进行了测试。虽然简单查询的基数估计在零样本学习中表现良好,但当查询包含连接时,准确性会下降。该论文展示了几种模型,包括预训练模型和在特定数据集上微调的模型,并发现预训练模型在处理复杂查询时表现不佳。文章开源了一些工具来收集统计数据和生成查询,以便促进更广泛的研究,特别是来自ML社区的基础查询问题研究,以及预训练基数估计的研究。

   地址:https://arxiv.org/pdf/2408.16170


13. SSDM:可扩展语音失语症建模

   标题:SSDM: Scalable Speech Dysfluency Modeling

   机构:浙江大学、UC伯克利分校

   相关领域:模型结构改进、数据集构建

   作者:Jiachen Lian,  Xuanru Zhou,  Zoe Ezzes

   分析:本文提出了一篇关于语音失语症建模的论文,该论文主要解决了当前顶尖解决方案在规模性、大型失语症语料库的缺乏以及有效的学习框架缺失等三个挑战。它通过引入以发音手势为基于的可扩展强制对齐、序列关联分析器(CSA)用于失语症对齐、大型跨库语法失语症语料库(Libri-Dys)以及依赖大型语言模型(LLM)构建的端到端系统,解决了上述问题。本文期望通过此模型 SSDM 成为语音失语症建模领域的标准。您可以点击文章的详细链接参考。

   地址:https://arxiv.org/pdf/2408.16221

   代码:https://eureka235.github.io


14. Policy Adaptation via Language Optimization:通过任务分解实现少样本模仿中的策略适应

   标题:Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation

   机构:UC伯克利分校

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Vivek Myers,  Bill Chunyuan Zheng,  Oier Mees

   分析:本文提出了一种新的方法,利用视觉语言模型(VLMs)提供的对任务分解的语义理解,对少样本模仿中的策略进行适应。这种方法将少量的任务演示与从VLM中抽取的语言分解相结合,可以快速实现非参数化的适应,避免了需要更大的微调数据集的需求。该论文在一系列真实的、具有挑战性的、长期视野的机器人操作任务上进行了评估。该论文发现,PALO能够连续、一致地完成真实世界中长期、多层级的任务,优于预训练的一般政策以及访问相同演示的数据的方法。

   地址:https://arxiv.org/pdf/2408.16228


15. LeMON:预训练与精细化调整策略

   标题:LeMON: Learning to Learn Multi-Operator Networks

   机构:加州大学、卡内基梅隆大学、佛罗里达州立大学

   相关领域:模型结构改进、预训练

   作者:Jingmin Sun,  Zecheng Zhang,  Hayden Schaeffer

   分析:论文研究多算子学习在偏微分方程(PDE)求解中的应用。通过预训练和精细化调整策略,提出一种能够预测多种算子的模型。该模型能够利用多样化的PDE家族数据进行预训练,并在面对新PDE时通过少量样本进行微调,从而实现零样本预测和参数初始化优化。此外,还探索了低秩适应方法来提高求解精度并降低计算成本。研究展示了模型在广泛适应PDE求解任务方面的潜力。

   地址:https://arxiv.org/pdf/2408.16168


16. OmniRe:全方位城市场景重建

   标题:OmniRe: Omni Urban Scene Reconstruction

   机构:英伟达、多伦多大学、斯坦福大学

   相关领域:模型结构改进、数据集构建

   作者:Ziyu Chen,  Jiawei Yang,  Jiahui Huang

   分析:这篇论文提出了一种名为OmniRe的全方位城市场景重建方法。该方法能够从车载日志中高效地重建高保真动态城市场景。论文解决了现有方法在重建驾驶场景时忽略行人和其他非车辆动态参与者的问题,通过构建一个全面的3DGS框架,能够准确、完整地重建驾驶日志中的多样化动态对象。此外,OmniRe还允许实时模拟重建的场景,包括所有参与者。

   地址:https://arxiv.org/pdf/2408.16760


17. SAM2Point:将任何3D数据解释为一系列多方向视频的初步探索

   标题:SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

   机构:字节跳动、上海AI实验室

   作者:Ziyu Guo,  Renrui Zhang,  Xiangyang Zhu

   分析:SAM2Point是一种初步探索,旨在将Segment Anything Model 2(SAM 2)适应于零样本和可提示的3D分割。SAM2Point将任何3D数据解释为一系列多方向视频,并利用SAM 2进行3D空间分割,而无需进一步训练或2D-3D投影。该框架支持各种提示类型,包括3D点、框和掩码,并可以在多种场景中泛化,例如3D对象、室内场景、户外环境以及原始稀疏激光雷达数据。在多个3D数据集上进行的演示,如Objaverse、S3DIS、ScanNet、Semantic3D和KITTI,突显了SAM2Point的鲁棒泛化能力。该论文提供了SAM在3D中最忠实的实现,这可能成为未来可提示3D分割研究的起点。

   地址:https://arxiv.org/pdf/2408.16768

   代码:https://huggingface.co/spaces/ZiyuG/SAM2Point


18. ReXamine-Global:一种揭示放射学报告生成指标不一致性的框架

   标题:ReXamine-Global: A Framework for Uncovering Inconsistencies in Radiology Report Generation Metrics

   机构:哈佛医学院

   相关领域:评估指标

   作者:Oishi Banerjee,  Agustina Saenz,  Kay Wu

   分析:论文开发了一个多站点的ReXamine-Global框架,用于测试不同放射学报告生成指标的通用性。该框架通过测试指标是否对报告风格敏感,以及指标与专家评分的一致性,发现了现有指标存在的差距。此外,该框架有助于设计新的报告评估指标并确保其在不同医院中的稳健性。总之,该论文对于改进放射学报告生成的质量评估和指标设置具有积极意义。

   地址:https://arxiv.org/pdf/2408.16208


19. 无监督训练的基于大规模预训练模型的视频 temporal grounding

   标题:Training-free Video Temporal Grounding using Large-scale Pre-trained Models

   机构:北京大学

   相关领域:预训练、多模态

   作者:Minghang Zheng,  Xinhao Cai,  Qingchao Chen

   分析:本论文提出了一种名为 '无监督训练的基于大规模预训练模型的视频 temporal grounding' 的方法,旨在解决现有视频时序定位模型依赖特定数据集进行训练,数据收集成本高,以及跨数据集和分布外(OOD)设置下的泛化能力差的问题。该方法利用预训练的大型语言模型和视觉语言模型来分析查询文本中的多个子事件,并评估事件与描述之间的相关性,从而实现对视频时序的精确定位。

   地址:https://arxiv.org/pdf/2408.16219


20. 单次学习遇到深度扩散的多物体视频

   标题:One-Shot Learning Meets Depth Diffusion in Multi-Object Videos

   机构:卡内基梅隆大学

   相关领域:深度感知文本图像模型

   作者:Anisha Jain

   分析:创作包含多个物体在各种艺术风格中的复杂交互的可编辑视频一直是一个在电影制作中具有挑战性的任务。数据集的稀缺往往限制了这一领域的进步。本文介绍了一种 new depth-conditioning approach,该方法通过深度感知的文本图像模型来生成仅由一组长短文本视频组合而成的一致多样视频,从而在深度感知文本图像模型的基础上,实现了连续运动的捕捉。推理时,该论文使用DDIM inversion来为视频生成提供结构指导。这种创新技术使得在保持原深度感知文本图像模型在各种艺术风格(例如照片现实主义、动画和印象主义)中的概念生成和组成优势的同时,实现连续可控的深度在视频中,从而促进多物体互动的生成。

   地址:https://arxiv.org/pdf/2408.16704


21. ChartEye:一种基于深度学习的框架

   标题:ChartEye: A Deep Learning Framework for Chart Information Extraction

   机构:麻省理工学院

   相关领域:大模型

   作者:Osama Mustafa,  Muhammad Khizer Ali,  Momina Moetesum

   分析:随着图表和信息图表在各领域中的广泛使用,自动图表理解的研究也引起了关注。然而,由于样式变化等原因,从图表图像中提取信息是一项复杂的多任务处理过程,因此设计一个端到端的系统具有挑战性。本文提出了一种基于深度学习的框架,该框架为图表信息抽取流程的关键步骤提供了解决方案。该框架利用分层视觉Transformer进行图表类型和文本角色分类,同时使用YOLOv7进行文本检测。然后,通过超分辨率生成对抗网络(SRGAN)增强检测到的文本,以提高OCR的识别输出。在基准数据集上的实验结果表明,所提出的框架在每个阶段都实现了出色的性能,图表类型分类的F1分数为0.97,文本角色分类的F1分数为0.91,文本检测的平均精度为0.95。

   地址:https://arxiv.org/pdf/2408.16123


22. RAIN:强化算法在改进数值天气预报和气候模型中的应用

   标题:RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models

   机构:剑桥大学

   相关领域:模型结构改进、RLHF

   作者:Pritthijit Nath,  Henry Moss,  Emily Shuckburgh

   分析:本文主要探讨了强化学习在理想气候模型中的应用,以解决气候科学中关键参数化问题。传统气候模型依赖于复杂的数学参数化来模拟子网格尺度过程,引入不确定性的风险较大。本文借助强化学习的优势来增强参数化方案,包括直接交互、处理稀疏或延迟反馈、在线连续学习和长期优化等能力。文章对八种强化学习算法在两种理想环境中的性能进行了评估,代码可访问相关链接。

   地址:https://arxiv.org/pdf/2408.16118

   代码:https://github.com/p3jitnath/climate-rl


23. 大模型的超参数调优方法比较

   标题:A Comparative Study of Hyperparameter Tuning Methods

   机构:普渡大学、清华大学、名古屋大学

   作者:Subhasis Dasgupta,  Jaydip Sen

   分析:这篇论文主要通过实证分析,评估了三种超参数调优算法(树形结构参数估计器TPE、遗传搜索和随机搜索)在回归和分类任务中的性能。结果表明,适当调优超参数的非线性模型比线性模型表现更好。有趣的是,随机搜索在回归任务中表现出色,而TPE在分类任务中更有效。这表明没有一种通用的解决方案,因为不同的算法在不同的任务和模型类型上表现得更好。这些发现强调了选择合适调优方法的重要性,并突显了优化机器学习模型的计算挑战性,尤其是当搜索空间扩大时。

   地址:https://arxiv.org/pdf/2408.16425


24. PartFormer:唤醒视觉Transformer中多模态表征的潜藏多样性

   标题:PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification

   机构:腾讯、厦门大学、北京大学

   相关领域:模型结构改进、预训练

   作者:Lei Tan,  Pingyang Dai,  Jie Chen

   分析:该论文提出了一种创新的ViT变体,名为PartFormer,旨在解决ViT在物体再识别任务中的粒度限制问题。通过观察多头注意力下的潜藏多样化表示,作者设计了一个Head Disentangling Block (HDB),可以在不丧失特征丰富性的情况下唤醒多头自注意力的多样化表示。为了避免注意力头的同质化并促进基于部分的特征学习,作者引入了两个头部多样性约束:注意力多样性约束和相关多样性约束。这些约束使模型能够利用来自不同注意力头的多样化和判别性特征表示。实验结果表明,PartFormer在各种物体再识别基准上的表现优于当前最佳方法2.4%。

   地址:https://arxiv.org/pdf/2408.16684


25. Jina-ColBERT-v2:通用多语种晚期交互检索器

   标题:Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

   机构:德克萨斯大学

   相关领域:模型结构改进、多模态

   作者:Rohan Jha,  Bo Wang,  Michael Günther

   分析:这篇论文对ColBERT模型架构和训练流程进行了多项改进,利用更成熟的单向量嵌入模型中的技术,尤其是适合处理多样化多语种数据的技术。新模型Jina-ColBERT-v2在英文和多语种检索任务上表现出强大的性能,同时与之前的模型相比,存储需求降低了50%。

   地址:https://arxiv.org/pdf/2408.16672


26. 学习来自负面样式的生成生物医学实体链接

   标题:Learning from Negative Samples in Generative Biomedical Entity Linking

   机构:韩国高丽大学

   作者:Chanhwi Kim,  Hyunjae Kim,  Sihyeon Park

   分析:生成型模型在生物医学实体链接(BioEL)方面得到了广泛应用,主要是因为其优秀的性能和高效的内存管理。然而,这些模型通常只使用正面样本——与输入提及标识符匹配的实体——进行训练,并没有明确地从困难负样本中学习,这些实体看起来相似,但含义不同。为了解决这一限制,该论文提出了ANGEL (学习来自负面样式的生成生物医学实体链接) 框架,这是第一个使用负面样本训练生成生物医学实体链接模型的框架。具体而言,先用生成模型从给定的输入实体知识库中生成正面样本。然后,收集模型顶部k个预测的正确和错误的输出。模型然后通过直接偏好优化更新以优先考虑正确的预测。使用ANGEL微调的模型在五个基准测试上的平均top-1精度比先前的最佳基础模型提高了1.4%。将该论文的框架集成到预训练中,性能改进进一步提高到1.7%,证明了它在预训练和微调阶段的有效性。

   地址:https://arxiv.org/pdf/2408.16493

   代码:https://github.com/dmis-lab/ANGEL


27. ReconX: 从稀疏视角重建任意场景的视频扩散模型

   标题:ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

   机构:香港科技大学

   相关领域:模型结构改进、预训练、指令微调、多模态

   作者:Fangfu Liu,  Wenqiang Sun,  Hanyang Wang

   分析:本文提出了一种名为ReconX的创新三维场景重建方法,通过将模糊重构的挑战重新定义为时间生成任务,复活了大规模预训练视频扩散模型的强大生成先验。关键见解是利用预训练模型对于有限视图重建的生成潜力。然而,直接生成的视频帧中的三维视角一致性难以准确保持。解决此问题,ReconX首先构建全局点云,并将其编码到上下文空间作为三维结构条件。在条件的指导下,视频扩散模型随后合成既保存细节又具有高度三维一致性的视频帧,从而确保了从不同角度看场景的一致性。最后,通过一种基于信心的三维Gaussian Splatting优化方案,从生成的视频中恢复三维场景。在各种现实世界的数据集上的广泛实验显示,在质量与泛化能力方面,该论文的ReconX都优于最先进的方法。

   地址:https://arxiv.org/pdf/2408.16767


28. 信息茧房总是不好吗?:社交网络中的群体情绪稳定作用

   标题:IC always bad? : Information Cocooning as a Group Emotional Stabilization Role in Social Networks

   机构:中国科学技术大学

   相关领域:模型结构改进、预训练

   作者:Jinhu Ren,  Tianlong Fan,  Linyuan Lü

   分析:该研究旨在探讨信息茧房对由于信息传播导致的群体情绪变化的影响。通过建立基于个体观点的网络进化模型,实现对现实网络进化过程的结构模拟。设定推荐准确性(RA)抽象真实智能推荐过程。通过分析评论区内推荐信息所造成的信息茧房效应,为情绪传播动态模型提供了传播结构的基础。开发了一个情绪传播动态模型,探索了个体情绪的传播趋势以及群体情绪的变化。通过实验和分析,本研究发现信息茧房对群体情绪稳定有积极作用,并且在真实的在线社交网络中广泛存在的H-CAC结构,能够在公众意见和认知游戏中产生保护性的“避风港”效果。模型的有效性通过与真实案例的对比和泛化能力的实验得到了验证。本工作提供了多维度的分析和可视化,并提供了更多的量化结果。研究预计将为理解和现实中的信息茧房现象提供新的视角和工具,并扩展其实际应用场景。

   地址:https://arxiv.org/pdf/2408.16295


29. SurveySum:用于将多篇科学文章摘要汇总成综述章节

   标题:SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section

   机构:Maritaca AI、Neural Mind

   相关领域:数据集构建、文本摘要

   作者:Leandro Carísio Fernandes,  Gustavo Bartz Guedes

   分析:这篇论文介绍了一个新型数据集,该数据集旨在将多篇科学文章摘要汇总成一篇综述的章节。论文主要贡献包括:1) 推出SurveySum数据集,填补特定领域摘要工具的空白;2) 提出两种特定管道,用于将科学文章摘要成综述章节;3) 通过多种指标评估这些管道的性能。研究结果强调了高质量检索阶段的重要性以及不同配置对生成摘要质量的影响。

   地址:https://arxiv.org/pdf/2408.16444


30. VLM4Bio: 一个用于评估预训练视觉语言模型在生物图像中表型发现的基准数据集

   标题:VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

   机构:弗吉尼亚理工学院

   相关领域:模型结构改进、预训练、数据集构建、模型评估

   作者:M. Maruf,  Arka Daw,  Kazi Sajeed Mehrab

   分析:这篇论文主要讲解了如何使用12个先进的视觉语言模型(VLMs)评估它们在回答生物相关问题上的能力。研究团队创建了一个名为VLM4Bio的数据集,该数据集包含469,000个问题答案对,涉及30,000张不同生物类群的图片,包括鱼类、 birds 和蝴蝶,涵盖了五个生物相关的任务。研究探讨了如何通过提示技术和测试推理想象力来提高模型的性能,从而揭示了当前顶级VLMs在回答生物相关问题方面的能力。

   地址:https://arxiv.org/pdf/2408.16176

   代码:https://github.com/sammarfy/VLM4Bio


31. 自动库迁移使用大模型:初步结果

   标题:Automatic Library Migration Using Large Language Models: First Results

   相关领域:API迁移,大型语言模型

   地址:https://arxiv.org/pdf/2408.16151


32. 基于视觉语言模型的自动驾驶视频生成框架DriveGenVLM研究

   标题:DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving

   机构:哥伦比亚大学

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2408.16647


33. 大规模多组学生物序列Transform:模나肽-核苷酸相互作用的新方法

   标题:Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions

   机构:纽约大学、Duke University

   相关领域:多组学生物序列、生物分子预测、肽-核苷酸相互作用

   地址:https://arxiv.org/pdf/2408.16245


34. CSGO: 文本-图像生成中的内容-风格组成

   标题:CSGO: Content-Style Composition in Text-to-Image Generation

   相关领域:数据集构建

   地址:https://arxiv.org/pdf/2408.16766

   代码:https://csgo-gen.github.io/


35. MQM-Chat多维质量指标:针对聊天翻译的质量评估

   标题:MQM-Chat: Multidimensional Quality Metrics for Chat Translation

   机构:MBZUAI大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2408.16390


36. Making the Most of your Model:预训练Transformer的先进方法

   标题:Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2408.16241


37. VideoLLM-MoD: 高效的视频语言流式处理混合深度视觉计算

   标题:VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2408.16730


38. 奥丁之流 Network

   标题:Maelstrom Networks

   机构:马里兰大学

   相关领域:模型结构改进、预训练、持续学习

   地址:https://arxiv.org/pdf/2408.16632


39. 数据高效泛化是否会加剧基础模型中的偏见问题

   标题:Does Data-Efficient Generalization Exacerbate Bias in Foundation Models?

   机构:伊迪亚普研究所

   相关领域:模型评估、预训练

   地址:https://arxiv.org/pdf/2408.16154


40. On-device AI:Transformer在时序数据中的量化和感知训练

   标题:On-device AI: Quantization-aware Training of Transformers in Time-Series

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2408.16495


41. 狼人游戏中的大模型

   标题:Enhancing Dialogue Generation in Werewolf Game Through Situation Analysis and Persuasion Strategies

   相关领域:大型语言模型、自然语言处理、游戏

   地址:https://arxiv.org/pdf/2408.16586


42. 多模态大模型的视觉表示规律

   标题:Law of Vision Representation in MLLMs

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2408.16357


你觉得今天分享的论文哪篇at到了你?欢迎留言分享哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章