点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
01
Transfer Learning on Multi-Dimensional Data: A Novel Approach to Neural Network-Based Surrogate Modeling
开发高效的偏微分方程(PDEs)替代模型是实现复杂多尺度系统可扩展建模的关键步骤。卷积神经网络(CNNs)因其在捕捉高维输入输出映射方面的成功以及前向传播的可忽略成本而受到欢迎,成为这类替代模型的基础。然而,生成训练数据的高成本——通常通过经典数值求解器——引发了一个问题,即这些模型是否值得追求,或者是否应该选择具有坚实理论基础的更直接的替代方案,如蒙特卡洛方法。为了降低数据生成的成本,本文提出了在数值解的混合上训练CNN替代模型,这些数值解既包括d维问题,也包括其(d-1)维近似,利用维度诅咒保证的效率节省。作者在多相流测试问题上展示了这种方法,使用迁移学习来训练一个密集的全卷积编码器-解码器CNN,处理这两类数据。样本不确定性量化任务的数值结果表明,作者的替代模型在数据生成预算是蒙特卡洛方法的几倍时,性能优于蒙特卡洛方法。
文章链接:
https://arxiv.org/pdf/2410.12241
02
DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
大型语言模型(LLMs)在各种自然语言处理任务中取得了显著的成功,包括语言建模、理解和生成。然而,这些模型增加的内存和计算成本对于在资源有限的设备上部署构成了重大挑战。结构化剪枝作为一种有前途的解决方案,可以在不需要后处理步骤的情况下降低LLMs的成本。先前的结构化剪枝方法要么遵循结构的依赖性,以牺牲灵活性为代价,要么通过引入不同的投影矩阵引入非平凡的额外参数。在本研究中,作者提出了一种新的方法,它放松了常规结构化剪枝方法施加的约束,并消除了沿嵌入维度的结构依赖性。这种与维度无关的结构化剪枝方法提供了几个好处。首先,该方法使得不同的块能够利用不同的特征映射子集。其次,通过去除结构依赖性,我们使得每个块在其输入和输出维度上可以拥有不同的宽度,从而显著提高了结构化剪枝的灵活性。作者在各种LLMs上评估了这种方法,包括OPT、LLaMA、LLaMA-2、Phi-1.5和Phi-2。实验结果表明,这种方法超越了其他最先进的方法,首次显示出结构化剪枝可以实现与半结构化剪枝相似的准确性。
文章链接:
https://arxiv.org/pdf/2410.11988
03
RosePO: Aligning LLM-based Recommenders with Human Values
最近,人们越来越关注利用大型语言模型(LLMs)为推荐系统服务,这些系统通常通过监督式微调(SFT)将预训练的LLM适应到推荐场景中。然而,无论是预训练还是SFT阶段,都未能明确建模用户对不同项目偏好的比较关系。为了构建一个“有帮助且无害”的基于LLM的推荐器,本文提出了一个通用框架——平滑个性化偏好优化的推荐(RosePO),它在后训练阶段更好地与定制的人类价值观保持一致。具体来说,除了与SFT数据自然对齐的输入和选择的响应外,本文设计了一种针对增强有用性的拒绝采样策略,以及两种旨在减少偏见以促进无害性的策略。为了确保对自动构建的偏好数据中存在的不确定标签的鲁棒性,本文在优化目标中引入了一个由偏好神谕预测的个性化平滑因子。在三个真实世界数据集上的评估证明了本方法的有效性,不仅展示了改进的推荐性能,还减轻了语义幻觉和流行度偏见。
文章链接:
https://arxiv.org/pdf/2410.12519
04
Revealing the Barriers of Language Agents in Planning
自主规划一直是人工智能诞生以来的持续追求。基于策划的问题解决者,早期的规划代理能够为特定任务提供精确的解决方案,但缺乏泛化能力。大型语言模型(LLMs)的出现及其强大的推理能力重新点燃了对自主规划的兴趣,能够自动为给定任务生成合理的解决方案。然而,先前的研究和作者的实验表明,当前的语言代理仍然缺乏人类的规划能力。即使是最先进的推理模型,OpenAI o1,在一项复杂的现实世界规划基准测试中也只达到了15.6%的准确率。这突出了一个关键问题:是什么阻碍了语言代理实现人类水平的规划?尽管现有研究已经强调了代理规划的弱性能,但更深层次的根本问题以及解决这些问题所提出的策略的机制和局限性仍然不为人所充分理解。在本研究中,作者应用特征归因研究,识别出阻碍代理规划的两个关键因素:约束的有限作用和问题的递减影响。作者还发现,尽管当前策略有助于缓解这些挑战,但它们并未完全解决这些问题,表明代理在达到人类水平智能之前仍有很长的路要走。
文章链接:
https://arxiv.org/pdf/2410.12409
05
TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
大多数知识蒸馏(KD)方法主要关注具有相似架构的师生对,例如两者都是卷积神经网络(CNNs)。然而,通过扩展到新颖的跨架构知识蒸馏(Cross-Architecture KD,简称CAKD),KD的潜力和灵活性可以大大提高,这样同质和异质教师的知识就可以灵活地转移到给定的学生身上。CAKD面临的主要挑战在于异质模型之间的显著特征差异,这些差异源于它们固有的归纳偏差和模块功能的区别。为此,本文引入了一个辅助模型作为桥梁,以促进异质教师和学生之间的平滑特征知识转移。更重要的是,在我们的设计原则中,辅助模型通过合并来自学生和教师模块功能的卷积和注意力模块,结合了跨架构归纳偏差和模块功能的优势。此外,作者观察到异质特征在CAKD中表现出多样的空间分布,这阻碍了传统的逐像素均方误差(MSE)损失的有效性。因此,本文利用空间不敏感的InfoNCE损失,在空间平滑后对齐特征,从而提高了CAKD中的特征对齐。本文提出的方法在一些同质模型对和任意异质组合的CNNs、ViTs和MLPs上进行了评估,实现了蒸馏模型的最新性能,CIFAR-100上的最大提升为11.47%,ImageNet-1K上为3.67%。
文章链接:
https://arxiv.org/pdf/2410.12342
06
DaDiff: Domain-aware Diffusion Model for Nighttime UAV Tracking
领域适应是解决日/夜图像特征不对齐问题的一种鼓舞人心的解决方案,特别适用于夜间无人机跟踪。然而,一步适应范式在解决夜间从无人机视角观察到的低分辨率(LR)物体所面临的普遍困难时显得不足,这些困难包括边缘轮廓模糊和有限的细节信息。此外,这些方法在感知夜间噪声干扰的LR物体方面也存在挑战。为了应对这些挑战,本研究提出了一种新颖的渐进对齐范式,名为领域感知扩散模型(DaDiff),通过渐进和稳定的生成将夜间LR物体特征与白天对齐。提出的DaDiff包括一个对齐编码器,用于增强夜间LR物体的细节信息,一个针对跟踪任务设计的跟踪导向层,旨在与跟踪任务紧密协作,以及一个连续分布鉴别器,用于在每个扩散时间步成功区分不同的特征分布。此外,本研究还构建了一个精致的夜间无人机跟踪基准,用于LR物体,即NUT-LR,包含100个标注序列。广泛的实验已经证明了所提出的DaDiff的鲁棒性和特征对齐能力。
文章链接:
https://arxiv.org/pdf/2410.12270
07
DAQ: Density-Aware Post-Training Weight-Only Quantization For LLMs
大型语言模型(LLMs)在各种任务中表现出色,但由于硬件限制而面临部署挑战。本文提出了密度感知的后训练仅权重量化(DAQ),它包括两个阶段:1)以密度为中心的对齐,该阶段识别高密度权重的中心,并将动态范围的中心定位于此点,以使高密度权重区域与浮点高精度区域对齐;2)可学习的动态范围调整,该阶段通过优化量化参数(即比例和零点)来调整动态范围,这些参数基于权重对模型输出的影响进行优化。在LLaMA和LLaMA-2上的实验表明,DAQ在性能上一致超越了最佳基线方法,在LLaMA上平均减少了22.8%的困惑度损失,在LLaMA-2上减少了19.6%。
文章链接:
https://arxiv.org/pdf/2410.12187
本期文章由陈研整理
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
提出观点,表达想法,欢迎
点击 阅读原文 查看更多!