AIGC产品经理周报资讯｜9月16日-9月22日

文摘 2024-09-22 19:01 山东

WEEKLY REPORT

09/22

2024

AIGC本周资讯

互联网行业一周新闻速览

WEEKLY NEWS

ECCV 2024 oral | 首次基于深度聚类的多模态融合，上交、伯克利提出双向结构对齐的融合网络新SOTA！

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。

以往基于学习的方法大多采用图 1 a) 所示的特征级融合策略，无法捕捉细粒度像素到点的对应关系。最近，一些网络设计了点到图像的投影和局部特征聚合，如图 1 b) 所示，但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。

为了解决这些问题，来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。

论文链接：https://arxiv.org/pdf/2403.18274

代码仓库：https://github.com/IRMVLab/DVLO

原文链接：

https://www.jiqizhixin.com/articles/2024-09-22

WEEKLY NEWS

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

该团队将模型架构调整为 Mamba 和 Transformer 块的混合体，在数据构建中考虑多个图像之间的时间和空间依赖性，并采用渐进式训练策略。提出了首个混合架构多模态大语言模型 LongLLaVA，在效率和性能之间实现了更好的平衡。

论文地址：https://arxiv.org/abs/2409.02889

项目地址：https://github.com/FreedomIntelligence/LongLLaVA

原文链接：

https://www.jiqizhixin.com/articles/2024-09-21-5

WEEKLY NEWS

OpenAI前研究者发布提示词工程框架ell，升级版LangChain，支持版本控制和多模态

刚不久前，Huss 宣布发布了一款自称是「提示词工程的未来」工具 ell。具体来说，ell 是一款轻量级的函数式语言模型编程软件库，其优势包括自动化的版本控制和跟踪、丰富的本地开源视觉化工具、原生支持多模态数据。

项目地址：https://github.com/MadcowD/ell

该项目发布后反响热烈，网友们纷纷点赞。比如有一位网友表示一直在期待这样的工具，这将成为他构建 AI 软件栈的一个基础部分。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-21-4

WEEKLY NEWS

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

在最近提交的一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 oracle。

论文标题：Training Language Models to Self-Correct via Reinforcement Learning

论文地址：https://arxiv.org/pdf/2409.12917

本文主要贡献在于提出了一种多轮强化学习方法 ——SCoRe，用于教 LLM 如何纠正自己的错误。相对于基础 Gemini 模型，SCoRe 在 MATH 推理问题的自我纠正方面获得了 15.6% 的增益，在 HumanEval 编码问题上获得了 9.1% 的增益。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-21-3

WEEKLY NEWS

最强卷王3个月进化9次！可灵AI上新1.5模型，国外网友：太疯狂

自今年 6 月发布以来，仅三个月，可灵 AI 就迭代了 9 次。这次它还直接把基座模型升级了，推出可灵 1.5 模型。

可灵 1.5 模型不仅显著提升画质，直出 1080p 视频，还让画面主体的动幅更大、质量更高，文本响应度也更强。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-21-2

WEEKLY NEWS

真·AI程序员来了，阿里云「通义灵码」全面进化，全流程开发仅用几分钟

在云栖大会现场，阿里云演示了通义灵码 AI 程序员自主进行缺陷分析、制定修复计划等功能。开发者全程只需一键确认，即可快速完成缺陷修复代码和代码提交的全过程；针对从 0 到 1 的开发任务，用户也只需输入自然语言描述需求，即可自动完成理解需求、拆解开发任务、编码、测试和修复等全链路开发过程。

大会的展台上，一位 13 岁的中学生在通义灵码上输入了几句话，AI 程序员在两分钟内就生成了一个 Python 语言编写的倒计时网页。

目前，AI 程序员支持集成两个平台：阿里云一站式 DevOps 平台云效以及大家熟悉的代码托管平台 GitHub。我们可以让 AI 程序员直接克隆代码库或读取 issue，也能将 AI 程序员生成或修改过的代码直接提交到我们的项目代码库。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-20-7

WEEKLY NEWS

本土自研再上新！安谋科技发布首款“玲珑”DPU和新一代VPU

2024年9月19日，安谋科技（中国）有限公司（以下简称“安谋科技”）正式推出本土自研的首款“玲珑”D8/D6/D2显示处理器，以及新一代的“玲珑”V510/V710视频处理器。聚焦国内前沿技术趋势，安谋科技自研业务产品矩阵持续扩容，全新亮相的处理器新品能够满足多样化智能应用场景的性能功耗配置需求，助力国产芯片厂商在多媒体技术领域实现创新跃进。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-19-17

WEEKLY NEWS

CoT能让模型推理能力无上限？田渊栋、LeCun下场反对：两层MLP还能模拟全世界呢

大模型新范式 OpenAI o1 一经发布，如何「复刻」出 o1 便成为了 AI 圈最热的话题。

论文链接：https://arxiv.org/abs/2402.12875

Denny Zhou 表示，他们已经在数学上证明，只要允许 Transformer 模型生成足够多的中间推理 tokens，它们就能解决任何问题，让 LLM 的推理没有上限。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-19-15

WEEKLY NEWS

阿里云Qwen2.5发布！再登开源大模型王座，Qwen-Max性能逼近GPT-4o

在 9 月 19 日的云栖大会上，CTO 周靖人宣布：通义千问发布新一代开源模型 Qwen2.5，开源旗舰模型 Qwen2.5-72B 性能超越 Llama 3.1-405B，再次登上全球开源大模型的王座；通义旗舰模型 Qwen-Max 全方位升级，性能已经逼近 GPT-4o。