LLM合集：Adobe发布基于空间感知视频生成大模型Track4Gen

文摘 2024-12-13 09:39 中国香港

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

1. Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

尽管最新的视频生成模型能创造出视觉效果丰富的输出，但在处理外观漂移问题时仍存在挑战——即物体在不同帧之间逐渐退化或出现不一致的变化，破坏了视觉连贯性。我们认为这一问题是由于在特征层面缺少明确的空间跟踪监督所致。为了解决这个问题，我们提出了一种名为Track4Gen的空间感知视频生成模型，它结合了视频扩散损失和帧间点跟踪技术，为扩散特征提供了强化的空间监督。

Track4Gen通过对现有视频生成架构进行最小限度的修改，成功地将视频生成和点跟踪任务融合到了一个单一的网络中。该模型基于Stable Video Diffusion构建，证明了视频生成与点跟踪这两种通常独立处理的任务是可以被统一的。大量实验结果显示，Track4Gen有效减少了外观漂移现象，确保了视频在时间维度上的稳定性及视觉上的连贯性，显著提升了视频生成的效果。

项目页面：hyeonho99.github.io/track4gen

论文:https://arxiv.org/pdf/2412.06016

2. MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

图像描述（Image Translation, IT）技术在多个领域展示了巨大的潜力，可以将图像中的文本内容描述成多种语言。然而，当前可用的数据集往往在规模、多样性和质量方面存在局限，限制了IT模型的发展和评估。为了解决这些问题，我们推出了一款名为MIT-10M的大规模多语言图像描述译平行语料库，它包含超过1000万对图像-文本对，来源于真实场景的数据，并经过严格的数据清理和多语言翻译验证过程。

MIT-10M 数据集包括84万张图片，涵盖三种不同的分辨率，涉及28个不同类别，任务难度分为三级，且提供了14种语言的图像-文本对，这大大优于现有的数据集。通过在MIT-10M上进行广泛实验，我们发现该数据集对于评估模型处理现实中复杂的图像描述任务的能力具有更高的适应性。实验结果显示，利用MIT-10M进行微调后的模型性能比基线模型提高了三倍，进一步证明了MIT-10M的优势。

论文:https://arxiv.org/pdf/2412.07147

3. SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

随着视频扩散模型的最新进展，这些模型展现了在模拟真实世界动态和保持三维一致性上的杰出能力。受此启发，我们探索了这些模型在确保不同视角下动态一致性方面的潜力。不同于现有的专注于单个物体多视角生成以实现四维重建的方法，我们的关注点是从任意视角生成开放世界的视频，并结合六自由度（6 DoF）摄像机位置。

为此，我们开发了一种即插即用模块，它能增强预训练的文字到视频模型，以支持多摄像机视频生成，确保各视角间内容的一致性。特别是，我们引入了多视角同步模块，用来保持视角间的外观和几何一致性。考虑到高质量训练数据的匮乏，我们设计了一套混合训练方案，通过使用多摄像机图像和单目视频来补充由Unreal Engine渲染的多摄像机视频。此外，我们的方法支持一些引人入胜的扩展功能，如从新视角重新渲染视频。我们还发布了名为SynCamVideo-Dataset的多视角同步视频数据集，以促进相关研究。

项目页面：https://jianhongbai.github.io/SynCamMaster/

论文:https://arxiv.org/pdf/2412.07760

4. LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

近年来，文本到图像（Text-to-Image, T2I）生成技术在创建高质量图像方面取得了显著成就。然而，当涉及到多个物体和复杂关系的组合图像生成时，现有的T2I模型性能有所下降。我们认为这主要是因为当前图像-文本对数据集缺乏精确的对象间关系标注，仅仅依靠提示词无法充分捕捉复杂场景中的语义结构。

为了解决这一问题，我们构建了LAION-SG——一个包含高质量场景图（Scene Graph, SG）结构化注释的大规模数据集。LAION-SG详细描述了多个对象的属性及它们之间的关系，从而有效地表达了复杂场景中的语义结构。基于这个数据集，我们训练了一个新的基础模型SDXL-SG，它能够在生成过程中整合结构化注释信息。大量实验证明，在LAION-SG上训练的模型在复杂场景生成方面相比使用现有数据集训练的模型有显著的性能提升。

此外，我们还推出了一套名为CompSG-Bench的基准测试平台，专门用于评估模型在组合图像生成任务上的表现，为这一领域设定了新的评价标准。

论文:https://arxiv.org/pdf/2412.08580

知识星球，新人优惠券来袭，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

大模型月度回顾 · 2024年12月

Robo周报：比亚迪、理想、广汽等推进机器人研发/ 传禾赛裁员数百人/英伟达将推全新机器人芯片...

3D视觉理解GPT4Scene：通过视觉-语言模型从视频中理解3D场景

北航/新加坡国立大学/华中科技提出自动驾驶视觉语言模型的视觉对抗攻击！

腾讯微信团队 & 上交通 & 南大揭秘模型汤，构建与优化，视觉-语言模型的强基准与有效改进策略研究！

端到端智驾半壁江山都来了！2025首场自动驾驶峰会全部嘉宾揭晓，还将拆解世界模型与VLM

博世XC中国高管离职，增加自研力量

CVPR & AAAI | AI创新的交汇点：扩散模型与卷积网络的碰撞效应

VisionPAD:一种以视觉为中心的自动驾驶预训练范式！

告别2024，迎来2025，你准备好了吗！

北大/加州大学提出 OpenAD: 3D物体检测的开放世界自主驾驶基准！

如何高效的将智驾AI大模型软件模块部署到SOC芯片上？

锚定智能汽车赛道，企业如何“破卷”？来ICV CHINA 2025上海智能汽车科技展，抢占市场先机

HSl-Drive v2.0: 更多数据用于自动驾驶场景理解的新挑战 !

AAAI'25 | EGSRAL：3DGS渲染器如何生成带有自动标注的全新视角图像？

具身智能干货最多的社区推荐---入门必看！

「少数派」小马智行：不神化端到端，也不吹商业化

面试题: 大模型中的tokenize方法有哪些？

Robo Weekly：小米汽车接入VLM、Waymo将入日本测试，小鹏公布机器人专利...

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准！

自动驾驶与具身智能依然在不断崛起！

面试题：计算softmax为什么要除以根号d?

自动驾驶与具身智能依然在不断崛起！

和量产相关的自动驾驶论文不得不看！

transformer手绘图解（注意力机制的本质）

DriveGPT实现Waymo最佳预测: 扩展自回归行为模型在自动驾驶中规划与预测

NeurIPS & CVPR | 从像素到路径：扩散模型引领自动驾驶新风向

弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

有关对汽车行业想法的记录

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

NeurIPS与AAAI焦点：扩散模型与文本生成的强强联手

12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X：7B具身多模态动作模型

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

腾讯混元3D-1.0:文本到3D和图像到3D的统一框架！

端到端自动驾驶终极态---VLAM范式路测效果来袭！

新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM，具有令牌选择、恢复和增强功能！

面试题: Transformer中为什么要用多个头？

李沐：大模型发展趋势与个人职业选择

无人驾驶公司AutoX新战略

专家对话摘要：「一段式端到端」还不现实

一个智驾行业从业者的思考

某主机厂智驾自研的波澜

论文速览 | Diffusion Forcing：给视频扩散模型的每一帧添加不同强度的噪声

LLM，一艘方向不对但积重难返的华丽游轮...

长城汽车如何应对端到端的下限问题？

用于自动驾驶最优间距选择和速度规划的多配置二次规划（MPQP）

自动驾驶之心举办了一个自动驾驶论坛，邀请各位大佬现场聊聊

Bosch 研究院提出 MTA: 用于BEV感知和描述的多模式任务对齐！

一文读懂：从RAG到多模态RAG

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉