WEEKLY REPORT
10/06
2024
互联网行业一周新闻速览
01
WEEKLY NEWS
Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑
Meta 首次公开展示了自家的「用于媒体的突破性生成式 AI 研究」:Meta Movie Gen。
Meta 在相应博客中使用了「premiere」一词,也就是初次展示,因此手痒的用户可能还得再等上一段时间。
根据 Meta 的描述,Movie Gen 的功能包括:文本生成视频和音频、编辑已有视频、图片生视频。并且人类评估表明,Movie Gen 在这些任务上的表现均优于行业内类似模型。
原文链接:
https://www.jiqizhixin.com/articles/2024-10-05-6
02
WEEKLY NEWS
号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law
从数据来看,Molmo 的表现也足够惊艳。在人类测评和一系列测试集中,Molmo 的得分击败了 Claude 3.5 Sonnet、GPT4V 等一众顶尖模型,甚至可以媲美 GPT4o。
不过,Molmo 的体量更小,却能「以小搏大」,性能超越了比它的参数量大十倍的其他模型。据 Ai2 首席执行官 Ali Farhadi 称,Molmo 的体积小到可以在本地运行,它无需 API、无需订阅、更无需成本高昂的液冷 GPU 集群。
更重要的是 Molmo 完全免费且开源,所有的权重、代码、数据和评估流程都即将公布。
部分模型权重、推理代码和一个基于 Molmo-7B-D 模型的公开演示已经可以使用。
体验链接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19
原文链接:
https://www.jiqizhixin.com/articles/2024-10-05-5
03
WEEKLY NEWS
像ChatGPT一样,聊聊天就能实现三维场景编辑
现有的文本驱动 3D 场景编辑方法通常局限于固定的文本输入形式和受限的编辑能力。用户需要使用固定形式的文本指令或单一的 diffusion 多模态模型来实现所需的效果。比如 InstructNeRF2NeRF 只能使用 “指令式文本” 且编辑能力受限于 InstructPix2Pix 模型。然而,实际应用中,用户的语言是及其丰富的,用户的编辑需要也是多种多样的,现有方法的设计范式均无法满足用户的诉求。
为了突破这些限制,本文提出了一种全新的 3D 场景编辑新范式 —CE3D。该方法将 3D 场景的编辑变成在 2D 空间上图集的编辑,实现对现有方法的 “降维打击”。降维后可利用大规模语言模型实现灵活且高效的任意模型的集成,大大丰富了文本对话能力和场景编辑能力。
项目地址:
https://sk-fun.fun/CE3D/
代码:https://github.com/Fangkang515/CE3D/tree/main
论文:
https://arxiv.org/abs/2407.06842
原文链接:
https://www.jiqizhixin.com/articles/2024-10-05-4
04
WEEKLY NEWS
中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准
化学领域的专业术语众多,分子间相互作用复杂,且需要对高等化学领域知识有深刻理解。这些挑战凸显了对 LLMs 进行系统评估的必要性,以便准确衡量它们在化学领域的实际能力,并识别出潜在的应用领域。
这篇文章构建了 ChemEval ——一个专门为化学领域设计的多维度能力评估体系。
ChemEval 的开发基于一个核心理念:需要一个能够全面评估 LLMs 在化学领域能力的基准测试,它不仅能考察大模型对化学基础知识的掌握,还能评估在高级化学概念方面的理解和应用。
论文链接:
https://arxiv.org/pdf/2409.13989
项目链接:
https://github.com/USTC-StarTeam/ChemEval
原文链接:
https://www.jiqizhixin.com/articles/2024-10-05-3
05
WEEKLY NEWS
OpenAI重磅发布交互界面canvas,让ChatGPT成为写作和编程利器
OpenAI 宣布推出类似 Anthropic 的 Artifacts 的应用 canvas,并称「这是一种使用 ChatGPT 写作和编程的新方式」。
在 canvas 这个界面,你可以与 ChatGPT 一起完成写作和编码项目,而不再局限于简单的聊天。canvas 是一种新的交互方式,也是 OpenAI 推出 ChatGPT 以来的首个重大视觉界面更新。
canvas 会在单独的窗口中打开,方便用户与 ChatGPT 一起协作完成项目。canvas 的 Beta 版本为用户提供了一种全新的合作方式:你不仅能够通过对话进行创作,还能与 ChatGPT 成为并肩作战的伙伴,一起创造和完善。
原文链接:
https://www.jiqizhixin.com/articles/2024-10-04-3
06
WEEKLY NEWS
国防科大提出灵巧手抓取策略迁移新方案
在机器人研究领域,抓取任务始终是机器人操作中的一个关键问题。这项任务的核心目标是控制机械手移动到合适位置,并完成对物体的抓取。近年来,基于学习的方法在提高对不同物体的抓取的泛化能力上取得了显著进展,但针对机械手本身,尤其是复杂的灵巧手(多指机械手)之间的泛化能力仍然缺乏深入研究。由于灵巧手在不同形态和几何结构上存在显著差异,抓取策略的跨手转移一直存在挑战。
为了解决这个问题,来自国防科技大学和深圳大学的研究者提出了一种新颖的策略学习方法。通过利用对不同灵巧手的一致性表征设计,以及分离灵巧手高层运动生成和低层关节控制,该方法实现了将在一个灵巧手上训练的策略以低代价迁移到其他灵巧手,并同时保持抓取性能和对物体的泛化性。
论文标题:
Learning Cross-hand Policies of High-DOF Reaching and Grasping
论文地址:
https://arxiv.org/abs/2404.09150
项目主页:
https://qijinshe.github.io/IBS-Retargeting.github.io/
原文链接:
https://www.jiqizhixin.com/articles/2024-10-01-3
07
WEEKLY NEWS
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
随着 OpenAI GPT-4o 的发布,大语言模型已经不再局限于文本处理,而是向着全模态智能助手的方向发展。这篇论文提出了 EMOVA(EMotionally Omni-present Voice Assistant),一个能够同时处理图像、文本和语音模态,能看、能听、会说的多模态全能助手,并通过情感控制,拥有更加人性化的交流能力。
论文题目:EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion
论文地址:https://arxiv.org/abs/2409.18042
项目网页:https://emova-ollm.github.io/
原文链接:
https://www.jiqizhixin.com/articles/2024-10-02-2
08
WEEKLY NEWS
Pika 1.5王者归来
去年 11 月,「横空出世」的 Pika 展现出了令人惊艳的视频生成效果,并点燃了视频生成领域。今年 6 月 5 日,Pika 宣布已完成 8000 万美元(约合人民币 5.8 亿元)的 B 轮融资,总融资额达到 1.35 亿美元,较 2023 年末,公司投后估值实现翻倍至 4.7 亿美元。
Pika 官方推特(X)时隔数月后,终于「发声」了。新版本 Pika 1.5 正式与大家见面了。
据介绍,Pika 1.5 拥有了令人惊叹的镜头效果、更长的剪辑、令人瞠目结舌的动作。总之,这个新模型有能力生成任何疯狂的视频内容。
具体来讲,Pika 1.5 具备了以下三大特性:
虚幻的「Pikaffects」:超越你用相机可以捕捉到的范围。爆炸、融化、粉碎或膨胀任何你想要的东西。
大屏幕镜头:使用各种电影镜头,比如子弹时间、眩晕、向左移动、低镜等。
新动作:让生成场景中的主角更加栩栩如生,比如跑步、滑板、飞行等。
试玩地址:https://pika.art/login
原文链接:
https://www.jiqizhixin.com/articles/2024-10-02-4
09
WEEKLY NEWS
5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
最近,上海人工智能实验室(Shanghai AI Lab)与南洋理工大学(NTU)共同推出了新一代的三维生成大模型 3DTopia-XL,能够从图片或文字单阶段直出具有 PBR(物理渲染)材质的高质量三维数字资产。
在技术细节上,通过采用全新的三维表征 PrimX 以及基于 DiT 的生成架构,具有 10 亿规模参数的 3DTopia-XL 能够在 5 秒内完成从图像或文本生成具有物理材质属性的超写实三维模型,生成结果作为 GLB 格式的三维资产可以无缝导入到主流游戏引擎和工业设计软件的管线中服务于下游应用。
3DTopia-XL 已将代码、预训练模型和技术报告开源,并且近期还会持续更新其他模态作为输入的预训练模型。
代码链接:
https://github.com/3DTopia/3DTopia-XL
在线 Demo:
https://huggingface.co/spaces/FrozenBurning/3DTopia-XL
技术报告:
https://arxiv.org/abs/2409.12957
论文标题:
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
原文链接:
https://www.jiqizhixin.com/articles/2024-10-04
下期精彩继续