创纪录!首幅人形机器人绘制作品拍出108万美元;王慧文回归美团,带队探索AI应用|一周热门

学术   2024-11-10 08:24   北京  

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态欢迎扫码入群~



企业动态


新清影:模型全面升级、4K、任意比例、自带音效

日前,智谱面向公众开放的视频生成产品清影迎来升级,并在智谱清言 App 上线。基于 CogVideoX 模型的最新技术进展和最新推出的音效模型 CogSound,新清影在以下 5 个方面实现了提升。

  • 模型能力全面提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。
  • 4K超高清分辨率:支持生成 10s、4K、60 帧超高清视频,视觉体验拉到极致,动态画面更加流畅。
  • 可变比例:支持任意比例的图像生成视频,超宽画幅也能轻松 Hold 住,从而适应不同的播放需求。
  • 多通道生成能力:同一指令/图片可以一次性生成 4 个视频。
  • 带声效的 AI 视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

OpenAI 正在与监管机构谈判,希望成为一家盈利性公司

据报道,OpenAI 正在与加利福尼亚州和特拉华州的监管机构进行初步谈判,目标是将该公司转变为营利性公司。根据加州法律,这一过程可能很复杂,该法律要求将分配给非营利资产的价值分配给慈善事业,但 OpenAI 的主要资产是其知识产权。

Meta 前 Orion 硬件负责人将加入 OpenAI

据《TechCrunch》报道,前 Meta Orion 硬件负责人 Caitlin Kalinowski 宣布加入 OpenAI,领导机器人和消费硬件部门。Kalinowski 此前在 Meta 负责 AR 眼镜和虚拟现实设备的硬件开发,还曾在苹果设计 MacBook 硬件。在新职位中,她将专注于 OpenAI 的机器人项目,推动 AI 在物理世界中的应用。

Physical Intelligence 推出通才机器人模型 π0

尽管 AI 在生成图像、视频、甚至蛋白质结构预测方面取得显著进展,但与人类相比,AI 在物理世界的操作上仍存在巨大差距。

基于此,Physical Intelligence 开发了通才机器人模型 π0,希望通过融合多模态数据和物理交互经验,使其拥有物理智能。这款模型采用预训练的视觉语言模型(VLM)作为起点,结合网络结构创新实现了高频率运动输出,支持更灵活的机器人操作,不仅可处理图像、文本和物理动作数据,还能通过低层次的运动指令控制多种机器人,甚至支持专门任务微调。实验表明,π0 具备处理复杂任务的能力,如通过微调可成功完成堆叠餐具或整理衣物等高度灵活的操作。这一成果为未来构建具备普适性物理智能的机器人提供了重要基础。

该公司日前刚刚筹集了 4 亿美元,融资后估值为 24 亿美元。此轮融资由 Jeff Bezos、风险投资公司 Thrive Capital 和 Lux Capital 领投,其他投资者包括 OpenAI、Redpoint Ventures 和 Bond。


xAI 推出公开测试版 API

日前,xAI 推出了公开测试版 API,它使开发人员能够以编程方式访问他们的 Grok 系列基础模型。Grok 模型的上下文长度为 128000 个 tokens,支持函数调用和系统提示。除了纯文本版本的 grok-beta 模型外,他们还将发布图像多模态模型版本。

BlackForest Labs 推出 FLUX1.1 [pro] Ultra 和 Raw 模式

BlackForest Labs 宣布推出 FLUX1.1 [pro] Ultra 和 Raw 模式。其中,Ultra 模式可生成分辨率为标准 FLUX1.1 [pro] 四倍的图像,而不会牺牲提示遵守度(prompt adherence),生成速度比同类高分辨率产品快 2.5 倍以上。Raw 模式可以生成合成程度更低、更自然美感的图像。与其他文本转图像模型相比,Raw 模式显著增加了人物主体的多样性,增强了自然摄影的真实感。


Mistral AI 推出 Mistral Batch API

日前,Mistral AI 推出了 Mistral Batch API。Batch API 引入了一种更高效的方式来处理对 Mistral 模型的大量请求,成本比同步 API 调用低 50%。Batch API 的应用场景包括客户反馈和情绪分析、批量文档摘要和翻译、用于准备搜索索引的向量嵌入以及数据标记。

Mistral AI 推出 Mistral Moderation API

Mistral AI 推出了一款新的内容审核 API,旨在为下游应用提供系统级的安全防护,支持用户根据特定应用需求和安全标准进行调整。该 API 同样为聊天工具 Le Chat 提供审核支持,采用了基于大语言模型(LLM)的分类器,将文本内容分为 9 类。API 提供文本和对话两种端点,尤其针对对话的最后一条消息进行审核,支持多语言,涵盖阿拉伯语、中文、英语等 11 种语言。内容审核分类器通过相关政策类别为 AI 安全提供有效的防护机制。

Anthropic 将为美国情报和国防机构提供 Claude 模型

Anthropic 正在与数据分析公司 Palantir 和 AWS 合作,为美国情报和国防机构提供 Claude 系列 AI 模型。Claude 于本月初在 Palantir 平台上推出,现在可以在 Palantir 的国防认证环境 Palantir Impact Level 6 (IL6) 中使用。Anthropic 销售主管 Kate Earle Jensen 表示,“我们很自豪能够走在将负责任的 AI 解决方案引入美国机密环境的前沿,提高政府重要运营的分析能力和运营效率”。

Perplexity 在新一轮融资中估值达到 90 亿美元

据 CNBC 报道,AI 搜索引擎初创公司 Perplexity AI 正处于筹集 5 亿美元资金的最后阶段,估值达到 90 亿美元。这家初创公司的竞争对手是谷歌以及 OpenAI,该公司今年以来在生成式 AI 热潮中继续吸引投资者的兴趣,今年迄今已完成四轮融资。

苹果正探索进入“智能眼镜”领域

据知情人士透露,这项代号为 Atlas 的计划于上周启动,主要内容是收集苹果员工对智能眼镜的反馈。该计划团队在给公司总部部分员工的电子邮件中写道:“测试和开发所有人都会喜欢的产品对于苹果来说非常重要。这就是为什么我们正在寻找参与者加入我们即将开展的一项针对当前市场上智能眼镜的用户研究。
亚马逊推出 AI 电视节目回顾,承诺“无剧透”

日前,亚马逊宣布在 Prime Video 上推出 X-Ray Recaps 功能,并称这项基于 AI 的生成功能“提供了一种新的方式来快速了解剧情,既不会浪费时间,也不会剧透”。该公司表示,X-Ray Recaps 功能可以创建“简短易懂的摘要”文本,涵盖整季电视节目、单集或特定片段,精确到观看时所在的时间。


小鹏汽车发布 AI 机器人 Iron:已进入工厂实训

据《科创板日报》报道,小鹏汽车董事长、CEO 何小鹏在 AI 技术日上透露,AI 机器人小鹏 Iron 将搭载多块自研芯片支持端到端大模型,拥有 15 个可动自由度、支持触控反馈的拟态双手,目前该款机器人已经在小鹏广州工厂进行小鹏 P7+ 车型生产实训,小鹏 Iron 未来将会聚焦在工厂和门店等场景。

谷歌可控制电脑的 AI 助手 Jarvis 被意外泄露

日前,谷歌的 AI 助手 Jarvis 的预览版被意外上架 Chrome 应用商城。该工具可以通过网络浏览器为用户浏览网页,从而处理购买杂货、预订机票和研究课题等常见任务。但谷歌随后很快就关闭了 Jarvis 的商店页面。

王慧文回归美团,带队探索 AI 应用

据《科创板日报》报道,原美团联合创始人、光年之外创始人王慧文如今已经回归美团、带队探索 AI 应用。据悉,王慧文所在的美团 AI 团队被称为 GN06。在公开的招聘需求上显示,GN06 目前的主要业务方向包括情感陪伴、聊天机器人等,产品和运营角色则由王慧文面试把关。


技术前瞻


清华、加州大学团队提出 LLM 微调新方法

大语言模型(LLM)在解决简单科学问题方面表现出良好的能力,但在解决复杂问题时往往会产生幻觉。虽然将 LLM 与工具集成可以提高可靠性,但这种方法通常会导致对工具的过度依赖,削弱模型通过基本推理解决简单问题的能力。与此相反,人类专家在选择合适的解决方法之前,首先会利用领域知识评估问题的复杂性。

受人类解决问题过程的启发,来自清华大学和加州大学的研究团队提出了一种由两部分组成的新型微调方法。在“世界知识蒸馏”(WKD)部分中,LLM 直接从使用工具信息生成的解决方案中学习,从而内化领域知识。在“工具使用适应”(TUA)部分中,根据模型的直接回答准确率,将问题分为简单和困难两类。在对简单问题保持与 WKD 相同的对齐目标的同时,他们对模型进行训练,使其在遇到更具挑战性的问题时智能地切换到工具使用。

他们在数学、气候科学和流行病学等六个科学基准数据集上验证了他们的方法。在所有数据集上,他们的模型平均提高了 28.18% 的答案准确率和 13.89% 的工具使用精确度,超过了 GPT-4o 和 Claude-3.5 等 SOTA 模型。


Meta 提出视频生成加速方法 AdaCache

生成具有时间一致性的高保真视频的计算成本很高,尤其是在较长的时间跨度上。最近推出的扩散 Transformers(DiTs)尽管在这方面取得了重大进展,但加剧了这种挑战,因为它们依赖于较大的模型和较重的注意力机制,导致推理速度较慢。

为加速视频 DiTs,来自 Meta 和石溪大学的研究团队提出了一种免训练(training-free)的方法——自适应缓存(AdaCache),其灵感来自于“并非所有视频都是一样的”这一事实:也就是说,与其他视频相比,有些视频只需要较少的去噪步骤就能达到预期的质量。

在此基础上,他们不仅通过扩散过程来缓存计算,还针对每一代视频设计了缓存计划,最大限度地实现了质量-延迟权衡。他们进一步引入了运动正则化(MoReg)方案,在 AdaCache 中利用视频信息,根据运动内容控制计算分配。

这一即插即用技术在不牺牲生成质量的前提下,在多个视频 DiT 基线上显著提高了推理速度(例如,在 Open-Sora 720p - 2s 视频生成上最高提高了 4.7 倍)。


清华、智谱团队推出自进化在线课程强化学习框架 WebRL

大语言模型(LLM)已显示出作为自主 Agent 的巨大潜力,尤其是在基于网页的任务中。然而,现有的 LLM 网页 Agents 严重依赖昂贵的专有 LLM API,而开源 LLM 则缺乏必要的决策能力。

来自清华、智谱的研究团队推出了自进化在线课程强化学习框架 WebRL,旨在使用开源 LLM 训练高性能网页 Agent。WebRL 解决了构建 LLM 网页 Agent 的三个关键挑战:训练任务稀缺、反馈信号稀少以及在线学习中的策略分布漂移。具体来说,WebRL 包含:1)从不成功的尝试中生成新任务的自进化课程;2)鲁棒的结果监督奖励模型(ORM);3)确保持续改进的自适应强化学习策略。

他们应用 WebRL 将开源 Llama-3.1 和 GLM-4 模型转化为技能熟练的网页 Agent。在 WebArena-Lite 上,WebRL 将 Llama-3.1-8B 的成功率从 4.8% 提高到 42.4%,将 GLM-4-9B 的成功率从 6.1% 提高到 43%。这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA 网页 Agent(AutoWebGLM,18.2%)。

研究结果表明,WebRL 能有效缩小基于开源 LLM 网页 Agent 与基于专有 LLM 的网页 Agent 之间的差距,有利于开发更易于使用、功能更强大的自主网页交互系统。


点击“阅读原文”,获取「2024必读大模型论文」合集


政策与安全


AI 工作者寻求“举报人保护”

来自 AI 公司的员工呼吁美国国会为他们提供专门的举报人保护,认为现行法律不足以支持他们揭露 AI 技术带来的潜在风险。参议员 Ed Markey 及 Chuck Grassley 等呼吁立法保护 AI 领域的举报人,以确保他们能在不受报复的情况下公开安全问题。OpenAI 已更新政策支持员工举报,但仍限制泄露商业机密的行为。

英国政府为企业推出新的 AI 安全平台

英国政府将为企业提供一个新平台,让“英国企业能够一站式获取有关他们可以采取的行动的信息,以识别和减轻 AI 带来的潜在风险和危害”。同时,英国政府还透露,英国 AI 安全研究所已与新加坡签署了一项新协议,以深化 AI 安全合作。


专家观点


MIT 团队:生成式 AI 对世界没有连贯理解

来自麻省理工学院的研究发现,大语言模型(LLM)在提供纽约市导航等复杂任务时能展现出高准确度,但实际上并未构建出真实的内在地图模型,说明模型并未像看起来的那样在隐性学习世界的普遍真理。

基于此,研究人员通过对常见 Transformer 模型进行评估开发了两项新指标,以检测模型是否真正形成“世界模型”。结果显示,尽管这些模型能够生成合理的方向和连贯的棋步,它们在理解城市地图和游戏规则方面并不一致。进一步实验表明,在导航时一旦增加 1% 的封路,模型准确率就从接近 100% 迅速下降到 67%。因此,要想让 AI 真正捕捉到复杂的世界规则,还需要新的训练方法。

宇树科技创始人:通用机器人大模型将在三年内到来

在第七届进博会虹桥国际经济论坛上,宇树科技创始人、CEO & CTO 王兴兴表示,大语言模型对机器人的赋能仍有局限性,对于物理世界的理解和逻辑推理能力不太够。

不过,他相信通用人工智能(AGI)的黎明已经到来,三年内全球将有公司、实验室能够做出通用的机器人大模型。“未来三到五年机器人领域会发生天翻地覆的变化,因为有更多的关注、更多的资金和人才进入了这个领域。”

工信部副部长熊继军:加快推进 AI 赋能新型工业化

据《科创板日报》报道,在第七届进博会虹桥国际经济论坛上,工业和信息化部副部长熊继军表示,要加快推进 AI 赋能新型工业化,其中包括强化创新合作,即“支持国内外的企业、高校科研机构组建良好的创新体,深入开展技术和人才的交流合作,共建开源社区,共研高质量的算法,共享高价值的数据集,合力推动大模型的关键技术研发”。

中银证券:具身智能机器人有望成为智能体最佳载体

中银证券日前表示,智能体时代来临,小型端侧设备无法消化大模型大参数,具身智能机器人有望成为智能体最佳载体。

目前具身智能商业落地途径主要包括三种:通用机器人路径对于资金和技术要求较高,目前特斯拉等行业巨头正加速布局;纯软件路径的核心是设计通用的操作系统使多个硬件厂商共享同一套软件,英伟达 Project GR00T 以及华为鸿蒙操作系统核心合作厂商有望深度受益;垂直领域软硬一体路径能够使公司形成数据壁垒,细分领域龙头具备核心优势。


其他


创纪录!首幅人形机器人绘制作品拍出 108 万美元

据英国《卫报》报道,由世界上第一位超现实主义机器人艺术家 Ai-Da 创作的肖像画《AI 之神:阿兰·图灵的肖像》日前于纽约苏富比拍卖行以 108 万美元的价格成交。苏富比拍卖行在一份声明中表示:“今天,首幅人形机器人艺术家作品以创纪录的价格进行拍卖,标志着现当代艺术史上的一个时刻,反映了 AI 技术与全球艺术市场之间的日益交融。”

沙特计划斥资 1000 亿美元打造 AI 强国

据知情人士透露,沙特阿拉伯正计划投入高达 1000 亿美元的资金开展一个新的 AI 项目,以打造一个与邻国阿拉伯联合酋长国相媲美的技术中心。他们表示,这项名为“Project Transcendence”的计划还将专注于为沙特招募新人才、发展当地生态系统,并鼓励科技公司在该国投入资源。

新工具可降低高达 30% 的 AI 训练能耗

密歇根大学的研究团队开发了一种名为 Perseus 的软件工具,旨在降低大语言模型(LLM)训练过程中的能源浪费。研究发现,Perseus 可以在训练时间不变的情况下减少高达 30% 的能耗,相当于节省出足够 2026 年 110 万户美国家庭用电的能源。

该工具通过识别和调整任务分配中的“关键路径”来减缓不在此路径上的处理器,从而避免无效能耗。该工具已在 GPT-3 等模型中测试,作为开源工具 Zeus 的一部分,有助于降低 AI 的碳足迹。

将 AI 用于实时聚变等离子体行为预测和操控

普林斯顿大学开展了一项关于使用机器学习(ML)和超分辨率技术来提升核聚变等离子体行为的预测和控制的研究。

研究指出,多模态超分辨率方法能通过融合多种诊断数据,识别等离子体中的隐性物理现象,进而帮助稳定边缘局部模(ELM),避免反应堆壁损坏。在托卡马克反应堆中,研究团队开发了能在 100 微秒内做出等离子体状态预测的 ML 模型,并实现了对非稳定态的实时检测和控制。

此外,ML 还被用于诊断数据的降维和上采样,为未来核聚变反应堆的高效监测提供潜在解决方案。



学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章