OpenAI最早今秋发新模型;智谱发布类GPT-4o模型…|本周模型与应用

财富   2024-09-01 20:32   上海  

撰文:杨秋秋、陆彦君、王小淳

编辑:王杰夫

Key Points

本周应用与模型


夸克桌面端发布,打包了多款生产力AI工具;


亚马逊计划于10月推出AI Alexa订阅服务;


Google更新Gemini,推出个性化定制Gems,并且重新推出图像生成功能;


Meta计划推出代号为Puffin的混合现实眼镜,重量只有Quest 3的1/5;


Midjourney要做AI硬件,模样不同寻常;


OpenAI计划最早今年秋季推出「草莓」模型,推理能力大升级;


智谱AI推出GLM-4-Plus,像GPT-4o那样与模型实时视频来解决问题;


Google发布首个AI游戏引擎GameNGen,用模型模拟游戏过程。


本周应用与产品


夸克桌面端发布,打包了多款生产力AI工具

8月27日,阿里智能信息事业群旗下夸克发布PC/Mac端应用,升级并整合了多项AI功能。据介绍,用户可以在电脑上随时随地调用AI回答、AI写作、AI PPT、AI文件总结等各项AI功能。此前,夸克已在App端推出全新AI搜索。

在功能上,夸克支持通过多种方式进行AI搜索,用户可以通过超级搜索框、快捷键、划词、截屏等多种方式针对页面中的内容进行提问。夸克还推出了AI写作功能,支持文案、PPT、简历等多种文章写作,同时支持Word一键转成PPT。此外,夸克还向用户开放了AI总结功能,能够总结文件、视频和网页,整理全文概要并声称对应脑图。用户还可以对内容进行多轮追问,以快速掌握内容要点。

夸克表示,与移动端应用将AI搜索作为核心不同,桌面端将更注重生产力AI工具包这一属性。


参考链接

https://mp.weixin.qq.com/s/kbtKmc08vSarT_kXszKUkw


亚马逊计划于10月推出AI Alexa订阅服务,每月10美元

随着GPT-4o等多模态模型的推出,亚马逊一直期待重新推出其语音助手Alexa。8月26日,有报道称亚马逊计划在10月推出AI Alexa语音助手订阅服务,该项目在亚马逊内部代号为「Banyan」,此项目原计划在今年8月完成。

AI Alexa能够识别新用户的声音,并向用户询问有关个人信息的问题,使订阅服务更具交互性。例如,用户告诉AI Alexa有关家人的饮食限制,语音助手在提供食谱建议时可能会考虑到这一点。此外,AI Alexa还将上线「智能简报」功能,为用户提供每日由AI生成的新闻摘要。升级后的AI Alexa需要付费订阅,其价格可能为每月10美元,原始版本的「classic Alexa」仍可免费使用。


参考链接

https://www.washingtonpost.com/technology/2024/08/26/amazon-ai-alexa-launch-subscription-election/


Google更新Gemini,推出个性化定制Gems,并且重新推出图像生成功能

8月28日,Google宣布推出两项此前在Google I/O大会预览的新功能,分别是可让用户创建个性化 AI 专家的功能「Gems」和最新的图像生成模型「Imagen 3」。这两项功能目前仅对Gemini Advanced、Business和Enterprise订阅用户推出。

Gems是一项新功能,支持用户自定义Gemini聊天机器人以充当任何选定领域的专家。用户可以针对自己的需求定制Gems,并提供说明、命名Gem并与其交互,用户可以简化项目、产生想法并更有效地管理任务。据介绍,为了帮助用户入门,Google针对不同场景推出几个预设Gems,如学习教练、职业指南、写作编辑等。

此外,新的图像生成模型Imagen 3将在未来几天内在Gemini Apps中推出,并扩展其对所有语言用户的可用性。Google强调,Imagen 3引入了具有内置安全措施的高级功能,并包含了为AI生成的图像添加水印的SynthID。而此前下架的人像图像生成功能也将陆续推出。

在今年年初,Google宣布暂停Gemini的人像图像生成功能,因为该工具在生成人物图像时,出现了「不符合历史事实」的场景,包括不正确的种族描述,如以「美国开国元勋华盛顿」为主题的图片中,出现了妇女和有色人种。


参考链接

https://blog.google/products/gemini/google-gemini-update-august-2024/


Meta计划推出代号为Puffin的混合现实眼镜,重量只有Quest 3的1/5

8月29日,有报道称Meta计划推出新型混合现实(MR)设备,代号为Puffin。知情人士称,Puffin的研发处于早期阶段,产品预计2027年发售。

Puffin重量不到110克——约为Ray-Ban Meta智能眼镜的两倍,但只有Quest 3头显的1/5。与Quest不同,Puffin不配备手持控制器,用户将通过手势和眼球运动与其交互。Puffin还将使用相对较薄、视野较宽的「煎饼镜片」,向用户传递自然世界的影像。

Meta的此项计划是在AR、VR和MR设备的前景受到质疑之际提出的——尽管Meta的Quest头显已经有一定知名度,但其尚未成为大众市场购买的产品;Apple也因零售价超过3500美元的Vision Pro市场表现不佳,暂停了这款头显第二版的研发。与此同时,包括Snap和Google在内的几家科技公司花费数年时间开发带有AR功能的眼镜,但它们都遭遇了技术上的挫折(尤其是显示技术方面),尚未到达可以销售产品的阶段。

Meta现实实验室的员工表示,本月早些时候他们向Meta CEO Zuckerberg和CTO Bosworth展示了新型眼镜式MR设备的创意。会后员工们决定继续开发Puffin,并取消了一款正在开发中的高端MR头显。


参考链接

https://www.theinformation.com/articles/meta-considers-mixed-reality-glasses-code-named-puffin


Midjourney要做AI硬件,模样不同寻常

8月29日,人工智能图像生成公司Midjourney在社交媒体X发帖,正式宣布进军硬件领域,邀请人才加入其在旧金山新成立的硬件团队。Midjourney在回帖中透露,目前有多个项目正在推进,研发的硬件设备「不是吊坠形态」,也不是简单的可穿戴设备,能让用户「置身其中」。

Midjourney的创始人兼首席执行官David Holz对硬件并不陌生——他曾是动作追踪技术公司Leap Motion的联合创始人。去年12月,Midjourney聘请Apple前硬件经理Ahmad Abbas担任硬件部门主管。Abbas在Apple工作五年间,参与研发了混合现实头显Vision Pro,他曾在脑机接口公司Neuralink任职,还曾在Leap Motion与Holz共事。

早在今年1月,就有消息称Midjourney正在开发硬件产品,专注于收集3D数据。Holz在X发帖称,公司正在研发一种「球体」(orb),并在与Discord的对话中提到,自己设想中的orb是一种可用于生成和管理3D空间的设备。


参考链接

https://x.com/midjourney/status/1828839444130214208

https://the-decoder.com/apple-vision-pro-engineer-to-build-the-mid-journey-orb/

本周模型


OpenAI计划最早今年秋季推出「草莓」模型,推理能力大升级

8月27日,据报道OpenAI或将在今年秋季推出代号为「草莓」的新模型,将显著提升推理能力。「草莓」的前身就是神秘的「Q*」模型,它可以解答从未见过的数学问题,这是目前的AI聊天机器人无法做到的。

「草莓」强大的推理能力可以改进GPT-4,还会帮助OpenAI开发下一代旗舰模型「Orion」,确保OpenAI在大模型领域中的领先地位。具体来说,OpenAI正在使用较大版本的「草莓」模型生成更高质量的合成数据,用来训练Orion,这样可以打破从现实世界获取真实数据的局限,减少OpenAI模型的幻觉。

由于现有的AI在航空航天、结构工程等数学密集型领域内并不擅长解决问题,能够处理数学推理任务的AI可能是一个具有潜力的应用。Google和其他初创公司也在努力开发AI的推理能力。上个月,DeepMind表示,其AI将在国际数学奥赛中击败大多数人类参赛者。Anthropic表示,由于推理能力的提高,其最新的大模型可以编写更复杂的软件代码,并回答有关图表和图形的问题。


参考链接

https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business


智谱AI推出GLM-4-Plus,像GPT-4o那样与模型实时视频来解决问题

8月29日,智谱AI在国际数据挖掘与知识发现大会(KDD)上推出了其最新基座大模型GLM-4-Plus,并宣布即将在清言App推出「视频通话」功能。从测试结果来看,GLM-4-Plus大多数任务上做到逼近GPT-4o的能力甚至在某些任务上实现了超越GPT-4o的表现。而在功能上,GLM-4-Plus新增了的视觉模态能力,也与OpenAI的GPT-4o再次成功对标。

本次推出的GLM-4-Plus新增视频和网页理解能力,能够理解、分析复杂的视频或网页,并作出总结。此外,GLM-4V-Plus还具备一定的时间感知能力,能够概括总结具体时间节点的内容。

清言App团队现场演示「视频通话」功能,像素级模仿GPT-4o的发布会。

此外,清言App将更新「视频通话」功能,用户在App中打开视频通话窗口,就可以和AI视频通话。清言 App能够综合大模型的文本模态、音频模态和视频模态与用户进行多模态的互动,并具备实时推理的能力。例如,用户可以在通话时将摄像头对准一道数学题,智谱清言能够在识别理解题目之后讲解这道题目,并以教师的角色引导提问者得出对应的答案。目前,该功能开放了外部申请,仅面向部分用户开放。


参考链接

https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w


Google发布首个AI游戏引擎GameNGen,用模型模拟游戏过程

8月29日,Google研究人员在最新发表的论文中创建了一个AI神经网络,可以在不使用传统游戏引擎的情况下实时模拟游戏画面。该研究成果已在GitHub上公布,并推出名为GameNGen的实时游戏引擎。该引擎完全由图像模型(Stable Diffusion v1.4的增强版本)驱动,单个TPU(张量处理单元)上以超过20帧每秒的速度实时模拟经典射击游戏《毁灭战士》,并在生成质量上接近于真实游戏。

GameNGen模型实时生成游戏画面的演示。

目前传统的电子游戏引擎是按照游戏开发者事先编写的指令来运行游戏,开发者需要在设计游戏时编写对应的代码配置、文本和贴图模型,而游戏运行时的渲染和状态更新取决于手动编辑的规则。GameNGen则能够使用AI生成模型,根据玩家的动作和反应,执行复杂的游戏状态更新,并不是遵循某种预先设定好的游戏规则。在演示视频中,玩家可以在场景中转弯、发射武器,同时能够准确反映剩余的子弹数量、遭到攻击后的剩余血量,以及是否满足打开下一个关卡所需的条件。

论文显示,GameNGen的训练过程分为两个阶段,第一步是训练一个强化游戏的智能体学习玩游戏并记录训练过程,第二步则是使用录制下来的片段来训练生成扩散模型,根据过去的帧和动作来预测接下来的画面。从测试结果来看,该引擎生成的预测轨迹在内容和图像质量方面与实际游戏相近,并在人类评估中被近60%的评估者认为「真实游戏而非模拟」。


参考链接

https://gamengen.github.io/

-END-

Character AI创始人变Gemini技术负责人;地平线也建了具身智能团队...|本周大公司动态

文远知行推迟IPO;赛力斯也成为引望股东…|本周投融资

字节发首款混合现实设备;智元机器人要做开源平台…|本周模型与应用

第一财经YiMagazine
这里是《第一财经》杂志(前身《第一财经周刊》)读者俱乐部,我们为你发掘精彩的商业价值,也邀请你一起探寻明亮的商业世界。
 最新文章