谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

科技 2024-08-14 17:30 广东

谷歌版Her，抢先OpenAI登场了？谷歌语音模型Gemini Live，即将在全球30亿安卓和22亿iOS设备中上线。虽然现场演示依旧小翻车了一下，但谷歌下定决心不等了，一心截胡OpenAI，还要对打苹果！

OpenAI，刚被截胡了？

紧追着OpenAI的「Her」，谷歌也正式官宣：发布AI语音功能！

就在刚刚「谷歌制造」的主题演讲中，谷歌宣布推出语音模式Gemini Live。不久后，Gemini Live就会在Gemini移动应用程序中上线。

谷歌和OpenAI的军备竞赛，再一次打响。

看看OpenAI那边，三个月前石破天惊的「Her」如今依旧没个声响，这是妥妥要被谷歌截胡的节奏啊。

在场的谷歌领导Rick Osterloh也意味深长地表示：「我们听到太多关于AI的承诺，和即将推出的口号了。今天，我们要展示的是真实的进展！」

此外，在这次演讲中，谷歌还详细展示了Gemini会如何更深入地集成到安卓、应用程序和新的Pixel设备中。

在一口气发布的Pixel 9系列手机中，谷歌也探索了「AI+手机」的新样态：Gemini、安卓、Pixel的融合，会孵化出怎样的端侧AI产品形态。

现在，凭借AI加持的安卓，谷歌能击败苹果吗？

谷歌的「Her」，也来了

根据谷歌介绍，Gemini Live是一款全新的移动对话体验。

如果我们想要头脑风暴一下，根据自己的技能和学历能找到什么样的工作，Gemini可以立刻跟我们实时对话。

这个感觉，就仿佛口袋里有了一个随时可以聊天的贴心助手。

而且同OpenAI一样，谷歌的语音功能，同样可以让用户以自然的对话语言和它交流，它的回应也用的是真人般的声音和节奏。

请听下面这个音频，几种男声和女声的音色都很自然。

为了让我们拥有最自然的体验，谷歌一口气推出了10种声音，我们可以随心选择自己最喜欢的语调和风格。

另外，Gemini Live还支持免提功能。即使Gemini应用程序在后台，或者手机正在锁定，我们依然可以和它对话，就仿佛在普通的电话中一样。

还有，我们可以随时打断它、更改话题——看着很眼熟对吧？没错，OpenAI的语音能做的，它都有。

五月份OpenAI惊艳全场的高级语音功能「Her」，如今依旧在鸽，上个月底也只是选择性地向一小部分Alpha测试参与者开放。

在速度上，谷歌明显吊打了OpenAI。

现在只要花每月19.99美元，就可以在安卓设备上使用Gemini Live了，只要进入谷歌Gemini应用程序即可。

目前开放的是英语版本，而iOS版本和更多语言的支持，还会在未来几周内推出。

另一方面，在用户规模上，谷歌的高级语音模式也会接触比OpenAI更广泛的潜在用户。

要知道，如今全世界有超过30亿的安卓用户，和22亿的iOS用户。

而OpenAI的语音功能鸽了的部分原因，恐怕是跟红队测试中AI的异常表现有关。

它的行为令人不安，甚至存在潜在的危险。而未经同意模仿用户的声音，还有可能被用于欺诈等恶意目的。

这些安全问题，谷歌就完全解决了吗？目前没人知道，但很明显——不想屈居人后的谷歌，决定这次也豁出去一把。

但翻了两次车

唯一不足的是，Gemini Live现场演示，出现了一些小插曲。

谷歌高管Dave Citron在展示Gemini在安卓新机连接谷歌日历、任务和Keep的新功能时，没想到接连翻车两次。

他先用手机拍摄了一张Sabrina Carpenter在旧金山举行时装秀宣传海报，然后问道Gemini，「查看我的日程，看看是否有空参加Sabrina Carpenter的时装秀」。

Gemini第一次回复中，却说这里出错了，再尝试一次。

第二次重复尝试刚刚步骤时，Gemini依旧没有答复。

直到第三次（换了一个设备），终于给出了结果，现场一阵欢呼。

重新定义AI助手

在这次演讲中，谷歌表示：通过Gemini，他们重新构想了个人助手对人类真正有用的意义——更自然、对话式、更直观。

连接更多应用程序

一个好的AI助手，最重要的关键词是什么？

连接。

Gemini就是如此，它会跟我们使用的所有谷歌应用程序和工具集成，完成大大小小的任务。

而跟其他助手不同的是，我们无需耗费功夫，在应用程序和服务之间切换。

而在未来几周，谷歌还会推出全新的扩展功能，包括Keep、Tasks、Utilities和YouTube Music。

图中有什么食物？问一嘴Gemini，它全给你列出来

假设现在我们要办一场晚宴，Gemini就可以发挥它的百般武艺了——

从Gmail中，它可以找出某人发给我们的千层面食谱，然后把配料添加到Keep的购物清单中；然后，在让Gemini为我们攒一份歌单，要求是「让我想起90年代末」。

在谷歌即将推出的日历扩展功能中，我们可以直接拍一张音乐会的海报，问Gemini：我当天有空不？如果答案是yes，还可以让Gemini帮我们设置提醒，准备抢票。

让Gemini给教授写个邮件请个假，请求deadline再延期几天，动动嘴就行了

一键召唤Gemini

现在，Gemini已经完全融入了安卓的用户体验。

只有在安卓系统中，我们才能体会到如此丝滑的上下文感知功能。

只要拿着一部安卓手机，无论我们想要做什么，Gemini都能在需要时应声出现。

长按电源按钮，或者说一声「Hey Google」，就能召唤出Gemini了！

点击「询问此屏幕」，就可以获取有关屏幕内容的帮助。

如果正在使用YouTube，可以向Gemini询问有关视频的问题。

比如，假设我们正在为出国旅行做攻略，刚看完一个旅游视频博客，点击「询问此视频」，让它列出视频中出现的所有餐馆、添加到谷歌地图中，Gemini就会一一照做。

再看下图，Gemini生成的图像，可以直接拖放到Gmail和Google Messages中。

相信你已经体会到，这套操作中的妙处了——

因为Gemini为安卓构建了深度集成，AI能做的就不仅仅是读取屏幕内容，还能与我们已经在使用的许多应用进行交互。

Gemini 1.5 Flash，加持AI助手

不过，还有两个问题：能更好地解释自然语言和处理任务的LLM，往往意味着即使完成简单任务，也需要更多的时间。

而AI如果表现出意想不到的行为，或提供不准确的信息，也很让人头疼。

为此，谷歌特意引入了新模型——Gemini 1.5 Flash。

它的响应更快，回答的质量也更高。

在未来几个月内，谷歌还会把模型与Google Home、Phone和Messages进行更深层的集成。

谷歌表示，今天我们正式到达了一个拐点，AI助手的有用性，远远超过了它们的挑战。

基于Imagen 3打造，2秒生图

会上，谷歌还推出了一款全新的AI生图应用——Pixel Studio。

仅需要几个提示词，就能生成一幅精美的图片。

最重要的是，它是一个本地生图APP，基于Imagen 3打造，2秒之内便可生成各种图像。

同在今天，Imagen 3的技术报告也出炉了，技术细节可参见32页论文。

论文地址：https://arxiv.org/pdf/2408.07009

首款AI手机，每月要氪20刀

所有这些AI能力，谷歌全都植入到了最新手机硬件之中。

现场，谷歌一共发布了四款AI手机——Pixel 9、Pixel9 Pro、Pixel9 Pro XL，以及二代折叠屏Pixel 9 Pro Fold。

在Pixel 9系列新机上，你一定不能错过的，就是AI加持的拍照能力。

谷歌表示，图像处理算法——HDR+pipeline，已完全重建，可以让拍摄的照片有更好的对比度、阴影、曝光、锐化、色彩等。

以下是Pixel 9系手机新增的AI图像编辑能力：

Add Me

你是否常常遇到，家庭聚会、团建、家人旅行时，担起了拍照的重担，然而照片中唯独少了自己。

不过，以后就不用担心了。

谷歌「加我一个」（Add Me）功能，就能弥补你的遗憾。

首先，需要拍摄一张团体照。然后，负责拍照的人与照片中的人交互位置，拍摄一张「摄影师」在内的照片。

这时，Pixel使用实时AR技术，引导第二个拍照的人去构图，让其与第一张照片构图相匹配。

最后，然后，Pixel将两张图像合并，确保每个人都出现在同一张照片中，包括「摄影师」在内。

Reimagine

另一个Reimagine功能，便很好理解了。

这时Magic Editor编辑器中的一项能力，直接在文本框中描述你想要的效果。

AI即可让你的想法变成现实。

比如，修改照片中的背景，火山、日落、极光各种场景，随意发挥。

Auto Frame

自动构图是Magic Editor中的一项新功能，可以为已拍摄好的照片重新构图。

甚至，它可以为你的照片扩图，通过AI生成空白区域的背景。

Zoom Enhance

Zoom Enhance可以自动填充像素之间空隙，并精准预测细节，实现高质量的拍摄放大效果。

AI能力的实现，离不开Pixel 9系列背后强大的芯片。

最强AI处理器：Google Tensor G4

新款手机采用了谷歌全新设计的处理器——Google Tensor G4。

谷歌称，「Tensor G4芯片是我们迄今速度最快、功能最强大的芯片」。

在去年Tensor G3的基础上，谷歌联手三星打造了基于4nm工艺的半定制处理器Tensor G4，利用了Arm提供的CPU和GPU核心。

同时，它还用上了谷歌自家的模块，来增强AI、摄影和安全功能。

据悉，相比于前两代，G4在网页浏览速度提高了20%，APP启动提速17%，应用日常使用电池功耗提升多达20%。

CPU方面，G4配备了1个运行在3.1GHz的Cortex-X4核心、3个运行在2.6GHz的Cortex-A720核心，以及4个运行在 1.95GHz 的 Cortex-A520核心。

相比之下，Tensor G3则是1个2.91GHz的Cortex-X3核心，4个2.37GHz的Cortex-A715核心，以及4个1.70GHz的Cortex-A510核心。

尽管Tensor G4少了一个核心，但所有核心的时钟频率都提高了200MHz到300MHz。

根据泄露的Geekbench跑分，Tensor G4在单核测试中得分为2,005，多核测试为4,835。相比之下，Tensor G3在单核测试中的得分为1,751，多核测试为4,208。均有14%的性能差异。

至于GPU，Tensor G4采用了与去年Tensor G3相同的ARM Mali-G715 GPU，但频率从890MHz提升到了940MHz。这意味着Tensor G4的GPU性能应该略优于Tensor G3。

加持全新AI功能

AI当然是Tensor项目背后的主要推动力之一。

重新设计的Tensor G4，便是为了赋能最新Gemini和计算摄影功能。

可以本地运行的Gemini Nano模型（最大版本为35亿参数），能够以45 token/s的速度输出内容。

虽然，谷歌的TPU已经很快，但在token处理方面，并没有领先于竞争对手。

相较之下，高通Snapdragon 8 Gen 3运行100亿参数时，每秒可输出15个token；联发科Dimensity 9300能以每秒 20个token运行70亿参数。

不过，Pixel 9系列的独特AI功能可能不完全依赖于新芯片，而是其他因素的结果。

AI还需要大量的内存，并且需要访问快速且庞大的内存池来运行更复杂的模型。

Pixel 9配备12GB RAM，Pro系列升级到16GB。

谷歌表示，为了获得更流畅的AI体验，这是它首次划分出「一部分专用RAM来在设备上运行Gemini」，防止其他应用使用该内存。

不过，谷歌没有透露具体划分了多少，给AI任务使用。

尽管芯片本身在AI方面没有重大升级，但通过RAM管理的优化，仍可能带来更好的AI体验和新功能。

参考资料：

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-taking-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

来源:新智元

深圳龙岗智能视听研究院

人工智能 | 超高清

产业创新 | 技术孵化 | 成果转化

http://mp.weixin.qq.com/s?__biz=MzUyMzY3NDA5Nw==&mid=2247505882&idx=1&sn=e0c13799c28106254079a4a41658e532

智能视听研究院

建设具有国际影响力、华南地区最重要的视听技术创新基地，以及国家自主视听 AVS标准的运营总部和音视频处理和分析芯片设计、生产基地。

最新文章

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

航展附近这场无人机编队表演，竟用了钉钉AI助理的方案

当AI遇上广告，AKOOL 4000万美元营收一夜走红广告营销界

全球首个支持多主体一致性的国产视频模型诞生！视觉模型进入上下文时代

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

VP/XR/AIGC/数智人！VPS 2024上海国际虚拟制作大会亮点速递

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

国创中心重点孵化项目：粤港澳超高清数创产业园正式开园！

用XR跨越现实与虚拟，享受《黑神话•悟空》超沉浸天命之路

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

比Flux更强大的文生图模型来了！秘诀是“集百家之长”

粤港澳超高清数创产业园暨超高清公共服务平台正式启动，诚邀您莅临参会！

Claude接管人类电脑编程，OpenAI反击，智能体大战一触即发

粤港澳超高清数创产业园：湾东智芯先锋项目，超高清视频产业应用示范新高地

Claude重磅升级，接管人类电脑12小时，已经学会摸鱼了

手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命

智源发布原生多模态世界模型Emu3，仅靠预测下一个token统一图像文本视频

AVS感知无损压缩团体标准正式发布

研究院荣誉院长高文院士：AI科学家获诺奖，提醒我们重视科学大赛

超高清赋能精品创作，《2023-2024广播电视大屏收视数据报告》权威发布

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

抖音小红书卖爆1万台！Office版人形机器人也来了，破解波士顿动力商业化难题

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合

虚幻引擎+XR+虚拟演播室技术，带你亲临台风现场

苹果史上第一台AI手机诞生，iPhone 16屠版热搜！中文版明年登场，3nm芯片封神

老黄预言成真！Roblox官宣AI秒生3D物体模型，引爆10亿玩家游戏新世界

当视听艺术遇上AI奇缘，一起来见证AIGC赋能下的视听创作新生态

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

OpenAI家庭机器人NEO登场，动作丝滑逼近人类！穿着西装的「人」却专做家务

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

Windows、Mac只是装了个夸克，整个电脑都AI了！

5年要烧掉1000亿！中国大模型第一城，诞生了！

法国国礼纪录片已上线，使用AVS3标准进行8K转码播放

中科院院士乔红：人形机器人十大趋势展望

6年“取经”长路，国产游戏大作《黑神话：悟空》幕后分享

惊艳又抽象！巴黎奥运会闭幕式的“高光”回顾

国产AI机器人好超前…弹琴泡茶打咏春，还能撸猫？？

全球首个AI流媒体音乐App来了！中国造的

谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

OpenAI版终结者降临！地表最强机器人Figure 02问世，进宝马狂飙20小时

一个月蹦出4个国产Sora：“拍个手”集体阵亡 | 全方位评测

1194个镜头的原创AI数字资产，还原百年前中国第一次报名参加奥运会的真实历史

深圳争创“五个先锋” 加快打造人工智能先锋城市

清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

AI涌入巴黎奥运，颠覆观赛的中国黑科技大起底

2024年广东超高清视频显示产业全景图谱

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉