OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

科技 2024-12-13 07:23 广东

SmartFlowAI

点击上方蓝字关注我们

本文转载自 AI 前线，整理：华卫
导读：现在 ChatGPT 不仅伶牙俐齿，还能「睁眼看世界」，不知道这项能力是否会很快出现在新的 AI 硬件上，但 AI 睁开眼睛的那一刻，也终于走进了人类眼中的世界。
全文约 2400 字，预计阅读时间 6 分钟

昨天OpenAI的风头几乎都被谷歌抢尽了，不少用户都直接站队Gemini 2.0 ，称其是“GPT-5 级别的威胁”，不仅能生成文字外，还能直接生成图片和语音。更为关键的是，Gemini 2.0供全球用户使用，而且有专门的实验版模型对所有开发者免费开放。

今天，OpenAI就带来了高级语音模式的功能更新：实时视频通话、屏幕共享和图像上传。即日起，这三项功能将在接下来几天内向所有 Team、以及大多数 ChatGPT Plus 和 Pro 用户推出（欧盟、瑞士、冰岛、挪威和列支敦士登的用户除外），Enterprise 和 Edu 用户将在明年 1 月获得访问权限。

其中，屏幕共享和图片上传仅在 iOS 和 Android 移动应用程序的高级语音模式中推出。

现在ChatGPT可以“看到和听到”

高级语音模式在去年发布的 GPT-4o 中已经预览过，但只有音频模式是实时的。现在，用户可以使用手机摄像头与 ChatGPT 聊天，大模型将会 “看到 ”你所看到的一切，包括你的手机屏幕。

进行实时视频通话功能的演示时，OpenAI的首席产品官 Kevin Weil首先牵头测试了一番ChatGPT的“记忆”能力。在OpenAI 的团队成员依次与ChatGPT视频打过招呼并有了一定的认识后，Weil要求它回忆各位成员的特征并说出相应的姓名。

接下来， Weil 又和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡：通过将摄像机对准动作，AVM 展示了它对咖啡机原理的理解，并引导提问者完成咖啡的整个冲泡过程。并且，在整个演示过程中，ChatGPT Advanced Voice 保持了自然而亲切的声音，还调整了它的语气，甚至像人类一样大笑。

有网友开玩笑道，“下一步GPT该指导人做饭了。”还有网友表示，“Her正在慢慢成为现实”，“如果这不是 AGI，我不知道什么是。”

该团队还展示了 ChatGPT 如何理解上传的屏幕截图，这对于需要ChatGPT提供技术支持或协助处理屏幕内容的情况非常有用。当选择 “共享屏幕 ”时，会弹出手机的屏幕共享选项，允许用户将屏幕广播给 ChatGPT；开始屏幕共享后，再次按下屏幕共享按钮即可停止与 ChatGPT 共享屏幕。

同时，OpenAI官方提醒到，ChatGPT 可能会自动响应用户从相机或屏幕上分享的内容。此外，在用户停止分享后，ChatGPT 可能仍会引用其之前在对话中分享的内容。但OpenAI保证，除非用户启用了“为每个人改进模型”，否则他们不会使用对话中上传的音频或视频片段来训练大模型。

比o1“更受欢迎”的模式来了？

高级语音模式基于原生多模态GPT-4o模型，可以直接接收和输出音频，提供更自然的对话节奏和情感表达。OpenAI 首席技术官 Muri Murati 表示，GPT-4o 提供了“GPT-4 级别”的智能，但改进了 GPT-4 在文本、视觉以及音频方面的能力。

据介绍，高级语音模式支持超过50种语言，9种逼真输出语音选项，且每种语音都有自己独特的语气和特征。而其背后的GPT-4o 不仅可以将语音转换为文本，还可以理解和标记音频的其他功能，例如呼吸和情感。

在圣诞节期间，OpenAI还新增了Santa Mode（圣诞模式），用户可以在ChatGPT中与圣诞老人的声音进行实时互动，支持移动应用、桌面应用和网页版。用户通过点击现在ChatGPT主屏幕上的雪花图标，或者在设置页面中找到并选择圣诞老人，就你可以向圣诞老人询问关于圣诞节的问题。

为了让更多用户体验与圣诞老人对话的功能，首次与圣诞老人进行高级语音对话的用户，其高级语音使用额度将被重置一次。即使你当天的或本月的使用额度已用完，也可以立即与圣诞老人进行语音对话。超出重置后的额度后，用户也可以通过文字方式与圣诞老人聊天。

OpenAI高级研究科学家、德扑AI之父Noam Brown甚至称，“我完全相信圣诞老人模式会比 o1 吸引来更多的订阅用户。”

结语

OpenAI直播第六天，CEO Sam Altman并没有出现，而是由包括OpenAI的首席产品官 Kevin Weil、OpenAI产品经理Jackie Shannon、负责多模态的OpenAI技术团队成员Michelle Qin和Rowan Zellers在内的四位员工来介绍了更新的功能。

其中，Michelle Qin是唯一的华人，入职OpenAI六个月。根据其个人主页的介绍，Michelle Qin是斯坦福大学理学士和硕士毕业生，主修人工智能领域的计算机科学。此前曾有过在苹果和Pika工作的经历。

然而，OpenAI第六天的更新也迎来一波网友的吐槽。有网友评价，这次的更新很“无聊”，或许明天会“很疯狂”。也有网友认为，“这只是Sora上线后的一个 ‘降温 ’功能。”

还有网友表示，“谷歌在正式发布之前就向用户发布了 Gemini 2，并且从一开始就提供实时语音和视频聊天，OpenAI却在发布后花了将近半年的时间才推出。”

值得一提的是，就在昨天下午，ChatGPT 还突然宕机了近4个小时，就连新发布的Sora也未能幸免。ChatGPT宕机之时，众多用户都直呼“全球学术停摆了”。而这已经不是ChatGPT第一次发生这样的情况，上个月ChatGPT瘫痪了30分钟，今年6月的宕机甚至持续了5小时以上。

参考链接：

https://help.openai.com/en/articles/8400625-voice-mode-faq

🚀OpenAI 圣诞礼物第四弹：Canvas全量开放，上新两大功能💥

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉