首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI全量上线4o视频通话 - 我们等了7个月。

百科 2024-12-13 06:07 河北

今天是OpenAI直播第6天，终于来了个能看点的。

Day4是个很无聊的canvas的极小更新以及向全量用户开放，昨晚Day5完全就是给苹果做下PR，都是纯粹的垃圾时间。

而今天，4o的实时视频通话，终于来了。

是不是感觉有点陌生？没想到吧，4o居然还有实时视频通话。。。

鸽了7个月，快被人忘干净了。

总结一下今天的直播，有三个东西：

实时视频通话。
实时理解屏幕。
圣诞老人限定语音。

一个一个说吧。

一.实时视频通话

今年5月14日，OpenAI的春季发布会上，他们正式掏出了GPT-4o。

其中最酷的东西，当然是他们的原生多模态。

大家也都见识到了，高级语音模式的威力，能模仿情绪、能唱歌、能演戏。在小红书和X上，已经看到无数人，在用它来做情感陪伴、练口语等等。

在教育领域，绝对是一个巨大的大杀器。

但是其实，当时最让人兴奋的，还是实时视频。

能实时对话，能理解你的连续性动作，能知道你在干啥。

也有记忆。

比如你跟他聊桌子上的一杯冰美式咖啡，这杯冰美式长的无头六臂奇奇怪怪颜色还是红色的，你们聊的很开心，然后切到了另一个话题，过了一分钟后，你突然问他，咱们刚才聊的咖啡是啥颜色。

它会很准确的告诉你，是红色。

就像，AI第一次，有了跟人类一样的眼睛。

他们自己也演示了一个很有趣的例子。

就是先让ChatGPT跟在座的人聊了一圈，然后问它：

而GPT回答的很好，直接把女生的名字回答的很准确，它记住了她。

然后又演示了另外一个当场教人做咖啡的场景。

我一直觉得，真正的实时视频理解，比语音和文本都重要的多。

因为对于我们人来说，从诞生到世界的第一天，当你还不会说话、还读不懂文字的时候，你理解这个世界，全靠视觉。

这是我们理解世界的基石。

而现在，当你举起一张手写的便签，它能立马看懂；当你你给它看一本杂志上的广告，它能分析背后的设计意图和话术风格；你对着镜头摆弄一件家里的小物件，它能指出其用途、历史、甚至给出改造建议。

这个东西，我觉得还是挺酷的。

今天晚上，他们正式宣布即将上线了。没错，是即将上线。。。

一周以内，对Pro和Plus用户开放。

OpenAI你是真的狗。

其实感觉以OpenAI这段时间直播的节奏，理论上这种功能，应该是跟o1pro和Sora类似，直播完后就直接全量上了。

但是有可能是受到了昨天Gemini2的冲击（他们也有视频理解），又或者是因为昨天早上ChatGPT的全线崩溃。

导致这一波节奏混乱，甚至，我都觉得今晚的直播，都是为了不显得自己丢人，临时换上来的。。。

二.实时理解屏幕

一个基于实时视频理解的变种。

只不过一个是通过摄像头，看外部的现实世界，一个是通过类似于屏幕共享的方式，让它来看你的屏幕。

跟视频实时理解一下，一周内上线。

这个东西，我觉得非常有用，类似于给你一个随时待命给你建议的牛逼助理。

随时看着你的屏幕，然后给你指点。

比如说一些我能想到的最简单的应用场景。

你在写PPT，感觉这页怎么做怎么丑，有点卡壳时，你就可以问它：

"这页的视觉排版逻辑是不是有点问题？"或者"这个配色看起来怪怪的，有没有更好的推荐？"

它就能直接指出核心问题，比如某一页的文字太密集，这个标题应该放在左上角，配图应该换个写实风格的，甚至它还能帮你现场给你一个最优方案，把问题瞬间解决。

再比如，在你写代码的时候，屏幕共享开着，它能实时看你代码的进展，指出可能的错误，甚至直接告诉你哪些变量命名不规范，哪些逻辑可以优化。

你都不用自己debug，它直接化身你的leader，边看边指正。

还有一个我自己觉得最实用的场景，就是处理表格数据。

因为我经常会做各种奇奇怪怪的数据分析，打开Excel的时候真的满屏的数据让你头晕脑胀，这个时候你只需要说一声：

“这份报表有啥什么异值？”或者“能不能帮我画个趋势图？”

当它立马就能帮你分析数据并给出结论的时候，我觉得，这就是帮了我大忙了。

当然，我理想中的最完美的形态，还是跟类似于那种Computer Use的Agent结合，直接帮我把事干了，那才是我最想要的。

比如，我们在用Figma做界面设计的时候，设计到一半，感觉排版不太对劲，于是就可以直接对它说了一句：

“整体简约一点，字体换成无衬线体。”

它立马接管设计，调整了文字间距、对齐方式，还推荐了几种更适合的字体供选择，最终完成一个更专业的设计方案。

甚至，它还能帮你理解背后的设计逻辑那就更屌了。

比如你问它：“为什么这个排版显得更舒服？”

它还能从用户体验的角度出发，解释黄金分割、留白运用等理论，带你快速提升审美和技能。

这个，可能才是我最想要的未来。

也是我觉得，屏幕实时理解的终极形态。

三.圣诞老人限定语音

一个挺抽象的更新，在高级语音里面，新加了一个新的音色。

叫Santa。其实就是个，圣诞老人的语音。

目前已经实时上线了，都可以在高级语音模式里体验到。

也挺抽象的，给大家听一听，我跟他的对话。。。

就，真的抽象。

可能对于老外来说，这个“吼～吼～吼”，真的有节日氛围吧。。。

写在最后

OpenAI直播，已经进行一半了。

稍微盘点一下。

Day 1：满血o1上线，ChatGPT Pro会员上线，o1 pro推出。

Day 2：基于o1的强化微调。

Day 3：Sora正式发布。

Day 4：ChatGPT Canvas全员开放以及小功能更新。

Day 5：给苹果站台，宣传苹果全系接入GPT。

Day 6：4o的实时理解上线。

说实话，非常的低于预期，非常的不尽人意，非常的想让我骂他。

每天晚上，都是如坐针毡、如芒刺背、如鲠在喉。

Dalle 4呢？AI Agent呢？AI搜索浏览器呢？猎户座新模型呢？

你这都是些啥啊。

最绝望的不是这个，最绝望的是，还有6天。

每天晚上我都会在小群里开腾讯会议，第一天来了80个人，第二天40个，第三天因为预告Sora也有40个，第四天20个，第五天11个。

而今天，只有5个。

真的，已经越来越没有人在乎了。

希望在后面的6天里，奥特曼你能改变一下我对于你的怨气，让我们觉得，OpenAI这么玩，都是策略，是在降低大家预期。

牛逼的东西，其实都放在后面。

真的，求求了。

为了你们自己。

也为了我们这些，每天熬夜的兄弟。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：wzglyay@gmail.com

数字生命卡兹克

努力分享一些很新、很酷的AI干货，愿我们永远对世界保持好奇。

最新文章

这些用AI伪造的苦难，正在剿杀人们的善意。

我花了5天时间，整理了一份AI硬件大全。

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

我们决定用50个关键词，来总结2024这AI狂奔的一年。

2025年的第一次招聘在此，量大管饱。

现在的搜索引擎，快被AI垃圾淹成赛博粪坑了。

2024的最后一天，由智谱AI新上线的o1为这一年划上句点。

在无人注意的蓝海里，PixVerse正踏上登神长阶。

可灵AI深夜悄悄上线AI模特，他们这是要革电商的命。

当身边亲人离去的那一刻，我才真的懂了数字生命的意义。

AI美女图成了过去式，“巨物宝可梦”才是新的流量密码。

10秒钟用AI给你的头像戴上圣诞帽，P图软件可以歇歇了。

OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍。

快手可灵1.6正式上线，他们又一次超越了自己。

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

Google全新发布AI视频Veo2、AI绘图Imagen3 - 何以凌越。

3分钟用AI让照片开口说话，去造属于自己的梦吧。

OpenAI全量上线4o视频通话 - 我们等了7个月。

体操运动，是所有AI视频最残酷的图灵测试。

30秒就能完美复刻你的声音，这就是当今最强的中文AI语音克隆。

人在新加坡，Google喊我来看AI下棋。

o1满血版上线，还有卖200美刀的Pro会员｜OpenAI直播第1天。

混迹于公众号的AI喷子“鲜虾包”，是这么练成的。

10秒钟用AI一键直出中文海报，我们终于等到了这一天。

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

我们再也回不去，没有AI的世界了 | ChatGPT两周年。

智谱AI全新发布Agent家族，用AI操控一切不再是梦了。

周鸿祎为了他们新出的AI搜索，居然亲自去拍了一部短剧。

Sora遭泄漏，被压迫的艺术家们，打响了反击OpenAI的第一枪。

一手体验Kimi版“o1”模型，这就是最通人性的数学AI。

体验完Vidu划时代的新功能，我觉得可以正式抛弃3D渲染了。

我们花了3天，做了一个文章一键同步的插件，然后，免费送。

我终于把我新买的iPhone16 Pro，接入了国产AI，实现AI自由。

微信公众号悄悄上线AI音色克隆，微信的一小步，却是AI的一大步。

数字生命卡兹克，又双叒招聘啦！

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

秘塔AI上线"知识库"，他们直接超进化成AI搜索完全体了。

体验完百度世界2024上的iRAG，我觉得AI绘图也可以没有幻觉了。

“动动嘴”就能编辑图像，豆包悄咪咪上线了这个超实用的新功能。

当我让AI在双十一购物，为啥它们都只买电子产品啊？

智谱AI上线4K60帧"新清影"，还要直接开源，我觉得他们疯了。

一键生成完整海报，这个AI是要革PS和Canva的命。

腾讯悄悄开源了两款大模型，他们快成中国的Meta了。

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

想用AI特效在万圣节“鬼混”，看这一篇就够了。

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

做AI捏捏，享赛博解压。

Runway的这个新功能，想要彻底颠覆动捕行业。

智谱AI悄悄发布AutoGLM，这一次，贾维斯真的要成现实了。

Midjourney上线图像编辑，他们终于知道什么叫开放了。

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉