首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
ChatGPT实时视频通话功能全量开放,AI终于睁开了"眼睛"。
科技
2024-12-13 17:26
湖南
🍹
Insight Daily
🪺
Aitrainee | 公众号:AI进修生
"ChatGPT又崩了……"
"期末论文怎么办?"
"工作报告还没写完啊!"
这是昨天ChatGPT宕机4小时时,推特上此起彼伏的哀嚎。而就在24小时后,当我第一次通过摄像头与ChatGPT"面对面"时,这种感觉,说实话,有点奇妙。
Openai给我们带来了一个重磅更新 - ChatGPT的实时视频通话功能全量开放了。
这个功能最让人惊叹的地方在于它的实时视觉理解能力。
ChatGPT不仅能看到你,还能实时理解你的一举一动。
比如,你在镜头前展示一道数学题,它能立即指出解题思路;你展示一盆观叶植物,它能识别出植物品种并给出养护建议;你演示一个瑜伽动作,它能及时纠正你的姿势要领。这种实时互动的体验,就像有一位无所不知的导师在身边,随时准备解答你的疑惑。
在OpenAI的演示中,产品负责人Kevin让ChatGPT跟团队成员一一打招呼。
每个人介绍完后,ChatGPT都能很自然地回应,还能说出"ChatGPT多模态团队的工程师?
很有趣的工作"、"看起来你们在做一些很棒的项目"这样情商在线的话。
更神奇的是,
ChatGPT还有"记忆力"。
当Kevin突然问它"刚才那个人是谁",ChatGPT不仅能准确说出名字,还记得对方说过的每一句话。
它能准确回答。
就像AI第一次有了跟人类一样的眼睛,能看见、能理解、能记住。
还有在咖啡制作的演示中,ChatGPT不仅能看懂每个步骤,还会提醒"先用热水冲洗滤纸去除纸味",建议"让咖啡粉充分浸泡30秒释放气体",甚至会说"你的水流有点快,建议放慢速度保证充分萃取"这样专业的建议。
这次更新的意义,远不止是加入了一个视频通话功能那么简单。在此之前,我们跟AI的交流主要依赖文字。即使是图像理解,也是通过上传静态图片的方式。但现在,AI可以实时看到我们的动作、表情,甚至能理解环境中的变化。这让AI更接近于真实的人类交互体验。
在教育领域,这个功能的潜力尤其令人期待。
老师可以实时展示教具,AI能即时理解并给出讲解建议;学生做实验时,AI能实时观察并指出操作中的问题;在线教育可以变得更加互动,AI能根据学生的实时反应调整教学节奏。比如他们演示了一个现场教人做咖啡的场景,AI不仅能看懂每个步骤,还能及时纠正错误动作,给出专业建议。
我们已经看到了未来AI助手的模样——不再局限于文字框里的对话,而是能真正"走进"我们的生活,看见我们的世界。这不仅是技术的进步,更是人机交互范式的革新。
当AI能实时看到、理解我们的行为时,它就真正开始融入我们的日常生活。
就像电影《Her》中描绘的场景正在一步步成为现实。
AI不再是冰冷的代码,而是能看见你、理解你,甚至能记住你的一个更智能的助手。这或许就是AI时代最迷人的地方——科技在不断突破我们的想象,让未来的图景变得越来越清晰。
而这一切,才刚刚开始。
而且这次的更新还藏着一个应景的彩蛋——Santa Mode。只需点击屏幕上的雪花图标,ChatGPT就会用圣诞老人温暖欢快的声音跟你对话。这个暖心的小功能将持续到整个12月。
不仅如此,这次更新还带来了实时屏幕共享功能。你可以直接向ChatGPT展示你的屏幕内容,让它帮你分析文档、审阅代码,甚至帮你回复消息。在演示中,有人向ChatGPT展示了一条关于"想当商场圣诞老人"的要求,AI立刻给出了一个既幽默又得体的回复建议。
使用这个功能非常简单:
打开ChatGPT,点击输入框右下角的语音模按钮,然后你会看到左下角新增了一个视频图标。点击它,就能开启视频通话或屏幕共享。
目前,这项功能正在分批向用户开放。团队版用户和大部分Plus、Pro订阅用户将在一周内陆续获得访问权限。欧洲地区的用户可能需要稍等片刻获得这项功能。
为了庆祝这次更新,OpenAI还特意在首次使用时重置了所有用户的语音模式使用限制,让每个人都能完整体验这个改变人机交互方式的重大突破。
Openai | 视频发布:https://www.youtube.com/watch?v=NIQDnWlwYyQ
AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
最新文章
Deepseek-V3 计算机使用:这是一个完全免费的 AI 代理,一句话操控浏览器(Browser Use)
MiniPerplx:一款全新开源的AI搜索引擎,xAI 和 Vercel 赞助。
Gemini CodeGen + Search:全新免费的 AI 编码器 与 使用Replit2小时复刻Perplexity。
一手体验STORM写作系统,这才是AI写作的未来形态。
DeepSeek Artifacts:全新免费的 AI 编码器,构建公共前端代码数据集(Bolt、V0类)
我用Bolt DIY + Deepseek V3做了个跨年倒计时,2024留给你最后的温暖。
用思维链激活Cursor + Cursor绝不仅仅是代码编辑器。
三分钟带你看完Lovable,这款全新的AI全栈APP构建器击败了Bolt吗?
如何让 Cursor 在大型项目中更好地工作 - 进阶技巧分享
Cursor 0.44版本悄悄上线,体验YOLO模式,我知道编程再也回不去了。
10分钟入门Cursor+Git,让AI编程如虎添翼。
深夜惊喜!谷歌版o1免费上线,支持图片和音频输入!还能在Cursor里用,支持代码批量修改!
从0到1用AI做了个AI服务网站, 全程没写一行代码。
PDF转Markdown,TextIn文档解析工具全体验,兼容多种格式!(附独家免费权益)
又一篇AI顶会!这个idea简直“ 杀疯了 ” ....
告别算力焦虑,轻松玩转大模型,请低调使用
当Claude3.5 遇上 Gemini 2,这个免费的AI编程竞技场炸了。
ChatGPT实时视频通话功能全量开放,AI终于睁开了"眼睛"。
谷歌的Gemini 2.0来了! 这是我见过最强的免费AI助手。
TEN Agent 一键让 Coze Bot 开口说话,这下AI助手终于能跟我聊天了。
我花了72小时研究Cursor Agents,以下是必须分享的硬核干货!
浏览器标签管理太乱?这款神器帮我整理得井井有条!
AI编程 x ,跑提示词 v,开发AI saas网站,全新免费 Websim AI 生成网站、小游戏和工具!
Copycoder:这个工具和 Cursor、Bolt、V0 配合太棒了!提供更好的前端开发提示词(AI导航网站生成)
Cursor从入门到精通:不可错过的七大技巧分享,Agent、Cursorrules(详细教程)
WindSurf+Bolt+Cursor+Sealos:构建AI播客应用程序,前后端分离、对象存储、数据库存储、部署、K8S
终于不用为GPU算力发愁了,趋动云免费算力、火热AI项目一键启动包、大模型微调与部署
V0更新:AI驱动的全栈Web开发工具,击败了Bolt 、Cursor、Windsurf 吗?
中国版的o1来了!DeepSeek-R1-Lite媲美o1-preview,还原完整COT推理过程!
Bolt + Supabase:1分钟实现APP的登陆功能、连接数据库(Bolt、Cursor、BaaS、AI全栈)
豆包MarsCode:AI带你刷题、解析代码仓库、云IDE支持,还免费,这也太酷了吧。
Windsurf:这款全新免费的 AI IDE 击败了Cursor 吗?超强上下文感知 、AI代理和工作流支持
Gemini Exp 1114:有史以来最好的大模型!击败 o1-Preview + Claude 3.5 Sonnet!
李彦宏百度世界2024圆桌访谈:应用驱动是第一性原理,百度的多模态能力非常强
Qwen-2.5 Coder (32B)+ Cursor+ Aider:这个最强开源代码模型击败了 Claude、GPT-4o?
使用 Bolt + Cursor 构建任何东西:AI实时语音助手、AI播客应用程序,每个人都可以拥有自己的专属软件。
Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统(本地安装)
Fast GraphRAG:一个比 GraphRAG 更快、成本更低、更高效的RAG框架开源了(本地安装 & 测试)
Grok-2 免费API + Cline : 使用Grok API 免费运行AI编码代理 ,每月都有25美元免费额度!
Fish Agent :最新开源AI实时语音对话代理!音色克隆,模仿情感,声音自然
Cofounder:这个新的AI代理,全栈架构师+项目经理,一个提示生成应用( 比 Aider、v0、Cline 更强吗?)
Bolt + 免费的Mistral 和 Github API:免费且强大的AI代理工作流,无需V0(o1-preview免费)
媲美GPT4o!教你用智谱GLM-4-Plus在Fastgpt、Dify中构建知识库,并结合o1思维链和工具调用!
幻图AI:一款全新免费工具,换脸、换装、文生图、创意融合,轻松搞定!(无需 ComfyUI、Midjourney)
LongVU:Meta AI 开源长视频语言理解的多模态模型!能记住视频中的细节,处理大量视频帧!
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
Claude出来后,还有这些 Agent 代理操作电脑,很棒。
开源向量数据库哪个好?Milvus、Chroma 和 Qdrant 的选择指南
Claude 3.5 Sonnet 升级后,很强。用它写代码不知道有多爽。
一键翻译视频!SoniTranslate 轻松生成多语言音频与字幕,满足教育、内容创作、跨文化交流需求!
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉