ChatGPT4o升级人机交互模式,人工智能进入“助理”时代,看谁更善解人意

文化   2024-05-20 20:18   河北  

文末有福利

入群有惊喜



新媒体运营248篇文章
作者:胡二刀

头图:孟扬

来源 | 新媒体运营(ID:meitiku)


 OpenAI于2024年5月14日正式推出GPT-4o,全语音交互,可以辨别人的语气和情感,可以通过摄像头理解图片,可以顺畅地进行语音翻译,惊艳全场。

紧接着第二天,谷歌发布的最新Gemini模型,同样可以顺畅地语音交互,并通过手机摄像头和智能眼镜来理解物理世界。



无论是ChatGPT4o还是Gemini都几乎完美复刻了11年前科幻片《Her》中的情节,尤其是男主人公为了让AI看世界,拿着手机满世界跑。

         

 

人机交互的争霸战已经开打,人工智能进入“助理”时代。现在比拼的是,谁家更“通情达理”,更“善解人意”。 

   

01

为什么是O而不是5?

         

 

本次OpenAI发布的GPT-4o,其中"o"代表"omni",即全能之意。其不仅在文本处理上达到了前所未有的水平,更在图像和语音处理方面取得了重大突破。



很多人搞不明白,为什么是“o”而不是“5”?

         

 

ChatGPT的版本号通常是根据发布的时间和更新的内容来制定的。一般来说,版本号由三部分组成,即主版本号、次版本号和修订号。例如,版本号为 1.0.0,其中第一个数字是主版本号,第二个数字是次版本号,第三个数字是修订号。

         

 

   

当进行重大更新或功能改进时,可能会增加主版本号;当进行一般性的更新或功能扩展时,可能会增加次版本号;当进行小幅修复或优化时,可能会增加修订号。

         

 

另外,还可以在版本号后面加入 Alpha、Beta、Gamma、Current、RC (Release Candidate)、Release、Stable 等后缀,对版本进行进一步说明。

         

 

OpenAI没有发布5,那就说明本次改进还不够重大,也给以后的升级留下了伏笔。

         

 

02

ChatGPT4o的三个特点

         

 

时延非常短,达到了240毫秒,就像跟正常人聊天一样。据官方消息,模型的反应时间已经缩短至平均320毫秒,并且它还能理解人类在对话中适时“打断”的习惯,会及时停下来听你说话并给出相应回复,也不会“断片”。这反应速度已达到人类级别。

         

 

原来的人机交互是需要先进行语音识别,转录成文本,然后文本进行回答再合成语音,这样往往有几秒钟的延迟。而现在通过跨文本、视觉、音频端到端的融合大模型,就会感觉到在语音模式下输入输出变得更加灵敏,更符合人感官的要求。



可以提供情绪价值。在聊天的过程中可以带入情感因素,比如焦虑、着急、紧张等,情绪价值直接拉满。比如,研发负责人Mark Chen表示自己因为上台紧张,ChatGPT便温柔地鼓励道:“你在台上做演示吗?那你真的太棒了!深呼吸一下吧,记得你是个专家!”而Mark表示要再来个深呼吸,ChatGPT顺势接话“慢慢呼气”,紧接着Mark一边疯狂地大喘气,ChatGPT惊讶地说:“放松啊Mark,慢点呼吸,你可不是个吸尘器!”

         

 

支持多模态交互。GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。比如通过摄影头读取人物背景,准确说出其所处的位置。   

         

 

03

“助理”时代的使用场景

         

 

ChatGPT4o与Gemini塑造了全新人机交互的范式,将人工智能推进到“助理”时代,比拼的是谁家助理更“通情达理”,更“善解人意”。

         

 

具体到应用场景中,家居生活是重要选项。原先家里的硬件没有触摸屏,更没有鼠标键盘,所以缺乏人机交互的能力。但“助理”的出现,即可实现人机对话,令硬件设备短时间之内产生响应。比如家里的监控发现有小孩儿爬上了窗台,它会第一时间发出警告,而不是单纯拍摄记录。

         

 

推而广之,家里的冰箱、彩电、洗衣机,甚至人型机器人,都可以与人产生交互,比如陪伴老人,做出各种提醒。

   


同样利用GPT-4o模型,OpenAI和Be My Eyes合作推出了一款APP,可以帮助视力受限人群实时了解身边场景,并提供帮助。他们只要举着手机,就可以“看见”路上和周边的一切。比如路上行驶的出租车是否处于空车状态,提示视力受限人士招手打车,以及车辆是否已经停下。

         

 

实时语音转文本和翻译功能可用于在公共演讲、会议或表演中提供实时字幕和翻译,确保听障人士或使用不同语言的人士能够参与活动。

   


谷歌的Project Astra是一个实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,可以回答问题或帮助人们做事情。

         

 

甚至在不经意间,Project Astra还展现了它的记忆力。用户问:“你记得我把眼镜放哪了吗?”助手答道,“你的眼镜在桌子上的红苹果旁边。”可以看出,Project Astra通过镜头记住了一闪而过的眼镜。

         

 

以上只是“助理”功能的部分应用,从实时语音助手到多语言翻译,从图像识别到复杂的文本生成任务,人工智能的应用场景还有更多等待我们挖掘。


部分资料来自《能说会看!GPT-4o发布,谷歌端上“AI全家桶”反击》 

END



















-----------以下为福利-----------



【新媒体运营】公众平台回复6

了解“视频剪辑技术"

【新媒体运营】公众平台回复7

了解“新媒体选题策划"

【新媒体运营】公众平台回复8

了解“新媒体系列问答"

【新媒体运营】公众平台回复9

了解“新媒体精品教程"

【新媒体运营】公众平台回复10

入群学习

【新媒体运营】公众平台回复11

了解“新媒体教程课件"


点击以下 关键词 查看历史文章

周处除三害 | 官媒自律 | 县级融媒体 | 淄博烧烤 | 浙江宣传 | 数字中国 | ChatGPT | 医生大V | 谣言溯源 | 开直播 | 朋友圈 | 小红书 | 公众号 | 董宇辉 横屏与竖屏 | 抖音起号 | 冰墩墩 | 虎年说虎 | 红包封面 | 元宇宙 | 三段式标题 | 新闻机构 | 知乎引流 | 网络直播 | 网红发言人 | 暗恋模式 | 媒体迭代 | 谣言之祸 | 实测小蜜蜂 | 河南水灾 | 融媒体 | 曹县宝贝 | 餐厅C位 | 网红大爷 | 面试技巧 | 私域流量 | 抖音体会 | 社群运营 | 新媒体误区 | 新媒体术语 | 石家庄抗疫 | 马拉多纳 | 微信表情 | 自动驾驶 | 电商直播二 | 电商直播一 | 大V的道德 | B站胜微博 | 津门夏洛克 | 神曲传播 | 疯传 | 私域流量 | 明星文案 | 长安十二时辰 | 自媒体版权 | 霸道猫 | 五味自媒体 | 人人总编辑 | 翟天临与吴秀波 | 春节故事 | 佩奇传播 | 5G时代 | 我与新浪 | 新闻发言人 | 80后老书记 | 挣钱之道 | 油腻大叔 | 滴血顺风车 | 2018高考 | 新媒体营销 | 新媒体优势 | 芳华观后 | 供暖之痛 |  酒后境界 | 危机公关 | HTML5 | 石家庄地铁事件营销 | 短视频 | 场景营销 | 地方公众号 | 加碘盐 | 公号造假 | 月饼和作弊 | 网约车新政 | 情商低 | 微博找人 | 影院奇葩事 新媒体营销 | 2016新媒体影响力盛典 | 老炮儿 | 互联网+旅游 | 搭车双十一封面传媒 | “互联网+”干货 | 网络约车建议 | 电影分级制度 | 高速公路免费 | 多数人暴力 | 大阅兵 | 共享型经济 | 顺风车 | 版权费 | 互联网+电视 | 传媒变局 | “互联网+”思考 | 互联网+传统行业 | 互联网思维 | 新媒体纸媒出路 | 拯救纸媒 | 企业资源整合 | 神文案

平台创始人:@胡二刀 

资深媒体人、新媒体实战专家

从纸媒到互联网,亲身感受了媒体变迁


新媒体运营(meitiku,也就是媒体库)是一个专门讨论互联网、新媒体、社会化营销原理与技巧的平台,同时兼具对传统媒体的评价与思辩。

新媒体运营全攻略,欢迎关注↓↓↓

转载须知


凡本公众号原创作品

未经授权禁止转载

申请授权请添加小编微信


新媒体运营
涵盖新媒体运营技巧、新媒体运营实务以及新媒体运营理论。账号创始人胡二刀是资深媒体人,有着丰富的网络传播及舆情处置经验。
 最新文章