OpenAI:如何打造更自然的交互

文摘   汽车   2024-05-14 21:21   河北  
今天,最热门的无疑是OpenAI的春季发布会了吧!那么,发布会上都推出了哪些内容呢?

当然是“OpenAI有史以来最好的模型”GPT-4o和桌面 App啦!可以说,这场发布会代表着人类与人工智能交互的一个新时代!正如科幻电影《Her》中,人工智能与人类之间的情感一样。一起来看看吧!


GPT-4o

1.免费使用
免费无疑是OpenAI给予用户最大的诚意了,OpenAI 表示 GPT-4o 的文本、图像、分析数据并创建表格、写作、应用商店的使用等功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。当然,免费用户可以使用GPT-4o 发送的消息数量会受到限制。当达到限制时,ChatGPT 将自动切换到GPT-3.5,以便用户可以继续对话。


2.多模态交互
GPT-4o里的“o”是Omni的缩写,代表着“全部”,它自然地融合了语言、视觉和文本等多种能力,能够处理超过50种不同的语言,使交互变得更加自然和有人情味儿。


3.实时语音对话
在短短232毫秒内,GPT-4o就能对音频输入做出反应,平均为320毫秒,这一反应与人类对话中的反应时长极为相近。在现场互动中,CatGPT和Mark的互动也几乎是没有延迟的。而且在对话过程中,ChatGPT还能够回顾之前的所有对话,同时,我们可以随时打断对话,并进行下一轮对话。


4.情感化设计
大模型在对话过程中的共情能力也是非常出色的,在对话过程中,GPT-4o能够感知用户的情绪状态,并根据用户的语气和要求来调整交流方式,以实现更人性化的交互。

在实时对话环节,Mark Chen 说:我第一次来直播的发布会,有点紧张。
ChatGPT :深呼吸
Mark Chen:好的,我深呼吸(夸张的表情)
ChatGPT:你不是吸尘器......


在互动环节中,ChatGPT可以通过一张自拍照来推断情绪状态,并以一种非常人性化的方式做出回答,并进行反馈和开导。


5.视觉推理
GPT-4o的视觉能力真的是非常强大了,它不仅可以对话,还可以”面对面“对话,而且还能快速解题!在发布会现场,Barret手写了一个线性方程式,并打开摄像头拍给ChatGPT,让其来解题,并只给提示,在一步步要求下,ChatGPT也实时给出了引导和反馈,是不是非常神奇,有了这样的ChatGPT,我们的家教老师是不是在瑟瑟发抖了呢!


除此之外,在发布会上,GPT-4o还被要求解释计算代码中的某个函数在做什么,分析全年气温变化图等问题时,GPT-4o皆是对答如流。很明显,GPT-4o具备了一定的数据分析能力。


6.多语言交互
GPT-4o可以实时完成将英语「同声传译」为意大利语的任务,这一设计无疑跨越了语言盲区,当然,我们也可以跟着GPT-4o学西班牙语,真的是非常强大了!


7.音乐天赋
ChatGPT的音乐天赋也是没得说,其不仅可以让两个GPT-4o 实时对话,还可以即兴创作音乐,并可以根据用户要求来创作不同风格的音乐,可以说是无所不能了。


8.文生图
说到文生图,设计师和美工们,一定要来看看啦!在官网给出的示例中,GPT-4o可以直接用文字生成手写体排版,并支持改变颜色和纸张样式。而且,图像还可以在对话界面进行微调,更重要的是,它还能生成3D动态模型、产品图、漫画等。


桌面APP

OpenAI发布了ChatGPT的桌面版本,其拥有桌面APP和全新的用户界面设计,为用户带来了更自然、轻松的交互体验。

在使用过程中,用户可以通过Option + Space快捷键快速向其提问,也可直接语音对话,除此之外,用户还可以直接在应用程序中截取屏幕截图并进行讨论。


GPT-4o的推出,为人工智能领域设立了新的门槛,我们一起期待它的实际表现吧!


— 推荐阅读 —

热线:400-803-6959
文中部分图片来自网络,如侵权,请联系删除

普修科技
普修科技,专注于汽车领域用户体验设计与智能座舱技术咨询,用心为客户提供用户调研、HMI设计、HUD设计、仪表设计、UE/UI设计、人机工效测评、HMI原型开发、智能座舱软硬件集成、培训等整套设计开发解决方案,热线:010-56281827。
 最新文章