GPT-4o发布了,开始有“人味”了

乐活   教育   2024-05-16 17:08   上海  

公众号改了规则,推送不按时间顺序若不想错过精彩的原创文章,请设置“星标”。如果觉得文章不错,欢迎文末右下角“点赞”和“在看”,下次更新,优先推送消息

左手职场.右手AI

有故事.有方法.有工具

2024年5月16日

这是2023年第37篇原创文章

总第701篇原创文章

全文1023字,阅读时间约3分钟


图片来源:OpenAI官网

美国时间5月13日,OpenAI发布了GPT-4o。


官网上的一句话介绍简洁干脆:我们宣布推出GPT-4o,这是我们的新旗舰模型,能够在音频、视觉和文本之间实时推理

图片来源:mashable.com


看了发布会后,我最直接的感受是:GPT-4o开始有“人味”了,并且更加接地气了


看看央视网(中文国际频道)的这段报道。


来源:央视网


GPT-4o表现出来的“人味”体现在以下几个方面:


1、实时语音对话,不用干等着了


GPT-4o能够以极快的速度响应音频输入,响应时间最短为 232 毫秒,平均响应时间为 320 毫秒,这与人类在对话中的反应时间相近,让你和GPT-4o对话时更加流畅。


2、丝滑的情感互动偶尔还插科打诨


GPT-4o能够准确分析出提问者的情绪状态是愉悦的、笑容满面的。能够理解并响应急促的喘气声,表明其能够理解“紧张”的情绪。


在发布会现场,OpenAI研究员麦克与GPT-4o有一段互动,这展示了GPT-4o在情感层面强大的交互能力。


来源:央视网


OpenAI研究员麦克:我正在台上,做现场演示。老实说,我有点紧张,你能帮我冷静一下吗?


GPT-4o:你正在做一个现场演示。太棒了!深呼吸。记住,你是专家


随后,麦克假装很紧张地大口喘粗气,请GPT-4o给反馈。


GPT-4o马上说,“哇!慢一点。你又不是吸尘器。呼吸,数到四,然后慢慢呼气”。


麦克照着做了一遍,GPT-4o用语音全程指导。


此外,GPT-4o 还能够以听起来非常自然的人类声音说话,并发出多种语气词,表现出了此前 AI 音频所未能达到的张力和可塑性。


3、多模态交互


GPT-4o 的多模态交互能力突出,能够接受文本、音频和图像的“混搭”输入,快速响应完成推理,生成文本、音频和图像的组合输出。在视频输入方面,GPT-4o 能够及时响应开启摄像头的视频需求指令,实时解决数学计算问题。


来源:央视网


4、个性化体


GPT-4o 能够接受人类交谈中的打断习惯,及时停顿并给出无缝回复,并且保持对上下文的记忆。这种自然的交互体验,让人几乎感觉不到与机器的界限。


5、幽默感和戏剧化表现


发布会上的演示还展示了 GPT-4o 的幽默感和戏剧化表现


例如,在对话中,当 OpenAI首席技术官Murati表现出紧张时,GPT-4o 能够提供体贴的回应,甚至在对话中展现出惊讶的语气,当Murati表示“我爱ChatGPT”时,GPT-4o 回应表示惊喜和害羞。


此外,GPT-4o更接地气了。这主要体现在成本上(用采购术语是总体成本),即,


token价格降低了50%,

响应时间提升了2倍。


人类自诞生之日起有过数不清的发明创造,但是真正能够被普及被商业化的只占极少数,一个原因就是成本太贵,不接地气,无法大面积普及。



写到这,我不禁又想起了OpenAI创始人兼CEO Sam Altman在2021年9月的一次采访中说:我对未来十年的基本模型是,AI成本和AI的边际成本将迅速归于零。


期待吧!


>>> End <<<




>>>成为第一批善用AI工具的采购供应链人<<<


我计划于5月23日(周四)18-22点,推出一个“AI全面赋能采购供应链”线上课(3小时授课,1小时实操和答疑)。


线上学习的好处在于:PPT内容就在屏幕上,学员体验更好。且无需舟车劳顿,省下时间、成本和精力,集中学习








延展阅读



版权声明:“卢山说AI精进”个人公众号的文章均为本人原创。未经本人许可,禁止进行转载、摘编及复制等任何使用。如需转载、引用或者有其它意向,请事先通过本公众号后台等方式申请并获得授权。原创文章中的部分文字、图片源于网络,如有任何问题请联系本公众号。


卢山说AI精进
从小白到500强高管的职场老司机 / 12万+册畅销书《每句话都值钱》作者/领英专栏作家 / 脉脉职业发展KOL/有趣、有料、有颜、有值
 最新文章