公众号改了规则,推送不按时间顺序,若不想错过精彩的原创文章,请设置“星标”。如果觉得文章不错,欢迎文末右下角“点赞”和“在看”,下次更新,优先推送消息。
左手职场.右手AI
有故事.有方法.有工具
2024年5月16日
这是2023年第37篇原创文章
总第701篇原创文章
全文1023字,阅读时间约3分钟
图片来源:OpenAI官网
美国时间5月13日,OpenAI发布了GPT-4o。
官网上的一句话介绍简洁干脆:我们宣布推出GPT-4o,这是我们的新旗舰模型,能够在音频、视觉和文本之间实时推理。
图片来源:mashable.com
看了发布会后,我最直接的感受是:GPT-4o开始有“人味”了,并且更加接地气了。
看看央视网(中文国际频道)的这段报道。
来源:央视网
GPT-4o表现出来的“人味”体现在以下几个方面:
1、实时语音对话,不用干等着了
GPT-4o能够以极快的速度响应音频输入,响应时间最短为 232 毫秒,平均响应时间为 320 毫秒,这与人类在对话中的反应时间相近,让你和GPT-4o对话时更加流畅。
2、丝滑的情感互动,偶尔还插科打诨
GPT-4o能够准确分析出提问者的情绪状态是愉悦的、笑容满面的。能够理解并响应急促的喘气声,表明其能够理解“紧张”的情绪。
在发布会现场,OpenAI研究员麦克与GPT-4o有一段互动,这展示了GPT-4o在情感层面强大的交互能力。
来源:央视网
OpenAI研究员麦克:我正在台上,做现场演示。老实说,我有点紧张,你能帮我冷静一下吗?
GPT-4o:你正在做一个现场演示。太棒了!深呼吸。记住,你是专家
随后,麦克假装很紧张地大口喘粗气,请GPT-4o给反馈。
GPT-4o马上说,“哇!慢一点。你又不是吸尘器。呼吸,数到四,然后慢慢呼气”。
麦克照着做了一遍,GPT-4o用语音全程指导。
此外,GPT-4o 还能够以听起来非常自然的人类声音说话,并发出多种语气词,表现出了此前 AI 音频所未能达到的张力和可塑性。
3、多模态交互
GPT-4o 的多模态交互能力突出,能够接受文本、音频和图像的“混搭”输入,快速响应完成推理,生成文本、音频和图像的组合输出。在视频输入方面,GPT-4o 能够及时响应开启摄像头的视频需求指令,实时解决数学计算问题。
来源:央视网
4、个性化体验
GPT-4o 能够接受人类交谈中的打断习惯,及时停顿并给出无缝回复,并且保持对上下文的记忆。这种自然的交互体验,让人几乎感觉不到与机器的界限。
5、幽默感和戏剧化表现
发布会上的演示还展示了 GPT-4o 的幽默感和戏剧化表现。
例如,在对话中,当 OpenAI首席技术官Murati表现出紧张时,GPT-4o 能够提供体贴的回应,甚至在对话中展现出惊讶的语气,当Murati表示“我爱ChatGPT”时,GPT-4o 回应表示惊喜和害羞。
此外,GPT-4o更接地气了。这主要体现在成本上(用采购术语是总体成本),即,
token价格降低了50%,
响应时间提升了2倍。
人类自诞生之日起有过数不清的发明创造,但是真正能够被普及被商业化的只占极少数,一个原因就是成本太贵,不接地气,无法大面积普及。
写到这,我不禁又想起了OpenAI创始人兼CEO Sam Altman在2021年9月的一次采访中说:我对未来十年的基本模型是,AI成本和AI的边际成本将迅速归于零。
期待吧!
>>> End <<<
>>>成为第一批善用AI工具的采购供应链人<<<
我计划于5月23日(周四)18-22点,推出一个“AI全面赋能采购供应链”的线上课(3小时授课,1小时实操和答疑)。
线上学习的好处在于:PPT内容就在屏幕上,学员体验更好。且无需舟车劳顿,省下时间、成本和精力,集中学习。
延展阅读
价格差100倍!美国空军的天价采购,是怎么造成的?
激励供应商,光有情怀是不够的
版权声明:“卢山说AI精进”个人公众号的文章均为本人原创。未经本人许可,禁止进行转载、摘编及复制等任何使用。如需转载、引用或者有其它意向,请事先通过本公众号后台等方式申请并获得授权。原创文章中的部分文字、图片源于网络,如有任何问题请联系本公众号。