WXRedian | 卢山说AI精进 | GPT-4o发布了，开始有“人味”了

GPT-4o发布了，开始有“人味”了

乐活教育 2024-05-16 17:08 上海

公众号改了规则，推送不按时间顺序，若不想错过精彩的原创文章，请设置“星标”。如果觉得文章不错，欢迎文末右下角“点赞”和“在看”，下次更新，优先推送消息。

左手职场.右手AI

有故事.有方法.有工具

2024年5月16日

这是2023年第37篇原创文章

总第701篇原创文章

全文1023字，阅读时间约3分钟

图片来源：OpenAI官网

美国时间5月13日，OpenAI发布了GPT-4o。

官网上的一句话介绍简洁干脆：我们宣布推出GPT-4o，这是我们的新旗舰模型，能够在音频、视觉和文本之间实时推理。

图片来源：mashable.com

看了发布会后，我最直接的感受是：GPT-4o开始有“人味”了，并且更加接地气了。

看看央视网（中文国际频道）的这段报道。

来源：央视网

GPT-4o表现出来的“人味”体现在以下几个方面：

1、实时语音对话，不用干等着了

GPT-4o能够以极快的速度响应音频输入，响应时间最短为 232 毫秒，平均响应时间为 320 毫秒，这与人类在对话中的反应时间相近，让你和GPT-4o对话时更加流畅。

2、丝滑的情感互动，偶尔还插科打诨

GPT-4o能够准确分析出提问者的情绪状态是愉悦的、笑容满面的。能够理解并响应急促的喘气声，表明其能够理解“紧张”的情绪。

在发布会现场，OpenAI研究员麦克与GPT-4o有一段互动，这展示了GPT-4o在情感层面强大的交互能力。

来源：央视网

OpenAI研究员麦克：我正在台上，做现场演示。老实说，我有点紧张，你能帮我冷静一下吗？

GPT-4o：你正在做一个现场演示。太棒了！深呼吸。记住，你是专家

随后，麦克假装很紧张地大口喘粗气，请GPT-4o给反馈。

GPT-4o马上说，“哇！慢一点。你又不是吸尘器。呼吸，数到四，然后慢慢呼气”。

麦克照着做了一遍，GPT-4o用语音全程指导。

此外，GPT-4o 还能够以听起来非常自然的人类声音说话，并发出多种语气词，表现出了此前 AI 音频所未能达到的张力和可塑性。

3、多模态交互

GPT-4o 的多模态交互能力突出，能够接受文本、音频和图像的“混搭”输入，快速响应完成推理，生成文本、音频和图像的组合输出。在视频输入方面，GPT-4o 能够及时响应开启摄像头的视频需求指令，实时解决数学计算问题。

来源：央视网

4、个性化体验

GPT-4o 能够接受人类交谈中的打断习惯，及时停顿并给出无缝回复，并且保持对上下文的记忆。这种自然的交互体验，让人几乎感觉不到与机器的界限。

5、幽默感和戏剧化表现

发布会上的演示还展示了 GPT-4o 的幽默感和戏剧化表现。

例如，在对话中，当 OpenAI首席技术官Murati表现出紧张时，GPT-4o 能够提供体贴的回应，甚至在对话中展现出惊讶的语气，当Murati表示“我爱ChatGPT”时，GPT-4o 回应表示惊喜和害羞。

此外，GPT-4o更接地气了。这主要体现在成本上（用采购术语是总体成本），即，

token价格降低了50%，

响应时间提升了2倍。

人类自诞生之日起有过数不清的发明创造，但是真正能够被普及被商业化的只占极少数，一个原因就是成本太贵，不接地气，无法大面积普及。

写到这，我不禁又想起了OpenAI创始人兼CEO Sam Altman在2021年9月的一次采访中说：我对未来十年的基本模型是，AI成本和AI的边际成本将迅速归于零。

期待吧！

>>> End <<<

>>>成为第一批善用AI工具的采购供应链人<<<

我计划于5月23日（周四）18-22点，推出一个“AI全面赋能采购供应链”的线上课（3小时授课，1小时实操和答疑）。

线上学习的好处在于：PPT内容就在屏幕上，学员体验更好。且无需舟车劳顿，省下时间、成本和精力，集中学习。

延展阅读

世界首例AI与AI谈判，高效丝滑，无需人类参与
动手了！对AI模型实施出口管制，就连开源模型也没放过
生成式人工智能在采购中的应用：直接采购占比最大37.6%，最大用途是找供应商占比25%
GAI：降低40%成本，缩短60%的采购时间
天价采购，怎么治？
价格差100倍！美国空军的天价采购，是怎么造成的？
激励供应商，光有情怀是不够的

卢山说AI精进

从小白到500强高管的职场老司机 / 12万+册畅销书《每句话都值钱》作者/领英专栏作家 / 脉脉职业发展KOL/有趣、有料、有颜、有值