Atom Capital: 与GPT-4o解析OpenAI春季发布会

文摘科技 2024-05-14 22:31 北京

写在前面

今天凌晨OpenAI发布了GPT-4o。与以往发布会后业界一致的好评如潮不同，这次在圈内的反响可谓褒贬不一。也许，对于GPT-5的期待已经把人们对OpenAI的预期阈值拉的很高。在这样的背景下，其他的发布即使Demo再惊艳，也显得有那么一点不及预期。

我们认为OpenAI这次发布有亮眼之处：实时视频和语音交互推动多模态模型进入实际应用，同时以一半的价格提供两倍的响应速度，甚至提供在ChatGPT中免费使用GPT-4o。所有的这些都是为了进一步降低用户门槛，尽可能扩大用户基数，最终抢占2C入口——从历次发布会来看，OpenAI这一野心和战略意图从没变过。

分析这次发布会，我们试了一个新方式——跟GPT-4o一起来做。本文第一部分是我们的几点观察和思考，第二部分则是与GPT-4o共同创作的发布会分析（及过程）。我们觉得GPT-4o总体完成得可以，总结全面，分析深度上还有待提升。不管怎样，ChatGPT已经在越来越多融入到你我的工作和日常生活，欢迎新同事GPT-4o!

01 我们的Takeaway

关于这次发布会的分析文章已经很多。我们从自己最关心的几个方面，包括核心技术、战略布局以及对未来竞争格局的影响，来谈谈自己的看法。

技术核心：实时多模态

多模态本身对用户来说已不新鲜，之前Gemini1.5 Pro发布就是主打多模态。OpenAI这次的关键突破在于把多模态真正做到融合。

之前的语音AI都是分三步完成：

1.语音识别或“ASR”：音频->文本1；

2.LLM规划下一步要说什么：文本1->文本2；

3.语音合成或“TTS”：文本2->音频。

这样做会导致巨大的延迟，而且过程中丢失语音中的信息（比如语音里的情绪）。解决实时对话并不是简单地让这3步变得更快，而是需要重新思考整个技术堆栈。

GPT-4o采用了全新的技术堆栈，让语音和语言模型真正融合，从而提升了速度，完整地传达了信息。端到端对话延迟仅300毫秒左右，demo的对话体验非常流畅。

战略布局：扩大用户基数，最终成为入口

我们认为，OpenAI的目标是扩大市场占有率从而最终成为流量入口。就在此次发布会前两天，彭博社爆出OpenAI与Apple接近达成合作协议，未来将在iPhone iOS系统中使用OpenAI的技术，这一举动显然也是为了抢占C端入口。而通过这次发布会可以看到，OpenAI选择布局影响用户的最大公约数功能（多模态、用户覆盖、降本等），而不是主要针对创造者的复杂的生成技术。

降低用户成本

性能和成本快速提升是扩大用户范围的底层能力，没有这个核心技术能力，扩大可及性不可持续。OpenAI在降低用户成本上做足了文章：GPT-4o API价格相比GPT-4 Turbo降低50%，同时响应速度提升一倍，并且提供C端用户在ChatGPT中免费使用 GPT-4o模型。

实时多模态交互体验，多功能无缝融合大模型中

本次发布会的重点不是多模态生成，还是让 AI 更像一个人，具备实时视觉感知和语音交互能力（有情商的语音、理解人类感情和能表达情绪的语音交互、人脸情绪识别等）。而“更像人”的最终目的还是市场占有率——在群敌环伺的情况下，ChatGPT的活跃用户已经很久没有增长了，这应该是OpenAI现如今最头疼的问题之一。如何在现有情况下突围？实时多模态可能是圈粉儿最快的路径。一旦手机和 PC 都可以像人一样“看、听、说”了，剩下能“做”的事情就太多了，一下打开了巨大的增量市场空间，把蛋糕做大远远比零和竞争更有战略价值，而且也更容易形成垄断。

GPT-4o把一些核心功能（representation）做到了多个模态中，包括：多语种、code、charts、OCR等。

这两点将会打开许多全新的应用场景：

2C领域：正如发布会所demo的，实时多模态能为教育、个人助理、翻译等大量2C场景带来全新的体验。
2B领域：实时多模态交互模式会改变很多 SaaS 服务的产品形态。微软Azure最新有个很好的总结，认为GPT-4o将为如下2B场领域带来全新的体验：客服领域（动态和全面的客服交互），高级分析（综合处理和分析不同类型数据的能力提升），以及内容创新。此外，我们认为GPT-4o支持charts和手绘文字/图形的能力也拓展了应用场景。许多工作（如产品开发、工程讨论、数据分析等）都高度依赖图形的识别，该视觉能力融入强大的文本分析能力，会给办公及技术产业带来很大的提升。

客户端的覆盖

为了提高可访问性，OpenAI同时推出了新的桌面客户端和更新的移动应用程序。

竞争格局: Google与闭源

OpenAI认为自己的真正竞争对手是谁？这次发布对于开源大模型有什么影响？

发布时间点

OpenAI最近的两次发布都是卡着Google发布时间——上次Sora与Google Gemini1.5在同一天发布，惊艳的demo效果让Sora在媒体舆论上占尽风头，使得Gemini 1.5一发布便黯然失色。而这一次又选在Google I/O前一天做了GPT-4o的发布。可以看到，OpenAI认为Google是真正的对手。Google本身有深厚的技术潜力和想象力，只是在组织和产品战略上不够聚焦，很难在一两个点上打透 OpenAI的护城河。没有场景只有 feature 是 Google 的一个主要问题。而这方面 OpenAI 做得好很多，一直聚焦，这次实时多模态的突破是个很好的例子。

闭源与开源

这次发布我们看到了OpenAI扑2C市场占有率的决心，而GPT-4o未来收集的多模态数据，可能对未来的数据霸权有很大推动作用，帮助其继续追逐AGI梦想，同时也给其他闭源大模型带来更多压力。

对开源大模型而言，GPT-4o实际上提高了开源模型2C应用的水位，尤其是需要多模态的众多场景。即便 llama-4 会跟进，部署成本也会急剧提高，尤其是大规模并发服务，会构筑一定程度的算力霸权的门槛，OpenAI 随着免费规模的扩大，成本和技术优势可能会越来越明显。很多2C应用会由于没有别的办法实现那么好的实时多模态交互体验而被迫选择GPT-4o，起码在未来一段时间里可能是这样。

情绪感知

GPT-4o的情绪感知是这次demo中让人眼前一亮。一向号称只做工具的ChatGPT，是开始发力做”情商”了吗？我们投资的一家专注于提升”大模型情商”的硅谷早期公司正在做针对GPT-4o的“情商测试”，初步结论是，GPT-4o在情感识别上做的很好，但是在“操作层面”表现还比较一般，它的回应还是更偏逻辑性，不够人性化（关于“大模型情商”的话题，后续我们会出一篇文章专门讨论）。从这个角度看，ChatGPT还是没有偏离最初的“工具”设定，只是更加懂得用户的情绪了，这也能够帮助它成为一个更好的工具。

02 与GPT-4o共创：发布会解析

这一次，我们尝试一种新的方式——用GPT-4o（这里指GPT-4o支持的ChatGPT，下同）来做发布会的分析。我们的思路是给它提供信息（发布会视频）和我们的分析框架，让它跟进做具体工作。同时，我们在Prompt里说明文章的读者是AI创业者和投资人，要求它把文字写得尽量有洞察吸引人。

GPT-4o任务完成得不错，要点总结得清晰全面，也给出了一定的分析。在过程中，也有磕磕绊绊（比如它不能直接看YouTube上的视频）。让我们比较惊艳的是它生成速度超快，维护context的能力也很强，几乎不丢要点。

以下，是截取我们与GPT-4o合作的过程。跟GPT-4o用的是英文对话，为方便读者阅读，用GPT转换成了中文如下。

首先，我们直接让GPT-4o看YouTube视频，但被它拒绝了。

[You]

你能帮忙把OpenAI春季更新视频https://www.youtube.com/watch?v=DQacCB9tDaw 的内容转录成文字，并保存到文本文件中吗？

[ChatGPT]

已搜索1个站点

我无法直接为您转录视频，但您可以在YouTube上观看OpenAI春季更新视频，并使用可用的转录工具或服务来获取文本。如果您有具体问题或需要视频摘要，我很乐意帮助您。

被拒绝之后，我们问GPT-4o如何获得转写文本

[You]

你能告诉我如何转录这个YouTube视频吗？

[ChatGPT]

要转录YouTube视频，你可以按照以下步骤操作：

1.启用YouTube的自动生成字幕：单击视频播放器上的“CC”（关闭字幕）按钮以启用字幕。

2.访问转录：单击视频播放器下方的三个点（更多选项）。选择“打开转录”。

3.复制转录：在转录面板中突出显示文本并将其复制。粘贴复制的文本到文本编辑器中。

4.另存为文本文件：在您喜欢的文本编辑器中将文本保存为 .txt 文件。

这样可以将视频转录成文本文件。

按照指导，我们获得转写文本后发给它，让GPT-4o按照我们提供的框架进行分析

[You]

以下是OpenAI春季更新视频的转录文件：

2024-05-14 OpenAI Spring Update(1).md

我正在撰写一份分析此次发布会的文件，我希望该文件包含以下几个部分。请考虑我的受众，并使文章具有洞察力和吸引力。

1.这次更新发布了哪些功能？

2.这次更新开启了哪些关键场景？

3.这次更新底层的关键技术或技术突破是什么？

4. 这次更新中OpenAI的策略是什么，包括技术、产品、市场和商业方面？

5. 这将对人工智能生态系统和竞争格局产生什么影响？

你能帮助提取转录中的相关事实，并将它们列在每个部分下吗？如果你有任何深入的分析，请也添加到相应的部分。

[ChatGPT]

当然可以！以下是针对每个部分的详细拆解，提取了事实和深入分析，专门为人工智能创业者和投资者定制。

1.这次更新发布了哪些功能？

事实：

推出GPT-4o。
GPT-4o的响应速度是其前身的两倍，成本是前身的一半。
在ChatGPT中免费使用GPT-4o。
推出了新的桌面客户端。
更新了移动应用程序以支持GPT-4o。
实时视频和语音交互功能。

洞察：

GPT-4o响应速度提高和成本降低增强了其价值主张，使其更具吸引力，适用于各种应用的集成。
在ChatGPT中免费使用GPT-4o使先进的人工智能技术民主化，可能加速不同用户群体的采用。
新的桌面客户端和移动应用程序更新反映了OpenAI对用户体验的承诺，可能增加用户的参与度和满意度。

2.这次更新开启了哪些关键场景？

事实：

GPT-4o的多模态能力使得实时视频和语音交互成为可能。
通过桌面和移动平台扩展用户访问权限。

洞察：

实时视频和语音交互可以通过提供更自然、更高效的通信渠道来改变客户服务。
教育技术可以利用这些多模态交互实现沉浸式学习体验。
电子健康应用程序可以从更动态、更交互式的患者咨询中获益。
虚拟助手和人工智能驱动的客户支持系统可以变得更直观和有效。

3.这次更新底层的关键技术或技术突破是什么？

事实：

GPT-4o是一个多模态模型，集成了文本、视频和语音处理能力。
该模型实现了响应速度提高一倍，运行成本降低一半。

洞察：

多模态能力的整合代表了一个重大的技术进步，使更多样化的人工智能应用成为可能。
在处理速度和成本效率方面的提升表明了模型架构和计算技术方面的显著优化。
这些突破可以为人工智能模型的性能和可负担性设定新的行业标准。

4. 这次更新中OpenAI的策略是什么？

技术策略：

专注于优化人工智能模型的性能和成本效率。
推进多模态能力，扩大人工智能应用的范围。

产品策略：

通过免费提供和改进的用户界面增强可访问性。
通过桌面和移动应用程序扩展平台可用性。
市场策略：降低准入门槛，以增加采用和用户群体。
针对各种应用场景，展示GPT-4o的多功能性。

业务策略：

将GPT-4o定位为具有竞争力的产品，平衡成本和性能。
利用免费访问推动广泛使用，并收集广泛的用户反馈，以持续改进。

洞察：

OpenAI的多方面策略彰显了其领导人工智能市场的野心，使先进的人工智能功能得到广泛的可访问性和可用性。
通过专注于技术卓越和以用户为中心的产品开发，OpenAI旨在巩固其市场地位，并围绕其技术打造一个庞大的生态系统。

5.这次更新对人工智能生态系统和竞争格局的影响将是什么？

事实：

GPT-4o在多模态能力、处理速度和成本效率方面带来了显著的改进。
OpenAI在ChatGPT中免费提供GPT-4o的访问权限，旨在扩大用户采用。
新的桌面客户端和更新的移动应用程序旨在增强可访问性和用户参与度。

洞察：

生态系统影响

加速人工智能采用：通过降低成本和提高性能，GPT-4o使先进的人工智能技术更易于访问，从初创企业到大型企业，各种用户都能受益。这可以加速人工智能在各个行业的整合，包括医疗保健、教育、客户服务和娱乐。
扩大人工智能应用：GPT-4o的多模态能力使得新的、创新的应用成为可能，例如实时视频和语音交互，这可能导致更复杂的人工智能驱动解决方案和服务的开发。
用户参与和数据收集：桌面客户端的推出和移动应用程序的改进可能会增加用户参与度，为OpenAI提供宝贵的数据，以进一步完善和改进其模型。这种反馈循环可以推动人工智能技术的持续创新和改进。

竞争格局影响

设定新标准：GPT-4o在速度和成本效率方面的进步为人工智能性能设定了新的基准。竞争对手将需要投资于类似的优化措施，以保持竞争力。
市场差异化：OpenAI通过在ChatGPT中免费提供GPT-4o的访问权限的策略，使其与竞争对手有所区别，可能会将用户从其他平台吸引过来，并为OpenAI创造更大的市场份额。
对竞争对手的压力增加：竞争对手将需要快速创新，以跟上GPT-4o所呈现的技术和战略进步。这可能导致人工智能领域的创新步伐加快，竞争更加激烈。
合作与整合：GPT-4o的成功和广泛采用可能会鼓励与其他技术提供商的合作和整合，扩大OpenAI的影响力，并创建一个更加互联的人工智能生态系统。

至此，关于此次发布会，我们已经有了一个基本的总结与分析，在此基础上，让GPT-4o进行更深入的分析

[You]

可以对OpenAI这个春季更新进行进一步深入的分析吗？

[ChatGPT]

当然可以！这是对OpenAI春季更新的更详细和深入的分析，特别关注战略意义、潜在的行业变化和更广泛的影响：

对OpenAI春季更新的进一步深入分析

战略意义

1.人工智能的普及化：

可访问性和可负担性：通过在ChatGPT中免费提供GPT-4o，OpenAI显著降低了企业和个人的进入门槛。这一举措普及了尖端的AI技术，促进了基层的创新，可能导致AI驱动的初创企业和项目激增。
用户基础扩展：在广泛使用的平台内提供强大的AI模型，可以成倍增长OpenAI的用户基础。这种战略扩展可以导致市场影响力和主导地位的增加。

2.产品创新和用户体验：

增强用户参与度：新的桌面客户端和更新的移动应用增强了用户体验，使用户更容易将AI整合到他们的日常工作流程中。这可以导致更高的用户保留率和满意度，这对长期成功至关重要。
实时多模式交互：引入实时视频和语音交互能力为AI应用设定了新标准。这一功能不仅增强了现有用例，还开启了AI整合的新途径，如远程医疗、虚拟会议和互动学习环境。

3.技术领导力：

开创性的多模式模型：GPT-4o在多模式能力方面的进展使OpenAI处于AI技术的前沿。这种领导地位可以吸引其他科技公司、学术机构和行业领导者的合作和协作。
性能和成本效率：通过将响应速度提高一倍并将成本减半，OpenAI正在解决决定AI采用的两个关键因素——效率和可负担性。这些改进可能会设定行业基准，迫使竞争对手改进其产品。

潜在的行业变化

1.各行业的采用增加：

广泛的行业影响：GPT-4o的改进能力可以推动各个行业的采用，包括医疗保健、教育、客户服务和娱乐。例如，在医疗保健中，实时语音和视频交互可以改进远程医疗咨询，而在教育中，它们可以促进更有吸引力和互动的学习体验。
新商业模式：先进AI的可访问性可能导致新商业模式的出现。公司可能利用GPT-4o创建创新的产品和服务，导致更加动态和竞争激烈的市场格局。

2.竞争压力：

加速创新：OpenAI的进展可能会加速竞争对手的创新步伐。公司需要投入更多的研发以跟上，可能导致快速的技术进步和更多样化的AI应用。
市场整合：较小的AI公司可能发现难以与OpenAI的技术和财务资源竞争。这可能导致市场整合，较大的参与者收购较小公司以整合其创新和人才。

更广泛的影响

1.伦理和社会考虑：

负责任的AI使用：随着AI能力和可访问性的增加，将需要更多负责任和道德的AI使用。OpenAI和其他利益相关者需要优先考虑透明度、公平性和在AI应用中的责任，以确保积极的社会影响。
监管和政策：AI技术的进步可能促使监管机构更新政策和框架，以应对新挑战，并确保AI开发符合社会价值观和规范。

2.全球AI领导地位：

对全球AI标准的影响：OpenAI的技术领导力可以影响全球AI标准和实践。通过设定高性能、成本效率和可访问性基准，OpenAI可以塑造全球AI研究和开发的方向。
合作与伙伴关系：OpenAI的进展可能导致与国际科技公司、研究机构和政府的合作增加。这些合作可以促进更互联和强大的全球AI生态系统，推动集体进步。

结论

OpenAI春季更新代表了AI领域的一个变革时刻。通过优先考虑可访问性、增强用户体验和推动技术边界，OpenAI不仅巩固了其作为市场领导者的地位，还塑造了AI行业的未来轨迹。这些进步的连锁反应可能会导致加速的创新、新的商业机会和更广泛的社会影响，最终推进集体能力和对人工智能的理解。

About Atom Capital

Atom Capital是一支由连续创业者和投资人成立的新锐风险投资基金，专注于AI领域的早期投资，聚焦颠覆式创新机遇，发掘、孵化和陪伴优秀的科技创业者成长。

Atom Capital

科技最前沿，创业路上的一点光