GPT-4o 一段时间了,简单聊聊 GPT-4o 我的一些体会。
在《OpenAI不再遥遥领先》一文中,提到了“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”从实际体验来看,GPT-4o 和 之前用的 GPT-4 除了快以外,没有任何区别。从模型侧来说,OpenAI 确实“慢了”下来。
关于这一块,不知道是数据+算力都达到了极限所导致的,还是其它什么原因,暂且不讨论。如果 OpenAI 今年内不发布GPT-5的话,按照现有开源的进步速度,Meta 等公司开源的大模型水平应该会迅速赶上 GPT-4 的水平。
对于 GPT-4o,比较让我惊讶的是他的产品力。经过这一年的发酵,大模型迟迟没有大规模推广开来的原因,主要有四点:精确性、成本、延迟、复杂度。
在之前,我一直想的是语音AI必须要经过3个阶段的推理:语音识别成文字、LLM输出文字和语音合成文字,这势必会很慢,而GPT-4o 通过使用端到端的模型,解决了延迟的问题。很好奇是,为什么之前没有听说有人用这个思路做出产品来,但是 OpenAI 使用了端到端的模型,还有从模型、硬件、推理工程等优化,把延迟问题解决到可以商用的水平。后来者应该会借鉴 OpenAI 的做法,把大模型推理的延迟问题彻底解决。
另外就是成本问题,现在 Gemini 1.5 Flash 的价格定为每 100 万个token 3.5 美元,DeepSeek v2的价格降到了每 100 万个token 1块钱人民币,豆包通用模型pro进一步把定价打成了1元=1250000 tokens,应用方使用成本在不断下降,再卷一年下去,不敢想象。特别是根据《OpenAI Is Doomed? - Et tu, Microsoft?》的推算,DeepSeek v2 这个价格甚至可能还有62%的毛利率。
即使大模型的精确性和复杂度依然没有得到很好的解决,但是延迟问题和成本问题在这一两年得到很好的解决,那么意味着就可以有一些爆款应用诞生了。
至于大模型能否像大数据一样,在各个公司大规模使用,甚至改变世界,还得看大模型的精确性能否做到像搜索一样,99%以上的准确性。至于复杂度,按照大数据的历史发展轨迹,从刚开始 MapReduce 的非常难用再到一句 SQL 可以解决大数据计算的问题,只花了短短的几年时间,大模型复制大数据系统的路径应该不太难。
虽然说 OpenAI 这次的 GPT-4o 产品力确实惊人,但是已经不像 GPT-4 那样,让大家觉得不可超越的。在 GPT-5 发布之前,GPT-4o 对于现有的科技公司,是完完全全可以复制的,甚至卷到 OpenAI 无法承受市场竞争带来的融资压力。