关注共识粉碎机,获取历史讨论会纪要
公众号会定期更新一些对AI行业的看法,如果对详细内容感兴趣就点击下文的久谦销售同事进行采购。
1.GPT4o解决的最大问题是语音Bot的拟人化:
这是非常非常大的变化,所有与语音交互的场景都卡在延迟这里,可以说之前是“完全不能做”,或者北美创业公司普遍用Machine Learning夹杂GPT4Turbo来做,但现在是努力一下能做了。
语音拟人化的要求是整体反馈要在2s内,这包括了网络延迟、语音转文字、文字转语音以及大模型的反馈时间,实际上最后留给大模型的延迟时间只有0.5s
在GPT4o出来前,现有的GPT4和GPT4 Turbo都远远达不到,GPT4 Turbo快的话也要到4-5s,这已经是非常一流的实践情况。如果是从中国调用,因为服务器现在主要在北美和西欧,延迟还要继续增加。
包括这次发布会中展示的能被打断,也是拟人化中的交互Killer Feature,在实际与AI的沟通中,能不能打断最直接判断对面是AI还是人,如果用户发现是AI,挂断率就会直线飙升。除此之外,还可以做到停顿、语气等,明显更像真人了。
2.怎么能够优化到这个延迟/成本的:
OpenAI有一个非常大的团队在做模型推理优化,和2023年初比,是变化最大的内部团队之一,网罗了硅谷非常多顶级的infra专家,有很多一线实践都还没有公开。
看GPT4o的优化,硬件侧大变化是用了DGXH200,并且GPT4o应该是一个非常多Expert数量的MoE架构,摊下来的激活参数变小了,Expert数量可能超过了200个,GPT4 turbo的Expert数量就很多了,但是OpenAI一直没有披露过数量。
另一个是多模态的创新,从语音来说,传统的语音交互要包括语音转文字、文字转语音,这也是为什么上面说的2s内延迟,但是扣掉其他留给大模型的延迟只有0.5s了,GPT4o端到端推理省掉了语音文字互转的过程,语音进语音出。而从图像/视频来说,OpenAI也做了非常多的efficiency优化,比如token compression等。
3.从今天的实测上还没有看到Live Demo的同等效果,但最后结果会达到:
ChatGPT的GPT4o已经上线了,问了一下中美的使用情况,目前延迟还要在1-2s时间,但考虑到今天集群可能有排队问题也很正常。
目前还没有推送Demo里面的Voice Chat,所以能否打断还测不出。
但看过去OpenAI的模型发布情况都非常可信,包括去年四季度发布Turbo的时候,Sam一开始提到Turbo会和GPT4一样smart大家还很难相信,但经过了半年的迭代最新版的4月Turbo已经和GPT4一样甚至更好了。
相信如果绕过共用集群,采用物理机(PTU)形式的话,现在的延迟应该已经非常接近Live Demo的水平了。
4.所以如果要给一个总结的话:
虽然在GPT4o目前已经超越了GPT4turbo和Claude3 Opus,成为了新的SOTA,但我们没有看到模型天花板级别的更新,这需要继续等待GPT5。
但GPT4o解锁了之前从来没有解锁的实时交互场景,不光是语音,之前的文字也很难做到流畅的实时交互。
这意味着离应用跑通最近的包括售后客服、400报修、电商导购、员工内培,大量的交互场景都在临门一脚上了。
同时,OpenA不断突破模型推理的技术天花板,最好的模型同时也是最便宜的模型。这对于scaling law的继续也是至关重要的,未来10T/100T级别的模型,需要这些推理技术的创新。后续我们也会全面分析推理的技术难点和壁垒。
附:GPT-4o benchmarking情况
总体来看GPT-4o在回答质量方面较GPT-4 Turbo有进一步提升,更多的提升和优化是在速度和价格方面,从而提供更好的性价比
在单并发和短prompt(~80 input tokens)的情况下:速度方面仅弱于Llama 3(8B), 价格方面较GPT-4 Turbo大幅降低,较之前较火的Cloude3 Opus也低非常多
在多并发(10并发)和长prompt(~10,000 input tokens)情况下在质量和速度方面要优于目前主流模型。
Source:Artificial Analysis
1.看完OpenAI Spring发布会还有个感受是光靠现在的发布会情况还是很难狙击Google IO的。
2.预计Google IO应该会在自己的优势上做很多革新,也对得起这次准备几个月的时间
3.预计很可能会发布Google版本的Sora,但是训练集数据不一定能达到OpenAI Sora的水平,但考虑到Google在多模态上很长的积累,最后的效果可能没有差别,成本端也可以优化到Sora的几美金/分钟水平。
4.预计很可能会发布新一代的Codebase,Google的Codebase能力一点不比Github Copilot差,但缺少客户基础,在IO前就一直陆陆续续听到新一代Codebase信息。
5.同时预计在多模态上还会做更多的Feature。
6.同时预计会发布在Search / Doc / Chat这些product integration,以及Google Cloud新的一系列产品和工具。
1.苹果股票的反馈反而是这两天最好的,大家都对GPT4o版本的Siri很兴奋,这样的延迟和交互能力已经可以做到云端调用了,认为拉开了和Android的差距。
2.苹果去年一直从Google挖了非常多厉害的人,Tim Cook的支持力度也非常大,现在从Google挖人也不容易,Google匹配薪水很果断,也要给出足够的愿景感受到过去有奔头。
3.如果能到Siri级别的权限,那已经可以调用App,做到App级别助手(类似Meta准备的助手)做不到的事情了。
4.但最后的效果很可能不会一步到位,苹果作为硅谷合规最严的公司,对于GPT能说什么,不能说什么,会有非常严的把控。很可能刚出现的版本就是一个合规Buff加满的版本,在推出的进度上可能也会非常慎重,很难预测时间线。
5.看空间,如果人人都有一个Siri,ChatGPT现在用差不多2-3万H卡支撑2亿MAU,到了Siri这样更高频的级别,Apple的用量可能要乘以5-10。如果铺到安卓,还要再乘以2-3倍。
我们即将发售四篇报告,其内容是:
微软Copilot进展、GenAI售卖场景以及如何影响公有云选择
北美算力租赁厂商近况及供需平衡情况
美国数据中心与电力情况
互联技术以及未来发展趋势
在过去的一个月,我们已经发售了两篇报告:
算力需求场景测算
AI与GPU在META中的应用
对报告感兴趣,或者对我们的日常调研纪要(每月超过50篇AI调研纪要)感兴趣的请联系下面的久谦销售同事:
大模型未来三年的十个假设
Data Infra:大模型决战前夜