前几天,OpenAI 宣布推出全新的语言模型 GPT-4o,其中的 "o" 代表 "omni",意即该模型能够处理文本、语音和视频,堪称全能模型。有些人猜测这可能是未完成的 GPT-5。
GPT-4o 能够在文本、音频和视频之间进行实时推理,这是朝着更自然人机交互迈出的重要一步。
在发布会上展示了几个令人印象深刻的例子,比如一个盲人可以借助 GPT-4o 模型来描述他周围的世界。
多个不同语言的国家代表围坐一桌,通过 ChatGPT 进行实时翻译,无需额外操作,使得日常翻译更加流畅。甚至在未来的大型国际交流中,只需随身携带 GPT 就可以实现实时沟通。
还有一个更智能的例子是,GPT-4o 通过图像识别帮助一位初中生解答数据问题。GPT 就像一位完全没有情绪、永远不会生气的老师,一步步地提示和帮助学生解答问题。
这个功能对于家长来说无疑是革命性的改变。哈哈,相信每个在辅导孩子作业的家长都曾接近崩溃的边缘,现在完全可以用机器人来替代家长辅导作业。
如果说 GPT-3.5 和 GPT-4 只在文字处理上占优势,那么 GPT-4o 将应用场景进一步扩大,因为它融合了文本、语音和视频三种类型的数据。这个模型前景广阔,不久的将来一定会有更多有趣的应用出现。
作为开发者,我建议大家尝试一下GPT-4o,这个模型的比 GPT4 速度更快,在中文、图像识别方面也更加准确
此外,小编为了解决官方的提问次数限制,做了一个账号池,官方是每个号40次/3h提问次数限制,通过账号池技术,如果次数到了,立马换号即可,几乎不用等次数刷新,因为实惠好用,续费还是很多的