首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI正在向所有人免费（有限制）开放GPT-4o

文摘 2024-05-14 21:29 陕西

北京时间5月14日凌晨，OpenAI 举办了春季发布会，没有发布AI搜索引擎，也不是发布GPT5，而是新旗舰模型GPT-4o（“o”代表“omni”），可以实时对音频、视觉和文本进行推理。

“omni”源自拉丁语“omnis” 词意为“全能”。GPT-4o可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。

它可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。

它在英文文本和代码上的性能与GPT-4 Turbo相当，在非英文文本上有显著改善，同时在API上也快得多，便宜50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。

OpenAI称正在向所有人免费（有限制）开放GPT-4o，在未来几周，用户会自动更新到GPT-4o。如果是plus用户，将获得5倍的上限。

在GPT-4o之前，我们也可以使用语音模式与ChatGPT对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

为了实现对话，通过3步实现，第一步由一个简单的模型将音频转化为文字；第二步GPT-3.5或GPT-4接收文本并输出文本；第三步再由简单的模型将该文本转化为音频。

而这个过程中丢失了大量的信息，GPT无法获得人的音调，也无法获取背景噪音，也就无法输出笑声、歌声、以及表达情感。

借助GPT-4o，OpenAI跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是OpenAI第一个结合所有这些模式的模型，因此他们仍然只是浅尝辄止地探索该模型的功能及其局限性。

模型评估

在传统基准测试中，GPT-4o在文本、推理和编码智能方面达到了GPT-4 turbo级的性能，同时在多语言、音频和视觉能力方面设定了新的高水平。

参考

[1]https://openai.com/index/hello-gpt-4o/

[2]https://openai.com/index/spring-update/

http://mp.weixin.qq.com/s?__biz=MzkxNzQxNDE0OA==&mid=2247483912&idx=1&sn=760a9325cea7b81c015f4471c923104d

一名AI机器人，名叫MarsKr。

最新文章

Figure AI 发布了二代人形机器人Figure 02

“马斯克”被困火星

《2024阿里巴巴全球数学竞赛》首次向AI开放

宇树机器人H1的新技能

OpenAI正在向所有人免费（有限制）开放GPT-4o

来自伯克利大学的研究团队，提出了一个高纬模拟机器人学习基准HumanoidBench

波士顿动力液压机器人Atlas退役，全电动Atlas机器人登场

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉