像人一样的GPT-4o

文摘科技 2024-05-19 18:15 新加坡

本周早些时候，OpenAI团队推出新旗舰模型：GPT-4o，可以实时对音频、图像、视频和文本进行分析和推理

先看个小Demo，震撼一下：

GPT-4o（“o”代表“omni”，全能）能够接收文本、音频、图像和视频的任意组合，实时生成文本、音频和图像的任意组合。更加自然的人机交互，毫不夸张地说，真的是像人一样。能够听，能够看，能够基于看到的、听到的内容做出及时处理和响应

GPT-4o对音频的响应速度相较于GPT-3.5和GPT-4有了很大提升。在 GPT-4o之前，虽然可以使用语音模式与ChatGPT 对话，不过反应较慢，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。这是因为之前语音对话模式是由三个独立模型组成的管道实现的：一个简单模型将音频转为文本，GPT-3.5或 GPT-4接收文本并输出文本，第三个简单模型将文本转换回音频。也就是说之前的语音对话其实还是文本对话，在语音转换文字的过程中GPT会丢失很多的信息，无法直接分析音调、多个声音来源或背景噪音，也无法输出笑声、歌声，也无法表达情感

GPT-4o可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。借助GPT-4o，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理，GPT-4o能够获得文本、音频、图像和视频的更多信息

发布会上，OpenAI 的工程师还做了其他一些GPT-4o的演示

比如，GPT-4o可以以不同的声调讲故事，甚至可以唱歌：

比如，GPT-4o可以帮助解决简单的数学题：

Amazing

http://mp.weixin.qq.com/s?__biz=Mzg2ODYwNzMxMA==&mid=2247485642&idx=1&sn=dc8bea5cf7c379cc692785c3a7251f6f

程序员西风

分享个人经历和有趣的事物。

最新文章

微软（中国）年会怎么样

股市暴涨，牛市来了？

研究生学历“烂大街”？

“延迟退休”真的来了

房屋养老金是个什么“鬼东西”

北京房价暴跌？

活到多少岁才能把养老金拿回本

北京户口的六大用处

北京落户政策变动

北京高考

北京积分落户问答

北京车牌

北京积分落户

像人一样的GPT-4o

复试好好整，逆袭大翻盘

什么是Sora

再来两千个！

微信又给我发了6000块钱

微软超越苹果，市值重回全球第一

我去了趟大同

有小猫咪的2023年

挣钱可太难了

给广告打广告？还能赚钱？

OpenAI“宫斗大戏”落幕，微软成最大赢家？

微软和OpenAI到底怎么个情况

2024年互联网校招薪资待遇

这个年龄该干什么了

考研报名可得认真点儿

How to use Azure OpenAI

金融专业毕业就年薪百万？

互联网公司校招的套路

给大一新生一些建议

北大就业不如清华？

努力一年，改变命运？

轻轻松松年薪百万？

中国不止清华北大，还有渤海大学

清华的毕业生都去哪儿了？

北邮录取分数线直逼清华？

北邮就业还挺稳？

我也是个NPC？

聊聊暑期实习转正

选错专业毁一生？

盖茨or梅西

程序员的压力

高考，并没有改变我的命运

微软也能“卷”成这样儿？

我去现场看了一场笑果脱口秀

北京落户全流程

离开家乡

小猫咪陶陶

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉