ChatGPT版「Her」被玩疯:哭着读诗,中文表现也很亮

教育   2024-08-02 09:00   浙江  

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

上线仅仅一天,GPT-4o的高级语音功能(Advanced Voice Mode)简直要被玩疯了。

无数网友脑洞大开的疯狂测试,GPT-4o这边呢,不仅各种奇葩任务全盘接收,表现好到更是让不少人连连惊呼“Blow my mind”

例如有位网友要求GPT-4o用中文讲个故事,它的表现是这样的:

很多懂中文的网友看罢,纷纷表示不论是情绪还是整体的描述,GPT-4o的表现都比较OK。

但也并非完美,例如它的语速略显慢了些,以及把“气”读成了“kì”

还有更像人的例子,仔细听:

你没听错,GPT-4o在读美国女诗人Emiliy Dickinson的作品时,她哭了

(颇有种情到深处自然浓的感觉)

这效果可把网友们吓得不轻,表示“毛骨悚然”。

然而这还只是网友们疯狂测试的一隅,还有很多好玩的例子,我们继续往下看。

数1-100,贼快

如果让你用英文从1数到10,越快越好,你需要几秒?

有网友就给GPT-4o提了这个要求,来感受下AI的语速:

当网友要求它以更快的速度读1-10时,“AI字幕”识别功能都失效了

而当GPT-4o被要求速读1-50时,我们还可以听到他还会像人一样有大口换气的动作。

接下来,这位网友提出了更高的要求——速读1-100

虽然前期没有完全get网友的要求,但在他不断地引导之下,GPT-4o最终还是完成了速读1-100的任务。

除此之外,在搞怪方面,GPT-4o学猫叫也是一绝:

我们一起学猫叫,一起喵喵喵~

当然,以实时性多语种出圈的语音功能,网友定然也不会放过测试这项任务。

主打一个随意打断、随意切换:

乌尔都语→希伯来语→挪威语→摩洛哥达利加语→阿姆哈拉语→匈牙利语→格鲁吉亚语→克林贡语。

还有更加实用的功能。

例如如果你在玩一款日本游戏,但却看不懂日文,那就直接让GPT-4o来帮忙就好了:

好家伙,GPT-4o直接摇身一变,成了实时翻译官了。

“自然的语音是关键”

除了上面这些具体的案例,沃顿商学院教授Ethan Mollick也谈了谈他的感受。

他将GPT-4o的高级语音功能总结为三点:

  • 它和OpenAI当时演示的效果一样好。

  • 它显然能够生成更多音频,但存在限制。

  • 它令人毛骨悚然。大量无意识的线索让人感觉像是在与一个人交谈。

并且Ethan教授还认为,这种非常自然、拟人的语音,正是改变人类与AI交互性质的关键(虽然底层模型是我们用了很久的那个)

但实际上,高级语音模式与ChatGPT现有的语音功能存在明显差异。

ChatGPT 之前的语音处理方式依赖于三个不同的模型:首先是将语音信号转化为文字的模型,其次是 GPT-4 用于解析和回应用户指令,最后是将 ChatGPT 的输出文本转换为语音的模型。

相比之下,GPT-4o 具备多模态能力,能够独立完成这些任务,无需其他模型的辅助,这大大减少了对话过程中的等待时间。

此外,OpenAI 还强调 GPT-4o 能够识别并响应用户语音中的情感变化,例如能够感知到悲伤、兴奋等情绪。

而随着越来越多网友晒出他们的测试结果,底下的吃瓜群众们是按耐不住了,纷纷表示希望OpenAI快点让更多人体验上。

那么你觉得用GPT-4o的高级语音功能,还能有什么更有意思的玩法?欢迎在评论区留言讨论~

参考链接:
[1]
https://x.com/CrisGiardina/status/1818469456269463810
[2]https://x.com/ManuVision/status/1818441972220104813
[3]https://x.com/emollick/status/1818790423319478384
[4]https://x.com/EthanSutin/status/1818405750760522232
[5]https://x.com/flowersslop/status/1818504414774046845
[6]https://x.com/CrisGiardina
[7]https://www.youtube.com/watch?v=cEhSo4ZPhpw

量子位


往期回顾


基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)

【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)


最新论文解析

NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!

CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!

ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!

ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型

See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!

MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强,真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源

CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索


FightingCV
一个专注于解析计算机视觉、多模态方向前沿论文,解答科研问题,分享科研时事的公众号!
 最新文章