GPT-4o语音模式灰度测试,同时Long Output支持64K超长输出

文摘   2024-08-01 07:10   北京  

OpenAI  GPT-4o 的语音模式进入灰度测试阶段,预计将于今年秋季全面开放。这一消息引起了业内外的广泛关注,尤其是在国内外大厂纷纷加速 AI 视频和语音模型开发的背景下,OpenAI 的新进展无疑成为焦点。

语音模式的突破:更自然、更智能的交互

此次 OpenAI 针对部分 ChatGPT Plus 用户推出的 GPT-4o 语音模式,以其高度自然的对话体验吸引了众多用户的目光。新模式不仅支持实时对话,用户可以随意打断和调整互动过程,还具备识别并回应用户情绪的能力。这种情感层次的丰富,使得人机交互不仅仅停留在功能性层面,更向情感化和人性化迈进。

多语言支持与应用场景

GPT-4o 在多语言支持方面展现了强大实力,包括法语、西班牙语和乌尔都语等多种语言的流畅表达,让用户体验到无缝沟通的便捷。不少获得测试资格的用户纷纷探索 GPT-4o 在不同应用场景中的表现:有的将其化身为激情四溢的足球解说员,实时为观众带来比赛解说;有的则利用其作为“第二外语教练”,帮助纠正发音并提高语言水平。

情感陪伴与心理健康

除了实用的语言和交流功能,GPT-4o 在情感陪伴方面的表现同样出色。通过语音模式和自定义功能,一些用户成功“复活”了已故的亲友,与他们进行温馨对话。这一创新应用不仅为用户带来了情感上的慰藉,还为人工智能在心理健康领域的应用开辟了新的可能性。

GPT-4o Long Output:64K token 输出的强大能力

在推出语音模式的同时,OpenAI 还宣布了 GPT-4o 的另一个重要功能——长输出模式。该功能将每次请求的输出能力提升至64K token,相当于200页小说的内容量。这为需要大量信息的用户提供了更全面、细致的响应。

价格与应用场景

新模型的价格调整为每百万输入 token 6 美元,输出 token 为 18 美元,尽管输出 token 的数量是 GPT-4o 的16倍,但价格上涨幅度仅为 3 美元。长输出功能主要适用于数据转换等用例,如将文档从一种语言翻译成另一种语言,或从文档中提取结构化数据。这一功能的推出,将为用户在多个领域提供更强大的处理能力。

市场竞争与未来展望

与其他市面上的 AI 模型相比,GPT-4o 在性价比和实用性方面具有显著优势。虽然像 Gemini 和 Claude 等模型的输出能力甚至超过百万 token,但 OpenAI 的长输出模式在保证高效处理的同时,仍保持了良好的用户体验。

OpenAI 方面表示,推出更长输出模型的决策是基于用户反馈。随着用户对更长输出内容的需求增加,GPT-4o 的发布无疑为满足这些需求提供了有力支持。在未来,随着 GPT-4o 的全面开放,用户将能享受到更加智能、贴心的语音交互体验,以及高效的信息获取和处理能力。


市值260亿美元的Canva,收购Leonardo.ai,增强生成式AI的能力

AI的双刃剑:全球治理刻不容缓

大模型价格战,背后的逻辑

OpenAI 推出AI搜索 SearchGPT:挑战谷歌搜索霸主地位

City不City,拥有类人脑的新AI机器人震惊世界!

Meta开源:Llama3.1 405B模型发布

Mem0:增强LLM的记忆功能,实现跨应用的个性化AI体验

OpenAI 发布 GPT-4o Mini:成本优势明显,性能优于 GPT-3.5 Turbo

Agent获客新时代,你的企业上车了吗?

人机共生:大模型时代的工作与生活

传统AI与生成式AI的深度对比

OpenAI的Q计划:“Strawberry"新模型,可自主浏览互联网并自主推理

AI技术与企业数据的深度融合,开辟商业增长新蓝海

未来出行:无人驾驶能否取代网约车司机?

AI Agent:大模型演进的下一站

OpenAI CEO携手Thrive,创办AI健康公司

2024国产AI大模型应用报告

大模型与小模型:AI领域的双轨并行与未来趋势

2024上半年《人工智能现状报告》750名行业领导者、技术人员的意见

三星支持荷兰初创公司Axelera:开发全球最强大的边缘AI芯片

Runway推出GEN3 Alpha模型!

全球首款支持 GPT-4o 的智能眼镜 Solos AirGo Vision 发布

Resona V2A: AI智能解析视频,实现自动配音与配乐

AI文档搜索公司Hebbia融资超1.2亿美元,估值达8亿美元

字节跳动推出“豆包MarsCode”智能编程助手:国内开发者免费使用

每首歌索赔15万美元索尼、环球音乐、华纳起诉 Suno 和 Udio

OpenAI 收购远程协作平台 Multi,在企业解决方案领域发力!

腾讯元宝新版本发布:提升解析能力,支持1000万字超长文处理

RTranslator:全球首个开源实时翻译神器

OpenAI 前首席科学家 Ilya创办新 AI 公司,聚焦超级智能安全

AI Agent进入红海时代,开发者的红利时代来了

2024年美国科技行业裁员潮持续:从巨头到初创企业,60,000名员工面临失业

【AI+考试】30秒出题,1分钟开考,万物皆可考!

GPTZero:人工智能内容检测领域的黑马

PixVerse Magic Brush 上线:7 个示例教你玩转对象移动

LLM推理能力盲区:从《爱丽丝梦游仙境》测试看AI的局限与未来方向

快手发布视频大模型“可灵”:能生成2分钟1080p高质量视频

Qwen2模型家族来了

数名OpenAI、谷歌、DeepMind现任和前任员工,签署公开信警告人工智能风险

SD3 Medium 模型即将开源

AI 服务集体宕机:ChatGPT 领衔,Claude 和 Perplexity 紧随其后

NVIDIA 在 GDC 2024 推出全新数字人技术和 RTX SDK

AI在不同场景下如何提升效率,能否完全取代人类?

我是腾讯元宝,看透繁杂,听懂所需,说享精彩!

OpenAI官宣:已开始训练下一代“前沿AI模型”

马斯克融资60亿美元,计划推出xAI超级计算机

SignLLM:通过文字描述生成手语视频的多语言模型

美国「AI开源大模型」出口管制法案:43 比3通过第一轮

Truecaller:帮你接电话的AI助手来了

使用AI克隆拜登声音,被罚600万美元

大模型价格战升级!阿里、百度、字节跳动争相“降价”,大厂火拼,价格亲民

面壁智能MiniCPM-Llama3-V 2.5实力碾压GPT-4V、Gemini Pro,成为端侧多模态新霸主

FunClip:开源的AI视频自动化视频剪辑工具

国产大模型激战正酣:开源与低价的精彩对决

OpenAl发布GPT-4o全能模型,实时语音和视觉能力,再次刷新业界

探索未来网页设计:Wegic AI对话式建站助手!

月薪8千和月薪3万的区别:有没有熟练使用天工AI!

阿里云发布通义千问2.5:超越GPT-4 Turbo

全国首例“AI外挂”案:游戏世界的黑暗角落

微软为美国情报机构定制 GPT-4 生成式 AI 模型!

Logo Diffusion:打造个性化Logo的AI平台

支付宝智能助理:你生活琐事的“超级管家”

DrEureka:AI让机器狗玩瑜伽球,平衡能力简直绝了!

Copilot Workspace:告别孤独的编码之夜,迎接你的智能副驾

【AI+农业】AI育种大模型“丰登”问世 为粮食安全提供科技支撑

第七代机器人‘凤凰’,接近人类学习速度,24小时内掌握新技能

▲ 滑动查看往期内容

小微模型
一起探索AGI世界,解锁AI实用技能,伴您步入智能生活!
 最新文章