明晚20:00,探讨AI语音应用的交互升级/前沿技术/落地应用,再次邀请上车!
扫描上方二维码即可报名
今年5月,OpenAI发布最新杰作——GPT-4o,流畅自然的对话,惊人的反应速度,彻底刷新了我们对AI语音助手的认知边界,展现了前所未有的智能交互新高度。仅仅几个月后,GPT-4o再次进化,9月高级语音功能升级并开始全量推出。这次更新带来了自定义指令、记忆功能、五种全新声音选项以及更加精准的口音识别,让GPT-4o不仅更智能,也更具“人情味”。这一系列升级让语音AI领域迎来了全新的里程碑,在 RTC 能力的加持下,人与AI的交互不再局限于文字,通过语音对话便能进行生动、流畅的低延时交互。AI语音赛道正吸引着越来越多的关注与热情,焕发出前所未有的活力与光彩。
自通信出现以来,语音就是人们交流的方式,但之前并未真正成为技术接入的手段。但从上半年来看,语音正逐渐变成与技术互动的新方式,成为新生产力应用的关键。据德勤数据统计,智能语音预计2030年消费级应用场景超过710亿元,企业级场景将达到740亿规模。目前,在消费级市场,AI语音技术得到了广泛应用,如智能手机、智能音箱、智能家居等。在专业级市场,AI语音技术也大有作为,如医疗、公检法、教育、客服等领域。这些领域对语音识别技术的准确性和稳定性要求较高,智能语音技术在这些领域的应用具有较大的潜力。
继GPT-4o之后,AI语音助手领域迅速成为国内外厂商竞相角逐的焦点,各大公司纷纷推出自家的创新产品。Meta AI 最新推出一款具有革命性意义的多模态基础语言模型SPIRIT-LM ,能够自由混合文本和语音,并能像人类一样理解和表达情感;谷歌Gemini推出Gemini Live语音聊天模式,该模式不仅支持流畅的对话交互,允许用户随时打断,还具备屏幕感知能力。国内,阿里云在云栖大会上发布大模型语音机器人,响应仅需500毫秒;声网推出对话式 AI 解决方案,构建实时多模态 AI 语音交互;科大讯飞上线星火极速超拟人交互技术,是业界首个采用端到端的语音交互技术,也是国内首个对标GPT-4o语音的大模型产品;字节跳动旗下火山引擎深度整合豆包・语音识别模型和豆包・语音合成模型,推出对话式 AI 实时交互解决方案。
除科技巨头纷纷布局该赛道外,一些科技新秀和创业公司也带来了亮眼表现。AI情感创企Hume AI发布EVI 2,宣称其为全球首个具有情商的对话式AI,能够通过分析用户的语音来理解用户的情绪和心理状态,并做出实时响应;由Google Labs团队开发的一款 AI 驱动的内容研究工具NotebookLM,不久前上线的Audio Overviews功能可以根据用户上传的内容,生成10分钟左右的双人对谈播客;字节跳动发布Ola friend耳机,用户可以通过声音与大模型交互,重新定义了语音与智能硬件的结合。
语音交互的优点显而易见,随着深度学习和自然语言处理技术的成熟,AI正帮助语音交互变得更加精准、智能和人性化。从众多落地的技术模型中我们可以预见:
AI语音技术音乐、播客以及多模态文字语音、视频语音等内容生产领域,都展现出巨大潜力。无论是面向企业的客户服务、销售支持等B端应用,还是服务于个人的心理疗愈、教练指导及陪伴式体验等C端场景,语音交互的深化应用都将为产品开辟更加广阔的拓展维度。
语音交互式的软硬件AI产品即将迎来全面爆发。从ASR+LLM+TTS的级联式语音交互到以GPT-4o为首的端到端语音交互,语音交互的延迟不断降低,表征不断丰富,将极大提升语音交互的产品体验,为软硬件产品打开天花板。
10月31日,明晚20:00,热爱创新的嘉程资本携手耶鲁创投俱乐部开启嘉程创业流水席第237席!我们邀请了AI播客APP创始人Figo、AI产品经理李思钰一起深度探讨AI语音应用的最新趋势!欢迎各位关注AI语音应用上下游的从业者、创业者、投资人和行业专家一起参加!
再次邀请上车!
主题:探讨AI语音应用的最新趋势
时间:2024年10月31日20:00-22:00
形式:腾讯会议
名额:为保证活动私密性和讨论质量,限100位!
本场活动免费参加!
往期嘉程创业流水席线上活动现场
往期回顾
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017