AI语音技术的新浪潮:微软与 OpenAI 各自推出创新功能

文摘   科技   2024-10-02 08:38   中国香港  



在人工智能领域,语音交互技术正迅速成为下一个前沿。最近,微软和OpenAI分别宣布了他们各自在AI语音技术方面的重大进展。


微软Copilot升级:语音交互和图像分析等

微软正在为其Copilot AI助手添加一系列新功能,包括语音交互、图像分析和更复杂的推理能力。这些升级使Copilot的功能更接近于其基于的ChatGPT。

新增的“Copilot Voice”功能允许用户与助手进行语音交流,提供四种不同的声音选项。此外,还有“Discover Cards”功能,根据用户在微软服务中的交互推荐主题和特性。而“Copilot Daily”则提供新闻和天气的早晨简报,由用户选择的Copilot语音朗读。

微软还与路透社、Axel Springer、赫斯特杂志和金融时报等新闻媒体合作,为“Copilot Daily”提供内容。Copilot现在也直接集成到了Microsoft Edge浏览器中,用户可以从地址栏访问它来回答问题、总结网页、翻译文本或重述句子。


OpenAI的实时语音API

与此同时,OpenAI在其DevDay开发者大会上宣布了一项新功能——实时API,允许开发者将六种AI语音集成到他们的应用程序中。这些声音与ChatGPT中使用的声音不同,并且开发者不能使用第三方声音以避免法律问题。

OpenAI展示了一个使用实时API的旅行规划应用程序,用户可以与AI助手讨论旅行计划,并快速获得响应。API还可以在地图上添加餐厅建议,并且也适用于电话通话。

此外,OpenAI还宣布了GPT-4o模型的新特性,包括使用图像来微调模型,以及通过即时缓存功能来降低成本和延迟。模型蒸馏技术允许使用较大模型的输出来优化较小模型,如GPT-4o mini。


技术革新的交汇点

管微软和OpenAI是独立发布他们的产品,但他们的进展都集中在AI语音技术上,包括昨天谈到AI合成播客内容的谷歌NotebookLM及其开源竞争对手Open NotebookLM,这表明了该领域的快速增长和重要性。两家公司都在努力使AI助手更加智能和易于使用,提供更自然、更真实的人机交互体验。


结语

微软的Copilot升级和OpenAI的实时API,都致力于提供更自然、更真实的人机交互体验。随着这些技术的不断进步,我们可以期待在未来看到更多创新的AI应用。


欢迎留言、点赞、转发!



图文收集自网络,非本号观点;如有侵权,请联系删除

更多AI热点资讯,请每日关注AI今说~

AI今说
每天发布AI相关资讯,让您了解AI世界的最新发展。同时,周一至周五关注AI在社会各领域的应用与发展(论文解读)。
 最新文章