扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

科技 2024-11-21 12:43 北京

机器之心原创

编辑：Panda

扣子 Coze OpenAPI 不仅具备低延时、定制化、随时打断和音色克隆等优势，还整合了扣子强大的智能体生态。

基于 AI 的无限游戏最近开始赢得关注，但实际上你现在就可以在自己的电脑上实现类似跑团的无限游戏。有意思的是，就算你大开脑洞，胡乱游戏，大模型 AI 也能帮你把故事圆起来，让这个游戏无限地继续下去。

你甚至可以召唤郭德纲来战斗

这个 AI 游戏主持人的声音是不是很有代入感？这其实是使用扣子正在内测的智能语音对话 OpenAPI 实现的。当然，无限游戏并非扣子智能语音对话 OpenAPI 所能实现的唯一功能。扣子智能体商店中那些智能体会的技能它都行，比如查询天气或新闻、口语练习、角色扮演、创建播客等等。

举个例子，我们这里就生成了一个播客，使用的素材是我们前些天发布的文章《LeCun 赞转！类 Sora 模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘》。

更重要的是，通过智能语音对话 OpenAPI。你还能将智能实时对话能力引入你自己的应用！

不管是微信小程序还是自己的应用或游戏，又或者就只是你自己的设备终端，扣子的 AI 智能体都能通过新上线的智能语音对话 OpenAPI 入驻进来。

简单想象一下，我们就能发现扣子智能语音对话 OpenAPI 的无穷妙用。比如我们可以将自家的产品信息配置到扣子智能体的知识库中，然后通过扣子智能语音对话 OpenAPI 为我们的网站和应用引入一个智能客服，它能以实时通话的方式为用户解答一些常见问题。

用自然语言搭建一个技术问答应用

要展现一个工具的强大，光是结果好还不够，还得用起来方便，下面我们就逐步演示一下可以如何使用扣子智能体平台和智能语音对话 OpenAPI 轻松构建一个 AI 技术问答应用（基于扣子提供的网页版 Playground）。有趣的是，这里的整个演示过程都是零代码的！

首先，你需要一个扣子专业版账户。由于目前扣子智能语音对话 OpenAPI 正处于内测阶段，因此你还需要申请内测权限，你可以在这里免费申请：

https://www.coze.cn/survey/7431180581536268314?FG_source=17

接下来，你需要构建一个智能体。基于扣子智能体平台，你只需要用一句话描述你的核心功能，剩下的交给 AI，就能轻松获得一个智能体。

当然，你也可以对 AI 创建的智能体进行更进一步的编排，优化其人设和回复逻辑，还能添加知识库以及设置开场白；更重要的是，还能为其设计工作流 —— 这个过程既能使用思维链（CoT）和检索增强式生成（RAG）等技术，还能将外部工具整合进来，比如集成外部知识库、调用外部模型和工具等等。

考虑到最近 Scaling Laws 是否撞墙的问题备受热议，我们也正好做过几篇报道，下面我们就把这几篇文章导入到这个智能体的知识库中。

智能体编排完成后，点击发布。这里注意我们需要勾选「Agent as API」以便后续我们通过 OpenAPI 调用该智能体。

然后我们就可以进入 Playground，获取权限后，调用该智能体，同时选取合适的音色。

之后，我们就可以通过扣子智能语音对话 OpenAPI 来了解所谓的「扩展律撞墙」是什么了。（我们这里顺便演示了其支持随时打断的功能，这对真实应用来说具有非常实际的价值。）

不仅如此，扣子智能语音对话 OpenAPI 也支持用户传入文本或网络链接（只要对应的智能体配置了链接读取等合适的插件即可）。当然，由于这里演示的仅仅是 Playground，还不是完整的应用，因此在传入数据时还需要采用 json 格式，下面演示了其对我们最近发布的一篇文章的分析：

如此，一个简易版的实时语音技术问答助理就搭建完成了。实际上，只要搭配上好看的网页前端，这就可以作为一个小应用发布了。而通过配置具有更复杂工作流程的智能体，扣子智能语音对话 OpenAPI 也能实现更加复杂的应用。

五大优势，以智能赋能人机交互

宏观来看，语音交互技术可以简化成四个步骤：语音识别（ASR）、语义理解（NLU）、对话管理和任务处理、语音合成（TTS）。

在相关技术发展早期，每个步骤的处理都很机械和呆板，用户和应用都只能按照预设的指令进行交互。在最早期的时候，机器甚至没法识别人类的语音指令，而是需要人类用户通过数字按键来给出反馈，比如「业务办理请按 1，业务查询请按 2，人工服务请按＊号键」。事实上，现在许多客服系统依然还在使用这种老旧范式。

之后随着语音识别和早期自然语音处理（NLP）技术的发展，人类开始可以通过语音方式与计算机互动。不过那时候不管是 ASR 还是 NLP 或是 TTS，都仅支持单一语种，也很难应对稍微复杂的交互场景。早期的 Siri 和 Google Assistant 等很多早期的语音助手便是采用了这一范式。

之后，大模型时代到来了。AI 理解人类语言的能力实现了质的飞跃，但两侧语音端的处理依然有待改进。一方面是 ASR 还很难应对多语言混合输入的场景，另一方面 TTS 也无法准确实现多语言输出。用户得到的语音反馈更像是毫无特色和情感的「棒读」。

到了今年，智能语音交互进入了变革之年，代表性事件便是今年 5 月份 OpenAI 发布了具备实时语音对话功能的大模型 GPT-4o。而扣子则在这个基础上更进了一步，不仅实现了实时、智能、自然的多语言语音交互，还将智能体整合进了其工作流程中，从而可以完成更加丰富多样的任务。这让其在这场正在持续的「智能语音大乱斗」中占据了一个领先位置。

总结起来，扣子智能语音对话 OpenAPI 具有 5 大显著优势。

优势 1：强大的 AI 智能体能力

智能体很可能是 LLM 实现大规模实际应用的又一范式。它能让 LLM 超脱仅仅作为问答机器人的水平，更深度地参与到用户的数字或物理生活中。正如著名 AI 研究者吴恩达说的那样：「大多数 LLM 的优化方向都是回答问题，这主要是为了提供良好的消费者体验，而且我们已经能够将它们『嫁接』到复杂的智能体工作流程中，从而构建有价值的应用。现在的趋势是以原生方式为智能体构建用于特定操作的 LLM，这能极大提升智能体的性能。我相信未来几年这个方向的智能体将获得巨大提升。」

扣子智能体平台正是这一愿景的实践者，而扣子那强大的智能体生态便是扣子智能语音对话 OpenAPI 最重大的优势之一。

扣子是新一代 AI 大模型智能体开发平台，其整合了插件、长短期记忆、工作流、卡片等丰富能力，可帮助用户快速搭建个性化或具备商业价值的智能体，并发布到豆包、飞书等平台，并且其使用门槛非常低，并不需要用户具备编程能力 —— 用户只需简短几句描述需求的自然语言，该平台就能用 AI 帮你自动构建合适的智能体。

使用扣子商店右下角扣子助手，一句话创建智能体

自今年 2 月份国内版上线以来，扣子智能体开发平台已经成长为国内智能体平台的重要引领者，其上已经部署了大量来自官方和社区的智能体，其中不少已经收获了数十万用户。

通过整合智能体，扣子智能语音对话 OpenAPI 可让用户以语音方式完成各种不同的任务，比如执行订单、生成图像、执行重复性的工作流程等等。只要智能体能做到的，扣子智能语音对话 OpenAPI 都能将其整合进来。

优势 2：识别精准

扣子智能语音对话 OpenAPI 在语音识别（ASR）方面使用了先进的大模型技术，具备上下文理解和超强的抗干扰能力，从而能带来更为精准的语音转文本体验。

它不仅能识别常见对话内容，还能在多轮对话中进行上下文关联 —— 当用户提到前文中的名词或代称时，系统会根据对话背景自动关联，避免重复确认。此外，扣子智能语音对话在面对嘈杂环境或复杂声学背景时表现出色，能够识别出清晰的文本，减少因噪声导致的误识别问题。

针对垂直领域，OpenAPI 提供了专门的语料支持，不论是医疗、金融还是法律领域，系统均能精准识别专业术语。此外，它对中英混合表达的语音识别也有良好的支持，提升了应用在多语种环境中的适应性。

优势 3：稳健的实时通信能力

实时通信是智能语音对话体验的核心要素之一，尤其是在对话连续性和即时性要求高的应用场景中，低延迟可以极大地提升用户体验。

扣子智能语音对话 OpenAPI 在这方面的解决方案是火山引擎的 RTC（Real-Time Communication）技术。该技术已经在实践中得到了验证，可显著降低通信链路中的延迟，使得系统响应更加即时，不再有卡顿和延时问题。而这些年的研究进步已经让火山引擎 RTC 实现了超低时延视频传输和云端音频流式处理，并对 AI 语音能力的全链路进行了优化（RTC-ASR-LLM-TTS），能实现智能体的实时响应。

据了解，火山引擎 RTC 已经大幅降低了从声音采集到 AI 回复语音响应这个全链路流程的时延，最低可至 1 秒。相较之下，之前的工作流程往往需要好几秒的处理时间。

火山引擎 RTC 与儿歌点点合作的「AI 伙伴」演示，展示了其实时性能以及支持打断的能力

这样的低延迟能力使扣子智能语音对话 OpenAPI 在客服、教育、远程协作等场景下具备明显优势，不仅可以快速响应用户的语音输入，还能在多轮对话中保持稳定顺畅的互动。

此外，火山引擎 RTC 还具备优秀的抗弱网能力，在弱网环境下也能保持通话顺畅，避免因丢字引起智能体理解和回答偏差。

RTC 还让智能体可被实时「打断」了。也就是说，智能体可根据人类对话的节奏和停顿来随时响应。它可以立马中断当前的输出，也能即时根据用户指令给出反馈。相较之前还需手动点击「打断」按钮的做法，这种做法显然更加自然，就像是与真人交流一样。

这项能力在实际应用中具有极其重要的价值。比如当用户在对话过程中突然提出新的问题或修改需求时，系统能够迅速捕捉并响应打断指令，灵活调整对话流程，无需等待当前话语结束。在客服、在线咨询和智能助理等场景中，这一能力可显著提升交互的自然度和应变性，使得对话更贴合真实人类沟通习惯，进一步提升用户体验。

优势 4：语言效果自然

在文本转语音（TTS）方面，扣子智能语音对话 OpenAPI 使用了大模型技术，从而让生成的语音更加自然、情感丰富，具有高保真的个性化特点。

基于大模型的 TTS 引擎能够智能分析文本内容，针对语句的情绪、意图和语气进行调节，使输出的语音在语调、节奏和情感表达上更贴近真人。

另外，扣子智能语音对话 OpenAPI 还支持中英文混合语句，能够实现流畅切换，在多语种表达场景中更显真实可靠。无论是客服系统需要温和耐心的语气，还是播报系统需要富有激情的表达，扣子智能语音对话 OpenAPI 都能自动适应，避免了传统 TTS 语音机械、单调的问题。

此外，生成的语音在韵律、气口和情感表达等方面也有细致优化，让用户听到的语音不仅真实可信，更富有感染力，适用于从广告配音到客户服务等广泛的应用场景。

优势 5：支持自定义音色

扣子智能语音对话 OpenAPI 不仅预置了丰富的音色（包括 20 多种中文音色以及一些英语、日语和西班牙语等其它语言的音色），还提供了一项特别的音色克隆功能，用户只需提供一小段语音录制，便可生成自己的专属音色。

扣子智能语音对话 OpenAPI 的多音色示例，包括一个定制音色

这一功能可让企业和个人用户将音色品牌化，为语音服务增加更多的个性和辨识度。在市场推广、品牌营销或个性化服务中，用户可以通过特有的音色与品牌形象建立联系，使用户的声音成为独特的品牌标识。

目前，系统在内测期间允许每位用户创建一个专属音色。未来，这一音色自定义功能将进一步拓展，或允许多音色的并行生成和使用，满足更多元化的声音需求。

内测邀请中

扣子智能语音对话 OpenAPI 现已向扣子专业版用户开放邀测申请！

作为一款强大的智能体对话工具，扣子智能语音对话 OpenAPI 拥有极其广泛的应用潜力 —— 无论是在线客服、远程教育、智能助理，还是在金融、医疗等专业领域，都能帮助企业快速实现智能化的实时语音交互。

未来，随着大模型及智能体能力的提升，扣子智能语音对话 OpenAPI 也能为开发者的应用带去更强大的智能能力，像无限游戏一样开启无限可能。或许某一天，扣子智能语音对话 OpenAPI 可以成为入口，造就钢铁侠的 Jarvis 那样的超级 AI 助理。

扣子智能语音对话 OpenAPI 支持多平台接入，团队也会提供用于不同场景和平台的 SDK。

扣子团队表示，邀测期间暂不收取语音功能费用，仅根据智能体调用次数和 Token 消耗收取专业版的基础费用。而内测用户的福利是每日 1 小时、每月 20 小时的实时通话体验时长，足以满足基础测试和常规使用。如有更高时长需求，用户可根据实际情况提出额外申请，以满足不同场景的深度测试需要。

在希腊神话中，普罗米修斯通过盗取火种赋予了人类智慧和文明的火花。同样，扣子智能语音对话 OpenAPI 就恰如应用领域的普罗米修斯，能为各行各业的应用赋予实时智能语音能力，开启技术实践的新篇章。

如果您想参与内测体验，关注「扣子Coze」公众号回复「语音」即可申请内测。期待大家的体验反馈！

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉