首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

再忍一下，愚蠢的智能客服就要消失了

文摘科技 2024-11-14 15:01 上海

世界上最难的工作，不是给你一个很高的kpi，而是领导让你先试试，做个案例出来。

翻译下：资源是没有的，具体做成什么样谁也不知道，但你要是做不好。。。

这不，为了拓展媒体矩阵，咱们编辑部决定进军播客领域，可大家都是常年坐在电脑前码字的I人，读个稿子毫无感情，再招个人显然也不会批预算。

于是，经典的职场场景出现了：小硅啊，你先去试试做个播客样本出来，最好不要花什么钱，内容时效性也要高，把咱们的图文内容编辑编辑搞成音频就好了。

虽然是“送命局”，但硅基君还是用AI工具给完成了，我们先来看一下成果。

这条音质不错，声音流畅又有感情的音频，你敢信居然是AI做的？

播客的原文来自咱们远川同事的稿子，在此基础上，硅基君用扣子（coze.cn）做了一个AI Bot，从文字到语音，前后就花了几分钟，之后再做类似的，花几秒钟丢进去就行了。

大模型这几年非常火，但在交互方式上都采用了聊天的形式，想让大模型做点复杂的任务就很困难。

各大厂商也都知道这问题，AI Bot或者叫AI Agent因此而生。

它利用大模型的推理能力，将复杂问题拆解为小问题，并定义它们之间的顺序关系，然后调用各种工具来解决这些问题。

随着AI技术的进步，AI Agent的使用场景更加广泛涉及智能客服、个人助理、自动驾驶、软件开发等多个领域。字节跳动的扣子就是AI驱动的新一代AI Bot搭建平台。

相较于GPTs只能用OpenAI自家的模型，扣子集成海内外各种顶尖的大模型，并且扣子还有丰富的功能组件生态，通过简单的创建，提供与传统App一样甚至超越的用户体验。

比如公众号里的AI客服，在没有扣子前，用户需要学习AI、小程序等，用上扣子分分钟搞定。即便是小白也不用担心学不会，B站上有很多教程，几分钟学会，基本是有手就行。

但这样就够了吗？未来的AI交互方式会是脑电波还是其他古怪的方式没人知道，但像电影里贾维斯那样，可以像人一样对话的AI助手想必才是人们想象中的未来。

在文字聊天的基础上，扣子新增了语音对话的功能，而且不是简单的文字转语音，而是“交流感”更强的语音功能，从“能说话”变成“会说话”。

相比于机械式念文字的AI，扣子智能语音OpenAPI首次将理解能力注入整个语音交互链路。

举个例子，我们刷内容平台的时候，可以看到一键朗读功能，虽然用到了AI，但也仅仅是把文字完整念一遍，如果你想让AI帮你把内容整理好，变成摘要再读给你听，这种功能就很少见。

扣子的智能语音OpenAPI就弥补了这一空白，能够理解全文，并且浓缩成精华版音频念给你听。

为了实现生物和非生物之间的对话交流这中二的愿望，智能语音这个科技点早早就被点亮，截止到扣子新发布的语音功能前，大致能分为三代。

第一代IVR，就像是一个提前安排好所有路径的导游，每一步都被精心设计和预设。

通过提前准备好用户可能会问的问题，并录好相对应的音频，当用户指定要咨询的内容（拨号）时，机器会返回相对应的内容。这种智能语音的智能程度取决于预设的知识树，也就是准备了多少语音。

典型的例子就是10086客服，从用户拨打客服热线的那一刻起，IVR就开始通过这棵树引导你。树的每一条分支都预设了固定的选项，而每个选项背后则是客服能够提供的标准化服务。

例如按1就可以查询账户余额，按2就能办理套餐变更，按3就能投诉……

问题也就显而易见，它不能实现预设指令之外的操作，除非按0转人工。

第二代IVR在第一代的基础上，借助自然语言处理能力的发展，具备了一定的交互能力。比如我们常见的Siri和智能音响。

举一个例子，我们想设置一个10点的闹钟，可以用各种语序，例如“我想订一个10点的闹钟”，也可以“明天早上10点叫我起床”。算法会识别这两句话，提取关键信息“10点”“闹钟”“叫起床”等，识别并定位到闹钟进行设置。

但此时的理解能力非常浅显，用户需要用很刻意的语句才能唤醒相对功能，如果用户说“明天和小王约好的会议前1小时提醒我”，算法会无法识别。

由于人们的语言习惯千变万化，经常会出现算法无法理解的内容，从而被用户吐槽为人工智障。

此外，第二代IVR系统仍然需要预设能力框架。这是因为在设计系统时，需要对常见问题、用户需求和可能的交互路径进行规划。预设能力框架为系统设定了基本的行为模式，确保系统在常见情况下能够迅速响应用户需求，保持一定的稳定性和一致性。

理解能力不强，功能有限，是第二代IVR存在的问题。

随着大模型的出现，AI在理解和表达能力上有了质的飞跃，但此时的交互方式是文字交流，随之诞生的所谓的音频大模型，本质上是将语音转化为文字，让大模型识别后输出文字，再转换成语音的过程。

但逻辑上这就导致会出现很多文字交互特有的问题，比如对方言的理解困难、对情绪难以理解、中途用户不能打断等。

用户使用音频大模型，如果愿意等待，还是可以获得不错的回答，但最大的问题就是，这不像人。人类交流时要考虑对方的预期情绪，听懂特殊的表达方式和背后的情感，可以随时打断换个话题。

这些功能，扣子在RTC技术的加持下，做到了与真人无异的语音交流方式。

图灵测试中，我们根据回答的内容判断对方是不是真人，在交流对话中判断的依据就更加复杂。

首先最重要的就是有即时反馈，其次就是在能力上，除了有常识外，还要有一些基础能力和记忆，最后就是人性特点，懂得语气能理解上下文。

扣子的智能语音通过基于火山引擎的RTC（Real-Time Communication）方案，把对话时的延迟充分降低。比如你对扣子说你好，它会像人类一样立刻回复你好。同时，如果对它的回复内容不满意，可语音打断开启新的话题或提问。

在没有使用RTC技术的AI上，这一很简单的回答也需要一系列推理后，延迟一段时间再进行回复，大大降低了人们的交流欲望。

而在能力、常识、记忆方面，扣子平台的AI Agent可以胜任。扣子作为AI Agent 搭建平台，包含了 Agent 各项能力，如记忆（文件盒子、数据库、变量）、知识（文本、表格、照片）、技能（插件、触发器）、编排（工作流、图像流）等。

最后，在情感理解上扣子通过BigTTS技术，让扣子不但有丰富的情感和语气，还可以中英混说。BigTTS也是大模型的产物，其通过大型预训练模型和深度神经网络，显著提升了语音合成的质量和多样性。

在理解能力上，扣子智能语音的BigASR技术起到了作用，同样借助深度学习，扣子可以更好的理解上下文，更像一个真人。

即时反馈，有常识和记忆，说话有语气有情感，扣子智能语音变得更像人了。

体现在用户使用方面，可以总结为四个优势。

优势一就是精准的语音识别。大模型的自动语音识别（ASR）技术可以将语音准确转换为文本，并且能够理解上下文。这意味着即使是提到过的名词和不同的说话风格，系统也能识别出来。在有噪音、专业领域术语或者中英文混合的情况下，识别效果依然出色。

第二个优势在于强大的AI Agent功能。扣子平台是一个具备多种功能的AI Agent工具。它不仅可以存储和记忆信息（如文件、数据库、变量），还能管理各种知识（包括文本、表格、图片）。此外，平台支持插件和触发器扩展功能，以及任务的自动化编排（如工作流和图像处理），使得处理任务更加智能高效。

系统采用了RTC技术，有效减少了数据传输的延迟。这意味着用户在使用时能够获得即时、顺畅的体验，语音交流时系统能快速响应。超低延迟也是扣子语音的第三大优势。

最后，深度学习加持下的文本转语音技术能够生成自然逼真的语音效果。它可以根据文本内容智能调整情绪和语调，生成清晰流畅的语音。无论是音质还是情感表达，甚至中英文混合朗读，效果都非常接近真人的表现，让听众体验更自然生动。

RTC技术来带了低延迟，AI Agent带来了记忆、推理能力，基于深度学习的TTS技术让智能语音有情绪，能共情。

这不就是一个理想中的，贾维斯那样的随时随身的智能助理吗？

对于普通用户来说，心情不好的时候和扣子智能语音聊聊天，它能感受到用户的情绪，并且返回和咨询师一样温柔的回答。在异国他乡，用扣子进行实时翻译，不用担心与外国人交流时候不同步。大模型与生俱来的百科全书属性，让用户可以哪里不懂问哪里。

设想一下，10086接入了扣子智能语音，用户想咨询业务不再需要学习专业术语，描述一下功能，AI就能帮你找到。当用户被无端扣费时，AI甚至能够听出用户着急的语气，安慰几句，虽然治标不治本，但心情肯定会好很多。最重要的是，扣子智能语音不会让用户干等着，无论情况有多复杂，AI都能“秒回”。

想象中的使用场景还有很多，但还是需要各行各业的朋友们来发挥想象力。

如果你想参与内测体验，关注「扣子Coze」公众号回复「语音」即可申请内测。期待大家的体验反馈！

‍

全文完。

作者：董道力

编辑：张泽一

视觉设计：疏睿

责任编辑：张泽一

关于「新硅NewGeek」：我们以AI为圆心，追踪科技领域的方方面面，努力用最简单的方式阐述技术是如何改变世界。敬请关注。

http://mp.weixin.qq.com/s?__biz=Mzk0NTU1NDk3Mg==&mid=2247489880&idx=1&sn=e244bfacc74e9668b44bd29cceb08ebd

追踪每一个硅基生命的动向

最新文章

被一款没有任何“新功能”的AI工具种草了

发长文怒斥QQ音乐，但没有人同情“被抄袭”的网易云

大模型让输入框变成搜索栏

售价4位数的充电宝都是谁在买？

再忍一下，愚蠢的智能客服就要消失了

百度发布了一堆AI工具，但我只关心那副AI眼镜

福特CEO公开赞扬小米SU7，美国网友痛骂其卖国

营收超越特斯拉，比亚迪的第四次胜利

被中国车企毒打，福特CEO都成“米粉”了

国外专家眼中的Robovan：高端出行专用，很适合接送高管团

2024年了，苹果怎么还想着拿iPad对抗折叠屏？

542天星舰试射5次，为了省钱马斯克用了多少黑科技？

谁说中国人用不了星链？我们的用法马斯克看了都挠头

特斯拉极力讨好中国的RoboTaxi发布会，可大家看完了都觉得失望

六个领导五杯水，给领导送礼他不收...这种难题也能用AI解决？

问了AI几个关于牛市的问题，它们都让我冷静

先学会拧螺丝，再谈通用

为什么大家都不关心OpenAI了？

新上市658款新能源车，怎么我还是挑不到满意的？

尽管TikTok面临封杀，但美国风投觉得字节的估值还能翻五倍

如果我今天一定要买个机器人回家，某宝能提供哪些选择？

建议每位老板都换上华为三折叠

为了卖芯片，苹果专门出了款新手机

看完AI写的歌，我开始怀念被口水歌洗脑的年代

顶级楼市小作文：马斯克1.5亿购买北京豪宅

全球地沟油缺货，都怪中国人留着自己用？

电话手表背后的“上流”社交圈

有多少人为了玩黑神话，咬牙换了新电脑？

买断制游戏为什么是最烂的商业模式？

黑神话最大的成功，在于没人关心它好不好玩

马保国的儿子，也想打“五连鞭”

真正的陪伴式机器人：会打麻将，能取外卖

明知要背刺两代车主，极氪为啥还这么着急？

日本联合体：与时间赛跑的失败者联盟？

都是谁在说比亚迪不智能？

苏州“新概念无燃油机场”：航站楼在苏州，飞机都停在上海

看完这些视频，我总怀疑自己是不是菌子中毒了

能看懂这本书的，去AI公司年薪百万问题不大

当OpenAI的领导层变成空壳，支撑着它的就只剩下阿尔特曼画的饼？

每台价格破万的学习机背后，都有个望子成龙的家长

都2024了，怎么周鸿祎的手还能被车门夹？

雷军的抖音评论区，堪称当代网友最大发癫现场

飞度雅阁思域，本田三神车也卖不动了

给养鲲页游拍广告，可能是AI视频最好的出路

代抢票、帮写作业、代发大厂相亲贴...什么都能卖的闲鱼很难不涉黄

在长视频平台上，VVVIP也尊贵不到哪去

那些早已销声匿迹的互联网公司里，藏着一批最幸福的打工人

宝马的价格战只打了38天

一条减速带，绊倒了多少无人车？

美团直播间里，挤满了想吃穷鬼套餐的都市白领

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉