黄鹂智声刘志：语音大模型给智能音频产品带来的新机遇 | 嘉程创业流水席228席精彩回顾

文摘财经 2024-11-15 14:46 日本

若能将语音采集做得更加人性化，整个语音交互系统就能基本满足用户体验需求。从这个角度来看，语音是未来智能时代的变革因子，它不是新功能，但有可能成为未来智能产品设计的最大变量，同时也是最大增量之一。

近日，嘉程创业流水席第228席【探讨2024 AI+硬件在不同场景落地的最新趋势】，邀请了黄鹂智声创始人刘志分享，主题是《语音大模型给智能音频产品带来的新机遇》。

以下是正文内容：

大家好，我是黄鹂智声的创始人刘志。自2005年至今，我已在声音领域创业近20年，早期涉足过语音识别与口语测评。目前成立了黄鹂智声，专注于声音前端处理解决方案，为更好的声音采集提供技术和产品。我们可以看到随着语音大模型的不断发展，或将为智能硬件，特别是智能音频产品，带来新机遇。

GPT-4o引发语音交互新思考

前段时间，OpenAI发布了GPT-4o的最新版，各方面性能带来了显著的提升：速度更快、准确性更高，尤其在理解上下文方面表现突出。从用户体验角度看，它更加贴近用户需求，更加友好。多模态输出的整体表现优秀，让人难以分辨对方是机器还是真人，达到了以假乱真的程度，体验甚至比之前的GPT-4还要好。

语音是人与人之间最直接的交流方式，按理说人机之间也应如此。但过去由于种种原因，这一点并未实现。GPT-4o发布后，我们更加确信这一点未来能够实现。接下来，我们要思考的是：未来智能硬件的设计中，语音功能能否成为一种新的设计范式？

人机交互方式变化带来应用革新

每次人机交互方式的革新，都会引发应用层面的巨大变化。信息革命之后，从人机交互角度来说有过几次跨时代的变化。首先是PC时代，键盘、鼠标和Windows视窗系统成为人机主要的交互方式。PC是那个时代主要的硬件形式，随后，笔记本电脑等移动PC以及手机的出现，让我们来到了移动互联时代，这时触控与摄像头成为了人机交互的新方式，而伴随着新的交互框架和形式，也催生了前所未有的新应用。

人工智能的发展未来会引领人机交互进入到智能时代，端到端语音交互能力有可能成为智能时代的新变量。因为人机交互最便捷的方式是声音，如果假设成立的话，对于软件、硬件形态的变革，和过往应用的重构以及新的原生应用，可能带来的发展将会是跨时代的新机会。

语音交互成为新范式

语音交互可能成为新范式的原因很简单。首先，语音是人与人之间最自然的交流方式，传递的信息量超过65%。我们常常忽视声音，误以为文字才是信息的主要载体，其实只是因为声音存储起来较难。实际上，声音是最直接的交互方式，在线交流时，语音往往是传递信息的主力。其次，语音输入比打字更快，也更直观，无需额外训练。再者，语音交互对特殊人士特别友好，不仅限于视障或行动不便者。在很多生活或工作场景中，如开车、做饭等，语音可能是唯一的交互方式。最后，语音交互能解放双手，让人可以一边处理其他事务，一边进行交互。综上所述，语音交互在人机交互中占据重要地位。

搭建语音交互闭环系统

但是现在不论是PC还是移动设备，语音交互的比例非常低。语音交互变换系统的构成并不复杂，共有4个环节。一是语音采集，通过机器上面的麦克风来捕捉用户的语音输入并处理，以此作为整个系统的起点。二是语音识别，把语音信号转化成文本。这个过程中语音识别和语义理解会相互配合。三是语义理解，分析内容、理解意图，实现意图的识别、关键信息的提取等。四是语音合成，对系统来说理解之后把系统响应转换成自然语言的输出就完成了交互的闭环。虽然步骤不复杂，但每个环节都有难题。语音识别是目前最成熟的，识别准确率已接近或超越人类。在实时性、跨语种识别和嘈杂环境适应性上，语音识别已能满足多数语音交互需求。

尽管如此，语音识别仍面临挑战，特别是在识别专有名词、方言及多语种混杂时，语音输入常出问题。但是从总体看，语音识别部分是整个语音交互闭环系统里面进展最好的。过去用户体验不佳，主要是语义理解拖了后腿，因为传统方法仅基于规则和浅层学习，难以应对复杂语境和多样化表达。回想上一代产品，以智能音箱为典型的人机交互产品，很多时候被戏称不是人工智能，而是人工智障，对于很多的响应答非所问。现在，大模型通过海量数据训练和参数推理，能更好地理解上下文，处理模糊、隐喻和多义性表达。

语音交互系统的进步，大模型功不可没。我们能看到它未来的发展趋势，比如结合专业知识进行微调来更精准地识别场景，还有融合语音、文本、图像、视频等多模态信息，实现更全面的理解。声音的本质是传递信息，因此理解信息是大模型中最难也最关键的部分，语音大模型技术有望彻底改变声音交互。

语音合成仍然是重要的点，过去的语音合成系统最直观的感受就是一听就知道是合成的声音，目前语音合成在几个方面取得了新的突破，包括整体合成的自然流畅度、情感的表达、个性化的声音，甚至是模拟定制的声音，以及多场景的适应，理解当前的场景来相应的进行合成的输出。这些点使得这个机器听起来更像人，可以有效减少人和机器交互时产生的不适感和心理障碍。

另外一个重要的部分就是黄鹂智声目前在做的工作：声音的前端处理，目的是打通整个语音交互的最先一公里。采集端把复杂环境下所需要的声音清晰的提取出来，这项工作不像大模型技术那样复杂、高参数且需要大数据量的训练。但却是决定整个系统成败的关键因素，以往声音交互系统中，这部分常被忽视，却对用户体验有着巨大影响。

我们的重点包括环境噪声消除，确保采集的声音中不含周边噪声。同时，我们还在探索新需求，如人我分离技术，即区分使用者和环境中的其他人。这样，系统就能准确识别用户声音，过滤掉他人干扰，提升语音交互的精准性。例如，开车时喊小度导航，若设备无法区分用户，就会导致所有手机都回应，严重影响用户体验。再往后的需求是多人的分离，在多人的对话或者多人沟通的场景当中，分离并且识别不同的说话人，支持更复杂的交互场景。在分离之后，还要做声音的增强，提升声音采集的质量，使人机交互系统的输出效果和效率都能得到显著提升。

语音：AI时代的变革因子

过去几十年，语音交互的研究从未停歇，今天，语音识别、大模型语义理解和语音合成等方面已有显著提升。若能将语音采集做得更加人性化，整个语音交互系统就能基本满足用户体验需求。在这个角度上来说，语音是未来智能时代的变革因子，它不是新功能，但是有可能成为未来智能产品设计的最大变量，也是最大的增量之一。如果去类比，可以比照移动互联时代的触控摄像头和 LBS的位置去思考创新的契机在什么地方。

近年来，不少案例颇具参考价值，如Meta Ray-Ban眼镜，因其作为语音助手实现免提操作和信息获取而广受市场欢迎，Meta还计划增添更多功能。再看讯飞的Nano，其核心应用是自动生成会议纪要，大幅提升工作效率。而时空壶品牌的翻译耳机，则实现了实时翻译，满足了跨越语言障碍的需求。市场反馈显示，语音助手、自动会议纪要、实时翻译等功能已被验证有效。在语音交互系统中，这些新应用往往是基于旧有需求但未充分满足的领域，或是全新尝试，且紧密结合了新型硬件。

AI语音加持下硬件的可能性

这也引起我们很多思考。一是硬件形态的可能性，有很多新的可能或者机会。主要依据应用场景可分为智能穿戴、车载和智能家居三大类，其中智能穿戴的变数最大。在智能时代，手机是否仍是移动互联的最佳硬件形态尚存疑问。近年来虽有新形态尝试，但多不尽如人意。眼镜虽开始摆脱手机束缚，但仍面临诸多问题。一段时间内，配件加手机的方式，特别是受算力和功耗限制，仍为主流。但智能时代完全有可能出现全新硬件形态，通过人机交互、语音交互，成为新时代的最佳实践，这一领域也将激发大量探索。

二是车载系统，车本身有很多限制，所以目前的形态还是集成式的语音控制台，未来演化方向有可能变成分离的，比如车玻璃变成大屏，分区对不同的人进行语音的识别和交互、监控。

三是智能家居，很大的变量是机器人。在现有的基础上，联网的家电，通过家电的互联实现随时随地在家里任何位置、任何角落，声音清晰的识别和交互。这是在现有硬件形态上的可能性。还有种可能的形态是机器人可以跟着人跑，这是硬件上的可能性。

AI语音加持下软件的可能性

随着硬件形态和交互方式的变革，软件应用的可能性更加引人注目。如果语音交互成为AI时代的主要交互方式，那么几乎所有的应用都将迎来重构。以教育为例，现在的英语学习软件已经与过去大相径庭，孩子们可以与机器对话，就像有外教实时提供反馈和指导一样。

在社交层面，人机语音交互将开辟新的社交维度。虚拟人物，如抖音上的虚拟主播，已不再是新鲜事物。然而，目前的交互还远远不够，交互做的还不够，包括智能陪伴、个人成长的助手，都是现有的应用基础上可以直接联想到的升级，比如游戏等完全用语音进行操控等的可能性，新的时代一定会有大量的探索。

如果开一点脑洞，AI时代未来语音交互成为主流的情况下，哪些可能是新的原生应用？比如虚拟分身，通过语音和行为模式来创造自己的分身，帮助处理大量的日常事务。又如个体的增强，不再依赖于APP，我们每个人都可以成为“APP”，通过语音接口将计算机界面直接融入大脑，拓展认知能力。虽然目前有些应用，如眼镜通过语音识别提示对面声音，还属于辅助类，但更引人注目的是直接增强个体的应用。

语音语言承载的是个人的情感思想等，如果通过记录个人语音和行为数据，全方位无死角的从出生到消亡，全部记录下来，基于这些数据来创建数字化永生，实现生命的延续。这些在今天基于过往的交互方式是没有办法去实现的，但是随着未来的语音交互方式，包括其他的存储等各类技术的发展，可能会成为新的原生应用和新现实。

语音交互应用面临两大挑战

语音的交互应用上仍然存在着诸多的挑战，主要来自两个方面，一是技术难题。大模型在实时处理，尤其是移动设备上的网络依赖，实现起来很困难。在嘈杂或多人的复杂环境中，识别及语义理解的准确率仍待提高。此外，多语言支持的深度和广度也是一大挑战。其次因为人工智能大模型思考问题的方式和人类智能的本质仍然有差异。从生物学的机理上，包括能耗的表现、参数的规模等方面还在继续挑战，或者仍然还想去发掘人类智能的本质去提升人工智能系统的效能和效果。

二是产品和市场方面的挑战。首先，打造产品时确保用户体验细腻入微，极为不易。每种新交互方式从出现到被用户接纳，都需跨越应用层面的鸿沟。例如，触控交互起初也不被看好，直到苹果引入电容屏，让体验变得流畅，才被大众接受。现今许多语音交互产品仍显粗糙，就像早期的电阻屏，不够流畅，细节处理不足。像语音翻译应用若需手工干预或说话时还得手动提示，就大大影响了用户体验。每多一步操作，都会显著降低用户满意度和选择意愿。

其次，用户心理接受度也是一大障碍。新交互方式，尤其是语音，要成主流，还需时间让用户从心理上接纳。很多人担心在公共场合用语音交互会泄露隐私。再者，隐私安全及AI伦理问题也日益凸显。个人声音数据如何使用、是否触及伦理底线，都是应用和市场面临的新挑战。

作为技术上的谨慎乐观者，并在语音领域深耕多年，我深知语言与思想紧密相连。借用维特根斯坦的话，语言的边界就是思想的边界。语音承载了人类最宝贵、最核心的价值——思想。

在未来，语音交互是一个引子，它触及众多应用领域，并深刻影响我们对人类思想的理解与探索。大模型技术的发展正是基于“语言的边界就是思想的边界”这一理念。对于人类语言的本质理解，蕴藏着无尽的探索空间与价值。

我的分享结束，谢谢大家。

Q&A

席友：做AI硬件产品如何在竞争中防守，不被巨头产品的延伸功能覆盖掉？

刘志：这涉及智能硬件从哪些点出发，语音交互还处在百花齐放，百家争鸣的阶段，哪些应用的点未来真的成为主流还在探索。所以怎么去选，包括在功能层面上主打哪个点、哪些用户群，创业者的机会是非常多的。有点像移动互联刚兴起的时候，虽然看起来很多大的机会是大厂自然延伸。但小的创业机会非常多，抓细分场景、细分应用、细分人群。交互的角度要做到极致，对于任何大厂来说也不容易。比如翻译场景，翻译的实时性、准确性、多语种，在同一个内容中有多语言很多小的点。对用户来说直接决定了东西好不好用。AI硬件产品要极度关注用户体验上细小的差异。

席友：现在语音交互的场景，大部分都会需要声音前端采集的技术吗？

刘志：随着语音交互应用的深入，越来越多需要用到声音前端采集的技术。目前大量的语音交互都处在比较浅层次，或者比较初期的阶段。场景的单一性和交互的简单性，有一部分对于前端处理的需求还没有那么强。但是随着多项技术的叠加式的发展，用户使用场景的变化以及对语音交互的需求，前端采集技术的需求也会越来越强。

全文完

往期嘉程创业流水席线上活动现场

往期嘉程创业流水席线下活动现场

往期回顾

-行业分享-

生物科技公司IPO筹备消费医疗 Z世代

印度市场企业服务直播电商医药数字化营销

DTC品牌出海 TikTok ToB企业服务案例

拼多多中老年医疗器械餐饮

-T3小组-

嘉程资本Next Capital是一家专注科技领域的早期投资基金，作为创新者的第一笔钱，我们极度信仰科技驱动的行业创新，与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」，「NEXT创新营」、「未来联盟」等产品线，面向不同定位的华人科技创新者，构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态，超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头，在早期投资阶段富有经验，曾主导投资过乐信（NASDAQ:LX）、老虎证券（NASDAQ:TIGR）、团车（NASDAQ:TC）、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮，并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴，成长的伙伴。

嘉程资本

握手未来商业领袖

BP 请发送至 BP@jiachengcap.com

微信ID：NextCap2017

http://mp.weixin.qq.com/s?__biz=MzUxNTM5NjUyNg==&mid=2247506772&idx=1&sn=defc2e99c43baa118e50252a75b301a8

嘉程资本NextCapital

嘉程资本

11月24日，与百度智能云/生数科技/盏灯工作室探讨AI娱乐的最新趋势！｜嘉程创业流水席第240期

11月20日，嘉程资本在墨西哥！闭门探讨拉美创业：产业落地/营商环境/最新趋势｜嘉程创业流水席第241期

黄鹂智声刘志：语音大模型给智能音频产品带来的新机遇 | 嘉程创业流水席228席精彩回顾

大型投资周报：国内光学TAC薄膜龙头企业乐凯光电获4.5亿人民币战略投资；自来水生产商凯发新泉获2.48亿人民币拟收购

大型投资周报：数字病理系统开发商OptraScan获3000万美元A轮投资；动力传动装置专业制造商三凯机电获超亿人民币A轮投资

11月13日，嘉程资本在东京！闭门探讨AI全球化：产品定义/增长案例/华人创业｜嘉程创业流水席第239期

11月7日，与优必选/Aicosens/Monar探讨AI硬件的全球化最新趋势！｜嘉程创业流水席第238席

大型投资周报：旅游服务平台Tripfactory获5000万美元A轮投资；软件和云解决方案提供商Altair获106亿美元并购

10月31日，与AI播客APP Figo/AI产品经理李思钰探讨AI语音应用的最新趋势！｜嘉程创业流水席第237期

大型投资周报：生物技术公司March Biosciences获2840万美元A轮投资；餐饮服务提供商麦当劳中国获30亿人民币并购

10月24日，与心永科技/川大罗泽伟/协和江研伟探讨生物医学传感器+算法在产业落地的2024新趋势！｜嘉程创业流水席第236期

10月24日，探讨生物医学传感器+算法在产业落地的2024新趋势！技术革新/智能驱动/前沿应用｜嘉程创业流水席第236期

嘉程早期投资项目士泽生物完成逾亿元B1轮市场化融资，细胞治疗帕金森病临床结果积极

大型投资周报：绩效管理软件开发商Everstage获3000万美元B轮投资；液冷技术开发商Motivair获8.5亿美元拟收购

滴滴青桔黄海斌：AI+硬件在两轮车安防中的应用 | 嘉程创业流水席228席精彩回顾

10月17日，与百奥几何/英特尔中国探讨AI赋能蛋白质设计最新趋势！｜嘉程创业流水席第235期

嘉程资本招聘：一起见证创新的力量

大型投资周报：产业数字化智造平台华秋电子获3.1亿人民币C++轮投资；电器检测服务提供商河南高压电器获4.53亿人民币并购

10月13日，与美客多中国/安骏物流/顶诚科技探讨跨境出海拉美2024新趋势！｜嘉程创业流水席第234期

10月13日，探讨跨境出海拉美2024新趋势！市场潜力/最佳实践/基建变化｜嘉程创业流水席第234期

大型投资周报：全球数字应用平台Whatfix获1.25亿美元E轮投资；乳制品品牌LWAY获2.83亿美元拟收购

Bandalabs Thomas：“闯关”拉美，先要读懂这6亿消费者 | 嘉程创业流水席227席精彩回顾

9月28日，与英伟达/地平线/嘉程投资团队探讨智能驾驶商业与应用最新趋势！｜嘉程创业流水席第233期

大型投资周报：3D大模型公司VAST获数亿人民币Pre-A轮投资；皮肤病治疗药物研发商Dermavant获12亿美元并购

Liquido李孟珂：从金融支付看拉美市场的多样性 | 嘉程创业流水席227席精彩回顾

大型投资周报：数字支付解决方案提供商Paymob获2200万美元B+轮投资；黄金开采商Centamin获25亿美元并购

摩乘科技Marco：新形态下中国企业出海挑战与实践 | 嘉程创业流水席226席精彩回顾

9月12日，探讨具身智能与机器人数据的最新趋势！前沿动态/发展阶段/创新成果｜嘉程创业流水席第232期

嘉程天使投资公司未名拾光PCPC新原料注册成功&XVII型胶原蛋白肽获专利授权

大型投资周报：全球人力资源平台Oyster获5900万美元D轮投资；爆破工程服务商盛世普天获1.53亿人民币并购

Anpool Peter：泳池清洁机器人现状及前瞻 | 嘉程创业流水席226席精彩回顾

9月7日，与鹿影科技/某大模型公司/MeshAnything探讨AI多模态生成的最新趋势！｜嘉程创业流水席第231期

大型投资周报：合成生物技术研发商微元合成获超3亿人民币A轮投资；机动车检验检测服务提供商天津天平获1.06亿人民币拟收购

8月29日，与硅基仿生/百奥几何/乐活元探讨智能闭环算法赋能数字医疗&合成生物！｜嘉程创业流水席第230期

8月29日，探讨智能闭环算法赋能数字医疗&合成生物！创新案例/前沿动态/发展方向｜嘉程创业流水席第230期

大型投资周报：烟草制造商Vector Group获24亿美元并购；高性能机器视觉核心零部件供应商博视像元获1.3亿人民币A轮投资

途深智合沈逸卿：大语言模型在蛋白质工程中的应用与挑战 | 嘉程创业流水席224席精彩回顾

咸数科技彭伟：制药数智化赋能CMC工艺研究 | 嘉程创业流水席224席精彩回顾

8月22日，与AiPPT.cn/谷溪智学/大千探讨2024 AI垂直领域应用新趋势！｜嘉程创业流水席第229期

8月22日，探讨2024 AI垂直领域应用新趋势！PMF探索/落地场景/最新实践｜嘉程创业流水席第229期

嘉程资本荣获企名片「2024中国股权投资年中榜单」多项奖项

大型投资周报：通信内容安全服务商Kiteworks获4.56亿美元战略融资；百货公司华联美好生活获1.92亿人民币并购

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉