深度解读微软Speech服务：让语音识别走进现实

科技 2024-11-23 07:54 广东

大家好，今天我们来探讨一个激动人心的技术话题：微软的语音识别服务如何为我们提供强大的语音识别解决方案，特别是在电话录音中识别出不同的说话人。

场景描绘

想象一下，你有一段电话录音，并需要将其中的多个说话人区分开来，这在客户服务、会议记录等场景中尤为重要。通过调研不同的技术方案，我们发现微软的Speech服务提供了高效的解决方案。

认识Speech Studio

首先，让我带大家认识一下微软提供的在线测试平台：Speech Studio。通过这个网址可以直接访问 Speech Studio 进行服务体验。

在正式使用前，我们需要准备两类服务资源：语音服务和语言服务。在Speech Studio中，你可以在线快速测试并体验其功能。

https://speech.microsoft.com/portal/callcenter

我们可以看到Speech Studio服务中可以把wav的对话人区分出来，并且可以提取对于的姓名、邮箱等。甚至可以对敏感信息进行过滤处理。

C# SDK实现语音识别

为了在实际项目中应用，接下来我们来看看如何使用C# SDK来实现这一功能。首先，我们需要在项目中引入相关的NuGet包：

<PackageReference Include="Microsoft.CognitiveServices.Speech" Version="1.41.1" />

然后，在代码中导入相关命名空间：

using Microsoft.CognitiveServices.Speech;using Microsoft.CognitiveServices.Speech.Audio;using Microsoft.CognitiveServices.Speech.Transcription;

核心代码示例

以下是一个完整的代码示例，展示了如何通过C# SDK来实现语音识别及说话人区分：

class Program{    // 设置环境变量用于存储密钥和区域信息    static string speechKey = "your_speech_key";    static string speechRegion = "your_speech_region";
    async static Task Main(string[] args)    {        var filepath = @"test.wav";        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        speechConfig.SpeechRecognitionLanguage = "en-US";        speechConfig.SetProperty(PropertyId.SpeechServiceResponse_DiarizeIntermediateResults, "true");
        var stopRecognition = new TaskCompletionSource<int>(TaskCreationOptions.RunContinuationsAsynchronously);
        // 使用音频文件创建一个音频流        using (var audioConfig = AudioConfig.FromWavFileInput(filepath))        {            // 创建会话记录器            using (var conversationTranscriber = new ConversationTranscriber(speechConfig, audioConfig))            {                conversationTranscriber.Transcribing += (s, e) =>                {                    Console.WriteLine($"TRANSCRIBING: Text={e.Result.Text} Speaker ID={e.Result.SpeakerId}");                };
                conversationTranscriber.Transcribed += (s, e) =>                {                    if (e.Result.Reason == ResultReason.RecognizedSpeech)                    {                        Console.WriteLine();                        Console.WriteLine($"TRANSCRIBED: Text={e.Result.Text} Speaker ID={e.Result.SpeakerId}");                        Console.WriteLine();                    }                    else if (e.Result.Reason == ResultReason.NoMatch)                    {                        Console.WriteLine($"NOMATCH: Speech could not be transcribed.");                    }                };
                conversationTranscriber.Canceled += (s, e) =>                {                    Console.WriteLine($"CANCELED: Reason={e.Reason}");
                    if (e.Reason == CancellationReason.Error)                    {                        Console.WriteLine($"CANCELED: ErrorCode={e.ErrorCode}");                        Console.WriteLine($"CANCELED: ErrorDetails={e.ErrorDetails}");                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");                        stopRecognition.TrySetResult(0);                    }
                    stopRecognition.TrySetResult(0);                };
                conversationTranscriber.SessionStopped += (s, e) =>                {                    Console.WriteLine("\n    Session stopped event.");                    stopRecognition.TrySetResult(0);                };
                await conversationTranscriber.StartTranscribingAsync();
                // 等待识别完成                Task.WaitAny(new[] { stopRecognition.Task });
                await conversationTranscriber.StopTranscribingAsync();            }        }    }}

代码解析

环境变量配置：首先，确保设定"speechKey"和"speechRegion"，这两个参数是调用微软语音识别服务的基础。
SpeechConfig对象：通过SpeechConfig.FromSubscription方法，使用你的密钥和区域信息创建一个SpeechConfig对象，并设定识别语言为英语（en-US）。
设定属性：通过SetProperty方法开启中间结果的说话人区分功能。
创建音频流：利用AudioConfig.FromWavFileInput方法从音频文件中创建一个音频流。
创建会话记录器：使用ConversationTranscriber类创建一个会话记录器，并订阅相关事件（如Transcribing、Transcribed、Canceled、SessionStopped），以处理实时语音识别和说话人区分结果。
开启识别：调用StartTranscribingAsync方法开始识别，并等待任务结束，通过事件处理语音识别的各个阶段输出信息。

实际应用效果

上述代码运行起来，将会实时打印出语音识别结果以及每段话的说话人ID。通过这些信息，我们可以非常方便地将识别到的文本进行进一步处理，例如存储、分析等。

价格

我们可以查看官方定价标准：

https://azure.microsoft.com/zh-cn/pricing/details/cognitive-services/speech-services/

总结

微软的Speech服务提供了强大的语音识别能力，通过简单的配置和调用C# SDK，我们能够高效地实现电话录音的说话人区分。希望这篇文章能够帮助大家更好地理解和使用这一服务，让我们在实际项目中发挥其强大功能。如果你有任何问题或需要进一步了解更多技术细节，欢迎在评论区留下你的评论！

期待你的关注，我们下期再见！

http://mp.weixin.qq.com/s?__biz=MjM5MTc4MDM1MQ==&mid=2651741978&idx=1&sn=b2ff2840d6b8127fbe5b56e2329835a1

新一代智能化应用

人工智能是一门认知科学，而新一代的智能化应用是一个系统工程。智能应用程序是人工智能驱动的应用程序，可转变用户的工作效率、自动化流程并获得见解

最新文章

UnitsNet 库简介

AI智能体生态圈和软件栈

C# 2024年Visual Studio实用插件集合

使用 BenchmarkDotNet 对 .NET 代码进行性能基准测试

AI Agent再进一步！Anthropic发布大模型上下文协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

.NET 8 实现通用权限开发框架

AI 推理市场全景解析：战火从云端到边缘端

ASP.NET Core 知识速递：HTTP响应顺序，先头后尾

GTK#框架让C# Winform程序跨平台运行

Cursor v0.43 版本更新：Agent 功能重磅登场

Microsoft Fabric Data Factory 新增功能和路线图

社区发布非官方龙架构 .NET 9 SDK 发行版

一款基于.NET8开源的通用管理平台，支持模块化、WinForms 和 WPF

Cursor的最佳拍档来了，不写提示词，只要会截图就能做程序员

回顾 | .NET Talks - .NET 9 AOT 的突破

Pytorch前负责人谈AI发展新趋势，不要再卷基座模型和MAAS了

深度解读微软Speech服务：让语音识别走进现实

关于 GitOps 和数据库回滚的残酷事实

企业需要的不是大模型：基于国产算力落地企业级AI的实践与方法论

回顾 | .NET Talks - .NET 9 分布式 Web 全栈开发

DeepSeek 推理模型预览版上线：独创"深度思考"能力，性能超越openAI o1

使用Visual Studio分析.NET Dump，快速排查内存泄漏问题！

.NET9里WinForm更新了什么

一款为现代企业量身打造的开源功能强大CRM管理系统

C#开发最快的浏览器，打造极速浏览体验

LLaVA-o1：国产开源小型多模态AI模型获得超越GPT-4o-mini 大模型的性能

.NET开源实时应用监控系统：WatchDog

一个基于 WPF 和 Halcon 视觉编程实战案例

SemanticKernel系列，AI系列，SmartFill介绍视频系列

揭秘“让Claude 3.5 像 OpenAI o1 那样思考”的小孩哥神级Prompt是怎么炼成的

企业不需要大模型：基于国产算力落地企业级AI的实践与方法论

.NET 各版本贡献者列表

.NET 9 中 LINQ 新增功能实操

狙击 K8s 用户的“流氓”专利：分布式软件定义网络 (dSDN)

CNCF 宣布 Dapr 毕业

人工智能代理的崛起与未来展望

构建面向未来的数字核心：企业如何利用代理式AI引领变革

利用腾讯元器，将公众号变身为强大的.NET AI智能体

下一代 Serverless 架构 - SpinKube（Kubernetes WebAssembly 运行时解决方案）

回顾 | .NET Talks - 实战 Avalonia Headless 测试

PureML：大模型革新数据处理，能够自动进行数据清洗和特征工程

基于C#开源、功能强大、灵活的跨平台开发框架 - Uno Platform

WPF for .NET 9 中的新增功能

.NET现在可以做什么，有哪些公司在用的？

微软“虚拟小人”项目或将激发出一大批高价值生成式AI场景，打破“叫好不叫座”困境

.NET 9正式发布，亮点是.NET Aspire和AI

Qwen2.5-Coder 系列震撼发布：开源旗舰编程模型媲美 GPT-4o

相约 .NET 9！｜共同关注 .NET Conf 2024 最新发布

基于.NET开源、功能强大且灵活的工作流引擎框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉