WXRedian | 阿里语音AI | 开源上新｜FunASR多语言离线文件转写软件包

FunASR是由通义实验室开源的语音识别框架，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署，吸引了众多开发者参与体验和开发。

为了支持用户便捷高效的集成语音AI能力，FunASR社区推出了服务部署社区软件包，支持Docker化部署，多路请求。面对社区用户的需求与反馈，本次推出多语言离线文件转写软件包，通过SenseVoiceSmall模型可实现中、英、日、粤、韩多语言的服务部署，同时具备多种语音理解能力，涵盖了语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED），可以进行高精度、高效率与高并发的文件转写。

图1 FunASR社区软件包发布路线图

FunASR社区软件包地址：

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md

‍▎多语言离线文件转写软件包

图2 多语言离线文件转写服务架构图

上图中，FSMN-VAD为语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息，从而将输入的长音频转化为短音频，将检测出来的有效音频片段输入声学模型进行识别，减少无效语音带来的识别错误。

SenseVoiceSmall为声学模型，用于将输入的音频转化成文字序列，支持中、英、日、粤、韩五种语言，同时具备多种语音理解能力，涵盖了语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）。

SenseVoice-Small旨在提供全面的语音处理功能，从而支持构建更复杂的语音交互系统，是一款仅含编码器的轻量级基础语音模型，设计用于快速语音理解。它可以快速处理语音数据，并在有需要时迅速做出响应，适用于对延迟敏感的应用场合，如实时语音交互系统。

图3 SenseVoiceSmall模型结构图

>>>多语言语音识别性能

我们在开放源数据集上比较了SenseVoiceSmall和Whisper的多语言识别性能和推理效率，包括AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice，详见下图。

SenseVoice-Small采用非自回归端到端架构，由此带来的推理延迟极低。相比之下，它比Whisper-Small快7倍，比Whisper-Large快17倍。

下表1为在A800机器上的推理效率对比。

>>>语音情感识别性能

SenseVoiceSmall也可以用于离散情绪识别，目前支持的情绪类型包括高兴、悲伤、愤怒和中性。我们在7个流行的情绪识别数据集上对其进行了评估，即使没有对目标语料库进行微调，SenseVoice-Small都能在大多数数据集上拿到一个不错的结果。

>>>音频事件检测性能

SenseVoiceSmall能在语音中检测音频事件，包括音乐、掌声和笑声，以及在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。

‍▎软件包安装使用指南

精简操作，即刻安装，FunASR软件包当前已开源。

开源软件包包地址👇：

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md

>>>步骤：

第零步：docker安装（可选）

# 如果您已安装docker，忽略本步骤

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh；sudo bash install_docker.sh

第一步：镜像启动

sudo docker pull \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6mkdir -p ./funasr-runtime-resources/modelssudo docker run -p 10095:10095 -it --privileged=true \  -v $PWD/funasr-runtime-resources/models:/workspace/models \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

第二步：服务端启动

cd FunASR/runtime; nohup bash run_server.sh --model-dir iic/SenseVoiceSmall-onnx > log.out 2>&1 &

第三步：测试与使用

等待服务端启动后，可以用客户端进行测试，支持python/c++/java/html网页等语言。

支持多种音频格式输入（.wav, .pcm, .mp3等），也支持视频输入(.mp4等)。

客户端下载地址：

https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

我们以html网页版本client为例，进行说明：在浏览器中打开samples/html/static/index.html，出现如下页面，输入部署服务器ip与端口号后，可以直接进行体验。

图5 html网页客户端体验

同时我们在云端部署了FunASR离线文件转写、实时语音听写等服务，用户可以直接在浏览器中进行体验：https://www.funasr.com/#/

‍▎特别致谢

与开发者们共力同工奔赴开源未来！

FunASR离线文件转写软件包归属于FunASR开源项目。在项目开源过程中，众多志同道合的社区开发者们参与进来，与我们共同努力，共享知识、互相支持，形成一种紧密的合作关系，推动着开源项目的发展。

在此特别感谢：赵明（爱医声）、刘柏基（元象唯思）、马勇（北京理工大学）、朱云峰（上海电信）、张旭（云南日报）、杜靖（魔珐科技）、邱威（广州荔支网路）、郭欢（卡斯柯）、徐怀移（顶顶通）、王涛（blt）、王振平等。

‍▎联系我们

欢迎对识别模型开源和应用感兴趣的研究人员和开发人员加入Fun-ASR开源社区交流群，共同探讨精进！

‍

👇点击阅读原文，下载多语言离线转写软件包

阿里语音AI

阿里巴巴通义实验室语音团队，基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术，实现“能听、会说、懂你”式的智能人机交互体验。