开源上新|FunASR多语言离线文件转写软件包

文摘   科学   2024-10-21 15:59   浙江  

FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。

为了支持用户便捷高效的集成语音AI能力,FunASR社区推出了服务部署社区软件包,支持Docker化部署,多路请求。面对社区用户的需求与反馈,本次推出多语言离线文件转写软件包通过SenseVoiceSmall模型可实现中、英、日、粤、韩多语言的服务部署,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),可以进行高精度、高效率与高并发的文件转写。

图1 FunASR社区软件包发布路线图


FunASR社区软件包地址:

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md


多语言离线文件转写软件包

图2 多语言离线文件转写服务架构图
上图中,FSMN-VAD为语音端点检测模型,用于检测输入音频中有效语音的起止时间点信息,从而将输入的长音频转化为短音频,将检测出来的有效音频片段输入声学模型进行识别,减少无效语音带来的识别错误。
SenseVoiceSmall为声学模型,用于将输入的音频转化成文字序列,支持中、英、日、粤、韩五种语言,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。

SenseVoice-Small旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统,是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的应用场合,如实时语音交互系统。


图3 SenseVoiceSmall模型结构图


>>>多语言语音识别性能

我们在开放源数据集上比较了SenseVoiceSmall和Whisper的多语言识别性能和推理效率,包括AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice,详见下图。

SenseVoice-Small采用非自回归端到端架构,由此带来的推理延迟极低。相比之下,它比Whisper-Small快7倍,比Whisper-Large快17倍。

下表1为在A800机器上的推理效率对比。


>>>语音情感识别性能

SenseVoiceSmall也可以用于离散情绪识别,目前支持的情绪类型包括高兴、悲伤、愤怒和中性。我们在7个流行的情绪识别数据集上对其进行了评估,即使没有对目标语料库进行微调,SenseVoice-Small都能在大多数数据集上拿到一个不错的结果。

>>>音频事件检测性能

SenseVoiceSmall能在语音中检测音频事件,包括音乐、掌声和笑声,以及在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。


软件包安装使用指南


精简操作,即刻安装,FunASR软件包当前已开源
开源软件包包地址👇:

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md


>>>步骤:

第零步:docker安装(可选)

# 如果您已安装docker,忽略本步骤

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh;sudo bash install_docker.sh

第一步:镜像启动

sudo docker pull \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6mkdir -p ./funasr-runtime-resources/modelssudo docker run -p 10095:10095 -it --privileged=true \  -v $PWD/funasr-runtime-resources/models:/workspace/models \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

第二步:服务端启动

cd FunASR/runtime; nohup bash run_server.sh --model-dir iic/SenseVoiceSmall-onnx > log.out 2>&1 &

第三步:测试与使用

等待服务端启动后,可以用客户端进行测试,支持python/c++/java/html网页等语言。
支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等)。
客户端下载地址:
https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz
我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。

图5 html网页客户端体验

同时我们在云端部署了FunASR离线文件转写、实时语音听写等服务,用户可以直接在浏览器中进行体验:https://www.funasr.com/#/
特别致谢
与开发者们共力同工奔赴开源未来!
FunASR离线文件转写软件包归属于FunASR开源项目。在项目开源过程中,众多志同道合的社区开发者们参与进来,与我们共同努力,共享知识、互相支持,形成一种紧密的合作关系,推动着开源项目的发展。

在此特别感谢:赵明(爱医声)、刘柏基(元象唯思)、马勇(北京理工大学)、朱云峰(上海电信)、张旭(云南日报)、杜靖(魔珐科技)、邱威(广州荔支网路)、郭欢(卡斯柯)、徐怀移(顶顶通)、王涛(blt)、王振平等。

联系我们

欢迎对识别模型开源和应用感兴趣的研究人员和开发人员加入Fun-ASR开源社区交流群,共同探讨精进!








👇点击阅读原文,下载多语言离线转写软件包

阿里语音AI
阿里巴巴通义实验室语音团队,基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验。