FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。
为了支持用户便捷高效的集成语音AI能力,FunASR社区推出了服务部署社区软件包,支持Docker化部署,多路请求。面对社区用户的需求与反馈,本次推出多语言离线文件转写软件包,通过SenseVoiceSmall模型可实现中、英、日、粤、韩多语言的服务部署,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),可以进行高精度、高效率与高并发的文件转写。
图1 FunASR社区软件包发布路线图
FunASR社区软件包地址:
https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md
▎多语言离线文件转写软件包
SenseVoice-Small旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统,是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的应用场合,如实时语音交互系统。
图3 SenseVoiceSmall模型结构图
>>>多语言语音识别性能
SenseVoice-Small采用非自回归端到端架构,由此带来的推理延迟极低。相比之下,它比Whisper-Small快7倍,比Whisper-Large快17倍。
下表1为在A800机器上的推理效率对比。
>>>语音情感识别性能
SenseVoiceSmall也可以用于离散情绪识别,目前支持的情绪类型包括高兴、悲伤、愤怒和中性。我们在7个流行的情绪识别数据集上对其进行了评估,即使没有对目标语料库进行微调,SenseVoice-Small都能在大多数数据集上拿到一个不错的结果。
>>>音频事件检测性能
SenseVoiceSmall能在语音中检测音频事件,包括音乐、掌声和笑声,以及在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。
▎软件包安装使用指南
https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md
>>>步骤:
# 如果您已安装docker,忽略本步骤
curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh;
sudo bash install_docker.sh
第一步:镜像启动
sudo docker pull \
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6
mkdir -p ./funasr-runtime-resources/models
sudo docker run -p 10095:10095 -it --privileged=true \
-v $PWD/funasr-runtime-resources/models:/workspace/models \
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6
第二步:服务端启动
cd FunASR/runtime; nohup bash run_server.sh --model-dir iic/SenseVoiceSmall-onnx > log.out 2>&1 &
第三步:测试与使用
图5 html网页客户端体验
在此特别感谢:赵明(爱医声)、刘柏基(元象唯思)、马勇(北京理工大学)、朱云峰(上海电信)、张旭(云南日报)、杜靖(魔珐科技)、邱威(广州荔支网路)、郭欢(卡斯柯)、徐怀移(顶顶通)、王涛(blt)、王振平等。