语音识别+语音合成

教育   2024-10-12 20:55   四川  

在中国的小公司,是不可能去研究自己的开源模型框架的。不过他们如果不想去购买阿里云的接口服务,最好的方式就是使用一些开源的模型自己搭起来,自己使用。不过开源的框架很多,你需要选择那个框架,基本都是研发人员在选择框架,作为产品主需要熟悉主流的几个框架就行了,做法都差不多。遇到有些技术总监,他自己也不知道如何选择,选型错误给公司造成巨大的损失。

Whisper【Openai

Whisper 是一个通用的语音识别模型。它在大量多样化的音频数据集上进行训练,作为一个多任务模型,可以执行多语言语音识别、语音翻译和口语识别。

支持语言:中文、法语、德语、意大利语、日语、韩语、西班牙语等等。

项目地址:https://github.com/openai/whisper

中文介绍:https://zhuanlan.zhihu.com/p/634462613

star:48.6k

PaddleSpeech【百度】

PaddleSpeech 是一个开源、易用、多合一的语音处理工具包,包含语音识别、语音翻译(英-中)、文本-语音、标点恢复功能。

PaddleSpeech 荣获 NAACL2022 最佳演示奖。

支持语言:中文、英文。

项目地址:https://github.com/PaddlePaddle/PaddleSpeech

star:9k

ChatTTS【】

开源语音合成项目ChatTTS的使用方法和功能。通过在线网页demo和Python代码开发,用户可以控制说话人的情绪、音色、文本口语化程度、笑声程度和停顿程度,并生成逼真的语音

视频还介绍了如何在驱动云平台上部署和使用ChatTTS,并提供了详细的教程和代码。同时,视频还介绍了如何导出和导入音色控制,以及如何进行多轮对话。可以去网页上体验 

比如这段话的语音生成效果,https://chattts.com/zh#Demo



数据产品之美
基金分析,LOF基金套利,基金实时估值
 最新文章