7款少有人知的语音转文字黑科技软件,开源免费强大!

科技   2025-01-04 19:20   上海  

编辑/排版:卒見

现在我们工作会议的时,都会用到录音转文字工具,我个人也会在工作和娱乐的时候用到这些工具,这里就给大家分享几款不一样的语音转文字工具,都是免费、开源项目!


01

Voice-Pro

AI 语音转换和多语言翻译工具


Voice-Pro 是一款由AI驱动的Web开源应用程序,旨在彻底改变多媒体内容处理。



它集转录、翻译和文字转语音为一体,提供简洁直观的可视化操作界面,支持实时转录和翻译,以及批量处理模式。



它具有 YouTube 视频下载、语音分离、语音识别、翻译和文本转语音的全面功能。



Voice-Pro 安装。

①运行configure.bat 并start.bat

②克隆或下载最新版本(源代码 zip)GitHub 版本

git clone https://github.com/abus-aikorea/voice-pro.git

③运行configure.bat,在 Windows 上安装 git、ffmpeg 和 CUDA

④连接互联网,这个过程可能需要一个多小时,看系统情况。

⑤在安装过程中,请勿关闭 Windows-Command 窗口。



⑥启动 Voice-Pro。Web-UI 将自动运行。

首次运行时,请先安装 Voice-Pro。


如果在安装过程中出现问题,请删除 installer_files 文件夹并再次运行 start.bat。



该项目是用于音频处理的综合 Gradio WebUI,具有 Voice Changer、零样本语音克隆(E2、F5-TTS)、YouTube 下载、语音隔离 (UVR5)、文本转语音 (Edge-TTS) 和多语言翻译。适用于内容创建者和开发人员。


Voice-Pro源代码:

https://pan.quark.cn/s/ccbde0108f7f

开源地址:

https://github.com/abus-aikorea/voice-pro

02

PodCastLM

PDF 生成中文播客!


一款开源免费的工具,可以将 PDF 内容转化为适合音频播客的自然对话,并输出为 MP3 文件。


操作很简单:

①我们可以直接将需要转换的内容上传到操作页面,这里可上传1M以内的PDF文件;



②然后设置语气、时长等,生成播客,你可以查看到文本总结内容,以及整理后的脚本内容!



③点击底部音频按钮,即可播放当前整理好的内容!



开源地址:

https://github.com/YOYZHANG/PodCastLM

在线地址:https://ai.podcastlm.fun


03

video-srt-windows

自动识别视频语音生成字幕文件的工具


video-srt-windows是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。



它采用 Go+walk 开发,仅支持 Windows 系统。基础原理是请求在线语音转文字的服务,超出免费额度需付费。另外还加入了导出字幕文件和翻译功能。


VideoSrt下载:

https://pan.quark.cn/s/ebd97ead46e3

开源地址:

https://github.com/wxbool/video-srt-windows

https://gitcode.com/gh_mirrors/vi/video-srt-windows


04

buzz

音频转录与翻译工具,可以在你的个人计算机上离线转录和翻译音频服务。



该项目是基于 Whisper 的音频转录和翻译工具,开箱即用、操作简单,支持语音转文字、音频翻译、多种语言和离线使用!



Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。它同时适用于Windows 和 Linux 平台。



功能支持:

①导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT(演示)

②从计算机的麦克风转录和翻译为文本



③支持Whisper、Whisper.cpp、Faster Whisper、Whisper兼容的 Hugging Face 模型,以及 OpenAI Whisper API

④命令行界面



Buzz v1.2.0下载:

https://pan.quark.cn/s/8c08670cfe56

开源地址:

https://github.com/chidiwilliams/buzz


05

ChatTTS

SOTA 开源 TTS,强大的对话式文本转语音模型,专门为对话场景设计,支持中、英双语。生成较短的语音效果很好,无机械感!



它主要用于 LLM 助手对话任务、对话语音以及视频介绍等,支持中英文混合文本合成语音,音色表现强,能达到真假难辨程度。



它不仅能够生成自然、流畅的语音,还能控制和添加笑声、停顿和语气词等。


ChatTTS源代码:

https://pan.quark.cn/s/48101f70fc83

开源地址:

https://github.com/2noise/ChatTTS


06

fish-speech

所有人都能用的开源语音合成模型


该项目是由 Fish Audio 开发的基于 VQGAN+Llama 的文本转语音模型,它仅需 4GB 显存即可在个人设备上轻松运行和微调(16GB),支持中英日语和音色调整,语音合成效果出色。



fish-speech源代码:

https://pan.quark.cn/s/cf829869e7f0

开源地址:

https://github.com/fishaudio/fish-speech


07

GPT-SoVITS

少样本语音转换和合成工具


强大的少样本语音转换和语音合成 WebUI 工具,输入 5 秒的声音样本就能体验文本到语音转换。支持少样本 TTS、英语、日语和中文,集成了声音伴奏分离、中文自动语音识别和文本标注等功能。



特色功能:

零点TTS:输入5秒的人声样本并体验即时文本到语音转换。

少发TTS:只需1分钟的训练数据即可微调模型,以提高语音相似度和真实感。



跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语、韩语、粤语和中文。

WebUI 工具:集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。



开源地址:

https://github.com/RVC-Boss/GPT-SoVITS

kua链:

https://pan.quark.cn/s/cf509d794f54

du链:

https://pan.baidu.com/s/1AQwPg3B60RlozShq97h4_g?pwd=gecp

提取码: gecp

Ok,本期的分享就到这里了,希望以上语音转文字、文字转语音的工具可以帮助你,不管是在生活上,还是在工作中,提高效率!

5款鲜有人知的剪辑黑科技app

5款堪称神器的黑科技软件

强烈推荐4款Windows工具神器


办公技巧达人
办公技巧,资源分享,无章无法,卒見世界!
 最新文章