超快速的语音转文字工具whisper-turbo-mlx

文摘   2024-10-29 19:29   湖北  

项目简介

该存储库使用MLX提供了Whisper模型的快速、轻量级实现,所有内容都包含在一个不到 300 行的单个文件中,专为高效音频转录而设计。

安装

brew install ffmpeggit clone https://github.com/JosefAlbers/whisper-turbo-mlx.gitcd whisper-turbo-mlxpip install -e .

快速开始

要转录音频文件:

wtm test.wav

要在 Python 脚本中使用该库:

>>> from whisper_turbo import transcribe>>> transcribe('test.wav', any_lang=True)


快速参数

quick参数允许您在两种转录方法之间进行选择:

  • quick=True :利用并行处理方法实现更快的转录。此方法可能会产生断断续续的输出,但速度明显更快,非常适合速度优先的情况(例如,将生成的成绩单输入LLM以收集许多音频记录的快速摘要)。

  • quick=False (默认):采用循环处理方法,该方法速度较慢,但会产生更忠实和一致的转录(仍然比其他参考实现更快)。


您可以在调用transcribe函数时指定该参数:

wtm --quick=True
>>> transcribe('test.wav', quick=True)


项目链接

https://github.com/JosefAlbers/whisper-turbo-mlx

扫码加入技术交流群,备注开发语言-城市-昵称

合作请注明


 

关注「GitHubStore」公众号


GitHubStore
分享有意思的开源项目
 最新文章