今日开源(2024-10-09):语音识别系统Reverb ASR,20万小时语音数据训练,逐字转录高效准确

文摘   2024-10-09 18:07   北京  


🏆 基座模型

①项目:Reverb ASR

Reverb ASR 是一个开源的自动语音识别系统,训练于20万小时的英语语音数据,数据由人工精确转录。该项目以高效的模型架构实现了世界上最准确的英语ASR系统,支持在CPU或GPU上运行。Reverb ASR 允许用户控制输出转录的逐字性,适用于需要清晰可读转录或音频编辑等场景。

☆一键收藏:

https://sota.jiqizhixin.com/project/reverb-asr


🤖 Agent开发

①项目:Gptme

★Gptme是一个在终端中运行的个人AI助手,配备了本地工具,能够执行代码、使用终端、浏览网页和进行视觉处理。它是 ChatGPT 的“代码解释器”的本地替代方案,不受软件缺乏、网络访问限制、超时或隐私问题的限制,特别适合编程等知识工作。

☆一键收藏:

https://sota.jiqizhixin.com/project/gptme


🛠️必备工具

①项目:voice-chat-pdf

Voice Chat with PDFs 是一个基于 OpenAI 实时 API 的项目,允许用户通过语音与 PDF 文档进行交互。该项目使用 LlamaIndexTS 扩展了 openai/openai-realtime-console,提供了一种简单的检索增强生成(RAG)系统。用户可以通过语音活动检测或手动按键对话模式与文档进行交谈。

☆一键收藏:

https://sota.jiqizhixin.com/project/voice-chat-pdf


②项目:TPI-LLM

TPI-LLM 是一个为低资源边缘设备设计的高性能张量并行推理系统,旨在将大语言模型(LLM)功能带到边缘设备。该系统通过在多个边缘设备上进行张量并行推理,并结合滑动窗口内存调度器来最小化内存使用,从而解决了云端 LLM 服务的隐私问题。TPI-LLM 能够在资源有限的设备上高效运行大规模模型,并显著降低推理延迟。

☆一键收藏:

https://sota.jiqizhixin.com/project/tpi-llm


③项目:Voice-Pro

Voice-Pro 是一个集成解决方案,提供字幕、翻译和语音合成(TTS)功能的工具。用户可以通过该项目为视频添加多语言字幕和音频,支持实时翻译和多种音频格式输出。项目采用 OpenAI Whisper 模型和开源翻译、TTS 工具,提供简单的一键安装和 Gradio Web-UI 界面,适用于多语言视频制作和全球市场扩展。

☆一键收藏:

https://sota.jiqizhixin.com/project/voice-pro


④项目:Podcastfy

Podcastfy是一个开源的Python包,利用生成式AI将网页内容、PDF和文本转化为引人入胜的多语言音频对话。与主要关注笔记或研究综合的UI工具不同,Podcastfy专注于从多种文本来源生成定制化和可扩展的对话式转录和音频。

☆一键收藏:

https://sota.jiqizhixin.com/project/podcastfy

👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章