🏆 基座模型
①项目:Reverb ASR
★Reverb ASR 是一个开源的自动语音识别系统,训练于20万小时的英语语音数据,数据由人工精确转录。该项目以高效的模型架构实现了世界上最准确的英语ASR系统,支持在CPU或GPU上运行。Reverb ASR 允许用户控制输出转录的逐字性,适用于需要清晰可读转录或音频编辑等场景。
☆一键收藏:
https://sota.jiqizhixin.com/project/reverb-asr
🤖 Agent开发
①项目:Gptme
★Gptme是一个在终端中运行的个人AI助手,配备了本地工具,能够执行代码、使用终端、浏览网页和进行视觉处理。它是 ChatGPT 的“代码解释器”的本地替代方案,不受软件缺乏、网络访问限制、超时或隐私问题的限制,特别适合编程等知识工作。
☆一键收藏:
https://sota.jiqizhixin.com/project/gptme
🛠️必备工具
①项目:voice-chat-pdf
★Voice Chat with PDFs 是一个基于 OpenAI 实时 API 的项目,允许用户通过语音与 PDF 文档进行交互。该项目使用 LlamaIndexTS 扩展了 openai/openai-realtime-console,提供了一种简单的检索增强生成(RAG)系统。用户可以通过语音活动检测或手动按键对话模式与文档进行交谈。
☆一键收藏:
https://sota.jiqizhixin.com/project/voice-chat-pdf
②项目:TPI-LLM
★TPI-LLM 是一个为低资源边缘设备设计的高性能张量并行推理系统,旨在将大语言模型(LLM)功能带到边缘设备。该系统通过在多个边缘设备上进行张量并行推理,并结合滑动窗口内存调度器来最小化内存使用,从而解决了云端 LLM 服务的隐私问题。TPI-LLM 能够在资源有限的设备上高效运行大规模模型,并显著降低推理延迟。
☆一键收藏:
https://sota.jiqizhixin.com/project/tpi-llm
③项目:Voice-Pro
★Voice-Pro 是一个集成解决方案,提供字幕、翻译和语音合成(TTS)功能的工具。用户可以通过该项目为视频添加多语言字幕和音频,支持实时翻译和多种音频格式输出。项目采用 OpenAI Whisper 模型和开源翻译、TTS 工具,提供简单的一键安装和 Gradio Web-UI 界面,适用于多语言视频制作和全球市场扩展。
☆一键收藏:
https://sota.jiqizhixin.com/project/voice-pro
④项目:Podcastfy
★Podcastfy是一个开源的Python包,利用生成式AI将网页内容、PDF和文本转化为引人入胜的多语言音频对话。与主要关注笔记或研究综合的UI工具不同,Podcastfy专注于从多种文本来源生成定制化和可扩展的对话式转录和音频。
☆一键收藏:
https://sota.jiqizhixin.com/project/podcastfy
👋网页端访问:https://sota.jiqizhixin.com