🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
向大家分享一个新东西:LLaMA-Omni,这是一个基于 Llama-3.1-8B-Instruct 构建的低延迟、高质量端到端语音交互模型,旨在实现 GPT-4o 级别的语音能力。
它能够实现与大型语言模型(LLM)的实时语音交互,有望变革从客户服务到医疗等多个行业。
LLaMA-Omni基于Meta的开源Llama 3.1 8B Instruct模型,能处理口头指令,同时生成文本和语音回应。该系统的延迟低至226毫秒,堪比人类对话速度。
LLaMA-Omni的展示,展示了其多语言语音交互界面,并具有可调整参数以实现定制化输出。
LLaMA-Omni为小型公司和研究人员提供了一条潜在的捷径。该模型可以在不到三天的时间内仅使用四块GPU进行训练,而通常需要大量资源才能开发出如此先进的系统。
“目前大多数LLM只支持基于文本的交互,这限制了它们在文本输入和输出并不理想的场景中的应用,”研究人员指出,并强调了各个行业对语音驱动AI的需求日益增长。
🦙🎧 LLaMA-Omni:无缝语音交互的大型语言模型
安装步骤
1. 克隆此仓库。
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni
1. 安装依赖包。
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .
1. 安装
fairseq
。
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation
1. 安装
flash-attention
。
pip install flash-attn --no-build-isolation
快速开始
1. 从 🤗Huggingface[10] 下载
Llama-3.1-8B-Omni
模型。2. 下载
Whisper-large-v3
模型。
import whisper
model = whisper.load_model("large-v3", download_root="models/speech_encoder/")
1. 下载基于单元的 HiFi-GAN 声码器。
wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/g_00500000 -P vocoder/
wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/config.json -P vocoder/
Gradio Demo
1. 启动控制器。
python -m omni_speech.serve.controller --host 0.0.0.0 --port 10000
1. 启动 Gradio 网络服务器。
python -m omni_speech.serve.gradio_web_server --controller http://localhost:10000 --port 8000 --model-list-mode reload --vocoder vocoder/g_00500000 --vocoder-cfg vocoder/config.json
1. 启动模型工作器。
python -m omni_speech.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path Llama-3.1-8B-Omni --model-name Llama-3.1-8B-Omni --s2s
1. 访问 http://localhost:8000/ 与 LLaMA-3.1-8B-Omni 进行互动!
本地推理
若要在本地进行推理,请按照 omni_speech/infer/examples
目录中的格式组织语音指令文件,并参考以下脚本。
bash omni_speech/infer/run.sh omni_speech/infer/examples
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~