LLaMA-Omni :Llama-3.1构建的低延迟、高质量端到端语音交互模型,旨在实现 GPT-4o 级别的语音能力

科技   2024-09-13 19:49   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

向大家分享一个新东西:LLaMA-Omni,这是一个基于 Llama-3.1-8B-Instruct 构建的低延迟、高质量端到端语音交互模型,旨在实现 GPT-4o 级别的语音能力。

它能够实现与大型语言模型(LLM)的实时语音交互,有望变革从客户服务到医疗等多个行业。

LLaMA-Omni基于Meta的开源Llama 3.1 8B Instruct模型,能处理口头指令,同时生成文本和语音回应。该系统的延迟低至226毫秒,堪比人类对话速度。

LLaMA-Omni的展示,展示了其多语言语音交互界面,并具有可调整参数以实现定制化输出。  

LLaMA-Omni为小型公司和研究人员提供了一条潜在的捷径。该模型可以在不到三天的时间内仅使用四块GPU进行训练,而通常需要大量资源才能开发出如此先进的系统。

“目前大多数LLM只支持基于文本的交互,这限制了它们在文本输入和输出并不理想的场景中的应用,”研究人员指出,并强调了各个行业对语音驱动AI的需求日益增长。

🦙🎧 LLaMA-Omni:无缝语音交互的大型语言模型

安装步骤

  1. 1. 克隆此仓库。

git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni
  1. 1. 安装依赖包。

conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .
  1. 1. 安装 fairseq

git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation
  1. 1. 安装 flash-attention

pip install flash-attn --no-build-isolation

快速开始

  1. 1. 从 🤗Huggingface[10] 下载 Llama-3.1-8B-Omni 模型。

  2. 2. 下载 Whisper-large-v3 模型。

import whisper
model = whisper.load_model("large-v3", download_root="models/speech_encoder/")
  1. 1. 下载基于单元的 HiFi-GAN 声码器。

wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/g_00500000 -P vocoder/
wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/config.json -P vocoder/

Gradio Demo

  1. 1. 启动控制器。

python -m omni_speech.serve.controller --host 0.0.0.0 --port 10000
  1. 1. 启动 Gradio 网络服务器。

python -m omni_speech.serve.gradio_web_server --controller http://localhost:10000 --port 8000 --model-list-mode reload --vocoder vocoder/g_00500000 --vocoder-cfg vocoder/config.json
  1. 1. 启动模型工作器。

python -m omni_speech.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path Llama-3.1-8B-Omni --model-name Llama-3.1-8B-Omni --s2s
  1. 1. 访问 http://localhost:8000/ 与 LLaMA-3.1-8B-Omni 进行互动!

本地推理

若要在本地进行推理,请按照 omni_speech/infer/examples 目录中的格式组织语音指令文件,并参考以下脚本。

bash omni_speech/infer/run.sh omni_speech/infer/examples

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] github:https://github.com/ictnlp/LLaMA-Omni

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章