今日开源(2024-09-04):Mini-Omni首个开源实时语音交互多模态模型,同时具备「听」和「说」的能力

文摘   2024-09-04 17:57   北京  


🏆 基座模型

①项目:Mini-Omni

★Mini-Omni 是一个开源的多模态大语言模型,具备实时端到端的语音输入和流式音频输出对话能力,它可以在对话时"边思考边说",实现文本与音频的同步生成。为了实现这种能力,作者提出了一种文本指导的语音生成方法,以及推理过程中的批量并行策略,以进一步提升性能。Mini-Omni 是第一个完全端到端的开源实时语音交互模型,为未来的研究提供了宝贵的潜力。

☆一键收藏:

https://sota.jiqizhixin.com/project/mini-omni


②项目:OLMoE

★OLMoE-1B-7B 是艾伦人工智能实验室开源的一个拥有 1B 活跃参数和 7B 总参数的MOE模型。该模型在1B参数量级中表现出色,并且在性能上与更大的模型(如 Llama2-13B、 DeepSeekMoE-16B)具有竞争力。OLMoE 完全开源,包括模型权重、代码、数据集等。

☆一键收藏:

https://sota.jiqizhixin.com/project/olmoe


🛠️必备工具

①项目:RAG_Techniques

★RAG技术正在革新信息检索与生成AI的结合方式。本项目展示了一系列先进的RAG技术,旨在提升RAG系统的准确性、效率和上下文丰富性。该项目通过提供全面的教程和实用的实现指南,为研究人员和从业者提供了一个宝贵的资源,推动RAG技术的创新。

☆一键收藏:

https://sota.jiqizhixin.com/project/rag-techniques


②项目:Anthropic Quickstarts

★Anthropic Quickstarts 是官方推出的一系列项目集合,旨在帮助开发者快速开始使用 Anthropic API 构建可部署的应用程序。每个快速入门项目都提供了一个基础,开发者可以轻松地在此基础上进行构建和定制,以满足特定需求。

☆一键收藏:

https://sota.jiqizhixin.com/project/anthropic-quickstarts


③项目:HuixiangDou

★HuixiangDou是一个LLM技术助手系统,由上海人工智能实验室开发。这个系统旨在通过提供对开源算法项目相关问题的深入回答,来协助算法开发者。它特别适用于集成到即时通讯(IM)工具的群聊中,如微信和飞书。该项目还通过文本向量化技术,系统能够判断哪些问题值得回答,从而避免对不相关或非技术性内容的响应。

☆一键收藏:

https://sota.jiqizhixin.com/project/huixiangdou


④项目:ReMind

★ReMind是一个本地AI Agent,旨在捕捉和索引本地操作,例如记录记录屏幕截图、音频等,并对其进行转录和总结以便于回忆,该应用使用先进的AI模型提供详细的日常活动总结,并基于个人操作历史回答问题。

☆一键收藏:

https://sota.jiqizhixin.com/project/remind


👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章