今日开源(2024-10-16):语音识别工具包FunASR,多场景应用,新增支持Whisper-large-v3-turbo

文摘   2024-10-16 18:45   中国台湾  


🛠️必备工具

①项目:FunASR

FunASR是一个基础的语音识别工具包,提供了多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离以及多说话人ASR。FunASR通过支持工业级语音识别模型的训练和微调,帮助研究人员和开发者更方便地进行语音识别模型的研究和生产,促进语音识别生态的发展。

☆一键收藏:

https://sota.jiqizhixin.com/project/funasr


②项目:LoLCATs

LoLCATs是一种新方法,用于将现有的Transformer模型(如Llamas和Mistrals)转换为具有先进性能的次二次大语言模型(LLMs)。该方法通过注意力转移和低秩线性化来实现,将softmax注意力替换为线性注意力,并通过低秩适应来调整近似误差,从而在保持质量的同时提高训练效率。

☆一键收藏:

https://sota.jiqizhixin.com/project/lolcats


③项目:VideoGen-Eval

VideoGen-Eval项目旨在观察和比较最新视频生成模型的质量,特别是SORA类模型。该项目研究了文本到视频(T2V)、图像到视频(I2V)和视频到视频(V2V)生成的高质量视频生成技术。这些模型在生成高分辨率、自然运动、良好视觉语言对齐和增强可控性方面取得了显著进展。项目通过展示和比较来自十个闭源和多个开源模型的8000多个生成视频案例,深入分析了视频生成的最新进展。

☆一键收藏:

https://sota.jiqizhixin.com/project/videogen-eval


🤖 Agent开发

①项目:Agent-as-a-Judge

Agent-as-a-Judge项目旨在通过引入自动化评估框架来解决传统评估方法在高级agent系统中的不足。该项目提供了一种在任务执行期间或之后进行评估的方法,大幅节省时间和成本,并提供连续的反馈信号以促进代理系统的进一步训练和改进。

☆一键收藏:

https://sota.jiqizhixin.com/project/agent-as-a-judge


②项目:AgentStack

AgentStack 是一个用于快速构建强大 AI 代理的工具。它支持 macOS、Windows 和 Linux 系统,旨在简化从头开始创建代理项目的过程。用户无需配置复杂的工具和框架AgentStack 提供了一个简单的模板,帮助开发者专注于代码编写。

☆一键收藏:

https://sota.jiqizhixin.com/project/agentstack


③项目:CleanS2S

CleanS2S是一个高质量的流式语音到语音(S2S)交互智能体,采用单文件实现。该项目旨在提供类似GPT-4o风格的中文交互原型,让用户直接体验语言用户界面的强大功能,并为研究人员快速探索和验证S2S管道的潜力。

☆一键收藏:

https://sota.jiqizhixin.com/project/cleans2s


④项目:MMGen

MG2是一个音乐生成模型,采用旋律引导的创新方法,尽管方法简单且资源有限,但表现出色。用户可以使用该模型为TikTok、YouTube Shorts和Meta Reels等平台上的短视频生成个性化背景音乐。此外,用户可以使用自己的私人音乐数据集以低成本微调模型。

☆一键收藏:

https://sota.jiqizhixin.com/project/mmgen



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章