AI在语音识别模型方面最新的几种开源案例

职场 2024-10-28 15:54 北京

图片来源于网络

整理了最新接触的几个关于语音识别的方案。

Moonshine:
https://github.com/usefulsensors/moonshine

在10秒音频剪辑上，速度比Whisper快5倍，同时能保持与Whisper相同的准确性

支持可变长度的输入，它可以根据实际语音内容动态调整处理的数据量，不是像Whisper那样固定处理30秒的音频块

Moonshine的设计考虑了低延迟和高效率，非常适合在资源受限的设备上进行实时语音识别任务。

2. MaskGCT

它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀

1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪

2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆

github：

https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct…

项目：https://maskgct.github.io

3. 基于 AI 的语音输入工具 Whispo

https://github.com/egoist/whispo

按Ctrl键就可以开始录音，松开即可将语音转文字转录内容可以自动插入到任何支持文本输入的应用中，数据存于本地

4. VAD (Voice Activity Detection) from ricky0123/vad-react

关于作者

做一只爬的最久的乌龟，保持学习保持好奇，即使慢一点，遇到一点困难，只要最后能到达终点，又有什么关系呢。

毕竟人生没有白走的路，每一步都算数。

http://mp.weixin.qq.com/s?__biz=MjM5MTM1OTk4NQ==&mid=2650332206&idx=2&sn=2f53cc628ad120be57a639b5b7aeeb47

前端程序设计

专注前端最前沿技术，数据可视化，web3d。偶尔插播生活和艺术。

最新文章

周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice

给3D数字人互动项目装上精美的聊天组件，开始实现多模态聊天

ten-agent: 又一款王炸级的开源端到端语音模型

将3D人物从Character Creator 导出到 Blender的终极自动设置指南

又给3D 数字人互动项目找了一个炫酷的动态场景

2025 年顶级网页设计趋势

3D数字人互动与数字孪生的完美结合

终于用pocketbase 完成了3D数字人工坊的制作

Ultravox v0.4.1：逼近GPT-4o的一款开源多模态实时语音模型

Windsurf Editor: 又一款可以取代cursor的AI代码编辑器，全免费使用Claude 3.5

创业项目13： TANGO的落地，上传克隆声音和动作视频生成视频数字人的漂亮界面

Threejs: 利用实例着色器实现炫酷的烟花效果

开源：在人物和背景之间添加文字，快速生成设计效果text-behind-image

R3F 制作的3D数字人流体粒子化组件FlowFieldParticles

分享几个最近看到的Threejs炫酷效果，附源码地址

又一款开源的实时语音交互的视频数字人，效果非常不错，附测试地址

零触摸、自然语音对话的无感交互应用方案

给自己的3D数字人配一个炫酷的启动界面，文后附一个好玩的彩蛋游戏

腾讯混元，再次开源！

MiniMates: 可以在普通电脑上实时运行的开源视频数字人，支持实时语音对话

Hertz-dev：首个开源的超低延迟的实时交互语音对话模型

让3D数字人像真人一样流畅对话、及时响应，实现超低延迟实时对话

Threejs: 给我们的3D数字人造一个炫酷的歌曲点播舞台

Wonder Studio 以突破性技术从视频中提取3D 数字人脸部、身体动画

AiOS：从视频中提取数字人动作导入Blender中处理的开源模型

使用 Three.js BatchedMesh 和 WebGPURenderer 进行交互式 3D场景

用VitePress整合一个AI工具集合站点

Ultralight Digital Human：第一款完全开源的实时视频数字人

端到端语音对话&多模态模型开发应用的几种开源方案

AI在语音识别模型方面最新的几种开源案例

LongVU: Meta AI开源的对长视频理解的多模态模型

NotebookLlama: Meta开源的PDF转有声博客

使用 MediaPipe 和 Three.js 的网络摄像头创建 3D 场景中的手势控制器

Anthropic让AI像人一样用电脑，支持API调用

开源的文生视频Genmo升级后效果炸裂

制作3D数字人脸部52个ARKit形态键的标准动画教程

用AI给微信公众号制作做SVG动画

easegen: 开源AI+数字人课程制作项目，非常牛了

TANGO ：开源的Heygen？支持面部、唇形同步和肢体运动视频

VirtualWife：支持B站直播的开源3D数字人互动项目

创业项目12: AI+3D 在电商行业的自动化解决方案

借助cursor完成平遥古城元宇宙项目中的小地图功能

整理一下跟3D数字人语音互动的几种交互方式

Threejs制作的在线2D/3D动画、视频编辑器，号称视频界的photoshop

基于WebGL的3D数字人互动项目融入全息投影的炫酷场景中

使用 Next.js 和 Three.js 创建3D网站作品集项目教程

我用Bolt直接修改开源的元宇宙场景代码

炫酷的Blender动画效果+一组3D美女模型

开源：创建带有中文气泡的连环画

UniMuMo：通过文本或音乐生成3D数字人的动作

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉