一个用来展示Gemini 2.0原生语音输出能力的项目:Voice Cursor文本编辑器。原生与传统TTS的区别是,原生音频可以在多语言或多语音风格间无缝切换。
VoiceCursor是基于Novel构建的,可以把文本直接转为语音输出,在这里可以直接体验Gemini 2.0 的原生语音能力。
这里提供了8种不同特点的语音,每种声音有15种不同的语气,可以选择体验。在编辑器里输入文字,选中文字,选择语气风格,系统就会读出来。
参考文献:
[1] github:https://github.com/googlecreativelab/gemini-demos/tree/main/voice-cursor
欢迎大家支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。如果微信群二维码过期,可加个人微信(buxingtianxia21)进群。
NLP工程化知识星球
NLP工程化分享群