云栖发布：从级联到端到端语音翻译大模型Gummy

文摘科学 2024-09-19 19:11 浙江

在2024年云栖大会上，通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy，可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩语、法语、德语、俄罗斯语、意大利语、西班牙语等多达十余种语言的语音输入，并将其实时翻译成目标语言。

相较于传统的“ASR+翻译”模型的级联系统，Gummy创新性地使用了端到端语音翻译大模型系统，使其可以在无源语言文本信息中间态的情况下，将语音直接翻译为目标端语种。通过这一技术，Gummy将翻译延迟降低到0.5s以内，大幅小于人类专家的同传延时。而在识别与翻译质量上，其在CommonVoice、CoVost2等多个业界公认开源测试集上，取得了SOTA结果；并在内部工业测试集上，翻译质量显著优于同规模级联翻译系统。

（语音识别效果对比）

（语音翻译质量效果对比）

（语音翻译效果demo录屏）

‍▎高质量低延迟同传，支持无限长度翻译

传统级联系统往往需要延后一句话，等待识别结果出现后才能进行翻译。Gummy端到端语音翻译大模型无需等待，可以真正做到“随说随翻”。

同时，针对流式语音翻译中原文与译文之间需要调序（如状语后置、日语中否定词后置）这个痛点问题，Gummy创新性地将wait & predict机制建模在模型之中，使其自动判断什么时候需要进行翻译、什么时候需要等待更多语音内容来续翻。这一机制，在保证高质量翻译内容的同时，尽可能缩短了模型翻译延迟，做到了高质量与低延迟之间的平衡。

‍▎添加提示词，打造个性化语音翻译助手

作为一款工业级可落地的模型，Gummy还支持多语言混翻、术语干预与领域提示这些商业化落地所必需的能力。多语言混翻能力使Gummy可以在跨国会议场景，无需指定源语种，流畅地将各国语言翻译至目标语种。而术语干预与领域提示能力，让模型能够在遇到新词、领域专业词的情况下，也能正确识别与翻译，定制属于你的个人专属翻译agent。

‍▎解锁更多场景，跨越语言鸿沟

（阿里云CTO周靖人 · 2024云栖大会）

实时语音翻译不仅让准确、流畅、快捷的对话体验成为可能，还为各种复杂环境下的沟通提供了解决方案。无论是日常旅行中的语言障碍，还是跨国会议中的多语言交流需求，实时语音翻译都颇具应用潜力。此外，在教育、医疗、国际贸易等多个领域，这项技术也正在发挥着越来越重要的作用，帮助用户跨越语言鸿沟，实现无缝沟通。

目前语音翻译大模型Gummy部分功能已上线通义APP，欢迎同仁们下载体验！

‍‍

阿里语音AI

阿里巴巴通义实验室语音团队，基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术，实现“能听、会说、懂你”式的智能人机交互体验。