震撼揭秘:仅需15秒,打造你的声音分身!

乐活   科技   2024-03-30 11:25   江苏  
对于声音的研究要比文字的更谨慎,因为声音这种技术一旦被滥用,很容易造成不可控的风险。
这是它的效果之一:可以将参考的音频转换成各种语言版本。
OpenAI的这个Voice Engine的声音克隆技术,其实放眼全世界范围内,也不算新东西了。
比如最简单的,剪映就上线了五秒钟克隆自己声音的功能,你只需要上传五秒自己的声音,就可以克隆一个自己。

这要比OpenAI15秒还要简单易用。
不过这类型功能的应用倒是挺多的,比如说GPT4在移动端版本的语音功能,就是用到了这个功能,方便懒得打字和无法打字的人也能很舒服的用GPT    

它的几个不同音色也间接的反应了不同音色声音的训练或者使用方式。
OpenAI的博客中,还提到了几个使用方法。
  1. 为了帮助不同背景的读者和儿童,教育技术公司Age of Learning采用了富有情感且自然流畅的声音技术,生成了广泛的预编配音内容。他们结合了Voice EngineGPT-4,实时创造个性化反应,与学生互动,扩大了他们的受众范围。

  2. 翻译服务也通过这些技术得到提升。HeyGen,一个AI视觉叙事平台,利用Voice Engine为全球观众创造多语言视频内容,保持演讲者的原始口音。这让创作者和企业可以以更自然的方式触及更广泛的受众。

  3. Dimagi为偏远地区的社区卫生工作者开发工具,使用Voice EngineGPT-4提供各种语言的互动反馈,改进基本服务的交付。

  4. Livox通过其AI替代通讯应用,为不能言语的人提供了多语言的、个性化的声音选择,使他们能够以独特且非机械的方式交流。

  5. 最后,LifespanNorman Prince Neurosciences Institute利用Voice Engine帮助言语障碍患者恢复声音。借助短暂的音频样本,医生们成功恢复了一位年轻患者的声音,她因脑部疾病失去了说话能力。


最后一个挺有意义的,言语障碍患者可以用OpenAI的这个Voice Engine来恢复自己的声音,方法非常的简单,只需要提供一个参考的声音。    
你可以听到患者的声音其实非常的模糊不清,但是经过这个engine一润色,立马变得跟常人无异。
但说回来,音频生成、克隆更棘手的点,其实是法律法规以及滥用的风险。
比如各种声纹识别验证的机制,就不太可行的,因为声音的比较容易被模仿的。
Phasing out voice based authentication as a security measure for accessing bank accounts and other sensitive information.
OpenAI也强调了这一点。
- 逐步淘汰以声音为基础的认证作为获取银行账户和其他敏感信息的安全措施。
还有另外两个:
Educating the public in understanding the capabilities and limitations of AI technologies, including the possibility of deceptive AI content.
- 教育公众理解AI技术的能力和局限性,包括欺骗性AI内容的可能性。
Accelerating the development and adoption of techniques for tracking the origin of audiovisual content, so it's always clear when you're interacting with a real person or with an AI.
- 加快追踪音视频内容来源的技术发展和采用,以便始终清楚你是在与真人还是AI互动。
说白了,新的技术最先被应用的场景一定是诈骗以及各种灰产。
         

 

   

平凡的平凡
偶然所做。
 最新文章