首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
DeepMind推出新型AI,为视频生成音轨和对话
财富
2024-06-18 13:57
北京
//
DeepMind,是谷歌的人工智能研究实验室,宣布他们正在开发一种为视频生成音轨的AI技术。
在其官方博客的帖子中,DeepMind表示,他们将这项技术称为V2A(“视频到音频”的缩写),并视其为AI生成媒体拼图中的重要一环。
虽然包括DeepMind在内的许多机构都开发了视频生成 AI 模型,但这些模型无法生成与视频同步的音效。
“视频生成模型正以惊人的速度发展,但许多现有系统只能生成无声输出,”DeepMind写道。“V2A技术[可能] 成为将生成电影带入现实的有希望的方法。”
DeepMind的V2A技术通过视频搭配音轨描述(例如“水母在水下脉动,海洋生物,海洋”),创建与视频角色和基调相匹配的音乐、音效甚至对话,并由 DeepMind的
防深度伪造技术SynthID添加水印。DeepMind表示,支持 V2A的AI模型是一个扩散模型,通过结合声音、对话记录以及视频片段进行训练。
“通过训练视频、音频和附加注释,我们的技术学会将特定的
音频事件与各种视觉场景联系起来,同时响应注释或记录中提供的信息,”DeepMind说道。
关于训练数据是否受版权保护,以及数据创建者是否被告知DeepMind的工作,目前尚无确切消息。我们已联系Dee
pMind以获取进一步澄清,如果有回复将更新此帖子。
AI驱动的声音生成工具并非新鲜事物。初创公司Stability AI上周刚刚发布了一个此类工具,ElevenLabs也在今年五月推出了一个类似工具。生成视频音效的模型也并不罕见。微软(Microsoft)的一个项目可以从静态图像生成说话和唱歌的视频,Pika和GenreX等平台已经训练模型,可以根据视频内容预测适当的音乐或音效。
但是DeepMind声称其V2A技术具有独特之处,它能够理解视频的原始像素,并自动将生成的声音与视频同步,即使没有描述也是如此。
尽管如此,V2A并不完美,DeepMind也承认这一点。由于基础模型没有在大量带有伪影或失真的视频上进行训练,因此它无法为这些视频生成特别高质量的音频。
总体而言,生成的音频并不十分令人信服;我的同事娜塔莎·洛马斯(Natasha Lomas)形容它为“一堆刻板印象的声音”,对此我也表示赞同。
基于这些原因以及防止滥用,DeepMind表示,他们不会在近期,甚至可能永远都不会向公众发布这项技术。
DeepMind写道:“为了确保我们的V2A技术能够对创意社区产生积极影响,我们正在收集来自领先创作者和电影制片人的多样化观点和见解,并利用这些宝贵的反馈来指导我们的持续研究和开发。在考虑向更广泛的公众开放访问之前,我们的V2A技术将接受严格的安全评估和测试。”
DeepMind将其V2A技术宣传为对档案工作者和处理历史影像的人尤其有用的工具。但沿着这些路线发展的生成式AI也可能颠覆电影和电视行业。这需要一些非常强有力的劳动保护措施,以确保生成式媒体工具不会消除工作岗位,甚至整个职业。(TechCrunch)
AI新智能
一个致力于探索人工智能对商业世界和社会影响的平台。
最新文章
OpenAI正式推出Sora Turbo
OpenAI推出全新O1模型,支持图片上传与分析,同时发布ChatGPT专业版
AWS将多代理编排功能引入Bedrock
人工智能代理入门(下):自主性、保障措施和陷阱
人工智能代理入门(上):捕获流程、角色和连接
马斯克与OpenAI分手的复杂内幕
人工智能开启Web4.0时代:互联网将具备自主预测、计划和行动能力
AI如何重塑我们的思维方式?
多智能体将缩短大型语言模型与通用人工智能之间的差距
谷歌将推出接管电脑的人工智能技术
这家公司洞悉了AI商业化的秘密,CEO揭示其秘诀
被马斯克开除的前Twitter CEO,官宣了自己的人工智能创业项目
《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码
首个被人工智能重塑的城市
被撕裂的OpenAI
雷朋AI眼镜是目前已知的最佳人工智能硬件
为何开发者们纷纷弃用谷歌Gemini
GPT5暂时没戏了
苹果的AI手机没有任何亮点,难怪巴菲特提前把股票卖了
硅谷风投推荐的2024人工智能创业公司(内含商业模式)
一家AI诊所在伦敦开业了
代币价格大崩溃,人工智能将出现巨大赢家和输家
世界呼叫中心之都陷入AI狂热与恐惧之中
文远知行在最后关头推迟美股IPO
美国无人出租车现在每周提供10万次服务
GPU经济学:如何在“不破产”的情况下训练AI模型
苹果计划推出AI桌面机器人
人工智能的训练数据正在枯竭,合成数据引发巨大争议
马斯克曾考虑收购Character.AI
黑芝麻科技IPO首日暴跌35%
星野海外版—Talkie火爆美国,年轻人可以与川普、马斯克聊天
OpenAI 需马上融资,今年预计巨亏50亿美元
2024年吸引到顶级风投的28家人工智能公司名单
苹果公司将以观察员身份加入OpenAI董事会
Gemini的数据分析能力不像谷歌所宣称的那么好
AI“搬砖王”的崛起
大模型集体“用户焦虑”,豆包能否不靠字节赢一次?
这家眼镜公司成了AI巨头追捧的对象
Anthropic 的 Claude 3.5 表明:大模型还有提升空间
DeepMind推出新型AI,为视频生成音轨和对话
人工智能的负效应:没有大语言模型的语种未来会消亡
MiniMax在海外的AI陪聊产品,爆了!
30万个AI助理,正排队等待召唤
奥特曼围绕OpenAI打造出一个致富帝国
投资人依然愿意为AI搜索引擎付费
当ChatGPT的广东话“讲唔正”:AI 年代,低资源语言是否注定被边缘化?
来看看微软是如何将Windows打造成AI操作系统的
大模型“价格战”开打,给刚入商业化“佳境”的智谱AI提出了新挑战
奥特曼刚对首席科学家伊利亚的离职表示感谢,马上又有一位OpenAI高管辞职了
谷歌I/O 2024刚刚宣布的所有产品
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉