研究:利用 AI 将录音转化为准确的街道图像|Bolt荐阅

企业   2024-12-25 18:01   上海  

文|UT NEWS

德克萨斯大学奥斯汀分校的研究人员利用生成式人工智能技术成功地将街道录音转换成了街景图像。这些生成的图像的视觉准确性表明,机器可以复制人类对环境的听觉和视觉感知之间的联系。

这项研究发表在《计算机、环境与城市系统》(Computers, Environment and Urban Systems )期刊上,研究团队描述了如何使用从各种城市和乡村街景收集的音频和视觉数据来训练声景到图像的扩散模型( Soundscape-to-Image Diffusion Model ),然后使用该模型从音频录音生成图像。

"我们的研究发现,声学环境包含足够的视觉线索,可以生成高度可识别的街景图像,准确地描绘不同的地方,"德克萨斯大学地理与环境系助理教授 Yuhao Kang 说,他是该研究的联合作者。"这意味着我们可以将声学环境转换为生动的视觉表现,有效地将声音转化为景象。"

图|AI 生成的图像与实际场景对比


研究方法

研究团队使用来自北美、亚洲和欧洲一些城市的 YouTube 视频和音频,创建了来自不同地点的 10 秒音频片段和图像静帧对,用于训练可以从音频输入生成高分辨率图像的人工智能模型。随后,他们将 100 个音频片段生成的 AI 声音-图像作品与各自的真实照片比较,同时使用人工和计算机评估。计算机评估比较源图像和生成图像之间在绿化、建筑和天空三个方面的相关比例,而人工评判则被要求在三张生成的图像中挑出一张,与音频样本做匹配。


研究结果

研究结果显示:

  • AI 根据声音生成的图像和真实场景中的天空和绿化比例上存在强相关性,建筑比例的相关性略低。

  • 人工参与者根据源音频样本选出对应生成图像,平均准确率达到 80%。

"通常意义上,根据声音想象场景是人类独有的能力,反映了我们与环境之间深层的感官联系。我们使用大型语言模型(LLMs)支持的先进人工智能技术,证明了 AI 有潜力接近这种人类感知体验," Yuhao Kang 教授说。"这表明人工智能的能力,不仅限于单纯的识别物理环境,对丰富人在不同地点的主观感受也很有潜力。"

图|AI 生成的图像与实际场景相关性对比


其他发现

除了与真实图片的天空、绿化和建筑的比例接近,生成的图像通常还保持了真实图像中对应的建筑风格和物体之间的距离,并准确反映了声景是在阳光明媚、多云还是夜间照明条件下录制的。作者指出,照明信息可能来自声景活动的变化。例如,交通声音或夜行昆虫的鸣叫可以揭示一天中的时间。这些观察,让我们对多感官因素 v.s. 人类对一个地方的感受和体验之间关系的理解又向前迈进了一步。

"当你闭上眼睛聆听时,周围的声音在你的脑海中描绘出画面,"  Yuhao Kang 教授说。"例如,远处的交通嗡鸣变成了一幅繁忙的城市景观,而树叶的轻柔沙沙声则将你带入一片宁静的森林。每一种声音都在你想象的剧场中编织出生动的场景画卷,如魔法一般。"


未来研究方向

该研究展示了 AI 技术的创新潜力,为智慧城市建设、无障碍技术等领域带来了新的可能。Yuhao Kang 教授的团队正在进一步探索 AI 技术在城市特征识别方面的应用,相关研究已发表在国际期刊 Nature 上。


🔗 论文链接:

https://www.sciencedirect.com/science/article/abs/pii/S0198971524000516


📮 更多阅读

Linear Bolt 
Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学,专注在技术驱动带来变革的项目,希望帮助创始人找到实现目标的最短路径,不管是行动速度,还是投资方式,Bolt 的承诺是更轻,更快,更灵活。Bolt 已经在 2024 年上半年投资了 Final Round、心光、Cathoven、Xbuddy、Midreal 等 7 个 AI 应用项目。

线性资本
我们聚焦数据智能及其他前沿科技应用领域,相信Frontier Tech, Frontier Productivity, Frontier Life。
 最新文章