文|UT NEWS
德克萨斯大学奥斯汀分校的研究人员利用生成式人工智能技术成功地将街道录音转换成了街景图像。这些生成的图像的视觉准确性表明,机器可以复制人类对环境的听觉和视觉感知之间的联系。
这项研究发表在《计算机、环境与城市系统》(Computers, Environment and Urban Systems )期刊上,研究团队描述了如何使用从各种城市和乡村街景收集的音频和视觉数据来训练声景到图像的扩散模型( Soundscape-to-Image Diffusion Model ),然后使用该模型从音频录音生成图像。
"我们的研究发现,声学环境包含足够的视觉线索,可以生成高度可识别的街景图像,准确地描绘不同的地方,"德克萨斯大学地理与环境系助理教授 Yuhao Kang 说,他是该研究的联合作者。"这意味着我们可以将声学环境转换为生动的视觉表现,有效地将声音转化为景象。"
研究方法
研究团队使用来自北美、亚洲和欧洲一些城市的 YouTube 视频和音频,创建了来自不同地点的 10 秒音频片段和图像静帧对,用于训练可以从音频输入生成高分辨率图像的人工智能模型。随后,他们将 100 个音频片段生成的 AI 声音-图像作品与各自的真实照片比较,同时使用人工和计算机评估。计算机评估比较源图像和生成图像之间在绿化、建筑和天空三个方面的相关比例,而人工评判则被要求在三张生成的图像中挑出一张,与音频样本做匹配。
研究结果
研究结果显示:
AI 根据声音生成的图像和真实场景中的天空和绿化比例上存在强相关性,建筑比例的相关性略低。
人工参与者根据源音频样本选出对应生成图像,平均准确率达到 80%。
"通常意义上,根据声音想象场景是人类独有的能力,反映了我们与环境之间深层的感官联系。我们使用大型语言模型(LLMs)支持的先进人工智能技术,证明了 AI 有潜力接近这种人类感知体验," Yuhao Kang 教授说。"这表明人工智能的能力,不仅限于单纯的识别物理环境,对丰富人在不同地点的主观感受也很有潜力。"
其他发现
"当你闭上眼睛聆听时,周围的声音在你的脑海中描绘出画面," Yuhao Kang 教授说。"例如,远处的交通嗡鸣变成了一幅繁忙的城市景观,而树叶的轻柔沙沙声则将你带入一片宁静的森林。每一种声音都在你想象的剧场中编织出生动的场景画卷,如魔法一般。"
未来研究方向
该研究展示了 AI 技术的创新潜力,为智慧城市建设、无障碍技术等领域带来了新的可能。Yuhao Kang 教授的团队正在进一步探索 AI 技术在城市特征识别方面的应用,相关研究已发表在国际期刊 Nature 上。
🔗 论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0198971524000516