研究：利用 AI 将录音转化为准确的街道图像｜Bolt荐阅

企业 2024-12-25 18:01 上海

文｜UT NEWS

德克萨斯大学奥斯汀分校的研究人员利用生成式人工智能技术成功地将街道录音转换成了街景图像。这些生成的图像的视觉准确性表明，机器可以复制人类对环境的听觉和视觉感知之间的联系。

这项研究发表在《计算机、环境与城市系统》（Computers, Environment and Urban Systems ）期刊上，研究团队描述了如何使用从各种城市和乡村街景收集的音频和视觉数据来训练声景到图像的扩散模型（ Soundscape-to-Image Diffusion Model ），然后使用该模型从音频录音生成图像。

"我们的研究发现，声学环境包含足够的视觉线索，可以生成高度可识别的街景图像，准确地描绘不同的地方，"德克萨斯大学地理与环境系助理教授 Yuhao Kang 说，他是该研究的联合作者。"这意味着我们可以将声学环境转换为生动的视觉表现，有效地将声音转化为景象。"

图｜AI 生成的图像与实际场景对比

研究方法

研究团队使用来自北美、亚洲和欧洲一些城市的 YouTube 视频和音频，创建了来自不同地点的 10 秒音频片段和图像静帧对，用于训练可以从音频输入生成高分辨率图像的人工智能模型。随后，他们将 100 个音频片段生成的 AI 声音-图像作品与各自的真实照片比较，同时使用人工和计算机评估。计算机评估比较源图像和生成图像之间在绿化、建筑和天空三个方面的相关比例，而人工评判则被要求在三张生成的图像中挑出一张，与音频样本做匹配。

研究结果

研究结果显示：

AI 根据声音生成的图像和真实场景中的天空和绿化比例上存在强相关性，建筑比例的相关性略低。
人工参与者根据源音频样本选出对应生成图像，平均准确率达到 80%。

"通常意义上，根据声音想象场景是人类独有的能力，反映了我们与环境之间深层的感官联系。我们使用大型语言模型（LLMs）支持的先进人工智能技术，证明了 AI 有潜力接近这种人类感知体验，" Yuhao Kang 教授说。"这表明人工智能的能力，不仅限于单纯的识别物理环境，对丰富人在不同地点的主观感受也很有潜力。"

图｜AI 生成的图像与实际场景相关性对比

其他发现

除了与真实图片的天空、绿化和建筑的比例接近，生成的图像通常还保持了真实图像中对应的建筑风格和物体之间的距离，并准确反映了声景是在阳光明媚、多云还是夜间照明条件下录制的。作者指出，照明信息可能来自声景活动的变化。例如，交通声音或夜行昆虫的鸣叫可以揭示一天中的时间。这些观察，让我们对多感官因素 v.s. 人类对一个地方的感受和体验之间关系的理解又向前迈进了一步。

"当你闭上眼睛聆听时，周围的声音在你的脑海中描绘出画面，" Yuhao Kang 教授说。"例如，远处的交通嗡鸣变成了一幅繁忙的城市景观，而树叶的轻柔沙沙声则将你带入一片宁静的森林。每一种声音都在你想象的剧场中编织出生动的场景画卷，如魔法一般。"

未来研究方向

该研究展示了 AI 技术的创新潜力，为智慧城市建设、无障碍技术等领域带来了新的可能。Yuhao Kang 教授的团队正在进一步探索 AI 技术在城市特征识别方面的应用，相关研究已发表在国际期刊 Nature 上。

🔗 论文链接：

https://www.sciencedirect.com/science/article/abs/pii/S0198971524000516

📮 更多阅读

Linear Bolt

Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学，专注在技术驱动带来变革的项目，希望帮助创始人找到实现目标的最短路径，不管是行动速度，还是投资方式，Bolt 的承诺是更轻，更快，更灵活。Bolt 已经在 2024 年上半年投资了 Final Round、心光、Cathoven、Xbuddy、Midreal 等 7 个 AI 应用项目。

线性资本

我们聚焦数据智能及其他前沿科技应用领域，相信Frontier Tech, Frontier Productivity, Frontier Life。

Taking Gems From Fire——线性资本 2024 年终回顾

YC合伙人分享：从一家快垮掉的初创企业，到做出增长迅速的Google Photos｜Bolt荐阅

研究：利用 AI 将录音转化为准确的街道图像｜Bolt荐阅

Duolingo最核心的增长功能“连胜机制”是怎么开发和迭代的？｜Bolt荐阅

合成生物企业「NewPro」完成数百万美元种子轮融资，线性资本独家投资

AI 时代的 SEO 必读｜Bolt荐阅

Lempire创始人访谈：如何将产品ARR增长到3000万美元｜Bolt荐阅

2025年，大模型的三个关键词

面对海量 AI 生成的内容，如何做 SEO｜Bolt荐阅

科技公司全球“大航海”的冷思考｜线性资本xLinkloud活动长文回顾

写代码可以被AI代劳了，软件工程师应该做什么？｜Bolt荐阅

什么是AI幻觉，为什么大语言模型会胡编乱造（及如何解决）｜Bolt荐阅

为什么说初创公司让创始人主导销售最有效？｜Bolt荐阅

谷歌都未能攻克的企业内搜索为何这么难做？｜Bolt荐阅

招聘｜线性资本招聘具身智能&机器人方向投资总监及资深总监

活动回顾｜Airwallex 空中云汇联合线性资本成功举办出海企业分享会

作为独立开发者，我如何持续获得动力？｜Bolt荐阅

Suno V4 更新了啥，以及 AI 音乐的未来｜Bolt观点

对话Final Round创始人Michael：AI如何颠覆传统招聘行业｜AI应用100问

Perplexity增长负责人谈最大AI搜索的增长尝试｜Bolt 荐阅

Sam Altman谈OpenAI：艰难但正确的道路｜Bolt荐阅

比尔·盖茨访谈播客：人工智能将如何改变我们的世界｜Bolt荐阅

提升产品迭代速度的秘诀：少即是多｜Bolt荐阅

工程师如何写好博客｜Bolt荐阅

微软 AI CEO Mustafa ：把 AI 当作新“物种”来思考它的潜力和风险｜Bolt荐阅

Project Sid：一个多智能体的 AI 文明实验

对话「42章经」曲凯：越早勇敢相信 AI 的人越有机会获得更大的回报｜AI应用100问

从高质量增长 v.s. 超高速增长，聊聊市场推广、融资和招聘心得｜Bolt荐阅

人工智能数据中心入门｜Bolt荐阅

Linear Capital｜Linear Path, Nonlinear Growth

线性资本｜Linear Path, Nonlinear Growth

线性资本举办美元投资人年会，天使轮项目「地平线」在港交所主板挂牌上市

现象级的NotebookLM对AI应用创业有什么启发｜Bolt观点

AI应用100问｜当人类和AI一起创作内容成为日常，全新的内容平台还会远吗？

Bolt荐阅｜如何找到你的创业合伙人

Bolt 荐阅｜合成数据的机遇与挑战

活动回顾｜搜索、C.AI、硬件，AI落地摸爬滚打的一年

线性种子轮项目、科学智能化学材料企业「深度原理」完成种子+轮融资，高瓴创投独家投资

Bolt荐阅｜关于种子轮融资你需要知道的事情

线性资本入选「长三角地区最佳早期创业投资机构Top10」

MCtalk·CEO对话观远数据：商业智能与组织效率的一鱼两吃，数据如何提供指引？｜线性被投企业

自动驾驶领域新玩家Bot Auto完成2000万美元Pre-A轮融资，线性资本领投

AI应用100问｜技术究竟如何给个体带来幸福感

线性资本获创业邦「最受赞赏早期投资机构」等奖项

线性天使轮项目「宏景智驾」完成数亿元C1轮融资，中东资本连投4轮

Bolt荐阅｜关于「创始人模式」的三点思考

线性资本入选36氪「中国人工智能领域产业投资基金」等名册

活动报名｜9月6日，中关村，来TICLab沙龙聊聊对AI Native终端的畅想

线性招聘｜生物医疗、市场运营、AI 方向实习生招聘，欢迎简历投递

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉