今天再来谈谈降雨监测,因为看到一篇有意思的paper。降雨监测一直是气象学和水文科学领域的重要研究方向。
传统的降雨监测方法主要依赖于雨量计、气象雷达和卫星遥感
等技术。这些方法虽然在精确度和覆盖面上有其优势,但也面临着一些局限性,比如空间分辨率不足、受天气条件影响大、以及设备维护成本高等问题。
许多研究者开始探索新型的降雨监测方法,试图突破传统技术的限制,最近读到南师大刘学军、王美珍
老师的一篇论文,提到一项新技术——“听声测雨”,非常有意思,给行业从业人士是个非常大的启发,记录分享如下。
核心速览
研究背景:基于监控音频和深度学习技术来估计降雨强度,旨在克服视频降雨估计方法受到背景和光照变化影响的局限。 研究问题:如何利用音频信号准确估计降雨强度。 研究难点: 音频数据的标注和处理复杂。 不同环境下的音频特征差异大。 缺乏大规模和高多样性的数据集。 相关工作:早期研究多集中于水域降雨声学观测,陆地环境研究较少;现有方法依赖声学传感器或只能粗略估计降雨水平。
优点创新
论文的最大亮点之一是构建了一个名为“监控音频降雨强度数据集”(SARID),这是一个经过精心设计的开放数据集,包含了六场真实降雨事件的音频录音,细致到每个降雨强度的变化,从细雨到倾盆大雨,数据总量达到12,066个音频片段,每个音频录音都进行了详细的注释,包括降雨强度、气象信息(如温度、湿度、气压和风速)、底层表面数据和背景噪声细节。
同时,研究也提出了一个有效的基线模型,使用Mel频率倒谱系数(MFCC)作为输入特征,Transformer网络作为网络结构,用于从监控音频中估计降雨强度。
研究方法
数据集构建
SARID数据集:包含六个真实世界降雨事件的音频记录,共12,066段音频,详细标注了降雨强度、环境信息(如温度、湿度、气压、风速)、底层表面数据和背景噪声细节。
特征提取
Mel频谱图(Mel) Mel频率倒谱系数(MFCC) 短时傅里叶变换(STFT)
基线模型
架构:基于Transformer的深度学习模型,包括三个主要组件:
输入层(使用MFCC特征) 深度学习层(Transformer架构) 输出层(进行降雨强度的回归预测)
损失函数
定义如下:
其中, y_i和 y'_i 分别为第i个样本的真实值和预测值,L_ri是损失函数。
实验设计
数据收集
数据来源:南京师范大学仙林校区的监控摄像头和气象站。气象站每分钟提供天气状况更新,监控摄像头位于距气象站500米以内。
数据标注
音频录音与气象数据进行时间戳匹配,提取非零降雨强度的音频片段,并分割成60秒音频文件。文件命名包含时间标签、降雨强度、环境变量等信息。
样本选择
从每个降雨事件中提取音频片段,分割成4秒的切片。最终得到2527个无噪声降雨音频样本。
参数配置
使用Adam优化算法,批量大小为256,学习率采用暖启动策略,初始学习率较低,逐渐增加至稳定值。
结果与分析
模型性能
基线模型表现:基于MFCC输入和Transformer架构的模型在各项指标上表现最佳。 平均绝对误差(MAE):0.563毫米/小时 均方根误差(RMSE):0.88毫米/小时 决定系数(R²):0.765
对比分析
与其他方法对比:相比于决策树、随机森林、线性支持向量机和岭回归模型,Transformer模型表现更优,精度和稳定性更高。
噪声影响
噪声条件对比: 噪声环境下,模型MAE增加4.9%,RMSE增加8.6%,R²下降4.9%。
以上是该论文的解读分析,下面谈谈个人对该技术的展望。
这篇研究确实让笔者这个从业者眼前一亮,感知设备的匮乏往往是我们很多工作最大的掣肘,假如“听声测雨”的技术能落地应用。
想象一下,我们可以利用非常多的安防摄像头,去“充当”雨量计,相当于一下子增加了海量的雨量感知数据源,不仅可以为城市水文建模提供高空间和时间分辨率的数据来源,也为城市感知、应急响应等领域的应用铺平了道路。
这个技术也是给厂商提供了一个新产品开发的思路。当然,可以预见的是,若要真正产品化应用,还是需要大量的数据集构建、以及和真实降雨监测数据的校验工作。
欢迎交流
笔者长期从事人工智能、遥感、大模型等业务
欢迎添加微信交流