论文解读 |【WWW 2024】Health CLIP:利用卫星和街景图像中的健康特征预测抑郁率

文摘   2025-01-10 19:40   北京  

论文标题:Health CLIP: Depression Rate Prediction Using Health Related Features in Satellite and Street View Images

作者:Tianjian Ouyang, Xin Zhang, Zhenyu Han, Yu Shang, Yong Li*

发表:WWW '24: Companion Proceedings of the ACM Web Conference 2024

论文链接:https://dl.acm.org/doi/10.1145/3589335.3651451


导读

健康的心理状态能够使人们有效应对生活中的压力,有助于提升整体上的生活幸福指数,其与环境因素之间的关系也受到越来越多的关注。随着社会压力的不断增加,抑郁症已成为现代城市中的一大难题,因此,找到一种准确预测抑郁率的方法,对于缓解这一问题至关重要。本研究提出了一种基于对比语言-图像预训练(CLIP)的新颖方法,通过卫星和街景图像来预测心理健康指标,尤其是抑郁率。我们采用了先进的多模态大语言模型(MLLM)GPT4-vision来对图像生成与健康相关的文本描述,随后利用这些图像-文本对对CLIP模型进行微调,从而使其图像编码器能够提取与健康相关的特征,例如绿地、公园等。通过这一微调过程,我们能够弥合文本与视觉信息之间的语义间隙,实现对同一地理位置的图像的全面分析。我们的研究方法在同时使用卫星和街景图像预测纽约市抑郁率时,得到了0.565的相关系数( 𝑅² )。


背景

图1:使用卫星和街景的图像-文本对预测纽约市的抑郁症发病率


抑郁症是全球最为普遍且具有高度致残性的心理疾病之一,其患病率的上升已成为一个深刻且紧迫的公共卫生问题,对社会福祉和健康构成了巨大的挑战。在美国,抑郁症每年影响超过1800万成年人,约占人口的十分之一,且成为15至44岁年龄段人群致残的主要原因,每年导致超过41,000人自杀,这一数字远超2013年美国疾病控制与预防中心(CDC)统计的16,000例凶杀案件。因此,如何准确预测抑郁症及识别影响其发病的环境因素,已成为心理健康研究中的关键问题。


由于抑郁症的复杂性,其分析和预测面临诸多挑战。近年来,机器学习方法如随机森林(RF)和深度神经网络(DNN)已被广泛应用于揭示心理疾病的发生。随着大语言模型(LLMs)的兴起,研究人员开始探索其在心理健康领域的潜力,包括抑郁症的预测与干预。然而,这些仅依赖图像或文本的单一模态方法有其局限性:单一模态(如图像或文本)难以全面捕捉与健康相关的复杂特征。


因此,本研究提出了一种创新的方法,将卫星图像和街景图像的多源视觉信息与大语言模型的文本生成能力相结合,旨在解决心理健康问题的复杂性。我们特别聚焦在纽约市的城市环境中预测抑郁率,采用融合了图像分析与语言理解能力的多模态模型框架。


方法

图2:Health CLIP 的方法框架。卫星和街景图像被输入到 GPT4-Vision 中以生成与健康相关的描述文本。然后使用上述方法生成的图像-文本对分别对两个 CLIP 模型进行微调。最后,使用神经网络合并来自两个图像编码器的特征嵌入以预测抑郁率。


模型设计

随着全球心理健康问题,尤其是抑郁症的日益严重,开发全面的早期诊断和干预策略变得愈加迫切。鉴于心理健康差异中蕴含的空间维度,Health CLIP旨在利用机器学习算法与卫星图像和街景图像中的丰富信息之间的相关性来进行抑郁症预测。图2为模型框架,包括两个分支,一个处理卫星图像,另一个处理街景图像。在第一阶段中,卫星图像和街景图像先被输入到GPT4-vision中生成与健康相关的描述,随后使用生成的图像-文本对分别来微调两个CLIP模型;第二阶段则通过神经网络将图像编码器提取的两部分特征嵌入整合起来,以预测抑郁率。具体方法可以通过以下公式表示

其中,R 表示抑郁率,是18岁以上成年人中抑郁症患者的比例;Sat_Feature和 Str_Feature 是通过微调后的CLIP模型从卫星图像和街景图像中提取的特征嵌入。


Health CLIP使用微调后的图像编码器捕捉进行心理健康预测所需的空间特征:

这里的 Sat_CLIP 和 Str_CLIP 是分别针对卫星图像和街景图像进行微调的图像编码器。CLIP模型微调的主要目标是加强图像特征与健康相关文本之间的关联性,训练过程中混淆矩阵的对角线值会逐渐增加,表明图像与文本之间的相似度有所提高,如图3所示。


图3:街景图像与对应健康文本的混淆矩阵


实验

数据集

本研究使用了来自纽约市1667个人口普查区(census tract)的卫星图像和街景图像,并将对应的抑郁症发病率作为真实标签。卫星图像的分辨率为0.5米,原始图像尺寸为256×256像素,来源于ArcGIS。为了处理不规则的区域边界,同一人口普查区的卫星图像被拼接后并重新裁剪为512×512像素大小。街景图像的分辨率为400×300像素,来自Google API。考虑到单一街景图像包含的信息有限,我们将每12张街景图像拼接为一张1200×1200像素的大街景图像,以提高其代表性。抑郁率数据来自美国政府的官方健康数据网站。数据集被分为训练集(70%)、验证集(15%)和测试集(15%)。


实验设置和Baseline

在实验中,我们使用了广泛采用的评估指标:均方根误差(RMSE)和相关系数(R2)。我们在实验中使用了CLIP模型,并使用了不同的图像编码器,例如ResNet-50和ViT-B/32。Optimizer选用了AdamW,并结合了weight decay机制,同时在前10000步使用了warm-up策略。Batch Size设置为256,训练总共进行了50个epoch。


为了验证Health CLIP的有效性,我们将其与以下Baseline进行了比较:


🔹基于卫星图像的Baseline:RemoteCLIP,一种基于CLIP的遥感感知视觉-语言基础模型。

🔹基于街景图像的Baseline:Urban2Vec,一种街景特征提取模型,假设邻里区域具有相似意义;SceneParse,一种基于ADE20K数据集训练的图像分割模型,用于计算图像中每个对象的百分比。

结果分析

实验结果表明,使用OpenCLIP模型并结合ResNet-50作为图像编码器时,卫星图像的性能最佳;而街景图像则在使用ViT-B/32时表现最佳。对于所有卫星图像模型,经过20个epoch微调后的ResNet-50模型达到了最佳的R2值;对于街景图像,经过10个epoch微调后的ViT-B/32表现最佳。


在Baseline方面,RemoteCLIP(ViT-B/32)在卫星图像上获得了最高的得分,SceneParse则在街景图像上表现最佳。结合卫星图像和街景图像的模型获得了最佳的R2值(0.565),同时RMSE为1.558,表明抑郁率预测较为准确。需要注意的是,CLIP模型的微调过程需要谨慎避免过拟合,否则性能会急剧下降。


表1:卫星图像的相关系数(R2)和均方根误差(RMSE)

表2:街景图像的相关系数(R2)和均方根误差(RMSE)



案例研究

在案例研究中,位于皇后区的Alpha人口普查区抑郁率较低(11.8%),而位于布鲁克林的Beta人口普查区抑郁率较高(29.5%)。图4展示了Alpha地区的卫星图像-文本对和Beta地区的街景图像-文本对。Alpha的文本包含许多关于心理健康的积极信号,如运动场和花园等,这些积极的描述帮助Health CLIP从图像编码器中提取到积极的特征。相反,Beta的街景图像描述了垃圾袋等负面特征,这使得图像编码器提取到与抑郁相关的特征,从而得出较高的抑郁率预测。

图 4:Alpha 地区的卫星图像-文本对,Beta 地区的街景图像-文本对


总结

在本文中,我们提出了Health CLIP,一种结合了卫星和街景图像中的健康相关的特征的新颖方法,用于预测城市环境中的抑郁症发生率。Health CLIP 是机器学习与健康环境的一项交叉研究,目标是捕获卫星图像和街景图像特征之间的复杂相互作用,从而给出准确的抑郁症指标预测。Health CLIP通过提出一个全面且新颖的框架,推动了精神健康预测领域的发展,解释了城市环境与心理健康结果之间的复杂关系。通过在相关研究成果的基础上进一步深化,我们致力于加深对抑郁症的理解,为公共卫生干预和城市规划策略提供支持,以促进城市居民的心理健康。

数据科学与智能实验室
本公众号为清华大学电子系数据科学与智能实验室的公众账号,主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯,敬请关注。
 最新文章