新论文 | QuakeBERT:利用地震领域专用大语言模型从社交媒体中分析震害

学术   2024-06-08 20:40   北京  

转载自公众号“智能土木ABC

论文:Enhanced Earthquake Impact Analysis based on Social Media Texts via Large Language Model. International Journal of Disaster Risk Reduction, 2024, 109, 104574.

DOI: https://doi.org/10.1016/j.ijdrr.2024.104574

50天免费下载链接:https://authors.elsevier.com/a/1jBG97t2zZHDGa


4分钟视频介绍:


00

太长不看版    

       在地震灾害发生后,迅速获取和分析相关信息对于应急响应至关重要。在互联网时代,社交媒体是重要的信息来源,目前已有很多学者利用社交媒体上的海量数据辅助灾难后响应。但微博上存在大量的不专业的描述(“我婆娘说她的脑壳都晃昏咯”,图1),还有各种噪音或干扰信息(比如“美国政坛地震,特朗普被判有罪!”,图2)。

图1 不专业的描述,有效信息,但是传统方法却往往难以识别


图2 噪音信息,对震害分析完全无效

(图1、图2均为AI生成)


那么,如何高效地从包含大量噪声的社交媒体数据中提取灾害损失数据呢?

       本研究提出了一种大语言模型增强的基于社交媒体文本的地震影响分析方法,用于地震损失的快速评估。我们开发并微调了第一个地震领域的大语言模型 QuakeBERT,显著提高了地震损失信息的提取精度和效率。通过结合舆情趋势分析、情绪分析和基于关键词的物理影响量化,实现对地震物理和社会影响的快速评估。实验结果表明,QuakeBERT 的性能优于传统模型,能够有效过滤嘈杂的微博并辅助后续的地震影响评估过程,从而有助于实现有效的灾后应急响应,创建更具韧性的城市。

01

研究背景    

       随着社交媒体的普及,微博等平台上的实时数据成为新的信息来源。社交媒体上实时发布的灾害现场情况、伤亡情况、救援需求等信息,对于应急响应和资源调度具有重要的参考价值。然而,社交媒体内容通常杂乱无章、信息量巨大且含有大量噪声和口语化表达,因此,如何从中提取有用信息成为了一大挑战。传统的人工筛选方法不仅耗时费力,而且无法满足灾后紧急情况的信息需求。因此,开发一种能够自动、高效地从社交媒体中提取地震损失信息、并据此对地震社会及物理影响进行快速评估的方法尤为重要。

       在此背景下,本研究提出了一种大语言模型增强的社交媒体文本精确分类方法,旨在提高地震灾害信息提取的效率和准确性;同时提出了一种集成舆情趋势分析、情绪分析和基于关键词的物理影响量化的地震社会及物理影响快速评估方法,从而为灾后应急响应提供有效的决策支持,流程图如图3所示。

图3 流程图


02

研究方法    

2.1 微博数据抓取与数据集构建方法

       首先利用Scrapy和Weibo-search抓取地震发生后的微博数据,并基于微博ID进行去重处理,以确保数据的唯一性和准确性。

       考虑到很多微博与实际地震影响无关,且不同类型的微博往往描述灾害信息的不同方面,因此本研究通过内容分析将微博分为六类,以反映其与地震损失的相关性,如表1所示。


表1 文本类别

2.2 用于地震影响评估的地震领域大语言模型的开发

       不同类别的数据与地震影响的相关性具有显著差异,为精确评估震后损失,需对地震相关微博进行精确分类。因此,基于上述构建的数据集,本研究开发并微调了第一个基于BERT的地震领域大语言模型QuakeBERT。为提高模型性能,我们开展了系列实验,以探究训练数据集的规模和多样性、进一步预训练领域大语言模型以及数据清洗方法对模型表现的影响。实验结果表明,数据集的规模和多样性对模型泛化性能影响最大;当训练数据规模和多样性较小时,数据清洗和进一步预训练模型有利于提高模型的泛化性能。

2.3 用于地震社会与物理影响评估的综合方法

       基于分类后的数据,本研究集成以下三种方法来评估地震的物理和社会影响:(1)舆情趋势分析(社会影响):利用弱相关数据和强相关数据,通过统计和分析每个时间段内微博的发布数量,评估地震的影响范围和程度;(2)情绪分析(社会影响):利用弱相关数据和强相关数据,使用情感分析模型(如snowNLP库)对微博进行情感分类,区分积极和消极情绪,以估计地震造成的经济损失和社会影响;(3)基于关键词的物理影响量化(物理影响):利用强相关数据,建立物理影响评估表(如表2所示),通过强度关键词匹配,反映地震的实际损失。


表2 不同灾害等级的关键词

03

案例分析    

3.1 地震信息与数据收集

      我们分析了两次5.1级地震造成的物理与社会影响,来验证本研究提出的微博文本分类与地震影响快速评估方法,两次地震的关键信息如表3所示。

表3 地震信息

3.2 数据分析和地震影响评估结果

       首先,使用训练好的QuakeBERT 模型对收集到的微博进行分类,结果如表4所示。


表4 文本分类

       过滤掉无关微博后,对剩余微博进行进一步的地震影响分析。

1) 社会影响-舆情趋势分析

        两次地震发生后48小时内舆情的演变如图4所示。尽管兴文地震造成的损失较高,但其舆情高峰明显低于古冶地震。这是因为古冶地震影响地区的人口数量远高于兴文地震,且古冶地震在北京和天津等大城市也有震感,故而引发更多的讨论。实验结果表明,舆情高峰仅说明事件的关注度,但不一定反映实际损失。

图4 两次地震的舆论走向


2) 社会影响:用户情感分析

      两次地震发生后48小时内积极和消极微博的趋势如图5所示。兴文地震后微博中负面情绪的比例明显高于古冶地震,这与3.1节中的损失情况一致。实验结果表明,地震发生后实时监测微博情绪比例,可以为早期救灾决策提供参考,并有助于估算地震造成的损失。

图5 两次地震的情绪走势(a)古冶(b)兴文


3) 物理影响:基于关键词的物理影响量化

       未分类微博数据与分类后的强相关数据分别基于关键词分析得到的不同灾害等级的微博数量与百分比如图6、7所示。结果表明,未经分类的数据中噪声较多,会显著影响地震损失评估。分类前古冶地震第四级(最严重级别)微博占比大于兴文地震,而分类后结果显示古冶地震的影响弱于兴文地震,评估结果与实际损失情况一致。

图6 不同灾害等级的微博数量(a)古冶(b)兴文


图7 不同灾害等级的微博占比(a)分类前(b)分类后


04

研究结论    

      1)本研究提出了第一个地震领域的大语言模型(QuakeBERT),用于准确分类和过滤微博,以辅助后续的地震影响评估。

       2)本研究提出了一种集成舆情趋势分析、情绪分析和基于关键词的物理影响量化的地震社会及物理影响快速评估方法,从而为灾后应急响应提供有效的决策支持,创建更具韧性的城市。

      3)消融实验表明,数据多样性和数据规模对模型的泛化性能影响最大;在训练数据多样性和数据规模较小时,数据清洗和进一步预训练模型有助于提高模型的泛化性能;QuakeBERT模型优于其他深度学习模型,F1得分提高了23.46%,表明QuakeBERT模型具有更好的泛化性能,更适合过滤无关微博。

      4)案例分析结果表明,分类前的嘈杂微博对基于关键词的物理影响分析方法有显著影响,会导致物理评估出现误差;大语言模型增强的基于社交媒体文本的地震影响分析可以减少噪声微博的影响,提高地震社会与物理影响的评估精度。

---End---

智能设计平台网站

AIstructure2023:从智能设计云平台到AIstructure-Copilot


5分钟视频演示智能设计操作流程
3分钟视频演示智能设计后处理(云端PKPM计算和AIStrucutre优化)流程

相关研究

学术会议通知


学术报告视频

  1. 《从基于模拟的结构设计到基于人工智能的结构设计》学术报告视频

  2. 混凝土结构的智能设计和对专业教学的思考》学术报告视频

  3. 《基于数字孪生的城市防灾减灾研究》学术报告视频

  4. 《地震巨灾情景构建》科普报告视频

  5. 《城市抗震弹塑性分析及其在情景构建与地震应急中的应用》学术报告视频


专著

  1. 英文版《工程地震灾变模拟:从高层建筑到城市区域(第2版)》出版

  2. 专著《城市抗震弹塑性分析》出版


人工智能与机器学习

---结构智能设计

  1. AI捏个糖葫芦串,动力计算准又快 | 新论文:结合数据与物理模型的建筑结构地震响应计算方法

  2. Diffusion Model智能设计原理揭秘 | 论文和发明专利:基于扩散模型的剪力墙结构智能设计

  3. 新论文:AIstructure-Copilot的技术实现细节

  4. ai-structure.com 剪力墙结构生成式智能设计系统内测邀请

  5. 拓扑-模式-尺寸三层次的优化改进AI结构设计 | 新论文:基于规则学习与编码的剪力墙智能设计优化

  6. 新论文:剪力墙结构的GNN梁布置智能设计

  7. 新综述论文:建筑结构的生成式智能设计方法研究进展

  8. 如何更好的融合基于模拟的设计和基于人工智能的设计

  9. 左右互搏大法 | 新论文及发明专利:基于结构优化和半监督学习方法提升AI设计效果

  10. 揭秘:图神经网络如何精细考虑抗震设计条件影响?| 新论文:设计条件嵌入GNN的剪力墙布置智能设计方法

  11. 揭秘:AI如何做到1秒内算出用钢量?| 新论文:基于知识增强图神经网络的建筑结构材料用量评估方法

  12. 新论文:基于图神经网络的剪力墙布置人工智能设计方法

  13. 视频:建筑结构生成式智能设计在实际投标项目中的应用

  14. 除了剪力墙结构,AI能不能设计框架结构?| 论文和发明专利:基于图神经网络的框架梁智能化布置

  15. 老师划重点啦,AI工程师学会了么?| 新论文:注意力增强的剪力墙结构人工智能设计方法

  16. 新论文和发明专利 | 规则增强的框架-核心筒结构人工智能设计方法

  17. 新论文 | 剪力墙结构智能化生成式设计方法:从数据驱动到物理增强

  18. 简便高效的建筑结构AI设计系统 | 新论文:集成式智能生成设计系统及其在剪力墙结构上的应用

  19. 利用设计文本指导AI建筑结构设计 | 新论文及发明专利:融合文本和图像数据的建筑结构AI设计方法

  20. 新论文:面向自动合规审查的知识增强语义对齐和自动规则解译方法

  21. 新论文:融合自然语言处理与上下文无关文法的审图规则自动解译方法

  22. 新论文及发明专利 | 基于深度学习的楼盖结构智能化设计方法

  23. 新论文:面向建筑领域自然语言处理的领域语料库及预训练模型

  24. 用“图”和“图”来生成“图”?中文快不够用了 | 发明专利:多模态输入深度神经网络、框架结构梁柱设计方法及装置

  25. AI想做结构设计?它得先学结构力学!| 新论文及发明专利:物理增强的剪力墙结构智能化设计方法

  26. AI+PKPM | 给个建筑户型图,结构设计全自动

  27. 糟糕!结构高度从50m改为100m了。AI:5秒完成新结构方案 | 发明专利:融合文本和图像数据的建筑结构AI设计方法

  28. 揭秘人工智能设计剪力墙结构的科学原理 | 新论文:基于生成对抗网络的剪力墙结构设计方法

  29. 用人工智能进行结构方案设计| 发明专利:基于对抗生成网络的剪力墙结构布置方法

  30. 5分钟!从设计结构方案到完成计算书 | 人工智能设计剪力墙结构案例演示

  31. 新发明专利:一种将规范文本自动转为可计算逻辑规则的方法及系统


---其他土木工程领域人工智能研究

  1. 三个臭皮匠,顶个诸葛亮 | 新论文:用深度集成学习来智能构建滞回模型

  2. 新论文:结构响应行为预测的深度学习模型有N种,该怎么选?

  3. 新论文:智能建造研究进展综述—中国与发达国家的对比

  4. 新论文:基于单目视觉和深度学习位姿估计的结构三维位移测量

  5. 提升小样本下预测性能近一个数量级 新论文 |  神经网络响应时程预测中的迭代自迁移方法 (附数据集和程序)

  6. 新论文:使用深度学习超分辨率技术提升基于计算机视觉的位移测量精度
  7. 新论文 | 基于深度学习的滞回模型如何拥有“误差自纠偏”能力?(附数据集和程序)

  8. 新论文 | 倾斜摄影点云+深度学习=城市风环境自动化模拟

  9. 新论文 | 卷积神经网络 + 小波时频图:基于地震动时频域特征的震害评估新方法

  10. 他山之石可以攻玉 | 新论文:基于深度迁移学习的结构地震响应识别

  11. 新论文:为提升AI振动识别效果,小波、HHT、MFCC、CNN、LSTM我们都试一试

  12. 如何将地震破坏力评估加速1500倍?| 新论文:基于LSTM的地震破坏力实时评估

  13. 新论文:基于机器学习方法的多元地震动强度指标比选与实时震害预测

  14. 新论文:给振动信号拍个照,可以提升振动控制效果!

  15. 这栋楼是什么结构的,元芳,你怎么看?——大人,时代变了!|新论文:使用机器学习方法预测城市建筑结构类型

  16. 新论文:基于无人机与深度学习的建筑震害评估方法

  17. 新论文:无人机+机器学习+城市弹塑性分析=震后近实时损失预测


城市灾害模拟与韧性城市

  1. 综述论文:城市密集建筑区新型地震次生灾害研究进展

  2. 灾后如何最优化恢复?新论文:基于多智能体强化学习的韧性社区灾后恢复决策支持模型

  3. 新论文:通过网格多路径建模优化的基于机器视觉建筑结构振动识别方法

  4. 上班的电梯好挤啊,这时候地震了怎么办?| 新论文:地震下电梯被困人员评估

  5. 新论文:台风导致的港口运营中断对中国沿海地区造成的经济影响评估

  6. 新论文 | 基于相位的结构运动识别

  7. 新论文 | 复杂地形下场地-城市效应的振动台试验和数值模拟

  8. 新论文 | 传感器质量和密度对震后快速评估影响的成本效益分析

  9. 提升震害分析精度,更多数量 or 更高质量的加速度计? | 新论文:加速度计类型对地震动记录和震损评估的影响

  10. 新论文 | 基于倾斜摄影、深度学习和CFD的城市尺度窗户风损评估

  11. 新论文 | 强震台网密度对震害评估的影响

  12. 新论文:城市尺度树木风灾破坏近实时评估:方法框架及清华园案例应用

  13. 新论文:基于实测地震动的近实时地震滑坡预测方法(并附源程序)

  14. 新论文:基于实测地震记录的区域地震动场模拟方法

  15. 新论文:“场地-城市”效应对区域震害评估的定量影响分析

  16. 新论文:基于城市信息模型、并同时适用于城市建筑群和单体重要建筑的多灾害模拟框架

  17. 新论文:台风风灾对港口运营的经济影响:以中国港口为例

  18. 新论文:基于BIM与虚拟现实的建筑震后火灾救援场景模拟

  19. 新论文:社区地震安全韧性评估系统及社区应用示范

  20. 新论文:武汉火神山医院病房有害气体的高空排放设计和分析

  21. 新论文:主余震作用下区域建筑震害预测方法

  22. 新论文:城市抗震弹塑性分析的开源框架

  23. 新论文:考虑劳动力资源约束的城市尺度建筑抗震韧性模拟和震后维修规划

  24. 新论文:结合BIM和FEMA P-58的建筑地震损失预测方法

  25. 新论文:扔砖头、跳盒子,这也是做科学试验哦!| 地震次生坠物情境中的人员疏散模拟

  26. 综述:城市抗震弹塑性分析及其工程应用

  27. 新论文:适用于多LOD BIM的建筑地震损失评估

  28. 新论文:城市建筑群多LOD震害模拟及北京CBD算例

  29. 美国NSF SimCenter+清华城市弹塑性分析=旧金山184万建筑地震模拟

  30. 新论文:BIM+新一代性能化设计=喷淋系统破坏后的地震次生火灾模拟

  31. 新论文:村镇建筑群火灾蔓延模拟与案例

  32. 新论文:建设地震韧性城市所面临的挑战

  33. 新论文:烈焰焚城 | 地震次生火灾的精细化和高真实感模拟

  34. 新论文:城市韧性——基于“三度空间下系统的系统”的思考

  35. 新论文:城市抗震弹塑性分析中如何确定高层建筑的损伤程度?


高性能结构与防倒塌

  1. 新论文:抗连续倒塌设计真的划算吗?

  2. 转载:抗震性能化专题Ⅶ | 陆新征等,建筑结构防地震倒塌性能设计

  3. 新论文:带可更换脚部件装配式RC剪力墙试验研究

  4. 新论文:面向多层RC框架的连续倒塌易损性简化评估方法

  5. 新论文 | 一致阻尼模型在OpenSees中的实现(附程序与说明)

  6. 新阻尼模型论文 | 频域分布任性变,开源程序免费领

  7. 新论文:中柱节点向上和向下冲剪破坏引起的板柱子结构连续倒塌研究

  8. 新论文:有限元携手物理引擎,倒塌模拟新思路

  9. 新论文:美国佛罗里达公寓大楼倒塌的初步分析和讨论

  10. 综述论文:建筑结构抗震“体系能力设计法”综述

  11. 新论文:不同钢筋构造对RC板柱节点冲剪破坏后性能的加强作用

  12. 新论文:地震-连续倒塌综合韧性防御超高层体系

  13. 新论文:基于数字孪生的强震下大跨斜拉桥倒塌易损性评估

  14. 新论文丨不同冲剪方向下板柱节点抗倒塌性能研究

  15. 新论文:大跨斜拉桥的非线性模型更新及倒塌预测

  16. 新论文:新一代地震-连续倒塌综合防御组合框架——综合韧性防御组合框架

  17. 新论文:中柱失效后混凝土板柱结构承载性能影响因素研究

  18. 新论文:不同冲剪方向下板柱节点抗倒塌性能研究

  19. 新论文:次边缘柱失效后钢筋混凝土平面框架连续倒塌承载力的试验分析和计算评估

  20. 新论文:基于集群计算的大跨斜拉桥精细有限元模型更新

  21. 新论文:钢筋混凝土板柱节点冲切及冲切破坏后行为的数值模拟

  22. 新论文:边柱以及边中柱失效后平板结构连续倒塌行为试验研究

  23. 新论文:抗震&防连续倒塌:一种新型构造措施

  24. 新论文:混凝土梁柱子结构连续倒塌动力效应的试验研究

  25. 层间位移角判别准则不适用于剪力墙,怎么办?|新论文:基于曲率的剪力墙损伤评估方法

  26. 新论文:地震-连续倒塌综合防御组合框架结构体系研究

  27. 新论文:改变框架-核心筒结构剪力调整策略对其抗震性能影响的研究

  28. 新论文:新型地震和连续倒塌综合防御韧性PC框架承载力计算方法

  29. 新论文:角柱失效后平板结构连续倒塌行为实验研究

  30. 新论文:受折纸启发的可更换承载-耗能双功能耗能器

  31. 新综述论文:21世纪建筑结构连续倒塌和鲁棒性的研究和实践

  32. 新论文:中柱失效后板柱结构连续倒塌传力机理研究

  33. 新论文:一根钢筋混凝土梁,承载力你能算对么?| 梁的压拱效应计算方法

  34. 新论文:这个混凝土框架能抗震,能防连续倒塌,还功能可恢复,您不进来看看么?

  35. 新论文:一个好汉三个帮|带端部阻尼器伸臂桁架的抗震性能试验研究

  36. 新论文:防屈曲支撑伸臂桁架?几个“狗骨头”可少不了!

  37. 新论文:考虑楼板影响的钢筋混凝土框架边柱连续倒塌试验

  38. 新论文:提高地震荷载分项系数,抗震安全性提高了多少?

  39. 新论文:采用减振子结构来控制超高层建筑的地震楼面加速度

  40. 新论文:500m级超高层建筑简化模型及其在结构体系对比中的应用

  41. 课题组2015年的论文:超高层建筑火灾结构安全分析

  42. 606m 超高层建筑OpenSees模型


    长按识别二维码,关注我们的科研动态


    陆新征课题组
    清华大学土木工程系陆新征教授课题组。主要开展土木工程AI、抗震防灾等方面的研究。近期研究成果网站ai-structure.com
     最新文章