多年以来,中国地震局基于多个地球物理观测体系和台网,综合应用地震、InSAR、电磁、重力、地下流体等地球物理数据,开展地震前兆异常活动跟踪与分析、日常地震监测与速报、震后趋势跟踪与研判等工作,为防震和减灾救灾提供了有力支持。这些多样化的观测手段所积累的大量数据,在现有中心化体系中都必须通过网络甚至人工手段汇集至数据中心的中心服务器进行统一管理、归档和处理。随着观测台站的规模和数量与日俱增,所积累的连续观测数据呈爆发式增长,各省、市地震局、监测中心在集中处理地震数据时显得捉襟见肘。
大数据、云计算、人工智能(AI)、“互联网+”及5G技术的快速发展,使得“中心化”集中地震处理在很大程度上实现了自动化,提升了整个数据中心的处理和快速响应能力,但仍然需要耗费大量人力物力来提高网络覆盖率和传输速度,进行高性能服务器升级和高效率自动化地震波形处理系统研发等。当前,我国已建成世界最大规模地震观测网,“中心化”地震数据处理和管理模式向“去中心化”转变已是在所难免(见图1)。如何将深度学习等强大的人工智能技术高效地部署在资源受限的终端设备,从而使人工智能更加贴近用户与传感器端,解决人工智能落地的“最后一公里”问题引起学术界与工业界的高度关注。
为解决上述问题,中国地震局地球物理研究所“谛听”人工智能地震学团队历时5年打造了一套以人工智能技术为核心的自动化地震数据处理与分析软硬件系统——“谛听”(DiTing)系统,包括谛听大型人工智能地震学训练数据集、谛听系列人工智能自动地震数据处理算法、国内外地震监测领域第一款可部署轻量级高性能人工智能算法的边缘计算设备——谛听智慧盒子、边端云一体化地震数据处理系统。其中,谛听数据集为谛听系列人工智能算法提供了训练数据和基准测试;训练好的谛听系列人工智能算法通过轻量化处理部署至低功耗边缘计算设备——谛听智慧盒子,通过接入地震仪的实时观测数据可实现实时自动化数据处理;通过将谛听智慧盒子与具有更多后处理功能模块的云端服务器相连,构建了面向未来的新一代“去中心化”智能地震大数据处理系统和平台,突破了大数据存储、传输和算力需求方面的瓶颈,能够极大地提升数据处理的效率,是实现智能化地震前兆识别、实时地震监测与预警的最佳解决方案。同时,团队利用谛听数据集建立了首个亿级参数量的地震波大模型,对于提高地震大数据智能处理能力和信息挖掘水平具有重要意义。
谛听人工智能算法用于前震识别系统
为了提升谛听模型的泛化能力,团队将训练好的谛听系列模型在中国地震局的智能化前震识别业务上试运行,通过与业务人员的人工识别结果进行对比,不断修正和改进模型。该业务旨在发现和总结大震、强震在震前可能出现的微震活动的规律,并根据地震活动性时空异常、初动一致性等设计相应的统计指标进行提前告警,见图2。目前该业务共接入全国地震波形LISS 流服务1064 个台站,每天产生数据达30 千兆字节。由于前震震级通常非常小,传统技术手段并不能很好地识别,存在大量遗漏或误检测事件,利用人工智能技术则可在很大程度上改善这一问题。
经过两年多的迭代,谛听系列算法在智能化前震识别业务中的泛化能力越来越强。2023年4月,团队以2021年6月至2023年1月间人工编目报告中的结果作为标准答案,对谛听系列算法的识别结果进行了一次全面评测,并使用精度、召回率等指标对结果进行测评,以评估模型目前在实际连续波形上达到的检测水平。其中,DiTingPicker的事件检测平均召回率在80%以上,拾取精度全国平均P波在(0.05±0.11)秒,S波在(0.016±0.17)秒;DiTingMotion的 Pg初动极性识别正确率达到86.7%(U)和87.9%(D),Pn初动极性正确率达到75.1%(U)和73.1%(D);DiTingDist的震中距判断误差平均为±25公里。
人工智能算法的性能提升和落地应用离不开海量高质量的标注数据。基于2013—2020年间的震相观测报告和国家测震台网中心数据中心备份的波形事件,中国地震局地球物理研究所赵明等整理制作了谛听人工智能数据集。此后,谛听数据团队进一步升级和迭代完成了2.0版本的研发。作为目前全球规模最大、样本标注质量最高、标签类别最为齐全的地震学标注数据集之一,谛听数据集(1.0和2.0)为谛听系列人工智能算法的训练、验证、测试提供了坚实的基础。近期,团队在原有谛听数据集基础上进一步收集国内外文献中已公开发布的地震学人工智能数据集,构建了谛听3.0通用大模型训练数据集,预计可以收集多达6500万标注的地震波数据(总数据量约7太字节)。为了使模型学习到更广泛的特征,除了标注数据的收集,大模型预训练还将用到不少于20太字节的无标注连续波形数据。
谛听盒子与边端云一体化
地震大数据处理解决方案
谛听地震波大模型
2024年上半年,中国地震局地球物理研究所联合国家超级计算成都中心、清华大学、中国科学院地质地球所等单位开发了我国首个参数量过亿的谛听地震波大模型,并被新华社等媒体报道。该模型基于Transformer架构,在新构建的谛听3.0通用大模型训练数据集上进行了训练,目前已训练完成的版本包括1亿、4亿参数版本,12亿版本还在训练之中(见图5)。谛听大模型无论在参数量还是训练数据上都比领域内其他人工智能模型高了一到两个数量级,对于突破中小地震波模型性能瓶颈、提高地震大数据智能处理能力和信息挖掘水平具有重要意义。团队基于成都超算DCU卡,开展了相关大模型放大实验,目前已经取得一批初步成果,与最新的地震检测基础模型SeisT相比,谛听地震波大模型在所有下游任务(震级估计、震中距估计、地震检测性能、震相拾取性能)上都拥有更好的性能。
中国地震局地球物理研究所“谛听”人工智能地震学团队打造的以人工智能技术为核心的谛听自动化地震数据处理与分析系统,成功地将人工智能、边缘计算和云计算技术融合在一起,为地震监测和科学研究提供了全新的解决方案,不仅提高了地震数据处理的效率和准确性,而且为地震前兆信息的识别和大震应急科技产品的快速产出提供了有力的技术支撑。目前国内多个省份的地震局对谛听智慧盒子的业务场景表示出兴趣,并采购了相关产品用于前震自动识别、预警数据的人工智能自动化处理等。尽管谛听系列软硬件系统目前仍处于推广应用的初期,但相关应用显示,团队开发的智能化边缘计算终端解决方案顺应时代潮流,切中业务人员的痛点,随着从人才培养、开发实验、市场推广、用户培训到业务场景应用的谛听全链条生态的建立,地震实时监测预警正迎来更加快而准的“谛听”时代。
致谢:感谢国家重点研发计划课题“船载-潜载海洋地球物理和物理海洋数据处理开源软件研发”(课题编号:2022YFC2808301)、国家自然科学基金项目“基于人工智能和物理机制建模的数值地震预测理论与方法研究”(项目编号:U2239205)的支持。
陈 石:副所长,研究员,博士生导师,中国地震局地球物理研究所。
赵 明:副研究员,硕士生导师,中国地震局地球物理研究所。
肖卓伟:博士后,中国科学院地质与地球物理研究所。
张 博:副主任,副研究员,辽宁省地震局科创中心。
马 莉:高级工程师,辽宁省地震局。