Python | 降水 | 批量下载GPCP日数据

文摘 2024-09-01 12:46 北京

GPCP daily data

有关其他降水数据集的介绍我之前推文有介绍，可移步至出处查看：

GPCP的日平均数据(简称1DD)提供 1996 年 10 月至今期间全球 1 天（每日）降水量的 1 度网格估算。是通过最佳合并根据国际降水相关卫星星座观测到的微波、红外和探测数据以及降水计分析计算得出的估计值而产生的。

GPCP使用阈值匹配降水指数（TMPI）来获取每日降水估计，该估计基于40°S-40°N之间的局部月降水数据来确定降水率。在其他地区，则使用经调整的探空基降水率（来源于TOVS和AIRS红外卫星反演数据）。

GPCP 1DD的主要优点是它提供了一个全球范围内、在时间和空间上相对高分辨率的降水格点记录。

这个数据集的主要局限性（如所有合并卫星降水产品一样）在于将稀疏的卫星降水测量转化为高分辨率格点降水估计的间接性和复杂性。地球静止轨道红外数据是一个非常重要的输入组成部分，它感知云层的属性，而不是直接测量降水本身。卫星只能间接测量与地表降水率相关的量：微波和红外卫星测量的亮温，然后间接转换为降水率，而雷达则测量云滴和雨滴在整个柱状深度中反射的能量。然后，这些间接测量（连同陆地上的直接量规测量）被用作输入，通过一个复杂的算法产生定期格网上的地表降水率估计。最后，GPCP使用的卫星数据漏掉了许多轻微降水事件。

这个数据集的研究应用主要包括：

降雨的气候态分布及其频率和强度
极端降水的变化
以及降水系统的特性

当比较不同空间分辨率的降水数据集时，计算和解释中的错误大量存在。降雨率，尤其是特定位置的降雨率分布，很大程度上取决于数据集的空间分辨率。

GPCP 1dd 数据未提供不确定性估计。然而，GPCP 月平均产品的月平均值误差也与该数据集相关。

GPCP版本

GPCP目前有多个版本：

daily v1.3：此版本的数据可获取到距今三个月的数据，是推荐的每日版本。
daily v3.2：这是最新的版本，但目前只包含2000年6月至2021年9月的时间范围。
monthly v2.3：这是推荐的每月版本，数据更新至当前日期。
monthly v3.2：这是最新版本，但目前只有1983年至2023年的数据。

Python

"""
Created on Mon Oct 31 11:43:46 2022
@author: Skyborn
"""
import os
import requests
import re
from datetime import datetime
from bs4 import BeautifulSoup

def download_file(url, fname):
    '''Download file using requests'''
    r = requests.get(url)
    with open(fname, 'wb') as f:
        f.write(r.content)
    return 

def parse_dir(syr, url, data_dir):
    '''Parse main page for year and download new files.
    
    Find all the links for netcdf files in that year, if file does not
    exists locally then download it. If file exists, compare remote and 
    local last modified dates.
    '''
    r = requests.get(url)
    main_page = BeautifulSoup(r.content,'html.parser')
    for link in main_page.find_all('a',string=re.compile('^%s/' % syr)):
        subdir=link.get('href')
        r2 = requests.get("/".join([url,subdir]))
        year_page = BeautifulSoup(r2.content,'html.parser')
        for flink in year_page.find_all('a',string=re.compile('^gpcp_.*\.nc$')):
            href=flink.get('href')
            local_name="/".join([data_dir,subdir[:4],href])
            if not os.path.exists(local_name):
                download_file("/".join([url,subdir,href]),
                              local_name)
                print(local_name, 'done')
    return


def extra_files(yr, data_dir):
    '''Check if there is more than one file for day in data directory'''
    files = os.listdir(data_dir + f"/{yr}")
    alldates = []
    tocheck = []
    # first check if two consecutive files have same date
    for f in files:
        fdate = f.split("_")[-2]
        if fdate in alldates:
            print(f"Found extra file for {fdate}")
            tocheck.append(fdate)
        alldates.append(fdate)
    if tocheck != []:
        for fdate in tocheck:
            doubles = [f for f in files if fdate in f]
            cr_dates = [f.split("_")[-1] for f in doubles]
            print(cr_dates)
            if cr_dates[1] > cr_dates[0]:
                fpath = doubles[0]
            else:
                fpath = doubles[1]
            os.rename(fpath, fpath.replace(f"/{yr}/","/redundant/"))
            print(f"Moved {fpath.split('/')[-1]} to redundant directory")
    return


def DownLoadDataSet(yr, version, tstep, data_dir):
    yr = yr
    tstep = tstep
    version = version
    dataset_dir = data_dir
    # define url for GPCP http server and data_dir for local collection
    today = datetime.today().strftime('%Y-%m-%d')
    root_dir = os.getenv("AUSREFDIR", f"{dataset_dir}")
    if tstep == "daily":
        data_dir = f"{root_dir}/gpcp/data/day/{version}/"
    else:
        data_dir = f"{root_dir}/gpcp/data/mon/{version}/"
      
    if not os.path.exists(data_dir):
        os.makedirs(data_dir)
    # choose url base don version
    url_ncei = "https://www.ncei.noaa.gov/data/global-precipitation-" + f"climatology-project-gpcp-{tstep}/access/"
    if tstep == 'daily':
        tstep2 = 'DAY'
    else: 
        tstep2 = 'MON'
    url_gesdisc = f"https://measures.gesdisc.eosdis.nasa.gov/data/GPCP/GPCP{tstep2}.3.2/"
    # set up to complete
    url_dict = {'v1-2': url_ncei, 'v2-3': url_ncei, 'v3-2': url_gesdisc}
    url = url_dict[version]
    try:
        os.chdir(data_dir + f"/{yr}")
    except:
        os.mkdir(data_dir + f"/{yr}")
    # download/update the selected year
    print(f"Updated on {today}")
    print(f"Downloading files for {yr}")
    parse_dir(yr, url, data_dir)
    # check if there are more than one file for each date
    print("Checking for redundant files")
    extra_files(yr, data_dir)
    print("Download is complete")

def main(start_year, end_year, version, tstep, data_dir):
    for yr in range(start_year, end_year + 1):
        DownLoadDataSet(yr, version, tstep, data_dir)
    pass

if __name__ == "__main__":
    # v3.2 daily: https://measures.gesdisc.eosdis.nasa.gov/data/GPCP/GPCPDAY.3.2/
    # v3.2 monthly: https://measures.gesdisc.eosdis.nasa.gov/data/GPCP/GPCPMON.3.2/2023/
    '''
    Download GPCP daily and monthly data from the NOAA server
         https://www.ncei.noaa.gov/data/global-precipitation-climatology-project-gpcp-{tstep}/access/
    using requests to download file and BeautifulSoup to find links in webpage.
    '''
    start_year = 2022
    end_year = 2023
    version = "v1-2"
    tstep = "daily"
    data_dir = "your_path"
    main(start_year, end_year, version, tstep, data_dir)

Param

start_year：起始年份
end_year：结束年份
version：GPCP的下载版本，该代码提供了v1-2、v2-3、v3-2三个选择。
tstep：分辨率，daily或者monthly。
data_dir：数据路径。

以上代码的使用及其简单，使用方法就不介绍了。

往期回顾

·投稿或转载请联系·

http://mp.weixin.qq.com/s?__biz=MzkzMDYxNDYzOQ==&mid=2247486802&idx=2&sn=a761d9598fbe7b994600c5197fb660a7

气python风雨

主要发一些涉及大气科学的Python文章与个人学习备忘录

最新文章

雷达系列：两种方法将气象雷达数据转为易处理的格式

CMAQ 5.4 输入与输出数据整理

在Jupyter环境中创建交互式可视化地图

读者答疑：使用Matplotlib绘制带有端头的垂直线段标注数据

增强云图

回旋镖！meteva也能绘制wrfout气象要素分布

python | x-y 网格切片

悟空传、西游日记和斗战神

meteva，这可能是气象萌新最需要的python库

Python | 降水 | 批量下载GPCP日数据

Python | MJO | 位相图

笔记 | Kelvin wave | 热带气旋

读者答疑 | python怎么计算流函数

深度学习 | 机器学习 | 气候预报 | 研究综述

气象绘图加强版（二十八）—cmap、cbar

看好了，雷达剖面可以这样画

Matplotlib双变量热力等级图

雷达系列 | 如何对国产雷达数据进行衰减订正

雷达系列 | 使用Plotly生成三维CAPPI反射率图

看好了，雷达产品廓线可以这样画

气象处理技巧—时间序列处理4

读者答疑：如何简单绘制全球土地覆盖图

Python | 泰勒图

MATLAB 绘制夏季海表流场

读者答疑：使用 metpy 散度函数计算时的报错

气象绘图加强版（十三）——底图的添加

与局地极端降雨相关的对流结构以及风暴尺度涡旋

学习笔记 | 如何测试自己写的函数程序慢在哪里

Python | 批量下载NCEP2再分析数据

NeuralGCM: 一种融合机器学习与物理原理来模拟地球大气的新方法

雷达系列 | 基于 pydda 使用国产单部雷达反演 3d 风场

Python | xinvert | 气象和海洋领域中椭圆型偏微分方程如何求解？

Easyclimate: 一行代码实现气候学的快速分析

学习笔记 | 如何转换文本文件的编码格式

Python | SST | 高通滤波 | EOF | 论文复现

10个机器学习数据处理Sklearn技巧，建议收藏！

雷达系列：如何使用python进行多部雷达数据反演风

新版本的欧空局下载哨兵方便很多

天气雷达拼图系统V3.0产品数据解析

业务刚需 | meteva复现多模式降水站点值mesh图

Python | 海洋气象 | Xarray:数据读取与切片01

Python | 大气科学 | 偏相关

xarray基础之计算篇

深度学习 | UNet | 代码实现 | Tensorflow

Python | 北大西洋涛动 | NAO指数 | EOF

超长篇幅！PyCINRAD保姆级教程

ERA5数据官网下载之CDS-Beta升级方法和避坑指南！

暖区暴雨是否会受到锋面暴雨的影响？

气候统计界的瑞士军刀——sacpy

Data | 降水数据集：概述和比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉