新版ERA5下载多线程加速，看这一篇就行了

文摘 2024-10-18 20:19 北京

ERA5下载加速

引言

众所周知，ERA5小时尺度以及日尺度数据下载比较困难，一方面是由于数据中心在欧洲，传输速度慢。另一方面也是由于数据量庞大。

目前批量下载的代码有很多，但是存在以下问题：

速度慢，几十到几百kb
下载容易中断，生成无效文件
单一线程，提交任务然后等待，速度慢
中断下载后，重新提交很麻烦，先找到中断的位置

目前ECMWF数据进行了一些更新，界面更新。

且新增了daily数据，和Google Earth Engine也一致了，变量更全。

借此机会讲述一下流程

预备工作

首先需要安装ECMWF提供的Python库

pip install cdsapi

接下来注册ECMWF账号，在这里注册Climate Data Store (copernicus.eu)

然后打开：

https://cds.climate.copernicus.eu/how-to-api

就能看到url和key

配置文件，C:\Users\user_name\下应该是没有.cdsapi配置文件的，需要自己手动创一个：可以打开记事本，然后复制、粘贴、保存，文件名为.cdsapi，内容如下图注意保存类型选择所有文件

代码

这里直接放代码，使用queue来多线程提速，同时处理4个任务

import cdsapi
import os
import calendar
import netCDF4 as nc
import threading
from queue import Queue
os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'
# 创建一个函数来构建下载请求
def download_era5_data(year, month, day, download_dir):
    dataset = "derived-era5-pressure-levels-daily-statistics"
    request = {
        "product_type": "reanalysis",
        "variable": ["geopotential"],
        "year": year,
        "month": [month],
        "day": [day],
        "pressure_level": [
            "300", "500", "700",
            "850"
        ],
        "daily_statistic": "daily_mean",
        "time_zone": "utc+00:00",
        "frequency": "6_hourly"
    }

    # 定义文件名格式为 年月日.nc，并设置下载路径
    filename = f"ERA5_{year}{month}{day}.nc"
    filepath = os.path.join(download_dir, filename)

    print(f"Checking if file {filename} exists and is complete...")
    # 检查文件是否已存在，且文件完整
    if os.path.exists(filepath):
        try:
            # 尝试打开文件以验证其完整性
            with nc.Dataset(filepath, 'r') as ds:
                print(f"File {filename} is complete and valid.")
        except OSError as e:
            # 如果文件不完整或损坏，删除并重新下载
            print(f"File {filename} is corrupted. Redownloading...")
            os.remove(filepath)
            download_file_from_era5(request, filepath)
    else:
        # 如果文件不存在，则直接下载
        print(f"File {filename} does not exist. Starting download...")
        download_file_from_era5(request, filepath)

# 创建一个函数来执行实际下载
def download_file_from_era5(request, filepath):
    print(f"Downloading data to {filepath}...")
    client = cdsapi.Client()
    client.retrieve("derived-era5-pressure-levels-daily-statistics", request).download(filepath)
    print(f"Download completed for {filepath}")

# 定义下载目录
download_dir = r"F:\ERA5\surface\geopotential"

print(f"Checking if download directory {download_dir} exists...")
# 检查目录是否存在，不存在则创建
if not os.path.exists(download_dir):
    print(f"Directory {download_dir} does not exist. Creating directory...")
    os.makedirs(download_dir)
else:
    print(f"Directory {download_dir} already exists.")

# 定义下载任务队列
queue = Queue()

# 创建一个下载工作线程类
class DownloadWorker(threading.Thread):
    def __init__(self, queue):
        threading.Thread.__init__(self)
        self.queue = queue

    def run(self):
        while True:
            year, month, day = self.queue.get()
            print(f"Worker {threading.current_thread().name} processing download for {year}-{month:02d}-{day:02d}...")
            try:
                # 将月份和日期格式化为两位数
                month_str = f"{month:02d}"
                day_str = f"{day:02d}"
                download_era5_data(str(year), month_str, day_str, download_dir)
            except Exception as e:
                print(f"Error downloading data for {year}-{month_str}-{day_str}: {e}")
            finally:
                print(f"Worker {threading.current_thread().name} finished processing download for {year}-{month:02d}-{day:02d}.")
                self.queue.task_done()

# 创建四个工作线程
print("Creating worker threads...")
for x in range(4):
    worker = DownloadWorker(queue)
    worker.daemon = True
    worker.start()
    print(f"Worker thread {worker.name} started.")

# 循环遍历2000到2023年，将任务加入队列
print("Adding download tasks to the queue...")
for year in range(2000, 2024):
    for month in range(1, 13):
        # 获取当前月份的最大天数
        _, max_day = calendar.monthrange(year, month)
        for day in range(1, max_day + 1):
            print(f"Adding task for {year}-{month:02d}-{day:02d} to the queue...")
            queue.put((year, month, day))

# 等待所有任务完成
print("Waiting for all tasks to complete...")
queue.join()
print("All download tasks completed.")

代码需要修改dataset和request

一般是先手动预选择需要下载的数据，然后复制API提供的内容并替换：

然后替换路径即可

这里是每天下载一个文件，也可以按照你的需求更改循环代码

代码有几个优点，可以说得上是ERA5下载的终极版了：

中断下载可以反复运行，补充未下载的内容
可以按照循环内所有的文件，检测下载中断的文件，并重新下载
四线程提速
无需借助任何辅助下载软件

下载提速

一般来说下载速度还是比较快的，大多数在几M/s，偶尔也会几百k/s

这里采用气象家园-kermit 提供的方法。

找到下载的cdsapi库的安装目录，打开目录下的api.py，一般可以在conda环境中找到

搜索这段代码：

def _download(self, url, size, target):

在这段代码中添加下面一行代码，然后保存

url=url.replace(".copernicus-climate.eu",".nuist.love")

这个url是他做的镜像网站，在一些情况下可以加速。

求求你点个在看吧，这对我真的很重要

地学万事屋

分享先进Matlab、R、Python、GEE地学应用，以及分享制图攻略。

最新文章

重磅！智能遥感新质生产力：目测一大波地学人的饭碗要碎了...

搞科研，原来“模仿”才是最快发论文的方法？

打破记录！“真心建议”各位地学研究生读一下《Nature》这篇文章...

无敌了！python中国地图绘制模板，含九段线，南海诸岛，还不收藏的都是神人了

还不会分析地理数据的空间变化规律？教你可解释的地理加权集成学习方法GWRBoost

物理机制+神经网络=Nature！教你NeuralGCM正刊气象大模型！（含代码）

说句实话，研究生搞科研，哪有什么真正的创新点…

OpenAI重磅更新：发布目前最强推理模型ChatGPT-o1（内含测评和体验方式）

太强了！如何用ChatGPT结合Python处理地学数据

登顶Nature，准备起飞！KAN-UNet又杀疯了（有代码）

裁员了，很严重，大家做好准备吧！

地理学如何进行洪水分析？

全网首发！SWOT水资源卫星数据处理方法（含代码）

我现在每天用GPT帮我进行数据分析...

顶刊技巧！3D绘图！

能发顶刊！可解释机器学习地质灾害分析（附代码）

奉劝各位，失业了就不要再去找工作了

现在还用KAN网络的也是神人了...

绘制地理空间矢量场

诚征男友！98年妹纸，北大本科，人大硕士，部委公务员，偶尔被夸好看，江浙沪独女

半价用ChatGPT，我上车了！

（待会删）请大家低调浏览，地学代码提速300%的绝密技巧！

完美解决Python地学库安装问题（最新）

又一篇遥感顶刊！这个idea简直“ 杀疯了 ”

现在做地学深度学习不用TorchGeo也是神人了...

为啥本科生都能发顶会，而博士一篇都没有？

很重要！快把Python升级到3.13吧（利好机器学习和地学分析）

很严重，大家做好准备吧.....

新版ERA5下载多线程加速，看这一篇就行了

说句实话，研究生搞科研，哪有什么真正的创新点…

地学中常见的归因分析，就是这么简单！【附代码】

SCI遥感一区TOP，再次刷新顶刊巅峰！

地学科研与论文｜这个新方向杀疯了，抓紧学起来…

的确可以封神了！原来写SCI这么简单

【AI+遥感】今天分享几个能发SCI的创新点！

作为一个穷学生，我是这样玩大模型的！强烈推荐！

频发地学顶刊！这个新方向杀疯了，抓紧搞起来

在地球科学中使用ChatGPT4o效果惊呆了…【建议保存】

为啥本科生都能发顶刊，而博士一篇都没有？

机器学习洪水预测

原来idea都是这么找的，强烈建议科研人入局AI！！

免费学习遥感Workshop还送《黑神话：悟空》？教你土地覆盖变化检测及分类制图！

地理数据缺失？试试空间插值，真的很简单

这个工具可以一键下载全球任意地区高分辨率Google影像

一位外国小哥把整个Transformer都给可视化清楚了，这下彻底理解注意力机制了！

为啥本科生都能发顶刊，而博士一篇都没有？

的确可以封神了！原来GPT数据处理这么简单

栅格数据时空序列分析，看这一篇就够了

轰动地学界｜又一篇地学领域顶刊！这个idea简直“ 杀疯了 ”

日结/天130-260，工作简单0基础可做招3000人！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉