近地表空气温度是全球气候变化的核心指标之一,其不仅影响生态环境和农业生产,还关系到人类的健康和生活质量。随着气候变化的加剧,准确理解温度变化规律与趋势对于制定有效的环境适应政策和应对措施至关重要。气象观测台站提供了直接的、长期的气温记录,是研究区域和全球气候变化的重要依据。然而,台站观测也面临一些挑战和问题,如数据采集过程中可能会受到多种因素影响,如设备故障、维护缺失、台站变迁等,导致观测记录的时空不连续。这不仅增加了数据应用的复杂性和成本,也会对研究结论的全面性和可靠性产生潜在影响。
为解决这一问题,我们基于EAR5-Land数据和全球综合地表数据库(ISD)对中国及其周边地区2000多个台站的气温观测记录进行了缺失填补和时序延展,制备了同一起止时间,全面覆盖目标区域的融合数据集,为用户提供了一个完整、连续、直接可用的逐时温度数据集。相比于原始观测记录,该数据集将原始时间分辨率从3小时提升到小时,将数据可用率从先前的34%,提升到94%,为中国及周边地区的气象气候研究提供了高质量的、时空一致、多要素的数据集。
当前数据集覆盖地理范围为3°N–54°N,60°E–136°E,涉及中国、蒙古、巴基斯坦、阿富汗、塔吉克斯坦、吉尔吉斯斯坦等29个国家,时间分辨率为小时,时间范围为2000-2023年。数据文件格式为CSV,命名规则为:CSA_2mTa_[CTRY]_[USAF-WBAN]_2000-2023.csv,其中, CTRY是地区/国家代码,USAF-WBAN为观测站标识码。用户通过上述信息可以从数据集附带的站点空间分布Shapefile文件中获得对应的地理位置与描述信息。每个CSV文件对应一个站点2000-2023年期间逐时观测数据,共210385行,7列,列标签依次对应的内容为年、月、日、小时、原始观测、重建序列和质量标签。后续版本将会对数据结构进行进一步优化更新。
| 采集时间 | 2000/01/01 - 2023/12/31 |
|---|---|
| 采集地点 | 亚洲 |
| 数据格式 | CSV,Shapefile |
| 数据空间分辨率(/米) | 30米 |
| 数据时间分辨率 | 小时 |
| 坐标系 | WGS84 |
| 投影 | GCS_WGS_1984 |
基础数据来源于欧洲中期天气预报中心的ERA5-Land数据集和美国国家环境信息中心的全球综合地表数据库。
数据集制备流程主要涉及4主要步骤:(1)EAR5数据与LSD数据的时空配准;(2)观测数据的质量控制与缺失判定;(3)构建分布式机器学习融合模型,对缺失位置进行时空重建填补;(4)逐站点数据质量评估与检查。
基于均方根误差(RMSE)和纳什效率系数(NSE)对数据集进行了质量评估,总体RMSE ≈1.05℃,NSE≈0.97。此外,每个站点的数据文件最后1列为质量标识,以1,2,3分别标识数据质量的好、中、差。
| # | 编号 | 名称 | 类型 |
| 1 | 2022YFF07117 | 冰冻圈大数据挖掘分析关键技术及应用 |
本作品采用
知识共享署名
4.0 国际许可协议进行许可。
| # | 标题 | 文件大小 |
|---|---|---|
| 1 | _ncdc_meta_.json | 6.0 KiB |
| 2 | 数据集-v1 | |
| 3 | 站点信息 |
© 中国科学院西北生态环境资源研究院 2005- 备案号:陇ICP备2021001824号-21
兰州市东岗西路320号, 730000, 电话: 0931-4967592,0931-4967596

