本数据集为大兴安岭西坡额尔古纳地区根河流域多年冻土分布数据,结合实测钻孔和坑探数据,以地形因子、植被因子、气象因子和土壤与热状况因子数据为驱动,采用机器学习方法(随机森林)进行模型构建。多年冻土主要分布在海拔较高的山地缓坡区域、丘陵及部分低洼地带。冻土分布呈岛状或片状。可靠的精度使得此冻土分布数据可以作为全球变暖背景下根河流域多年冻土模拟的标定基准和历史参考。数据格式为GeoTIFF,空间分辨率约30 m,投影为WGS_1984_Albers。
| 采集时间 | 2023/08/01 - 2025/10/31 |
|---|---|
| 采集地点 | 大兴安岭西坡额尔古纳地区根河流域 |
| 数据量 | 241.0 MiB |
| 数据格式 | *.tif |
| 数据空间分辨率(/米) | 30m |
| 数据时间分辨率 | 年 |
| 坐标系 | WGS84 |
| 投影 | WGS_1984_Albers |
原始数据:实测钻孔和坑探数据;环境变量数据:选取了地形、植被、气候及土壤四大类环境变量作为预测因子。
地形因子:基于数字高程模型(DEM)提取海拔、坡度、坡向及地形起伏度。
植被因子:利用MOD13A3遥感产品提取归一化植被指数(NDVI)。
气象因子;地表温度(GST)数据则基于实测钻孔及地表测温数据,预先通过随机森林模型模拟获取,作为关键中间变量输入。
土壤与热状况因子:整合计算融化指数、冻结指数、腐殖质厚度及土壤含水率。
数据预处理:对上述所有多源栅格数据进行空间配准与标准化处理。统一投影坐标系为 WGS_1984_Albers,将空间范围裁剪至研究区边界,并采用重采样技术将所有变量的空间分辨率统一降尺度至30 m,格式统一为GeoTIFF,确保多源数据在空间上的严格匹配。利用ArcGIS的多值提取至点(Extract Multi-Values to Points)功能,提取每个样本点对应的环境变量数值,构建“样本-环境特征”高维数据集。构建的样本数据集包含目标变量(分类标签:1代表多年冻土,0代表季节冻土)及对应的特征向量。对提取结果进行完整性检查,剔除含有缺失值(NoData)或异常值的样本,确保模型输入数据的质量。
随机森林模型构建:采用分层随机抽样法(Stratified Random Sampling),将数据集划分为训练集(70%)和测试集(30%)。基于Python环境下的scikit-learn机器学习库构建随机森林分类模型。针对样本不平衡问题,将class_weight参数设为 'balanced'。通过网格搜索对关键超参数进行优化,最终确定决策树数量(n_estimators)为1000,最大深度(max_depth)及节点分裂最小样本数(min_samples_split)等参数,并固定随机种子(random_state)以保证结果的可重复性。将环境变量作为特征输入,冻土类型作为标签进行模型训练。
计算混淆矩阵、总体准确率(Overall Accuracy)、精确率(Precision)、召回率(Recall)、F1-Score及Kappa系数。结果显示,模型具有较高的一致性。
| # | 编号 | 名称 | 类型 |
| 1 | 2022FY100700 | 东北高纬度多年冻土本底及冻融灾害调查 | 基础资源调查项目 |
本作品采用
知识共享署名 4.0 国际许可协议进行许可。
| # | 标题 | 文件大小 |
|---|---|---|
| 1 | 大兴安岭西坡额尔古纳地区根河流域30m多年冻土分布图(2023-2025年).jpg | 1.6 MiB |
| 2 | 大兴安岭西坡额尔古纳地区根河流域30m多年冻土分布图(2023-2025年).tif | 239.5 MiB |
DiPpsx
GEiqXVnb
© 中国科学院西北生态环境资源研究院 2005- 备案号:陇ICP备2021001824号-21
兰州市东岗西路320号, 730000, 电话: 0931-4967592,0931-4967596

