冰川湖是冰冻圈的重要组成部分,被认为是气候变化的关键哨兵。虽然卫星图像提供了一种直接的方法来监控其动态,但传统方法通常是主观且耗时的。深度学习技术虽然前景广阔,但一直受到标记冰川湖数据集稀缺的阻碍。为了解决这一限制,我们推出了 Glacial Lake 图像数据集 (GLID),这是同类数据集中第一个公开可用的集合。
该数据集包含 18,367 个(512 × 512 像素)样本对(湖泊多边形和相应的图像),这些样本对来自多个来源(WorldView-2、Sentinel-2、Landsat-8 和 Gaofen-2)的 36 个场景,覆盖整个喜马拉雅地区。然后,我们提出了一个用于冰川湖提取的可转移深度学习网络。我们的研究结果强调了高质量训练数据在模型性能中的关键作用。GLID 训练的模型取得了优异的结果,准确率为 95.36%,召回率为 87.50%,F1 评分为 91.66%,mIoU 为 82.07%。值得注意的是,这种方法在不同地区表现出有希望的可转移性,包括北美、南美、格陵兰岛和亚洲高山地区。GLID 数据集为推进基于机器学习的冰川制图研究提供了宝贵的资源。通过提供大规模、可公开访问的标记数据集合,我们旨在促进开发更准确、更高效的方法,以监测和了解气候变化对冰川湖生态系统的影响。
数据量 | 7.9 GiB |
---|---|
数据格式 | png,tif,excel,shp, |
坐标系 |
数据来源于:https://zenodo.org/records/14838695
GLID 的构建过程,包括数据预处理、数据集构建和后处理。
首先,对图像进行预处理,包括裁剪图像(用于空间范围为 150 km × 150 km 的手动注释)和选择波段(选择 R、G 和 B 波段)。所有图像均通过线性拉伸从原始 16 位转换为 8 位。请注意,所有图像的原始空间分辨率都保留了,没有重新采样,这可能会导致空间信息丢失,尤其是在缩小高分辨率数据(例如,WorldView-2 和 Gaofen-2)时。高亚洲冰川湖 (HAGL) 清单(Wang et al., 2020)通过喜马拉雅地区进行裁剪,以促进进一步加工。在基于伦道夫冰川清单 (RGI) 6.0 的数据预处理中,还创建了一个 10 公里的冰川缓冲区(Pfeffer 等人,2014 年)。这种缓冲区后来用于非冰川湖过滤。
然后,在数据集构建过程中,以 2018 年的 HAGL 清单作为参考数据对冰川湖进行注释。对遗漏、不匹配和错误的冰川湖边界进行手动编辑,以获得与相应图像完全对齐的冰川湖标签。最后,实施了冰川湖的后处理。如前所述,为了排除非冰川湖,根据以前的研究使用了 10 公里的缓冲区(Chen et al., 2021b, Tang et al., 2024)。缓冲区外的冰川湖矢量被视为非冰川湖并消除。然后对冰川湖边界进行栅格化,并以相同的像素大小裁剪冰川湖标签和图像(例如,256 × 256、512 × 512 和 1024 × 1024)。样本裁剪后,没有有效值的标签(纯背景样本)被删除。
在对不同的样本量进行实验后,最终图像和标签在 Glacial Lake 图像数据集中为 512 × 512。
# | 标题 | 文件大小 |
---|---|---|
1 | GLID.rar | 6.6 GiB |
2 | GLID_annotation.zip | 3.0 MiB |
3 | Optical_images_source.xlsx | 11.1 KiB |
4 | Transferability validation.zip | 304.3 MiB |
5 | _ncdc_meta_.json | 6.2 KiB |
6 | val.zip | 1.0 GiB |
© 中国科学院西北生态环境资源研究院 2005- 备案号:陇ICP备2021001824号-21
兰州市东岗西路320号, 730000, 电话: 0931-4967592,0931-4967596