淤地坝作为黄土高原地区关键的水土保持工程,兼具控制土壤侵蚀与保障粮食安全的核心功能,但其智能化管理长期受限于数据获取效率低、模型泛化能力不足及标准化数据集缺失等技术瓶颈。本研究依托吉林一号0.75米高分辨率遥感影像,以黄土高原典型流域韭园沟为采样区,构建了一套面向AI-Ready的黄土高原坝地标准化语义分割数据集。
采集时间 | 2021/11/11 - 2021/11/11 |
---|---|
采集地点 | 韭园沟流域 |
数据格式 | *.tif*.jpg |
坐标系 | WGS84 |
本研究采用吉林一号宽幅01A卫星PMS02传感器获取的0.75米高分辨率影像作为核心数据源(原始影像数据访问地址:https://www.jl1mall.com/store/ )。经过多时相检索与质量评估,选定2021年11月11日无云覆盖影像(云量≤0%),该数据采用WGS 1984坐标系UTM 6°带投影,覆盖面积548.30 km²,太阳高度角29.7493°,传感器侧摆角-2°。
该数据集加工具体流程分为六个阶段实施:
(1)格网划分阶段,将样本区原始影像规则裁剪为256×256像素网格单元,共生成3689个初始样本;
(2)样本筛选阶段,通过目视解译剔除不含坝地的无效样本,保留584个有效像素网格单元;
(3)语义标注阶段,基于Labelme开源平台完成全样本矢量化标注,构建以“gully”为统一地物类别的语义分割数据集;
(4)标签转换阶段,通过GDAL库将JSON矢量标注文件批量栅格化为二值图像,确保标签与原始影像空间坐标严格匹配;
(5)数据增强阶段,对原始样本实施镜翻转、旋转及亮度调整等几何-辐射组合变换,将样本量扩展至2920个;
(6)数据集划分阶段:将增强后的数据集按6:2:2的比例划分为训练集、验证集和测试集三个独立子集。该标准化流程兼顾样本空间表征完整性与算法泛化需求,其产出的多尺度增强数据集可支撑主流卷积神经网络进行特征学习。
研究团队通过野外实地调查(利用无人机影像和现场定位)校正遥感解译数据的空间偏差,确保坝地语义分割数据的准确性;随后设计系统性控制变量实验,借助多模型架构测试(如mIoU超过80和OA超过89),证实数据集类别划分清晰、标注质量高、样本分布均衡;与公开数据集对比显示,本研究数据集在空间精度和可靠性上显著提升(如提取结果与实际地物吻合度更高)。该数据集具备高精度、一致性强和适配性广泛的特征,为后续研究与应用提供了坚实可靠的数据支撑。
# | 编号 | 名称 | 类型 |
1 | 2022YFF0711704 | 国家重点研发计划 冰冻圈大数据挖掘分析关键技术及应用 | 国家重点研发计划 |
2 | E01Z7902 | 国家冰川冻土沙漠科学数据中心 | 其他 |
# | 标题 | 文件大小 |
---|---|---|
1 | _ncdc_meta_.json | 5.9 KiB |
2 | 面向AI-Ready的黄土高原坝地标准化语义分割数据集.zip | 522.8 MiB |
© 中国科学院西北生态环境资源研究院 2005- 备案号:陇ICP备2021001824号-21
兰州市东岗西路320号, 730000, 电话: 0931-4967592,0931-4967596