ChinaAI-FSC,是中国区域首个大规模、标准化、面向人工智能应用的积雪覆盖比例(FSC)样本集,覆盖2000年至2022年共计22个积雪季,有效填补了长期积雪监测领域的关键空白。该数据集包含47,728个样本(每个样本为128×128的MODIS像元切片),可支持基于“点”和“面”尺度的AI-FSC建模。通过构建结构化、透明的技术流程——涵盖系统化的样本制备、严格的质量控制、时空样本划分以及标准化的元数据——确保了数据集在AI应用中的可复现性、物理一致性及互操作性。研究采用创新的“四层—四域—十五指标”评估体系,从数据、信息、系统和应用四个维度对数据集的可靠性及人工智能就绪度进行了系统评估。三个典型应用案例——(1)六种机器学习/深度学习模型(人工神经网络、支持向量回归、随机森林、卷积神经网络、UNet、残差网络)的基准测试;(2)标准MODIS FSC的验证;(3)全国无缝FSC制图——充分验证了ChinaAI-FSC的数据质量、可靠性与可用性。通过提供协调一致、经过验证且文档完备的样本,ChinaAI-FSC为AI驱动的积雪覆盖制图、长期监测及冰冻圈—水文模型构建奠定了统一的数据基础,有力推动了冰冻圈科学研究中可复现、可互操作及下一代研究范式的发展。
| 采集时间 | 2000/01/01 - 2022/12/31 |
|---|---|
| 采集地点 | 中国 |
| 数据量 | 60.9 GiB |
| 数据格式 | *.tif |
| 数据空间分辨率(/米) | 0.005° |
| 数据时间分辨率 | 日 |
| 坐标系 | WGS84 |
ChinaAI-FSC 数据集构建所采用的数据源主要包括三类:(1)高分辨率参考影像:Landsat-5 TM、Landsat-7 ETM+、Landsat-8 OLI、Landsat-9 OLI-2 的 Collection 2 Level-2 地表反射率产品,以及 Sentinel-2A/2B MSI Level-2A 地表反射率产品,来源于 USGS Earth Explorer 和 ESA Copernicus 数据平台,用于生成高精度积雪覆盖比例参考标签。(2)MODIS 数据:采用全球 500 米无缝地表反射率数据集(SDC500)获取 MODIS 波段 1–7 反射率,并结合 MOD10A1 标准积雪产品与 MCD12Q1 土地覆盖产品,作为模型输入特征的主要来源。(3)辅助数据:包括全球年度森林覆盖度数据(GLOBAMP FTC)、中国及周边地区每日 1 公里全天气地表温度数据(TRIMS LST)、SRTM 数字高程模型及其衍生的地形因子(高程、坡度、坡向、地形起伏度、地表粗糙度),以及经纬度和日序等地理与时间因子。所有数据均经过统一的投影转换与空间重采样,匹配至 MODIS 分辨率与地理坐标系。
(1)高分辨率参考积雪覆盖比例计算:基于改进的 SNOMAP 算法,利用 Landsat 与 Sentinel-2 影像生成 30 米分辨率的二值积雪图,并以 MODIS 像元为中心、1.5 倍像元大小为半径的邻域内,统计高分辨率积雪像元比例,得到 MODIS 尺度的积雪覆盖比例参考值。(2)特征变量提取:共提取 20 个特征变量,包括 MODIS 地表反射率(波段 1–7)、归一化差值积雪指数、归一化差值植被指数、土地覆盖类型、地表温度、森林覆盖度、地形因子(高程、坡度、坡向、地形起伏度、地表粗糙度)、经纬度及日序。(3)样本生成:将研究区划分为 0.64°×0.64° 的规则格网,每个格网对应 128×128 个 MODIS 像元,形成空间图块样本,共生成原始样本 166,763 个。(4)质量控制:从像元级数据有效性、光谱—积雪物理一致性、温度—积雪能量平衡一致性、地形调节一致性、土地覆盖与森林冠层效应一致性、跨变量一致性等六个维度,开展多层次、多约束的质量控制,最终筛选出 47,728 个高质量样本。(5)样本划分:按照空间不重叠原则,以 2:1:1 的比例将样本划分为训练集、验证集和测试集,确保模型评估的泛化能力。
(1)物理一致性:基于 20 个特征变量与积雪覆盖比例之间的相关性分析,显示积雪覆盖比例与归一化差值积雪指数、可见光反射率呈显著正相关,与地表温度、短波红外反射率呈显著负相关,与高程、地形等因子呈现合理的物理关系,且空间上特征与积雪分布高度吻合,表明数据集具有良好的物理一致性。(2)独立验证:利用 2013–2020 年 507 个气象站的积雪深度观测数据对参考积雪覆盖比例进行验证,总体精度达 0.944,其中山地和森林区域的精度分别为 0.970 和 0.906,验证了参考标签的可靠性。(3)人工智能就绪度评估:创新性地构建了“四层—四域—十五指标”评估体系,从数据、信息、系统、应用四个维度对数据集进行全面评价,确认其在数据清洗、多源融合、元数据完备性、空间组织、算法适用性等方面均达到较高就绪水平。(4)代表性应用验证:通过六种主流机器学习与深度学习模型的基准测试、MODIS 标准产品对比验证、以及全国无缝积雪覆盖比例制图三个应用案例,进一步证实了数据集在支持高精度、大尺度、跨区域积雪覆盖比例建模方面的可靠性、代表性与泛化能力。
| # | 编号 | 名称 | 类型 |
| 1 | 42130113 | 深度学习融合遥感大数据的陆地水文数据同化理论、方法与集成技术 | 国家自然科学基金 |
本作品采用
知识共享署名 4.0 国际许可协议进行许可。
| # | 标题 | 文件大小 |
|---|---|---|
| 1 | AI-Ready China FSC |
| # | 时间 | 姓名 | 用途 |
|---|---|---|---|
| 1 | 2026/04/25 06:37 | 匿名 [210.77.77.* ] |
FTP直接下载
|
| 2 | 2026/04/22 14:52 | 匿名 [210.77.77.* ] |
FTP直接下载
|
| 3 | 2026/04/22 03:23 | 匿名 [210.77.77.* ] |
FTP直接下载
|
© 中国科学院西北生态环境资源研究院 2005- 备案号:陇ICP备2021001824号-21
兰州市东岗西路320号, 730000, 电话: 0931-4967592,0931-4967596

