该数据集以原始序列数据为基础,经过与GenBank及本地数据库的双重比对,并进一步采用遗传距离分析(如Barcoding gap与序列相似性比较)及系统发育树分析等方法,系统剔除了其中的低质量与冗余序列。这一处理流程显著提升了数据的物种鉴定准确性与数据库整体可靠性,最终构建成高质量的中国干旱区种子植物DNA条形码参考数据库。我们同时更新了该数据库的v2版本,其包含的序列数据已同步公开于GenBank,以期为区域生物多样性监测与保护提供更坚实、持续更新并可公开获取的数据基础。
本数据集针对阿拉善高原-河西走廊荒漠区干旱气候特点,以我国河西走廊和阿拉善高原为调查核心区,兼顾毗邻马鬃山、祁连山西部山地、甘肃中部干旱区等区域,于2017-2021年,调查了分布在这些区域的主要荒漠植物,并采集了标本及DNA分子材料。依据项目要求,对每份植物材料的5个DNA条形码片段(ITS,matK, rbcL, trnL-F, trnH-psbA)进行测序。
本数据集包含DNA条形码618份2769条,其中阿拉善高原447份2003条,河西走廊171份766条。
| 采集时间 | 2017/01/01 - 2021/12/31 |
|---|---|
| 采集地点 | 阿拉善高原和河西走廊 |
| 数据量 | 2.7 MiB |
| 数据格式 | excel |
| 坐标系 |
自主产生。
野外采集、实验试验和数字化加工。
1.植物标本的采集制作及DNA材料的获取
植物标本在野外采集,并栓挂采集号牌,野外记录采集地点坐标及生境。为了保证凭证标本与DNA材料的一致性,在压制标本过程中,直接从凭证标本上采集无明显病害或虫害的健康叶片,放在纸张很薄的小纸袋内,纸袋上的编号与标本采集号一致。经筛选、剔除腐烂标本,共获得1300份完整标本,标本经压干后上台纸。DNA材料在-80℃冰箱永久保存。
2.植物标本图像数据获取
标本图像采用高分辨相机拍摄,进行图像亮度调整和锐化处理,形成植物标本图像数据。
3.DNA条形码产生
采用磁珠法或CTAB法提取植物DNA。提取完成后,取少量样品利用琼脂糖凝胶电泳检测DNA的质量和完整性。采用PCR扩增项目要求的5个DNA条形码。扩增产物交由专业测序公司进行测序,为保证获得正确的序列,分别从两端测通。测序使用ABI系列自动测序仪(Applied Biosystems, Foster City, California, USA)。测序引物使用PCR扩增引物。
得到测序公司返回的峰图后,使用Geneious或Chromas软件进行人工校对,去除两端低质量的碱基序列,将正反序列进行拼接编辑,得到DNA序列并存为FASTA格式文件。为了验证测序的准确性或材料是否受到污染,通过NCBI网站的BLASTn功能检查每个样本已拼接好的DNA条形码序列。若某样本的条形码序列(query sequence)匹配的score值最高者(subject sequence)为同科、同属或同种的序列时,判定此样本在材料采集和实验过程中未出现错误,其条形码序列可初步确定为正确。
4.DNA条形码信息表生成
对采样地点、地理坐标、海拔及生境等信息进行整编,同时通过样本编号与植物标本图像数据相衔接,通过样本采集号与实物标本相衔接,最终形成DNA条形码描述信息表。
| # | 编号 | 名称 | 类型 |
| 1 | 2017FY100200 | 中国荒漠主要植物群落调查 | 国家科技基础性工作专项 |
本作品采用
知识共享署名
4.0 国际许可协议进行许可。
| # | 标题 | 文件大小 |
|---|---|---|
| 1 | _ncdc_meta_.json | 7.1 KiB |
| 2 | 阿拉善高原-河西走廊荒漠植物DNA条形码数据集.xlsx | 2.7 MiB |
© 中国科学院西北生态环境资源研究院 2005- 备案号:陇ICP备2021001824号-21
兰州市东岗西路320号, 730000, 电话: 0931-4967592,0931-4967596

