ncdc logo title
服务器运维规程

  1 总则

  为保障中心服务器稳定、安全、高效运行,规范服务器部署、配置、监控、维护、故障处置、变更管理,依据中心《日常运维管理条例》,制定本规程。

  本规程适用于中心所有物理服务器、虚拟服务器、应用服务器、数据库服务器、存储管理服务器等全类型服务器。

  2 部署与配置规范

  标准化部署:操作系统、驱动、补丁、基础组件统一基线,统一部署脚本,避免差异风险。

  安全基线配置:关闭不必要服务、端口、账号;启用防火墙、访问控制;开启审计日志;设置强密码、定期更新。

  资源配置:按业务负载合理分配CPU、内存、磁盘、网络资源;数据库、应用、服务分离部署,避免资源争抢。

  命名与标识:服务器命名统一为“机房-用途-序号”,物理设备贴标签,资产台账完整。

  3 日常监控与巡检

  7×24小时监控:监控CPU、内存、磁盘、网络、进程、服务、端口、日志、告警;分级告警、及时响应。

  每日巡检:系统负载、磁盘使用率、日志报错、进程状态、备份任务、安全告警。

  每周巡检:补丁更新、漏洞扫描、权限核查、日志审计、性能指标。

  每月巡检:硬件健康、磁盘寿命、性能测试、基线核查、配置备份、资产盘点。

  4 系统维护与优化

  补丁管理:定期更新系统补丁、安全补丁、驱动程序;先测试、后上线,规避业务风险。

  性能调优:优化内核参数、内存分配、IO策略、数据库配置、应用参数;定期分析性能瓶颈,持续优化。

  日志管理:日志集中存储、分类归档、定期清理;保留周期不少于6个月;关键日志永久留存。

  配置备份:系统配置、服务配置、数据库配置定期备份;变更前备份、变更后校验。

  5 变更管理

  所有服务器配置、系统升级、组件更新、权限变更、服务启停、硬件更换等操作,执行申请-审批-测试-实施-验证-记录-归档流程:

  变更申请:说明原因、内容、范围、风险、回退方案。

  审批:技术负责人审核,重大变更需管理层审批。

  实施:低峰期操作,全程留痕;变更后验证业务正常。

  归档:变更记录、配置备份、测试报告归档留存。

  6 故障处置

  分级响应:一级(核心业务中断)立即处置;二级(局部异常)快速处置;三级(轻微告警)及时处置。

  排查流程:告警确认→原因排查→影响评估→处置修复→验证恢复→记录报告→复盘优化。

  数据安全:故障处置优先保障数据完整;禁止随意删改数据;必要时先备份再操作。

  应急恢复:硬件故障及时更换;系统故障快速恢复;数据异常从备份恢复。

  7 安全管理

  账号管理:管理员账号专人专用;普通账号按需开通;定期清理冗余账号;开启二次认证。

  访问控制:远程访问限制IP;关键服务加密;定期扫描弱口令、非法访问。

  安全防护:防病毒、防恶意代码、防入侵;定期漏洞修复、安全加固。

  日志审计:安全日志、操作日志、访问日志定期审计,发现异常及时处置。

  8 附则

  本规程由国家冰川冻土沙漠科学数据中心负责解释、修订,自发布之日起实施。