1. 确定评估目标与时间窗口。小分段:a) 明确业务关键性(如是否托管生产库);b) 设定可接受的RTO/RPO与目标可用率(例如99.95%);c) 选择测试时间(非高峰优先,必要时安排维护窗口以做压力测试)。
2. 索取资质与现场信息。小分段:a) 要求厂商提供数据中心位置、电力冗余(N+1/2N)、UPS与发电机配置;b) 索取ISO 27001、SOC 2、Tier等级或第三方审计报告;c) 要求机房照片、门禁与消防系统说明。
3. 审核合同与SLA细则。小分段:a) 检查可用率计算方法(排除维护窗口如何计费);b) 故障响应与解决时限、赔偿条款(信用额度)要明确;c) 支援管道(电话、工单、专属客服)与值班时间需写入合约。
4. 使用工具按步骤测试。小分段:a) Ping与丢包:ping -c 100 your.host,记录平均延迟与丢包率;b) 路由追踪:mtr -r -c 100 your.host 或 traceroute,识别跳点瓶颈;c) 带宽与吞吐:iperf3 -c server_ip(需厂家提供测试端或临时开端口);d) HTTP响应:curl -o /dev/null -s -w "time_total=%{time_total}\n" https://your.host,连续多次并记录统计。
5. 检查网络与平台安全。小分段:a) SSL/TLS链路:openssl s_client -connect your.host:443 -servername your.host,确认证书链与到期日;b) 扫描已开放端口:nmap -Pn your.host,确认只有必要端口开放;c) 要求并核对日志保存策略、入侵检测、防DDoS防护方案与备份加密措施。
6. 验证备援与恢复能力。小分段:a) 要求说明异地备援站点与数据复制方式(同步/异步);b) 实施一次恢复演练:在测试环境触发一次备份恢复并计时恢复过程;c) 检查快照一致性(数据库一致性)与恢复后数据完整性。
7. 集成监控与报警流程。小分段:a) 要求开放API或監控指標(Prometheus、SNMP等);b) 配置告警阈值并模拟告警(例如人工停止服务)确认通知路径;c) 核对历史事件记录与响应时间,核实是否与SLA一致。
8. 建立评分表与最终决策步骤。小分段:a) 按资质、性能、安全、SLA、价格、支援六项打分(1-5);b) 附上测试原始数据、截图与命令输出作为证据;c) 根据权重计算总分并给出是否可上线或需谈判改进项。
9. 问:如何快速判断? 答:先看资质(ISO/SOC)、机房冗余与SLA,再做三项快速测试:ping 100次看丢包与延迟;curl 测试平均响应时间;询问并核对最近6个月可用性报告与客户参考。若三项通过且SLA明确,初步可信。
10. 问:没有厂商测试端口怎么办? 答:使用公网测项:1) 从多个地点(例如云商或办公室)发起curl与ping测延迟;2) 使用第三方Speedtest或RIPE Atlas测节点;3) 请求临时开放iperf3端口或提供镜像下载做下载测速。
11. 问:发现问题怎么处理? 答:先以工单形式提交详细证据(日志、时间戳、命令输出),按SLA规定催促响应;若厂家未在约定时限内解决,依据合同启动信用赔偿条款或要求补救计划并保留法律与仲裁证据。