要验证基础连通性,先用常规的 ping 和 traceroute(或 mtr)从多个外部节点向目标 机房租用的IP/域名发起测试。观察平均 延迟(RTT)、丢包率和跃点情况。常见阈值参考:同城/香港内 RTT <10ms-30ms,亚洲互联一般 <30ms-80ms,跨太平洋到美西 ~120-180ms。若 ping 波动大或存在中间跃点丢包,说明途中路由或上游承载存在问题。
评估可用性应结合被动与主动监控:使用外部监控平台(如 UptimeRobot、Pingdom、Zabbix)做 1 分钟或 5 分钟级别的可用性探测;同时要求提供商的 SLA(可用率、赔付条款)并核验机房冗余(电力/网络/N+1 冷却)。统计 30 天或 90 天的可用率并计算 MTTR/MTBF,用百分比(如 99.95%)和历史故障记录判定是否满足业务要求。
用 iperf3 做 TCP/UDP 的吞吐量测试,分别在不同时间段、不同并发连接数下跑长时间(例如 5-15 分钟)测试平均带宽、抖动和丢包。对外链路应测试到多个地区(大陆、东南亚、欧美)。若长跑能稳定接近链路标称带宽且丢包低(<1%),则网络质量良好;若瞬时峰值大幅低于标称值或出现高丢包/重传,则需排查承载商或机柜互联。
使用 mtr 查看每一跃点的丢包和延迟分布,若丢包在中间跃点出现但到终点恢复,通常是该路由器对 ICMP 限流;若到终点仍高丢包,问题在链路上。用连续 ping(如 100 次)测抖动并统计方差或使用专业工具测 RTP 抖动。语音/实时业务参考阈值:抖动 <30ms、丢包 <1% 为可接受;超过则会影响体验。
设计方案应包含多点采样(不同省/市及海外节点)、多协议检测(ICMP/TCP/HTTP/UDP)、长短期结合(分钟级探测 + 周期性吞吐/压力测试)、以及故障注入/切换测试。保存原始日志并做趋势分析,设置异常告警阈值(如 RTT 超过基线 +50%,丢包 >1% 持续 5 分钟)。同时要求供应商配合提供 BGP 路由表、链路拓扑和维护窗口,便于关联定位问题。