1. 概述与目标
- 目标:确保深圳核心业务在网络与主机故障时仍可在香港托管节点快速恢复并保持可用性。
- 范围:涉及物理/云服务器、VPS、域名解析、CDN、DDoS 防护与监控告警。
- 指标:RTO ≤ 60 秒(DNS、BGP 切换后业务可达),RPO ≤ 5 分钟(应用级数据备份)。
- 约束:深圳出口链路受制于电信/联通/移动带宽与口岸延迟,需利用香港节点规避链路单点。
- 方法:采用主动-被动与主动-主动混合部署,结合 Anycast/CDN 与 BGP 多线公告实现最短切换时间。
2. 风险评估与设计原则
- 风险一:深圳链路拥塞或运营商故障导致外网不可达;应对:双出口+BGP 广告。
- 风险二:域名解析被污染或 DNS 节点失效;应对:GeoDNS+低 TTL(30s)+多家解析商。
- 风险三:DDoS 攻击造成带宽耗尽;应对:上游清洗(Scrubbing)、本地防护(ACL、WAF)。
- 风险四:主机/存储故障导致数据损失;应对:异地块级复制与数据库主从、RPO 控制。
- 风险五:配置和人为错误;应对:IaC(Infrastructure as Code)、版本控制与自动回滚。
3. 关键技术组件与互联方案
- 网络:BGP 多线公告(深圳联通/电信 + 香港双线),支持黑洞路由与流量清洗链路。
- 负载与高可用:使用 Keepalived + HAProxy 或 LVS 做 L4/L7 同城/跨城负载均衡。
- 存储与复制:数据库主库在深圳,异步复制到香港备库;文件采用定时快照与增量同步(rsync/OSS 同步)。
- CDN 与加速:接入本地 CDN(近源节点)+国际 CDN(Anycast)以降低跨境延迟并提高缓存命中率。
- 安全:WAF、IPS、基于策略的流量限速与清洗;上游承载能力示例配置可弹性扩展至 100Gbps 清洗。
4. 实施步骤与运营细节
- 步骤一:网络与BGP配置——在香港节点与深圳节点分别建立 BGP 会话,配置路由优先级与社区标记。
- 步骤二:DNS 策略——TTL 设置为 30s,主解析指向深圳,故障时自动将权重切换到香港。
- 步骤三:数据同步——采用 MySQL 主从 + binlog 延迟检测,定时全量快照(每日)与增量(每 5 分钟)。
- 步骤四:流量清洗——与托管商签署清洗 SLA:触发后 5 分钟内切入清洗通道,抗 DDoS 容量按需弹性。
- 步骤五:演练与监控——月度故障演练(含 DNS、BGP、应用切换)并记录 RTO/RPO 数据以优化流程。
5. 真实案例:某深圳电商(化名 SZShop)的实战配置与数据
- 背景:SZShop 在双十一期间遭遇链路拥塞与带宽型 DDoS,要求业务 99.95% 可用性。
- 设计:主库部署在深圳机房,异地热备在香港,并把静态资源上 CDN,DNS TTL 30s。
- 演练结果:在演练中完成切换的平均 RTO = 48 秒,RPO = 3 分钟,网页95百分位延时由 220ms 降到 90ms(接入 CDN 后)。
- 教训:初期未配置低 TTL,导致 DNS 切换 8 分钟内部分用户仍访问旧节点,后改为 30s 并多解析商同步。
- 以下为 SZShop 在一次演练中的节点配置与指标展示:
| 节点 | IP/ASN | CPU/内存 | 磁盘/类型 | 带宽/防护 | 演练指标 |
| 深圳主节点 | 203.0.113.10 / ASXXXXX | 8 vCPU / 32 GB | 1 TB NVMe | 1 Gbps 端口,清洗能力 40 Gbps | RTO 32s,RPO 0-3min |
| 香港备份节点 | 103.21.64.22 / ASYYYYY | 4 vCPU / 16 GB | 500 GB NVMe | 1 Gbps 端口,清洗能力 100 Gbps(上游) | 切换可用 48s,读写限流策略 |
6. 日常运维、SOP 与结论
- 监控:建立指标库(Ping/HTTP/TCP、流量统计、数据库复制延迟),阈值触发自动化脚本与告警。
- 备份策略:配置每日全量快照并保留 7 份,增量备份保留 30 天,关键配置存入 Git 并做变更审计。
- 演练频率:每月进行一次完整切换演练,季度进行大流量压测与抗 DDoS 测试。
- 合同与 SLA:与香港托管与清洗服务签署明确 SLA(清洗触发时间、带宽、恢复时限)。
- 结论:通过深圳主节点+香港热备+CDN+上游清洗结合的方案,可在跨境限制下实现低于 60 秒的业务切换与可控 RPO,显著提升业务连续性与抗风险能力。
来源:业务连续性设计在深圳网时香港服务器托管中的实战应用