当香港用户或节点无法访问内地服务器时,影响可能出自解析环节(DNS)、路由环节(BGP)或传输/过滤策略。本文提供一套有序的排查思路与工具清单:如何快速确认故障范围、在哪里采集证据、哪个环节最常见问题、为什么会出现路由或解析不一致,以及怎么进行临时绕过与长期修复,帮助运维在有限时间内定位并恢复访问。
在排查前需要明确“先查解析还是先查路由”的顺序:通常先做端到端验证(ping/traceroute)判断能否到达目标 IP;若 IP 可达但域名无法解析,则优先排查 DNS;若域名解析得到的 IP 本身无法路由或丢包严重,则转向 BGP。同时也要考虑中间设备(防火墙、ACL、GFW 等)可能同时影响解析与路由。
在香港侧和内地侧分别采集解析结果:使用 dig 或 nslookup 在本地与公共解析器上查询(例如 dig @本地解析 目标域 +short,dig +trace 目标域),比对香港解析器与内地权威解析返回的 A/AAAA/CNAME/NS 记录;检查 TTL、SOA、NS 是否一致;若启用 DNSSEC,验证签名是否失败(查看 RRSIG)。还要检查 EDNS、TCP fallback、以及是否有递归被截断或拦截。
常见导致访问失败的DNS问题包括:错误的权威 NS 配置、被污染或被拦截的解析结果、TTL 设置过长导致变更未生效、以及权威服务器区域同步失败。修复方法:确认权威服务器在公网可达并正确响应,校验 NS 与 glue 记录,缩短 TTL 做回滚测试,必要时在香港侧临时配置 hosts 或使用稳定的公共解析器作为临时解决方案。
当怀疑路由问题时,先从 traceroute/mtr 获取抖动与丢包位置,再到 BGP 层面确认前缀的公告情况:使用全球 Looking Glass(如各大 IX 或路由视图)、BGP RouteView/RIPE RIS、bgp.he.net 等查询前缀的 Origin AS、AS Path 与是否被过滤或撤回。检查是否发生了 route leak、黑洞公告、或 RPKI 导致的 Invalid 状态。若看到不同区域路由差异,说明是传播问题而非本地链路。
区域性不通常由单向路由过滤(入向或出向被丢弃)、中间运营商策略、或跨境链路拥塞引起。通过在香港和内地分别执行 traceroute(或使用多点 mtr)能判断是单向丢包还是双向丢包。配合 BGP Looking Glass 从多 AS 查看路径,若香港侧看到不同的 AS Path 或缺失前缀,则问题在上游传播;若两侧路径一致但数据面丢包,需向承载链路或对端运营商提交工单。
应急措施包括:临时增加 DNS 解析点(例如在香港部署缓存或权威镜像、使用 Anycast 与 CDN)、调整 DNS TTL 以加速回滚、暂时变更权威 A 记录指向备用节点或跨境出口;在路由层可申请从不同上游做临时公告、撤销或修改 AS Prepend、或与上游协商更改 BGP 社区以绕过受影响链路。同时保留详细日志与抓包以便后续 root cause 分析。
跨境故障常需多方联动:本地 CDN/运营商 NOC、内地机房/IDC、上游骨干/对等 ISP、以及域名注册商或 DNS 提供商。提交工单时要提供完整证据:发生时间段、traceroute/mtr 输出、dig/nslookup 结果(含查询的解析器与返回头)、BGP 路由视图截图或链接、抓包(pcap)片段。明确问题影响范围与紧急级别,便于对方快速定位并给予路由或解析层面的修正。
DNS 与 BGP 问题常常互相掩盖:错误解析会导致流量指向错误前缀,而错误路由会让解析得到的 IP 无法到达。建议并行采集两套数据并比对时间轴:先确定域名解析到的 IP 是否在全网一致,然后在这些 IP 上做多点 traceroute 与 BGP 路径查询;若 BGP 显示前缀近期更改或撤回,应优先追踪公告者与 RPKI 状态;若解析在不同区域返回差异,需排查权威与递归解析器链路。