作为互联网基础设施的基石之一,DNS 也是最脆弱的环节之一。在项目从上线、运营维护的整个生命周期中,DNS 记录的变更和管理是不可避免的。传统上,DNS 记录的管理往往依赖于域名注册商或 DNS 服务商提供的 控制平面,操作不直观、不可复现、容易出错、难以追溯、没有自动化。基础设施即代码(Infrastructure as Code, IaC)无疑为脆弱的 DNS 记录管理给出了一个方向。
最近 Cloudflare 的故障接二连三,在 Verizon 引起的 BGP 泄漏导致大部分地区网络离线以后,又因为软件错误导致了大规模 502,紧接着亚太多个 POP 又因为网络故障而降级运行。本文翻译了 Cloudflare 博客发布的关于大规模 502 故障的技术细节。 原文标题:Details of the Cloudflare outage on July 2, 2019 ...