Cloudflare宕机!全球网络崩了

描述

电子发烧友网报道(文/黄山明)前几天,全球多低遭遇网路异常,包括ChatGPT、Amazon、社交媒体平台X等在内大量网站都面临着无法访问的故障,数据显示,全球约有20%的互联网服务都出现了服务器错误提示。而这一切的原因在于互联网基础设施服务商Cloudflare又宕机了。
 
尽管Cloudflare随后表示,目前已修复问题。但对此已经造成的数十亿美元的损失,这次事件持续超三小时,影响范围极广,甚至波及用于监测网站状态的平台Downdetector本身,因其也依赖Cloudflare而一同宕机。
 
全球网络又崩了
 
11月18日晚间,Cloudflare的网络开始出现无法传输核心网络流量的重要故障,致使全球性服务中断,影响Cloudflare所有节点,导致约20%的网站出现问题,此时用户访问受影响网站时会出现“Internal Server Error”(500错误)或页面无法加载。
 
Cloudflare是一家提供关键互联网基础设施服务的公司,也是全球知名的网络安全与CDN服务商,其所支持的核心技术广泛支撑着当今各类在线服务体验。
 
所谓CDN即内容分发网络(Content Delivery Network),是一种已被普遍应用的把网站内容搬到离用户更近的地方的互联网技术。我们日常使用互联网,包括下载更新、网站浏览、在线听歌看电影,都用到了CDN。在CDN市场中,Cloudflare全球市场份额仅次于Akamai,位居第二。国内知名的CDN厂商有网宿、阿里云、华为云、百度云、腾讯云等。
 
而此次的全球性网络故障,据Cloudflare发言人表示,问题在于一个用于管理威胁流量、自动生成的配置文件引起的。同时声明称,目前没有证据表明存在网络攻击或恶意活动。
 
事件原因在于Cloudflare在更新ClickHouse数据库权限时,错误配置导致数据库向Bot Management系统的功能文件输出大量重复条目。导致该功能文件大小因此翻倍,超过了系统预设的200个特征上限。因此当更新后的文件分发到全球网络节点时,运行在服务器上的流量路由软件因无法处理超量数据而崩溃,触发全网级联故障。
 
并且问题文件每5分钟由数据库查询自动生成并全局传播,导致故障呈周期性波动,初期被误认为是DDoS攻击,最后让核心代理系统(FL/FL2)和依赖它的Workers KV、Access等服务相继瘫痪。
 
而此次事件之所以波及如此广泛,主要因为Cloudflare的架构是全站代理模式,即所有客户流量必须经过其边缘网络,即使源服务器完好,只要Cloudflare的中间层失效,用户就无法访问网站。而WAF是其默认启用的核心安全组件,让几乎所有付费和免费客户都受影响。
 
此外,Cloudflare自身的控制面板、API、状态页也依赖同一套基础设施,导致故障期间无法及时修复或通知用户,形成雪崩效应。
 
更讽刺的事,在Cloudflare发生故障初期,其官方状态页一直显示所有系统都处于正常状态。不过这并非Cloudflare刻意隐瞒,而是许多状态监测服务本身就依赖于Cloudflare的基础设施
 
不过由于大多数海外网站,如X、ChatGPT、Spotify等国际服务在中国大陆并不支持,因此内地普通用户直接感知不强。仅对部分外贸、跨境电商平台或者使用Cloudflare服务的跨国企业有一定影响。
 
避免数字基础设施过度集中,但似乎并没有其他选择
 
这种全球性的网络崩溃已经不是第一次了,2019年7月,Cloudflare软件的一个漏洞导致其部分网络耗尽全公司计算资源,致使全球数千家依赖其服务的网站最长宕机30分钟。
 
去年,网络安全公司CrowdStrike所使用的一项工具中的漏洞更是让全球的电脑系统大面积崩溃,引发数千次航班延误和取消,也让政府机构和大型企业的运营陷入混乱。
 
仅看近期,已经有数次大范围的网络宕机,如10月份国内的知乎网站宕机,原因虽然未披露,但报错为HTTP 525,该错误码为Cloudflare提出的非标准状态码。同月,AWS发生断联事件,主要是DynamoDB配置错误;10月末,Azure也发生故障,原因是租户配置错误,导致AFD节点无法正常加载。
 
网络中有个笑话,当初亚马逊云出现问题的时候,全网都在批判,但如今Cloudflare发生宕机事故,全网却冷冷清清,因为连进行批判的网站也因为宕机事故登不上去了。
 
有网络安全人士认为,这类事故凸显了互联网对少数几家基础设施提供商的过度依赖。许多机构的关键服务都依赖同一条路径,并且没有真正有效的备份,因此一旦出现问题就是大问题。
 
但对于中小开发者而言,即便明白这个道理,但似乎也没有太多的选择。甚至对于开发者而言,Cloudflare更像一个大善人,可以提供提供CDN加速、DDoS防护(可抵御2Gbps+攻击)、免费SSL、全球330 +节点覆盖,几乎无流量限制。
 
配置上仅需修改DNS即可启用,几分钟内完成全球安全防护,对开发者几乎零门槛。安全上,WAF、Bot 管理、速率限制等功能集成,无需额外配置。最重要的是成本够低,免费版足以保护小型网站,企业版月费20美元起,远低于自建防御成本。
 
当然,近几年国内的厂商如阿里云、腾讯云、华为云、七牛等在价格上已经有了优势,不过在功能上,国内厂商更侧重合规性,但国际节点覆盖弱于Cloudflare,最好的阿里云国际节点也在200个左右。
 
不过对于目标用户全在国内,且没有强安全需求的用户而言,选择国内云厂商也足够了。但对想要出海的开发者或者想要进行全球化布局的厂商而言,基本无法放弃Cloudflare。
 
因为几乎没有其他真正“免费+全球+抗 DDoS+WAF”的一体化方案,而伴随着近期各大网络基础设施的故障频发,未来这种事故可能将再次发生,但全球的开发者们似乎也没有其他更好的选择了。
 
只能说,对于普通开发者而言,关键业务上做降级预案,例如做一些备用域名直连源站,避免过度依赖 Turnstile/Workers 等非核心功能。而国内也需要出现一个“Cloudflare for China & Global South”的开源或国有主导项目。
 
政策上可以鼓励云厂商提供包含基础WAF+DDoS的开发者免费套餐,推动自主可控的边缘安全标准,例如基于RISC-V的安全网关。国内要打破依赖,不能仅靠国产芯片,更要打造开发者愿意用、用得起、离不开的下一代数字基建。
 
写在最后
 
随着AI大模型的发展,AI编程也成为了越来越多网络基础服务公司的选择,因为的确会带来降本增效。与此同时也带来了更多的岗位裁撤,例如AWS在今年7月份便裁员数百人,而亚马逊更是在10月裁员3万人,覆盖AWS、广告、设备等部门,最主要的原因是AI效率提升和成本优化。
 
Azure也在今年计划裁员1.5万人,包括云部门,微软表示AI战略优先,计划将资源集中于Copilot、Azure OpenAI服务等,裁撤低效硬件和边缘计算团队。
 
AI的发展带来极大的效率提升,但也带来了一个巨大的问题,AI降低了编写复杂系统的门槛,但也降低了对系统深层理解的要求,这就导致其编程的代码成为一个风险放大器。
 
可以预见,随着AI编程的持续普及,未来包括Cloudflare在内的云厂商故障并不会消失,但形态会演变。可能会看到更多由AI决策链引发的、人类难以直观理解的故障。
 
真正的解决方案不是放弃AI,而是建立与AI时代相匹配的开发、测试和运维体系,在创新与稳定之间找到平衡点。同时,修复故障的主力军也将逐渐转向AI。
 
未来的运维模式,很可能是“AI vs AI”的场面,一个由AI管理的系统,遇到了由AI工作负载引发的独特问题,最终由另一个专门的AI诊断和修复。
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相关推荐
  • 热点推荐

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分