Xbox在E3 2021 Starfield拖车 Square Enix E3 2021 光环无限预告片 E3 2021时间表 数百万更多的刺激检查发送

速度互联网停机解释:一名客户如何打破亚马逊,红线和一半的网络

周二,互联网被巨大的停电带到了膝盖。现在我们确切地知道原因是什么,以及如何解决问题。

- 06:33.
GetTyimages-567072595.

不是很自豪的时刻。

Peter Dazeley / Getty Images

星期二将被记住为互联网破坏的日子 - 在迅速修复之前。早上清晨,网站包括亚马逊,红线,Spotify,eBay,Twitch,Pinterest和,不幸的是,CNET由于服务的主要停用速度迅速闻名。您所看到的到处都是,有503个错误和人们抱怨他们无法访问关键服务和新闻网点。在24小时内,我们发现了中断的根本原因

在调查出现问题后,速度发布了一个博客文章,描述了究竟是下来的事情 - 而且事实证明了一个只有一个未命名的速度触发的整个事件。

5月中旬,速度发布了一个包含一个错误的软件部署,如果在特定情况下触发可能取消其网络的巨大条件。该错误暂时休眠,直到6月8日,当一个快速的客户在“有效配置变更”中无意中触发它,这导致公司网络的85%返回错误。

“我们在1分钟内检测到中断,然后在博客帖子中肯尼的工程和基础设施高级副总裁Nick Rockwell说,然后识别并孤立原因,并禁用了配置。“在49分钟内,我们的95%的网络正常运行。这次下断广泛且严重,我们真的很抱歉对我们的客户的影响以及依赖于他们的每个人。”

在速度停电期间发生了什么?

在凌晨2:58左右.Pt,速度状态更新页面注意到了一个错误,说“我们目前正在调查与CDN [内容交付网络]服务对绩效的潜在影响。”此后不久,在包括BBC,CNN和纽约时报的主要新闻出版物的推特上出现了报告。Twitter本身仍在运行,虽然托管Emojis的服务器下来,导致一些奇怪的推文。

事实证明,这是一种大规模的中断,而不是影响个别地点的孤立的事件。在世界各地,人们收到错误:503条消息,因为他们试图访问网站,包括一些重要服务,例如英国政府的GOV.uk Web属性。

Almost an hour later, at 3:44 a.m. PT -- or 6:44 a.m. ET, on the cusp of the US East Coast workday, and coming up on noon in the UK -- Fastly updated its status page again to say the issue has been identified and a fix was being implemented. At 4:10 a.m. PT, the company tweeted: "We identified a service configuration that triggered disruptions across our POPs globally and have disabled that configuration. Our global network is coming back online."

与CNET发送到CNET的相同消息是迅速发言人的评论。

什么是速度?

速速是一家云计算服务提供商,总部位于旧金山,自2011年以来一直存在。2017年,它推出了一个边缘云平台,旨在将网站越来越靠近使用它们的人。有效意味着,如果您访问另一个国家的网站,它将将其中一些网站靠近您的网站,以便在每次需要时都不需要浪费带宽,以便每次需要从远处获取所有网站的内容它。

这使得最快的网站加载时间,并在登陆网页时,优化图像,视频和其他高有效载荷内容以快速和平稳地显示。在该公司网站上的吹嘘中,它表示,它在Buzzfeed上加载了50%的装载页,允许纽约时报同时处理选举之夜的200万读者。边缘计算还执行重要的网络安全功能,保护来自DDOS攻击和机器人的站点,以及提供Web应用程序防火墙。

由于我们看到的后端Web服务器和前面的互联网之间的速度速度速度速度速度齐全,其部分的任何错误都可能导致整个网站不可用。由于边缘云平台的局部性质,这也意味着错误不会在同一时间以相同的方式影响所有地区(尽管世界各地的人们在周二报告存在问题)。

什么是503错误?

当您看到一个网站时显示503错误而不是向您显示您期待的页面时,它意味着托管网站的服务器尚未准备好处理请求。它还表明问题是暂时的,很快就会解决它。

通常,当服务器关闭维护时,或者当网站过载时 - 例如,如果太多人试图立即访问它。

屏幕截图-2021-06-08-at-12-08-53.png

在整个中断时迅速发布服务更新。

屏幕截图/ CNET.

为什么星期二速度迅速失败,它会再次发生?

我们现在知道星期二的互联网中断是由一个快速的客户的服务配置更改造成的,该客户在速度的网络中触发隐藏的错误。由于软件更新部署在5月6日之前,该错误一直躺着休眠。

为了确保问题不再重复,速度齐全地表示正在采取一些行动。它正在通过其网络部署错误修复,同时还在事件期间进行流程的完整后验证和实践。它也将弄清楚为什么它在自己的测试过程中没有捕获错误,并评估改进修复时间的方法。

“尽管有特定的条件引发了这一停机,但我们应该预料到它,”罗克韦尔说。“我们提供关键任务服务,我们对待任何可能导致服务问题的行动,以最大的敏感性和优先级。”

许多人推测推特上停电是由网络攻击引起的,但我们现在知道这不是这种情况。CDN可能失败有很多技术原因,网络攻击只是其中之一。然而,它有关他们可以看到的很脆弱。

“CDN是互联网的关键基础设施的一部分,如果威胁演员尚未将此作为直接攻击向量,以延迟互联网,他们将在监控[周二]的不幸事件后,”杰克·摩尔(Cyber​​security)说在声明中的安全公司ESET专家。

为什么这么多的网站受到速度停电的影响?

速度是Web发布者广泛使用的服务 - 并且在周二的巨大互联网变得无法使用时,它变得显而易见。整个事件表明,只有大部分互联网依赖于这一难闻的云计算服务。

它如此受欢迎的原因是,它提供的服务被许多在线网络属性所必需,但没有许多公司提供这些服务。因此,大量的网站依赖于一小部分公司来继续运行。看到类似的问题Cloudflare被困在中断去年7月,何时亚马逊网络服务下来了去年11月。

作为Corinne Cath-Speth,Ph.D.牛津互联网研究所的候选人和艾伦图灵研究所指出在推特上,这意味着“单个公司的技术打嗝可能有巨大的影响。”

“这反过来 - 提出了关于云市场中的(权力)整合的危险的重大问题,并且这些往往是看不见的行动者无法访问信息的威胁,”她补充道。