当前位置:首页  产业资讯

产业资讯

微软解释了为什么上周发生了停机

2021-04-08 19:08:33

4月1日,Microsoft的大部分服务都发生了大规模停机,这些停机都源于Azure的DNS问题。现在,该公司发布了更详细的状态更新,解释了导致Azure无法响应查询(通过ZDNet)的原因。

根据Azure状态历史页上的更新,来自世界各地的Azure DNS查询激增,Azure的系统旨在通过“缓存层和流量整形”来缓解这种情况。但是,一系列特定的事件暴露了Azure的DNS服务的代码中的错误,从而降低了效率。

当客户端遇到错误时,情况只会变得更糟,因为后续的DNS重试只会导致更多的流量堆积。Microsoft已建立了通常会丢弃非法DNS查询的DNS系统,这些查询会导致像这样的数量激增,但是由于许多查询都是重试,因此它们被认为是合法的。因此,DNS服务在一段时间后变得不可用。

微软表示,问题始于UTC的9:21 PM,到10:00 PM,Azure服务本身已得到修复,如果需要进一步的缓解,还准备增加容量。但是,这次超出了Microsoft解决此类问题的目标。许多Microsoft服务都依赖于Azure,并且每个服务的恢复时间都不同,但是到晚上10:30,大多数服务都恢复了联机状态。

中断之后,微软表示已更新其缓解系统的逻辑,以防止重试次数过多,并将继续努力改进对流量高峰的检测和缓解。当然,DNS代码缺陷也已修复,因此希望此类事故不会很快发生。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。