Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

AWS 中断内部:一次故障如何波及全球经济

Kerem GülenbyKerem Gülen
21 10 月, 2025
in 文章
Home 资源 文章
Share on FacebookShare on Twitter
Google Preferred Source

10 月 20 日,互联网的一大片区域就这样……停止了。各大电商网站都陷入瘫痪。银行应用程序冻结了。流媒体服务被缓冲遗忘。对于数百万人来说,甚至 按门铃 停止工作了。但正如我们 报道 在 Dataconomy,这些网站并没有单独失败。他们是多米诺骨牌。问题在于他们所依赖的隐形基础:亚马逊网络服务 (AWS)。但很少有人了解这些事件的真正本质。这次中断是现代经济对少数“超大规模”云提供商的深刻且不稳定的依赖的一个关键案例研究。它揭示了隐藏在“云”内部的系统性风险,“云”是一个很酷的术语,指的是现在统治世界的少数大型集中公司。让我们解构这次中断,探索三个核心主题:数字停机造成的数万亿美元损失、“太大而不能倒”的互联网的系统性风险,以及将有弹性的公司与弱势公司区分开来的策略。

1. 停机时间的新计算

停电造成的第一眼损失是最明显的:销售损失。但这只是巨大经济冰山的一角。真正的成本是惊人的。对于近一半的大型企业 (48%) 来说,一小时的 IT 停机成本超过 100万美元。对于 93% 的人来说,一切都结束了 30万美元。这不仅仅是一个科技行业的问题;也是一个技术行业的问题。这是一种物理的。对于一家现代汽车制造商来说,生产线上静默一小时,其复杂的物流被云冻结,可能会花费 230万美元。但真正的损害隐藏在表面之下。这是整个劳动力的生产力损失、闲置。这是将高薪工程师从创新转向“救火”的数百万美元的恢复成本。这是最隐蔽的成本:信任的侵蚀。在一项调查中,40% 的公司表示停机时间 损害了他们的品牌声誉——任何技术修复都无法持久的伤口。当缩小时,图片会变得更加清晰。计划外停机是全球经济的拖累。它消耗了估计 每年 1.4 万亿美元 来自世界 500 家最大公司的隐性税收相当于其总收入的 11%。

2.“太大而不能倒”的基础设施

那么,为什么一家公司的失误会导致三分之一的网络瘫痪呢?因为尽管互联网早期承诺去中心化,但现在却由少数“超大规模企业”运营。他们是网络的新主人。公有云市场是一个功能性寡头垄断市场。仅三家公司——亚马逊 (AWS)、微软 (Azure) 和谷歌 (GCP)——控制着令人震惊的数据。 占全球市场的 68%。亚马逊是无可争议的领导者,拥有 30-32% 市场份额,比紧随其后的几个竞争对手的总和还要大。当单一提供商支撑全球金融、医疗保健和媒体时,它就成为一个 系统性风险,很像电网或全球银行系统。我们为数字经济创造了单点故障。正如专家警告的那样 卫报 在发生类似事件后,这种依赖使互联网用户 “‘受制于’太少的供应商。”

3. 停电剖析:发生了什么埃利 出了问题吗?

虽然人们很容易想象这是一个阴暗的黑客集团,但绝大多数大规模中断都是自己造成的。它们不是外部攻击,而是内部的级联故障。罪魁祸首非常简单:人为错误。 Uptime Institute 的研究表明,大约 40%的重大停电是人为造成的。一个经典的案例研究是臭名昭著的 2021 年 Facebook 宕机。这场长达 6 小时、损失 7900 万美元的全球停电并非网络攻击。这是由工程师造成的 配置错误 在对其 BGP 路由器(互联网的数字“路线图”)进行例行更新期间。超大规模云由“核心服务”构建,即所有其他服务所依赖的存储、数据库和网络的基础工具。例如,最近的 AWS 中断据报道可追溯到 DynamoDB 的 DNS 问题,一项关键的数据库服务。当这个“核心”区块出现晃动时,就会引发连锁反应,导致无数依赖它的服务崩溃。

为失败的世界设计架构

对于任何现代企业来说,第一个心理转变就是停止为 100% 正常运行时间进行规划。它不存在。目标不是 防止 失败,但为了 存活 它。这是“弹性”的新科学,它具有三个主要层次:

  • 第 1 层 – 多可用区: 这是标准。这意味着将您的资源分散到同一城市或地区的多个数据中心。它可以保护您免受数据中心火灾等本地灾难的影响。但正如这次中断所证明的那样,它并不能保护您免受区域服务故障的影响,区域服务故障会立即关闭该区域的所有“可用区”。
  • 第 2 层 – 多区域: 这就是停电告诉我们的现在是必要的。这意味着在完全不同的地理区域(例如,一个在美国,一个在欧洲)运行应用程序的冗余、活动副本。如果整个美国东部地区出现故障,流量会自动路由到欧盟地区运行状况良好的地区。当然,代价是保持各大洲数据同步的成本更高,技术复杂性也更高。
  • 第 3 层 – 多云: 这是弹性的“核心选项”:使用两个或多个不同的、竞争的云提供商(例如,AWS 和 Google Cloud)。这是针对供应商范围内的失败或“寡头垄断”问题的系统性风险的唯一真正防御措施。它非常复杂,但这是许多全球规模的公司现在被迫考虑的方向。

在停电期间,公司有两把火需要扑灭:技术故障和信息真空。未能管理好第二个问题会比第一个问题更快地破坏信任。我们都见过无用的、模糊的状态页面:“我们正在调查一个问题。”这一真空立即被社交媒体上的客户愤怒所填补。一流的事件沟通手册是关于彻底的透明度。根据事件响应领导者的说法,首要任务是 阿特拉斯是一个 “单一事实来源”——主动更新的公共状态页面。关键是要定期、可预测的时间间隔进行沟通。作为 寻呼机任务 建议,更新应每 30-60 分钟进行一次, 即使更新是“没有新信息,我们仍在努力”。 这向惊慌失措的客户群发出信号,表明局势已得到控制。火被扑灭后,最关键的一步就是 “死后无罪。” 这是一份公开的详细报告,准确解释了问题所在、如何修复以及正在采取哪些措施来确保问题得到解决 再也不会发生。这种透明的行为是重建信任的最有效的方式。

最近的 AWS 中断并非异常现象。这是对我们高度集中的数字世界的可预测的压力测试。

成本不是以千来衡量,而是以 数万亿。风险不仅是技术性的,而且是系统性的。原因不是隐秘的黑客,而是内部的级联故障 通常是人类。


特色图片来源

Tags: AWS精选

Related Posts

在2025年赚取稳定的加密货币收入,并使用5个最佳AI加密硬币筹码云挖掘平台

在2025年赚取稳定的加密货币收入,并使用5个最佳AI加密硬币筹码云挖掘平台

4 9 月, 2025
为什么BPM工具对于业务流程自动化的未来至关重要

为什么BPM工具对于业务流程自动化的未来至关重要

3 9 月, 2025
2025年的顶级模型上下文协议工具和平台

2025年的顶级模型上下文协议工具和平台

3 9 月, 2025
当监管拥抱创新时:Xenco Medical创始人兼首席执行官Jason Haider讨论了即将推出的2026 CMS转换情节责任模型

当监管拥抱创新时:Xenco Medical创始人兼首席执行官Jason Haider讨论了即将推出的2026 CMS转换情节责任模型

26 8 月, 2025
智能面料对战术服装性能的影响

智能面料对战术服装性能的影响

15 5 月, 2025
通过专业知识来实现​​可扩展和分布式技术:Harshit Sharan的战略影响

通过专业知识来实现​​可扩展和分布式技术:Harshit Sharan的战略影响

3 4 月, 2025
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.