cover of episode 028-Windows蓝屏引发多米诺,世界还会变得更脆弱吗?

028-Windows蓝屏引发多米诺,世界还会变得更脆弱吗?

2024/7/20
logo of podcast Orpheus微见

Orpheus微见

AI Deep Dive AI Chapters Transcript
People
主播
以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。
Topics
我作为播客主播,在2024年7月19日微软Windows蓝屏事件后,紧急录制了这期节目。这次事件不仅导致个人电脑蓝屏死机,更严重的是微软Azure云服务中断,引发航空、医疗、金融等多个领域的瘫痪。这反映出数字化系统和基础设施的脆弱性,以及我们对这种脆弱性的应对。 我认为,这次事件并非简单的技术故障,而是数字化系统复杂性、高度集中化以及缺乏透明度等深层问题造成的。CrowdStrike安全软件更新与Windows系统冲突是直接原因,但更深层次的原因在于,数字系统的构建如同基特勒所言的“后现代巴别塔”,各部分之间相互依赖,却又缺乏整体的理解和控制。安全软件拥有最高权限,其更新行为不受Windows完全控制,潜在的bug在更新前难以预知。 此外,生成式AI的决策黑箱问题也与本次事件类似,我们无法完全理解系统,却不得不依赖它。这引发了对信任的质疑,以及如何降低系统性崩溃带来的影响的问题。我们需要更充分的知情权,了解系统运作方式和权责关系,并推动责任方整改。同时,我们也应该避免将所有资源依赖于单一公司或产品,以降低风险。 从历史上的空难和航天飞机事故中,我们可以看到,即使经过充分测试,也无法完全避免这类问题。数字化系统崩溃的影响范围和后果没有上限,这需要我们更加谨慎地对待数字化技术的普及。我们应该主动追求知情权,了解系统运作方式和权责关系,并推动责任方整改。同时,我们也应该避免将所有资源依赖于单一公司或产品,以降低风险。

Deep Dive

Chapters
2024年7月19日,微软Windows蓝屏事件导致全球大规模互联网基础设施瘫痪,对个人用户和公共服务造成严重影响。事件波及航空、医疗、金融等领域,凸显了数字化系统脆弱性。
  • 微软Windows系统和Azure云服务同时中断
  • 航空、医疗、金融等领域瘫痪
  • 事件规模史无前例

Shownotes Transcript

这是一期临时决定录制的节目,我现在正在用一台电脑连着麦克风录节目,运气好的话在录制结束前它应该都不会有蓝屏或者其他突发的系统崩溃的问题。

昨天全人类都经历了一件史无前例的事情也就是微软蓝屏的问题在国内大众和社交媒体的视角下好像只是在外企或者国外工作的人才会受到一点影响然后随着社交媒体的碎片化和娱乐化的传播这些影响好像也变成一种周五的例外状态就是因为电脑用不了了所以大家可以提前下班甚至成了一种外企的福利被他们那么去说

当然我觉得作为员工来说难得碰到一次这种事情我觉得狂欢一下也没什么问题那前提是我们没有什么重要的数据丢失或者说在大瘫痪前已经保存了自己应该保存的一些工作内容那如果是这样的话我觉得对于普通人来说都是非常自然合理的反应但今天的节目我肯定会聊一些自然和合理之外的可能听起来不是那么乐观的事情

首先我为什么会临时决定录这样一期节目呢我在第一期的开头就说我以后应该会讲很多关于数字化技术的问题确实后来我也讲过大量技术和社会人文相互作用的那么一些话题所以我经常一半开玩笑一半严肃的会和朋友介绍微剑其实是一档科技节目

今天微软 Windows 系统崩溃所反映出的一些深层问题恰好也是我很多年来都在关注研究和引诱的也就是数字化应用和数字基础设施的一个脆弱性的问题一个多月前微剑就发过一期节目叫假如全球互联网崩溃三天你会干什么从今天的这个事件来看我们当时提出的这个问题和在采访中的各种回答

应该都比现在的实际情况要偏乐观或者说就完全是另外一种更极端悲观的一个状态那当然主要还是在于说我们去采访的那个问题就是为了能让大家能更顺畅的回答所以我们会问的比较戏剧化

但是放在今天来看这个问题的关键其实在于互联网并不需要全球瘫痪三天那么严重只需要在关键领域崩溃几个小时就已经会带来非常深刻的影响了所以很多媒体和专家都说

这次微软的 Windows 集体蓝屏崩溃的事件已经是全人类史无前例的一个大规模互联网基础设施在脆弱性方面的一个挑战了那说是挑战其实已经比较客气因为对于那些飞机延误而产生各种损失的乘客或者航司对于那些看不了病做不了手术的病人或者说那些仅仅是做了八页 PPT 没有保存的实习生来说这些肯定都算得上是一个灾难了

另外一个我想赶快做这期节目的原因就是最近一年多我恰好一直在和微软合作,尤其是在生成式 AI 和网络安全这两方面都铲除过很多内容。那么最近也一直在跟进微软的各种业务发展和产品更新,产品战略等等。在最近一年多里我也跟着这个合作去得到了一些新的看问题的视角。

所以虽然这期节目是临时录制但绝对不是临时起义这期节目我最想探讨的一个问题就是当数字化的系统大规模的铺开普及之后它的脆弱性能被我们彻底克服吗

或者说我们人类该如何去面对和对待这种脆弱性那么首先我很快的给很多可能还没有来得及了解微软蓝屏事件全貌的听友们再多解释一点点来龙去脉一些原委这个事件对全社会造成的影响有两大方面第一方面就是对个人用户就是 Windows 系统的 PC 系统崩溃死机蓝屏开不了机

但另外一方面其实更严重它和社交媒体上的那些热烈讨论形成了一个鲜明的对比那也就是同时那个 Microsoft Azure 也就是微软旗下的云服务也跟着中断了一段时间然后这两方面的中断结合就好比说是不止马路上的私家车集体开不动了连那个交通信号灯系统以及公交车也瘫痪了

那这些问题呢就进一步集体引发了各种公共服务和商业组织的瘫痪比如说航空医疗金融等等那后面我会分析一下发生这个瘫痪的一些深层原因可能会指向一个非常荒谬的结论

造成这两者崩溃的背后都有同一个原因就是大家新闻也都能看到就一款叫做 CrowdStrike Falcon 的安全软件那个杀毒软件里面有一个叫做 CrowdStrike Falcon Sensor 的组件那这个 sensor 也就是传感器在这个网络安全的语境里面讲的是可以扫描计算机监测安全威胁和入侵的那么一种程序的设定

在周四美东时间傍晚 6 点差不多也就是北京时间周五早上 5 点一大早的时候这个 CrowdStrike Vulkan Sensor 向所有安装这个软件的 Windows PC 的设备发送更新紧接着电脑就开始崩溃了但是电脑崩溃只是其中一个表象紧接着微软云的服务系统 Azure 也出现了崩溃导致更多接入 Azure 的

商业组织和公共组织的业务运营也瘫痪了比如说不仅是美国的航司和机场在悉尼香港印度迪拜还有柏林还有阿姆斯特丹也出现了同样的问题

美国的联邦航空管理局称至少有 5 家美国航空公司一度停飞了所有航班是所有的航班此外还有很多医院的医疗活动也受到了严重的影响比如一个美国医疗集团的 CTO 说他们在 7 个州一共有 52 家医院然后有 15000 台服务器瘫痪了他们下面有 15 万台 PC 里面有 4 万都受到了影响然后说这次崩溃比网络攻击的影响还要更糟糕

大家也都知道现在的医院和医疗数字化做得非常的广合身从挂号到输入一些门诊的意见开药做检查甚至说做手术都要依赖一些基于数字化系统的 IT 设备比如说我要做一个 CT 那么不能只是说把患者送到 CT 里面影像他就出来了他前面还是要连一个电脑

这个电脑又要接入到医院的数字化系统里边当然我们前面说的机场和航司也是同样的一个道理那么这些数字化技术系统以及应用的普及必然会导致一个事情就是大量的单个设备背后都会联想一个中心化的单一的服务商那么只要供应商出了一点问题

再加上现在的互联网的一个高速连接哪怕是比较小的问题都会被诚意连接设备和用户的台数被急剧的放大那么这个社会就会马上陷入到一个崩溃的边缘所以说这一整套的数字化系统平时它像是一个有层级的连接器但是当这个问题发生在系统的源头的时候

就像是把所有的鸡蛋都放进了一个篮子里那整个系统包括系统中的每一个终端都会不自觉的被动的成为了这个问题的放大器而且是顺时的指数级的放大那么这次问题更具体的一个核心源头又是什么呢前面说到是这个 crowd strike

update 了一次软件更新其实更新是非常常见的很多软件几乎每周甚至每天都会上一些小补丁但这次 CloudStrike 的更新代码中有一些很细微的地方和 Windows 系统运行的代码发生了冲突于是整个系统就崩溃蓝屏死机

具体是一个什么代码还有待 CrossStrike 和微软去做事件的报告和公布但是我们可以先不管那个代码是怎么写的我们只需要弄清楚该如何避免这种含有 bug 的更新被毫无阻拦的推到所有的终端设备上是不是就能规避问题呢这个问题最诡异的几个方面也像是一把双刃剑一样的存在第一个就是

Crowded Strike 在发布更新前为什么没有做充分的测试就哪怕只要它能在几台 Windows PC 上去安装一下然后更新之后马上就可以发现问题这其实是一个没有任何技术门槛和难度的事情只是一个流程机制和考虑是否周全的问题

确实也有专家分析就是说 CloudStrike 测试不足可能是这次大范围当机的一个问题的根源但是这个问题的另一面我觉得是其实开发者的工作平台很多也不在 Windows 上面它可能在云端或者说在它用的是其他操作系统比如 Linux 之类的所以说数字系统和数字化产品和过去我们接触到的一些实体生产出来的产品它的生产逻辑是完全不一样的

就是这个产品的生产者检查者和最后交付的使用者并不是具备同一个条件同一个环境我打一个比方对于这个安全软件的开发团队来说只要他们不用 Windows 他们就不会知道发生了什么问题会产生什么问题以及他们也不会在问题爆发的第一时间去承担自己造成的这个后果

所以这个问题一的根源我认为就是我们当下所能用到的整个数字系统看似非常的统一连贯无缝连接但是事实上却是一个东拼西凑靠各种协议的转换各种语言的编译勉强连在一起的而且更麻烦的是因为这个东西拼凑的网铺的太大了

最后就会导致没有一个人,没有一个团队,甚至说没有一家公司能够看懂所有的东西,去理解所有的代码。但是这些所有的代码又不得不被纳入到同一个网络中,不得不相互起作用。德国媒介理论家弗里德里希·基特勒,他早在 30 年前就观察到过一个类似的现象,他把这个现象叫做后现代巴别塔。

之前魏建强语言那期的时候说过巴别塔当然这是一个古代神话就是说因为不同的族群他们的使用语言不同所以相互听不懂理解不了对方的文化习惯和意图

那基特勒提出的这个后现代巴别塔概括来说就是软件也有一种等级结构从最底层的硬件运算用的是初级的机器语言再到较高层次的汇编语言那最后是用户界面上的自然语言那不同人能看懂能理解能编辑的那个语言的那个部分是不一样的

就像我们作为普通用户基本上只能看得懂应用界面上的那些自然语言后面我还会讲到极特了这就先点到为止那说回 CrowdStrike 导致 Windows 蓝屏死机的深层原因和影响刚才说还有第二点原因也就是微软这边 Windows 能不能提前识别到这种问题然后拒绝 CrowdStrike 的更新呢

这个从直觉上看好像没有什么难度毕竟大家都觉得微软那么大的那么久的专业的公司怎么会允许一个第三方软件在自己的核心命脉上随便改来改去呢但这个问题其实也很麻烦首先安全软件和杀毒软件在 windows 操作系统里面它是具有最高级别权限的通常它的权限包含整个电脑文件系统的扫描权限

以及实时监控拦截的权限还有阻止一些对系统文件未经授权的一些更改等等那也就是说安全软件杀毒软件的这些特性导致他们的更新行为和日常监测的行为并不完全受 Windows 的控制甚至 Windows 本身还要让出来一部分最高权限给他们来保护系统和电脑免受其他的恶意攻击

而这种潜在的 bug 只要还没有真的放到系统里面跑一下其实不论是 CraftStrike 还是 Windows 都不知道它最终会产生什么结果那可能有人会问

凭什么微软和我们普通用户就应该相信 CloudStrike 以及这些其他所有的安全软件和杀毒软件有资格在 Windows 里面拥有最高权限呢我觉得这个问题其实更像是一个商业问题和社会问题而不是一个简单的技术问题

这个 CrowdStrike 成立于 2011 年已经稳定的运行了 13 年了其实之前一直都看不出来有什么大的问题所以也积累了大量的客户那么也是这种基于真实的人之间的信任关系和此前在网络安全方面的实力还有合作让 CrowdStrike 可以被各种组织包括微软信任去放到如此重要关键的位置但是这种对过往的关系的信任和将来会不会出问题其实是没有任何关系的

这个就像我们在第一点里讲的现在全球的数字化系统设施和应用都成了一座叫后现代八别塔的时候除了选择相信选择信任之外各方面我们因为专业领域的差异理解能力的差异确实还是很难在每一个问题出现之前就提前发现和解决它

那我们现在就面对着很多这样的矛盾所以以上两个问题我觉得都可以推理到一个更基础的问题就是数字系统互联网系统和相关开发工作的透明度的问题

就像之前我们有一期聊生成是 AI 信任的节目里面谈到无论是大众还是专业领域目前对生成是 AI 都抱有一种比较大的顾虑那其中有一个原因就是在很多情况和案例中我们是不知道 AI 为什么会得出那么一个他提出的结论和决策建议的我们只能看到我输入了什么内容然后他输出了什么结果那个结果答案看起来很合理甚至我还有一点喜欢但是

AI 为什么会给出这样的结果它在代码层面的推理逻辑是什么样的这个其实是不知道的它就是一个决策黑箱或者说我也可以去在得到答案后再问 AI 请告诉我你是怎么得到这个结果是 OK 的你的建议的逻辑又是什么然后这个 AI 它又会巴巴巴的告诉你很多原因听起来很合理很为你着想但是问题是我们其实又不知道它是怎么编出这些原因的了

是因为先有答案然后他再根据这个答案合理化编写的原因吗还是说这些原因的背后还有什么别的被 AI 暂时隐藏起来的意图呢那么其实这种潜在的顾虑就是由于生成式 AI 和大模型在构建的时候就具有的某一些基础特性导致它在生成答案的过程中那个推理逻辑其实就是暧昧的

前几个月我有采访过一位德国企业的数字化转型负责人他说他们暂时没有在公司的办公场景中去推广生成式 AI 最大的原因就是其实他们也没有人能够说明白 AI 给的一些建议会导向什么结果那么就很有可能因为一些看似合理的建议和决策导致失之毫历差之千里的结果

那么他的这个说法其实也呼应了有很多其他人认为 AI 不会也不该为这种决策结果去负责 AI 不会给人的决策兜底和这种观念是可以呼应上的所以刚才我说到这家企业它目前只是在系统和流程上去通过生成式 AI 提高一些流程运营的效率还暂时没有把 AI 用到员工的生产力就是创作创造和决策上面

我觉得这个例子和我们面对的 crowd strike 导致的南平事件的深层原因是类似的就是我们应该如何理解和面对当下一个非常具体的矛盾局面当我们无法完全理解一个系统但是又不得不把自己的全部身家都放在上面的时候我们的信任从哪里来

我们应该如何确保自己的知情权以及如果我们还是不能够做到完全信任它但我们的全部身家又在上面的时候可以如何规避和降低这种系统性崩溃带来的影响呢说实话我大概从十多年前就开始有了这个

问题意识也是因为这个问题意识让我后来一直都在去多想和多关注相关的事件到底会产生一些什么影响有什么问题当我刚有这个问题意识的时候我还在上大学那个时候 Uber 那个打车软件刚进入到中国

然后滴滴打车和快递打车也在相互抢份额移动地图导航开始被更多的司机接受也让很多记不住路的一些新手司机也可以轻松的去运营接客当然还有一个更重要的事情是也是那段时间越来越多的屏幕设备进入到了包括轿车的各种生活场景替代了物理按键机械按键还有机械的仪表盘等等

那我当时看到这些变化就产生了一个疑问那个屏幕背后的数字化系统就一定比物理和机械的硬件好吗就更稳定耐用吗如果那个数字系统就像我的电脑死机了一样卡了坐在车里的我们那个时候该怎么办

换句话说如果说昨天集体蓝屏的不是 windows 系统而是各种自动驾驶或者说导航的系统那么我们大概率看到的局面就不是外企打过仁的 happy friday 而是一场巨大的灾难和悲剧而这个微软 Azure 云服务当机所造成影响也还在持续那未来几天可能还会有更多的报道和细节故事出来那我预感这些故事也一定不会像 happy friday 那么积极轻松那大家也可以在未来对这种

新闻多留意一下包括前些天那个萝卜快跑自动驾驶出租车的推广的事情也讨论的非常火对吧这些现象背后其实都是刚才说的那个比较相似的问题就当我们把全部身家压在一个我们根本看不懂的系统之上的时候

我们该怎么自保我们该如何提前设好一些预防的措施当然那些科技公司那些研发会做很多事情他们会做大量的投资来尽可能让这个系统更稳健用 IT 的话来说叫更鲁莽但是今天这个事件就是在警示我们再多的投入其实都无法彻底根除这类问题的潜在发生几率

因为这些利和弊都是人创造出来的在创造出来之后都没有办法被百分之百的严格检验也就是说必然有一些问题会成为漏网之鱼只有在发生之后大家才会知道哦原来这么干还会出问题啊

那这种问题也让我联想到了在数字化系统普及很多年前航天产业也差不多经历过很多类似的危机和挑战比如说像波音和空客这种造飞机的公司他们都会在飞机上市交付给航司之前尽力的去试飞和深度检查各种设备和软硬件的问题

但是不同操作员和不同飞行环境所产生的那些差异其实都没有办法被百分之百的模拟检查和改善其实这就像是一个宿命只有当一架飞机坠毁了机上人员全部遇难之后调查组才会从黑匣子和已经那些快要烧成灰的飞机组件中去发现一些问题说哦原来这还能再调节一下距离遇到什么极端情况下它就更不容易松动了但是这就是一种非常残酷的宿命

还有 21 年前的 2003 年美国哥伦比亚航天飞机从太空返航时突然爆炸然后有 7 名宇航员遇难最后调查组发现这次事故的直接原因是有一块背包大小的泡沫卷材料从机体脱落然后在高速的条件下撞上了飞机的机翼导致这个机翼上的一个隔热瓦

那破损之后这个飞机在高速下降的过程中又会产生很多高速气体这些高温气体最后进入了飞机内部导致了最终的爆炸那么一架航天飞机大约有 250 万个零件这些零件该怎么组合才能经受起所有极端情况下的考验每一个零件又能如何保障在太空任务结束之前都一直维持着这个出场时的健康的状态呢

我比较悲观但是又务实的说这个就是没有办法而今天发生的这种数字化和互联网基础设施的瘫痪和刚才说到的那些空难还有一个质的区别就是飞机或者火箭爆炸的影响和损失其实都还是有一个范围的上限的但是数字基础设施崩溃所造成的影响更像是一个把所有鸡蛋都放进同一个篮子里然后覆巢之下就不会有一个鸡蛋能够幸免的问题

那它造成的后果和损害对于人类来说也是没有上限没有范围的那我想这是我为什么一直对数字技术的普及带着一点点隐忧和更多关注的原因吧那么最后我们该如何去面对这些问题呢

事实上 Azure 也不是第一次出这种状况 2014 年的时候他们在美国欧洲以及部分亚洲地区的服务也中断过也造成了一些商业损失微软有一个叫做 SLA 服务级别协议的和客户之间的协议在这个协议里面就提前明确了一些极端情况下产生的损失微软应该如何去赔偿企业级或者说组织级的客户

所以上一次出现这个问题的时候微软就按协议给他们及时赔偿了另外还有比如说前不久阿里云在华东地区也出了一些问题导致 B 站和小红书上不去等等但是昨天全球死机的问题全球无数个人用户的损失应该去找谁赔赔多少呢所以

所以我觉得在基于今天的很多分析之后我觉得作为普通用户我们应该首先保证自己有更充分的知情权在条件允许的情况下还是可以多去了解一下前面提到那个后现代八别塔里面自己可能不是很熟悉的那一部分自己不了解那一部分可能也隐藏着很多跟自己利益关联相当大的一些事情

而且这个知情权不仅是对这个系统黑箱运作的知情权还有对服务内容和许多权责关系上的知情权我们越主动的追求知情我们知道的越多就越能够监督和推动责任方的彻底整改去避免未来再犯同样的更严重的问题那么另外顺着这种知情权往下去挖

我觉得还有一个我们可以反应过来的事情是当我们在遇到这类问题的时候不能只把软件问题放在软件的层面来看来批评和追责其实每一个表层的小问题往下挖都能牵扯出系统性的潜在问题而优化那个系统性的问题就是一个可以提前预防和解决更多未来潜在问题的手段

而且最后对于这种至关重要的互联网和数字化的基础设施每一个组织每一个个人也不能把保全都压到同一个公司同一个产品上包括这些提供云服务提供基础设施的公司他们自己也得有相互兼容的快速切换的备用方案以便于在出现这种极端的情况还可以有更多的其他可选项让这个问题的影响不会直接的表现出来

1992 年基特勒在《软件不存在》这篇学术思考的论文最后写道目前的计算机科学已经在讨论这种急需的机器各种芯片这些硅材料做成的硬件正在去满足一个高度连接的不可编程的系统中的诸多要求

在 100 万个晶体管的单元之间上百万次的交互作用在持续发生一直发生它们在传输正确信号的同时另一些电子扩散与量子力学隧道效应也会出现但是当今的制造技术会把这种效应视作为一种物理副作用和干扰源这些所有的噪音都没有办法被避免但至少行业还可以把它们的影响降到最低然后基特勒说

这就是计算机行业必须为结构性的可编程的机器付出的代价我觉得它就是一种天生的代价而到了今天这种代价已经从计算机行业的一种商业代价扩展成了我们每个人都要必须面对和控制的代价这种代价将会一直提醒我们我们看似从技术获得了越来越多

但是技术在赋予我们多少能力的同时,我们也要让渡出一些条件。我们并不是从技术去获得能力,而是借贷能力。而有借就必须有还,有贷就必须有抵押。那么在今天像 AI、自动驾驶等等这样的技术已经发展起来,当我们想要在未来去拥抱更多这样的令人激动人心的科技之前,我们都可以多想一点点问题。

我们下期见拜拜