Home
cover of episode #08 聊聊混沌工程|通过“免疫”方法提高系统韧性

#08 聊聊混沌工程|通过“免疫”方法提高系统韧性

2023/9/24
logo of podcast 科技慢半拍

科技慢半拍

Frequently requested episodes will be transcribed first

Chapters

Shownotes Transcript

【嘉宾】

郑阳,北京同创永益科技发展有限公司CTO,中国信通院云大所可信云系统稳定性特聘专家。

【节目介绍】

在本期访谈节目中,特邀混沌工程专家郑阳先生探讨了混沌工程的概念、历史、方法论、实践案例等多个维度深入解析,并结合自身在行业内的丰富经验,剖析混沌工程的应用价值、实施过程中的注意事项等实操层面的问题,最后分析了混沌工程结合AI和数字孪生技术后的应用前景。如果您想了解混沌工程的前世今生以及未来发展,千万不要错过本期节目!

【时间线】

04:36 什么是混沌工程,以及它的历史起源和概念明晰

13:32 架构转型与混沌工程之间的关系

15:23 混沌工程的整体体系

16:00 第一个原则 最小爆炸半径

19:56 第二个原则 稳态假说

24:07 第三个原则 真实事件

26:45 第四个原则 贴近生产环境

32:50 第五个原则 自动运行实验

40:37 混沌工程对于企业文化和认知的影响

44:06 如何衡量混沌工程对于企业带来的收益

46:42 AI技术如何赋能混沌工程

51:13 数字孪生与混沌工程的结合

【名词解释】

Chaos Monkey(混乱猴子/混沌猴子) 是Netflix在2011年开发的一款用于测试IT基础设施弹性的工具软件。

SRE(系统稳定性工程 Site Reliability Engineering)是一门将软件工程应用于基础设施和运营的学科,主要目标是创建可扩展和高可用性的软件系统。

数字免疫系统(Digital Immune System)是指利用各种软件工程策略、设计、开发、技术和数据分析,实时自主地减轻和应对运营风险和安全风险。通过给数字免疫系统“打疫苗”,提高系统的健壮性,其中包含六大核心模块,分别是可观测性、人工智能增强测试、混沌工程、自动修复、站点可靠性工程以及应用供应链安全。

FMEA(Failure Mode and Effect Analysis),即失效模式和效果分析,是一种用来确定潜在失效模式及其原因的分析方法。

【提到的书籍】

《混沌工程:复杂系统韧性实现之道》) - 机械工业出版社 2021年6月出版

【片头和片尾音乐】

Woven - Lights & Motion)

C.S.B.Q - 我们终会拥有美好的未来)

【感谢】

特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持,请听友及时订阅微信公众号,查看本播客的文字版内容。