双十一高可用背后的故障演练服务

主题:
为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011年到2015年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双11备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。


本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。

主题大纲:

  • 阿里技术架构和稳定性治理的整体情况
  • 技术和业务发展给稳定性带来的挑战及应对
  • 一些”血”的教训和反思
  • 故障演练服务的背景和技术实现
  • 阿里云高可用评测服务介绍

计划时长:45分钟

内容受众:企业的架构师、核心开发人员。

观众收获:通过本次分享,希望可以体系化的给大家介绍阿里稳定性保障遇到的问题,积累的方法经验,沉淀的体系和产品。提高受众者的稳定性。

购买须知:
1、本课程为虚拟产品,一经购买,概不退款(讲师特别声明除外)
2、在使用过程中,遇到任何问题,请邮件联系:pr@sifou.com

版权声明:讲者在本产品上发表的全部原创内容(包括但不限于文字、视频、图片等)著作权均归讲师本人所有。未经讲师授权许可,观众用户不得以任何载体或形式使用讲师的内容。

5.0 4条评价

keqin · 2019-05-27

good

自由的风 · 2018-08-16

很好,很喜欢

magic007 · 2018-02-04

系统保障架构师都应该看下

778184959 · 2018-01-30

讲得很好,阿里的技术设计理念果然很大气