澳大利亚网络安全评估初创公司UpGuard梳理了过去几年的信息安全事故,列出了7大本为自动化公司IT系统却招致重大信息泄露的安全实例。
1. Healthcare.gov:一个疏忽葬送美国政府的医疗健康网站
2013年10月,美国政府推行《平价医疗法案》的网上登记工具时,Healthcare.gov被寄予厚望;而数百万公民健康保障的交付压力,让风险越来越高。于是,当该网站上线仅2小时就因重大软件故障而崩溃时,政府遭到了相当大的抵制。由于缺乏集成、可见性和测试,该项目从一开始就埋下了重大隐患——Healthcare.gov的账户创建功能“ Account Lite ”中存在超过100个缺陷。
由于其功能,Account Lite 是 Healthcare.gov 网站的重要组成部分,供人们创建账户并访问自己的医疗健康选项。该模块问题太多,注定要引发灾难。尽管如此,承包商还是照原样推进了。
软件发布失败了,让数百万公民无法获得医疗保障。更遭的是,网站崩溃还引发了政治衍生影响,让《平价医疗法案》的反对者开始援引该事件作为政府无法发展成功医疗保障项目的铁证。网站最终稳定了下来,但并应在发布前就集成的工作,却是在崩溃发生后才做完。
2. Dropbox:让Dropbox掉线的小缺陷
没有哪个IT团队会喜欢掉线经历,尤其是掉线造成团队必须快马加鞭实现应急规程的时候。2014年1月,Dropbox就对一次计划产品升级造成的3小时掉线抓狂不已。
Dropbox脚本中的一个“小缺陷”,自动将其更新应用到了几台活动主机上,于是,上千台产品服务器受到影响,引发该公司在线服务崩溃。幸运的是,Dropbox的应急规程设计良好且有效。IT团队在备份和恢复策略的帮助下,在3小时内成功恢复了大部分服务。然而,某些大型数据库的恢复就慢得多了——全部核心服务完全恢复花去了Dropbox数天的时间。
3. 亚马逊/DynamoDB:DynamoDB数据库搅乱亚马逊基础设施
正如物流之类物理服务需要道路交通这样的物理基础设施,公司企业的数字服务也依赖于底层数字基础设施。2015年9月,亚马逊自动化基础设施过程中断,造成AWS平台宕机。从简单网络中断级联反应成大面积服务掉线,亚马逊经历了传统内部数据中心才会经历的那种断网——尽管它有非常先进和集成的云平台。
亚马逊的网络中断影响到其一部分DynamoDB云数据库的存储服务器。此事发生时,一些存储服务器还在请求其成员资格数据。于是,断线造成了检索和传输超时,这些服务器无法获得自己的成员资格数据,自动退出了服务。
当那些无法获得请求的服务器开始重新尝试请求的时候,DynamoDB超时问题便引发了更大面积的断网。如此,恶性循环产生,亚马逊客户有5个小时无法使用AWS。
4. Opsmatic:后患无穷
托管在传统服务器管理之下时,自动化往往也面临同样的古早IT问题。其中一个经典假定是:“没坏就别修复”——假定所有系统都按预设方式运行。所以,Opsmatic的常规服务器维护搞摊了其整个运营时,根源就出在事情并没有像他们原以为的那样进行。
该案例中,名为“清除默认用户”的方案在该公司AWS实验早期阶段被创建。如今,测试过去很久之后,该流程仍在生产服务器上悄悄运行,维护人员根本不得而知。
就像很多重大故障一样,该事件也是长期的无心之失造成的,这些小过失逐渐积累,终酿大祸。
5. Knight Capital:拼写错误致10亿美元损失
不仅仅是管理性IT过程,其算法交易也被 Knight Capital 自动化了。然而,不幸的是,在真金白银处理事务中,这些改变和计划外的错误是有可能很快发生的。2012年,因为一个微小的错误,Knight Capital 在45分钟里以 $172,222/秒 的速度大量损失资金。
大规模数据中心运营中,服务器集群通常都会执行单个功能。这样可以将负载分配到更多的运算资源上,为高流量应用提供更好的性能表现。该模式要求集群中所有服务器都采用相同的配置,无论功能用到的是集群中哪个具体的服务器,这样所有的应用就会有相同的表现。然而,配置这种东西,即便筹备的时候是相同的,也总是会逐渐出现偏差的。
尽管做了自动化,Knight Capital 在服务器阵列上的代码部署却还是手动的,而一个不可避免的人为错误,导致了其8台服务器的配置与其他服务器不同。Knight Capital 的技术人员在部署新服务器代码时出了这个小错误,但却没人发现。IT员工便一直在这些服务器都是相同配置的错误认知下操作。
同时,一段已经退役的代码在错误配置的服务器上仍然可用。因此,该服务器开始向特定交易中心发送指令,围绕股票交易的多米诺骨牌效应产生,4.65亿美元交易损失不可避免。
6. 达美航空:自动化致航班停飞
大型物流运营依靠自动化系统达成规模化所需的速度要求。有些航空公司在维持这些系统运行上举步维艰。就像传统的人工系统管理方式,自动化系统也受到错误配置的伤害。最近几年的最糟情形,便是这些系统宕机造成航空公司上亿美元的损失,及其客户信誉的丧失。
错误配置发生时,通过自动化机制,错误会被很快推送,造成整个系统宕机。对航空公司而言,这意味着航班运营中断,飞机延误,资金析出。2017年1月就发生过类似事件,达美航空自动化系统中的一个小故障引发断电,给航空公司造成1.5亿美元经济损失。
7. 谷歌Gmail:您有新邮件?Gmail崩溃事件
当技术巨头经历偶发自动化相关中断,一个小时的宕机所引发的后果会比表面上的损失更为深远。这些行业巨头想做任意改变,都必须覆盖成千上万台服务器。身处技术前沿的谷歌自动化其配置管理毫不意外。虽然是为了让操作更简单而设,当错误修改在自动化系统里发生,便意味着该错误会在数秒内广泛传播。
2014年,谷歌内部自动化配置系统里的一个小故障,让Gmail崩溃了大约半小时。该错误配置被发送到了在线服务上,导致用户日期请求被无视,相关服务接连出错。
经验教训在于,配置自动化并不等同于配置管理。自动化仅确保所做修改会被推送到所有系统上。