在“工业4.0”的大旗之下,制造企业把产品和互联网技术进行融合,利用信息和通讯技术将生产工艺数字化,提高质量和效率并节约成本。但这条看似宽阔的大路却不平坦,当前IT基础设施与生产系统的耦合度十分紧密,企业的IT运维管理能力亟需与时俱进。
作为中国第一辆汽车的诞生地,一汽解放汽车有限公司(以下简称“一汽解放”)的信息化利刃曾经斩荆披棘,那么,一路风雨走来的IT管理部门,在这个全数字化的奇迹时代能否扛得住呢?
“存储故障”引发的运维变革
一汽解放成立于2003年,是以原第一汽车制造厂主体专业厂为基础,以中国第一汽车集团公司技术中心为技术依托重新组建的中重型载重车制造企业,是中国第一汽车集团公司的全资子公司。
在2003年公司成立之初,企业的信息化基本处于空白状态,之后经历了管理体系建设、工厂级数字化企业建设、到现在拥有OA、PDM、ERP、TDS、MES、SCM、EOL等多个汽车制造业核心业务系统 ,使公司信息系统管理水平走在了国内商用车行业的前列。
“经过十多年的信息化建设,一汽解放的IT基础支撑平台已经比较完善,各种复杂的业务系统支撑着企业高速运转,因此必须确保各种业务系统实现高效、持续的运行,否则将对核心业务造成极大的影响,甚至会带来巨大的经济损失。因此,我们从未放松,IT运维管理系统也经历了几次升级,这次对运维平台升级换代的原因看似很简单,是因为存储系统的故障无法监控,但它的意义远不止于此。”IT部门的刘工全面介绍了一汽解放网络运维管理工作,并且重点谈到了IT运维平台升级的经历。
那么,存储系统出现故障后,为何能够引起如此大的波澜呢?
能者居之,与北塔软件的“偶遇”
“传统意义上的存储管理,更多的是厂商设置管理,往往一个存储网络中需要存在多个厂商的管理,之间互不联系,导致运维效率低下,甚至出现了对于存储的‘黑盒’管理模式。另外,IT运维是一种整体服务,如果把存储系统故障的事件单独拿出来,这就失去了运维本身的意义。”刘工思考这次事件不仅能够立足现在,更显示出了熟读“运维兵法”的功底。
据介绍,当时存储系统出现了磁盘硬件故障,但由于第三方的网管工具不能针对存储系统进行监控,所以刘工和同事接到业务部门报修电话后,再一次扮演了“救火队员”的角色,这是大家都不愿意看到的。
一套完整的业务系统会涉及到方方面面,包括:网络通信、电力资源、机房环境等能够直观看到的硬件资源;以及承载业务服务的服务器、存储、网络设备、安全设备、操作系统、数据库、中间件、应用程序等软性指标。所以,要确保整体运维服务水平一直保持在“高位”,就要尽可能全面地覆盖业务系统中的所有监控对象,不留“死角”。而在当时,能够实现全局监控的IT运维系统很少,能够对存储系统监控的更少。从这一角度出发,实际上就把复杂的IT运维平台升级工作变得简单化了,答案就是“能者居之”。
1 2 下页