加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 服务器 > 系统 > 正文

工商银行数据中心大型主机智能化运维探索

发布时间:2018-07-11 19:05:40 所属栏目:系统 来源:站长网
导读:副标题#e# 随着银行业务的快速发展,银行业迈入转型创新关键期,如何对银行关键系统实现自主可控显得至关重要。与此同时,以云计算、大数据为代表的新兴技术快速发展,更给数据中心运维工作带来全新挑战。 当前,工商银行的大型主机系统日均承载交易量达到5
副标题[/!--empirenews.page--]

随着银行业务的快速发展,银行业迈入转型创新关键期,如何对银行关键系统实现自主可控显得至关重要。与此同时,以云计算、大数据为代表的新兴技术快速发展,更给数据中心运维工作带来全新挑战。

当前,工商银行的大型主机系统日均承载交易量达到5亿笔,系统稳定运行的压力巨大。此外,IT运行的基本目标是稳定和安全,核心目的是为业务服务,如何改变大型主机传统的运维模式,结合分布式、大数据、人工智能等新兴技术的应用,提升主机运维的自动化、智能化水平,是大型主机运维人员的着重发力点。

近几年,工商银行数据中心(上海)大型主机运维团队在运维自动化、智能化方面做了一些尝试。希望借助新技术逐步夯实运维基础,提升运维的自主可控水平,寻找保障业务安全稳定的有效路径。

一、夯实基础,积极布局智能运维平台 

随着系统架构的不断演变升级,不论是系统环境的数量还是整体系统架构复杂度,相较以往都有较大幅的增长。以往的主机自动化工具开发及运维方式,与当前庞大复杂系统架构下的运维管理需求相比,匹配度正在逐年下降,疲态渐显,缺点渐露,这主要体现在可维护性差、复用程度低、主机配置自动化率低、各工具间缺乏有效联动等,过多地依赖于技术人员特别是有着丰富经验的技术人员的专业素质。为了改变这个局面,中国工商银行数据中心(上海)大型主机运维团队展开了多维度多方面的基础性探索和改造。

二、运维数据标准化 

第一步:对各类性能、监控、运行数据的梳理、整合、入库,标准化处理

将原本分散的性能类事件、监控报警、运行状态数据等内容整合,实现数据统一规划与存储。然后对相似的指标进行标准化处理,对齐时间片,规范数据单位,统一格式,易于管理与抽取。

第二步:建立大数据平台,为分析挖掘建立基础

2016年通过搭建主机大数据平台,完成了主机大数据池建设。结合大数据分析思维,着重对各种关联关系的分析和挖掘,对交易进行实时分析,研究故障规律,完成了主机资源智能监控和主机系统健康模型的研究。通过多角度分析主机监控、性能、业务等方面历史数据,充分发挥这些数据在安全生产以及支撑业务等方面的价值。

第三步:数据可视化展示

通过建立统一的运维门户,在PC端将各类监控、报表、信息查询等操作统一了入口,向运维人员提供可定制化的栏目。同时利用数据可视化技术,将原先的一些报表内容展现为界面友好、可视化程度较高的图标,用于全方位地了解生产运行态势。

三、监控体系智能化 

监控系统对于关键系统的运维工作至关重要,工商银行于2006年开始搭建统一的集中监控体系,该体系涵盖了性能监控、事件报警、统计报表等内容,在日常运维中发挥了巨大作用,但随着业务负载的复杂性、突发性以及系统架构的日益复杂等因素,传统的集中监控体系的不足日益凸显,主要表现为:监控阈值相对固定单一,报警覆盖面较广但误报较多,无进一步处置建议等问题。

而对于监控体系的智能化改造,主要从三方面展开。

1.对关键监控对象采用动态阈值监控

主要目标是要对各个系统关键指标的合理区间进行预估,利用预测区间可以较好的判定指标当前运行是否处于正常范围。因传统ARIMA模型对于预测大量数据以及周期性数据上的局限性,我们对这个模型进行了改造。改造后的模型可以提前24小时预测次日所有时点的指标区间。整体预测有效性达到95%以上,高峰期预测误差下降至4.3%,每日峰值预测误差下降至3.98%,取得了不错的效果。

通过引入大数据和机器学习技术,监控系统有效地提升系统自动化判断异常的能力。通过选取随机森林、线性回归、XGBoost、深度学习ANN等模型,根据指标的历史数据,自动给出当前系统状态下各指标的合理值,利用合理值与实时值的差别量化系统异常。目前该模型已经对部分重要的地址空间运行状态上线生产,并取得了良好的成效。

2.对报警事件的分析压降

通过实施监控信息与性能指标多维度组合、动态阀值设置、取消冗余监控、信息折叠等优化措施,实现报警压降从月均2371条下降到1361条,降幅43%。夜间报警量从2017年12月的221条下降到月均141条,成效显著,报警总量得到了控制,减轻了日常运维人员的压力。受益于模型的引入,对一些原本被漏报的事件也能够准确报出,报警有效性得到提升。

3.监控和应急有效联动

再结合实时获取的系统事件,监控系统能够及时准确地提示系统隐患,自动提示问题发生的可能原因,进一步关联至对应的应急预案,为问题处理提供快速有效的应急措施。

四、日常操作自动化 

主机运维工作沉重而繁琐,稍有不慎,便会导致不可估量的损失。究其原因,人工操作仍然是主要运维方式,知识和技能也主要依赖经验积累与传承。因此,迫切需要打破固有的主机运维方式,将传统的人工运维转变成自动化运维,用机器替换人工,减少人为出错的概率。

我们研发了每日健康检查、问题跟踪、故障诊断、一键式报表生成、知识共享平台等模块功能,实现了每日数千项性能指标的自动化检查、基于大数据技术的海量日志分析、故障辅助诊断、问题的自动化管理和报表的快速定制及一键式生成的,有力提升了主机专业线的生产风险控制能力。为主机运维人员设计了高效、便捷、实用的知识共享模块,将主机运维的经验和技能固化成模式,并利用前沿技术为主机运维人员提供一个简单、高效的事件处理和知识共享平台,提升主机运维的自动化水平。

通过变更流程规范化、变更分类梳理,合理安排变更实施步骤和顺序,在主机侧实现部分变更自动化提交和实施,截至2018年上半年,变更自动化率已达到35%。

在上述基础性改造之上,我们面向主机一线运维需求,规划设计统一的主机智能运维平台,采用了业界主流开发技术,旨在从数据标准化、系统间联动和智能化应用三个角度出发,结合主机日常维护和一线生产需求,实现主机监控智能化、应急变更自动化和性能容量可视化,并引入大数据、机器学习等先进技术,实现交易实时分析和日志挖掘,从而不断提升主机运维工作的标准化、自动化、智能化和可视化水平。

主机智能运维平台自上线以来,不断优化、不断创新,实现了一系列具有主机系统专业特色的亮点功能,包括:自动化分析交易毛刺、生产告警信息的辅助处理及历史事件自动关联、一键式生成性能报告、极简式搜索性能指标、知识库全文搜索、一屏式监控,问题跟踪、一键式PTF、交易预估等。为提升主机生产运维的自动化和智能化水平,我们不断加强运维团队的生产风险控制能力,为主机系统的稳定运行提供了强有力保障。

五、合纵连横,探索主机智能运维未来 

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读