云计算时代,IT系统建设成为企业发展至关重要的一环,而保障业务健康运行的运维系统同样至关重要。在当前企业IT系统向云架构转型的重要时刻,运维系统再次面临挑战。
为了支持业务系统快速上线、灵活伸缩以及更高的SLA要求,加之有限的IT运维成本,运维人员将面临比以往更大的运维压力。在运维拥有海量设备且高度复杂的云数据中心环境时,如何提供高质量的IT服务,提升效率并降低成本,是运维团队当前面临的巨大挑战。
保障高运维质量:云数据中心的设备规模从几十/几百向几万/几百万数量级演进时,海量硬件设备的使用对硬件故障的快速定位和隔离将带来巨大挑战;同时,采用虚拟化和分布式弹性技术也加剧了云数据中心的复杂度。这些都会导致运维难度增加,小概率故障成为常态且影响加大,用户级的99.95%或以上的服务质量承诺(SLA)很难保障。
提高运维效率:虚拟化技术和众多开源技术的引入使得运维变得越来越复杂,传统人工运维模式处理速度慢、出错概率高。此外,传统人均50~100台设备的维护效率,在大规模云化环境下,需要投入大量人力。
保持低运营成本:传统IT的资源使用率通常小于20%,在云化后资源使用率有所提升,但是个性化、按需弹性需求导致资源碎片化、负载不平衡以及扩容规划不精准,可能会造成整体资源利用率并没有达到规划目标,运维成本居高不下。
在此形势下,云计算通过自动的弹性伸缩策略来实现资源共享与用户体验及业务可用性之间的平衡,但同时也带来了运维的新需求和新挑战,即运维人员往往并不知道业务系统具体运行在哪个硬件上,故障定位变得困难,解决这种不可知性要求运维系统要做到“更加全面的系统监控”,从而实现“可知性”。
与此同时,企业IT向云架构迁移需要一定的时间跨度,而两种架构导致运维工具差异大,对运维人员带来了更大的挑战。如何实现两种IT架构统一、集中的维护管理,是运维系统面临的新课题。
运维的工作不再是传统的运维管理,而是构建自动化运维模型和运维工具。实现IT系统全自动化运行的核心在于智能,才能够基于系统的状态、用户规模、业务体验质量和策略规则等,实现系统的弹性伸缩、故障隔离和故障修复等等。
系统的智能运维包括3个方面的核心能力:全生命周期自动化管理;智能化故障预防、发现与自愈;以及智能化容量运营。
全生命周期自动化管理
云数据中心的资源规模和业务规模都远远超过传统数据中心。传统的手工方式实现云资源/云服务的上线、监控、升级、变更、扩容、限流、降级与下线的生命周期管理时,效率低下、人员误操作风险高,自动化手段势在必行。通过变人工处理为自动化处理,提升运维的人均维护效率,满足业务的敏捷要求,逐步向无人值守的自动化运维演进。
智能化的故障预防、发现与自愈
传统模式下,运维人员的工作模式是被动等待问题发生,然后再进行故障处理。根据有关数据统计,运维人员平均每天计划内的工作只占50%左右,剩下的时间都是在到处救火。随着云数据中心规模快速增长,运维人员需要处理的事件量越来越大,人工救火将力不从心。这就需要一个智能的运维平台,利用大数据关联分析与机器学习技术为运维系统赋予人工智能,提供从故障预防到故障定位、再到故障闭环的智能保障能力。
智能化容量运营提升资源利用率
传统数据中心中,各业务部门独立部署的业务系统无法共享,服务器的利用率小于20%。数据中心云化后,云资源能够实现资源共享和动态调配,但同时也带来了碎片化、负载不均衡和SLA保障困难等挑战。
智能化的容量管理结合了大数据分析预测技术,将云数据中心内物理资源(如裸金属服务器、存储和网络等资源)和云资源(如虚拟机和块存储等)的实时容量视图、容量快照、负载现状和趋势,以及容量碎片呈现出来。针对资源负载不均的问题,传统运维平台因无法进行迁移/弹性伸缩而导致无法调整。而在云数据中心中,容量管理会向运维管理员提供低负载资源的分布信息,并提供缩减资源规格的建议;资源碎片化一般会导致20~30%“资源不可用”的情况,容量碎片管理向运维管理员提供各种资源规格的物理分布视图,并提供资源调整建议,提升现有资源的利用率。
云资源利用率达到一定阈值时,规划人员就需要考虑未来扩容问题。传统的容量预测主要依靠人的有限经验与数据来进行不可预知的扩容,往往会造成资源闲置率超过20~30%。而智能化的容量管理将资源的容量数据、应用行为分析、实际性能数据以及财务信息等相结合,对业务部门的关键应用对未来IT基础架构的各种资源容量的诉求进行高度准确和可靠的智能预测,向规划人员提供未来资源容量的趋势分析,供规划人员制定有效的采购和扩容计划,满足用户未来资源的高效利用。
智能化的容量管理能够实现现状可视、问题可察、风险可辨、未来可测和调整可控,使云数据中心内资源的利用率提升到70%以上的水平。