English 服务热线: 400-610-7333

运维数据治理是业务连续性的有效保障 2024-11-12 09:49  作者或来源:虎嗅智库

数据治理这个话题在许多行业并不新鲜。企业数字化转型步入深水区,企业对于IT运维的依赖程度持续走高,数据治理的重要性愈发凸显。不同于传统的业务数据治理,运维数据治理主要针对业务应用在运行过程中产生的实时数据,统一进行管理、分类和治理,强调通过运维数据的治理来保障业务的连续性和成本投入的有效性。

本文聚焦能源电力行业的运维数据治理话题,将深入探讨运维数据治理的重要性及其核心特点,并透过展示数据治理如何为能源企业带来提高运维效率、降低成本、增强业务连续性等价值点。

运维数据治理具备实时性高和运维对象特点明确等特性

运维数据治理是数据治理分支中的细分领域,从框架上会关注数据的统一管理、分类分层、开发和加工数据等工序。在应用层会根据不同应用需要生成相应的数据集市,对于数据质量、数据生命周期、数据血缘等领域会有相应的管理和控制。按照业务逻辑、成本运营等角度,把数据之间的关联性组织在一起,发挥数据的价值。

运维数据治理与我们熟知的业务数据治理有一些明显的区别。所治理的数据上,业务数据治理主要聚焦业务的结果数据,例如交易结果、客户信息等等,而运维数据治理更多关注的是一些机器数据、指标监控、报文数据、配置信息等业务应用在运行过程中实时产生的运维数据。这些数据离散在各种各样的工具系统当中,其信息量很大,信息密度比较低,但各数据间所蕴含的关联性价值非常大。

时效性上,运维数据治理对实时性的要求比较高。业务数据一般以事后的挖掘分析居多,无需在数据产生之后立即进行相关处理。客观来看,传统的数据平台或者数据仓库也不一定具备这样的能力。

而运维是一个非常不一样的场景,尤其对于工业制造或能源电力等行业来说,基本需求是要在秒一级(最慢也要在一分钟之内)产生分析判断的动作。在生产运行的过程中,企业会需要实时精准的数据运维处理分析等操作,来支撑起流程的正常运转。否则一旦错过时间点,可能会造成不可逆的差错,甚至出现不可遏制的生产事故。

另外,运维数据有明确的对象模型特点。业务数据的核心对象通常是客户,因为业务品种不一样,客户群体也不一样,实际上复杂业务客户还需分类,不同的客户可能要不同的方法。但在运维世界中,运维本身就是为了支撑业务的数字化,业务数字化的主要运维、要保护的对象就是业务应用,所以每一个业务应用就是运维对象。在运维数据治理中,非常强调运维对象的建模。不管是哪一类型、什么规模的业务应用,需要建模的是运维数据之间的相关性关系。

运维对象的建模能力约束了运维数据治理的平台是否能够有效快速地帮助管理者以全局视角观测这些业务应用的状况。通过形成一个轴心,把数据形成一张围绕业务应用建设起来的立体模型(运维对象模型),这样无论是横向的交易状况,还是纵向的基础架构支撑状况,管理者都能以一种通用的规范去管理所有不同结构化程度的运维数据。

云化、虚拟化和容器化的转变加速了能源行业的运维数据治理

能源电力行业大约从2020年开始做运维数据治理的尝试。之前行业内大家涉猎的比较少,原因是那个当时业务应用和业务系统之间的关系相对简单,没有大规模出现云化、虚拟化和容器化的转变。后面随着国产化替代的进程加速,国内企业陆续开始采用分布式架构的云服务,来替代国外厂商高密度计算的服务器。虚拟化、容器化转变的好处是摆脱了国外的技术依赖,而坏处是数据运维的复杂度大幅提高。

而运维的复杂度变高最典型的情况就是上层应用和下层组件之间的支撑关系不明确,交易关系非常复杂,用来诠释上下游业务关系的调用链的数量呈指数级增长。举例来说,原先可能仅十几种链路关系,现在一天就可以产生大概10-15万条链路关系。

这种情况下,如果再用传统运维工具或人为的方式去解决排障分析的问题,效率会非常低。这时行业内普遍倾向运用运维数据治理的方法,结合技术平台与算法能力,以比较高效的方式解决同类问题。

此外,能源电力行业原有的监管控运维体系通常配备了监控工具、流程管理工具和自动化工具,其最大的弊病就是运维数据不能集中管理,只能够围绕着配置管理工具去做相应的保障运维事务。而在数据量级变大、数据类别变多的情况之下,传统运维工具很难维持住秒一级的处理效能,行业内对新一代运维大数据平台的运维数据治理需求量持续增长。

在此背景下,企业推动运维数据治理的核心价值点有两个。第一是利用运维数据确保业务的连续性,或者加速排障分析的效率;第二是利用运维数据分析来优化IT成本投放的有效性。这两点也是能源行业在运维数据治理领域开始投入建设的重要抓手。

企业业务的连续性原则上是不能够受到任何影响的。一旦用电或输电中断,业务连续性受到哪怕一分钟的影响,带来的经济和社会声誉上的损失是不可接受的。因此,企业更希望将原有的离散数据集中管理,对数据之间的相关性做出判断,更高效地加快排障分析的效率,预测性地感知问题的端倪,保障业务的连续稳定运行,而不是等到真正出现问题的时候再救火。

行业不景气的情况下,企业积极主动寻求降本增效,从IT资源的使用有效性入手是一个非常合理的价值取向。过去大家更关注的是零事故,宁可多投放一些资源也要保证安全和稳定,成本敏感度相对较低。但行业不景气,企业经营状况不容乐观,大家开始慢慢关注IT的财务分析或成本分析。

在数字化转型过程中,IT资源的投入非常大,这些投入究竟是否产生了有效的、有意义的业务价值,需要从业务侧数据检验结果。之后可以再从IT投入看相应的使用率,包括容量和业务量增长之间的配比关系,来判断衡量资源运营的有效性,从数据分析得出一些指导作用的结论和决策支持。

大量的数据信息与业务决策息息相关,比如像交易报文,企业希望通过数据的清洗和治理,把有业务价值的信息提炼出来,找到报文与其他数据的相关性,辅助业务的进一步决策。这也是用一些更好的手段,从运营数据中给出指向性的分析,帮助业务层优化成本结构、IT投入和投放的频度批次,以达到最好的投入产出比。

运维数据的有效治理既是对业务数字化转型的战略支撑,也是对运维组织自身数字化转型的有效手段。从整体的数字化转型来讲,能源电力行业现在处于深水区,都在更积极、更有效地利用新质生产力去提升自己整体的效能,运维数据治理其实是帮助企业的IT组织去做数智化转型。

缺乏良好的运维数据治理,智能化的有效手段也少有用武之地,缺少可施展的舞台。数据质量提升起来后,把智能化手段和运营数据的价值拟合在一起,便可以实现保障业务连续性、找到IT成本投入和效率平衡点这两个核心价值,整体上是对数字化和智能化的有效保障。

数据治理需要规范性要求和角色设定,配套约束流程和工具平台去推进

运维数据治理的应用场景大类上可以分成事前预测类、事中排障分析类和事后复盘分析类。整体上都会对数据质量、数据生命周期、数据安全以及数据服务进行相应的约束和管理。

事前,以预测性的应用为主。在具体应用场景中发挥计算效率,代替人来强化对数据的加工分析能力。同时利用算法模型发现运维数据裂变的趋势或异变,找到一些新奇的事件,捕捉到问题的端倪,尽可能把一些重大事故消灭在萌芽之中。

宏观上,这对于整个的业务系统来说,能够从交易侧尽快地捕捉到问题的根因,保证业务的连续性,或者保障业务不出错,尽量避免比如用电故障带来的用电账务纠纷、电力调度失误所产生的重大事故等等。

事中,事故一旦发生,要在很短的时间内快速定位捕捉问题并解决,需要不同业务应用产生的运维数据来支撑分析。能源的业务应用,不像互联网那样访问一个页面就返回一个结果。而往往是登录一个应用,还调用到很多子系统,这些子系统相互关联,有很复杂的上下游关系。如果不能准确判断出影响业务路径中的关键节点,前站业务应用慢,后站就会受影响。

前文提到,云的转型带来了业务支撑和被支撑关系的复杂化。电力、石油石化等行业纷纷上云,所带来的问题是企业自己的业务应用分散在自己的私有数据中心、私有云和公有云上,这之间存在复杂的支撑关系。

上层业务应用如果出现延时或宕机的情况,很难判断是由公有云上的应用组件造成的,还是私有云上的实例造成的,判断难度和原来一台机器一个应用的情况不可同日而语。需要在事中很短时间内完成判断,挑战其实非常大。通过数据的治理和分析手段,可以使得问题一览无余,并赋予管理者一种全局视角,清晰地看到业务应用究竟与哪些数据相关联、这些数据的波动变化与业务现象之间是怎样的影响关系,这实际上对于排障分析的效率提升十分有效。

另外,一般来说业务运维的人员众多且分工明确,当出现应急问题时,多人分工可能会导致工作冲突。如果有运维数据支持,业务影响关系高度透明化,这样不同部门之间就会有共同语言,然后在短时间内迅速形成战斗力,组织起来完成共同事务,利用系统来排查问题。相当于赋予所有人一个通用的地图,而不是各自独立的地图。

事后,复盘分析的场景居多。例如基于容量分析,判断业务应用占用的业务资源是否合理;是否有资源浪费或者过渡申请的情况;一些情况下配置是否可以再优化,使得同样的主机可以承载更多的业务应用,优化资源的分配效率和投放成本。

根据虎嗅智库调研,能源行业80%的企业最关注的是事中场景,让业务在短时间内恢复起来,这属于刚性需求;另外还有20%关注事前场景,不仅希望能够提升排障分析的效率,防患于未然,预先发现大多数故障,用预测性的原则判断健康度、完成维保。事后分析类场景目前则已基本覆盖。

某上市能源企业运维数据治理解决方案——擎创科技

随着数字化转型进程不断加快,新技术、新业务的不断涌现,加之企业云化发展深入,业务系统日益复杂,运维数据类型也越来越多,使用数据的场景也越来越丰富。然而在使用数据时,该企业总是面临无数据可用、有数据不可用等情况,具体痛点包括:

1.数据孤岛、数据烟囱:数据孤岛可能是人为主观不共享、客观数据安全和敏感性等问题,导致数据间关联性不够无法有效连接;

2.数据不可知且不会用:常见数据使用问题包括,都有哪些数据、数据与业务间的关系、是否有解决问题的关键数据等;

3.数据质量低,不好用不想用:无数据质量管理标准和管控手段,数据各管各的,低质量数据难以利用,数据价值被埋没;

4.数据服务能力薄弱:数据消费场景明确,却拿不到数据,数据获取成本高,需求难以被快速满足;

5.数据标准化程度低:运维数据格式多,管理各自为战,无统一数据标准,跨部门数据应用成本非常高。

根据企业痛点,擎创科技以数据价值为核心、以数据治理为手段、以技术平台为支撑,同时结合大数据智能处理和分析能力,打造了一套深度挖掘运维数据应用价值的解决方案,从而提升运维数据的洞见力、优化运维效率,利用运维数据反哺业务运营,为业务发展提供更多的助力。

主要通过建立运维数据治理体系、建设数据治理平台、输出丰富数据价值,三个关键步骤实现运维数据的治理。建立运维数据治理体系首先要建设一套完整的数据治理规范,规范内容主要包括:数据治理管理组织与制度的建立、数据标准化的规范、数据过程的规范三大部分工作,明确数据治理的工作原则和数据管理流向等内容。

数据治理过程中除需要成立专业的数据治理团队、制定治理规范、建立流程制度外,还需要建设一套先进、稳定、开放的数据治理平台来保障数据治理的效果。平台总体功能架构分为数据接入层、基础数据层、数据治理层、数据服务层、对外服务场景。从数据流程层面可分为数据接入、数据治理、数据服务三大主模块,运维数据在这三个模块逐层清晰。

该平台具备五大核心能力中心,包括数据治理中心、数据集成中心、数据服务中心、数据应用中心以及平台管理中心。

运维数据治理的最终目标是让运维数据更好用,且用得更好,平台则通过数据服务中心、应用中心实现数据价值的对外服务。平台数据服务中心是通过数据服务目录和数据对外订阅实现消费方对指定数据的订阅和消费;数据应用中心则主要实现数据服务场景的管理,包括场景定制、场景分类、场景发布、场景访问等。数据服务场景整体上可以归纳为数据治理、运维分析、运维决策三类场景。

该平台对于协助客户实现数据治理具有重要价值。该能源企业通过平台实现数据管理的标准化、规范化,统一采集纳管、统一指标规范、统一服务归口等,避免了多源数据不统一导致的应用困难。同时,企业实现了场景需求统一归口、快速数据查询分析、快速场景定制和发布,从而降本增效,丰富且灵活的输出数据价值。

另外,通过该平台,对于数据质量、安全、生命周期、集成、服务等核心管理能力,企业实现了数据管理的制度化和数据质量的监管闭环,保障了应用数据的可信性、可用性和可优化性。

整体来看,该方案的规划及治理平台建设结合了能源行业的数据治理现状,目前已实现对业务交易、设备、系统、日志等多类运维数据的统一纳管和标准化。通过数据服务中心、应用中心实现了多维数据应用场景的输出。

其核心价值在于实现了企业内部多维运维数据的标准化,提供了对数据质量、安全、生命周期的统一管理手段等,快速输出数据应用和服务的能力,在运维数据应用价值的挖掘、降本增效、快速响应等方面均有较大提升。

建设路径上,在做运维数据治理之前,首先推荐企业进行标准和规范的制定。企业可以参考通用标准,再根据实际运维需要做一些减法,来生成组织自身的运维数据规范。有了这个规范后,就可以上平台开始纳管数据,后面对于每一次数据质量的核查都可以作参考并持续改进,然后再纳入对应的数据域和数据集市,以供后续使用。在使用过程中间,可以在闭环内去做相应的核查、校验、整改,这是一个持续性改进的过程。

其次,组织要有配套的流程和相应的人员角色定义。运维组织需要去做角色定义的调整,会有专员管理相关的运维数据收纳、管理、质量检查、核准入库等过程。这样的话一旦哪个部门报送的数据质量有了问题,就可以开整改单,优化采集的能力来达到数据规范的要求。

数据治理需要规范性要求、治理岗位的角色设定,配套约束流程和工具平台去推进,才能真正落实,产生长期效果持续性输出价值。

 

 

文章来源:虎嗅智库

 

 

 

 

服务热线:400-610-7333 | 邮箱:service@gpos.cn | 电话:8610-82564561/71 | 传真:8610-82564561-8025 | 京ICP备18017976号 | 京公网安备 11010802036102号 Copyright © 2005-2024 Beijing Golden Point Outsourcing Service Co., Ltd. All Rights Reserved. | 北京金支点技术服务有限公司保留所有权利。