数据治理,一起要从“源头”开始!
数据治理,一直是数字化转型工作中非常重要的话题,几乎承载了数字化转型战略中最为重要的任务。
数据治理与数据管理不同,具有更强的有关数据价值开发的目的性!
1. 大型企业数据治理之困境
数据治理,涉及的工作很多,比如数据溯源,数据异常识别,数据整改,数据质量验证,数据对齐,元数据补全,数据回收等等。归根结底,数据治理的目的就是一件事——提高数据的可用性。
通过治理,把数据的“混乱度”降低,使不可用的数据变为可用,使不好用的数据变得好用,使没意义的数据变得有价值。
数据治理说起来重要,但是在具体实操中,往往也是让诸多企业最为“犯难”,尤其是大型集团型企业,由于业务规模庞大,同时历史包袱很重,经常遇到“老业务治不完,新业务跟不上”,或是“前治后乱”的困窘。
数据治理对于资源的消耗非常大,很多企业的数据治理成效并不明显,因此数据治理活动也是最容易受到“诟病”的数字化工作之一。
2.数据治理的源端管控
狭义的数据治理,往往是指对存量数据问题进行整改处理,由于企业的数据不断积累,如果数据治理的技术手段、管理手段不够先进,很容易收效甚微。
因此,数据治理必须要控制住数据的“源头”,在数据产生、数据录入的环节就做好严格的管控。
如果数据是系统自动产生的,那么就要结合新的数据标准和规范,对源端系统进行改造和升级。
如果数据是人为手工录入的,那么就要加强对数据责任人的管理,一是在职责上明确每个基层人员的数据管理责任,并与考核挂钩;二是加强对人员录入信息的数字化交叉验证。
还有一些数据,是通过系统运算生成的,即计算类、报表类的数据,这些数据属于二次加工数据,这些数据的问题可能在源头就已经被污染了,也可能是计算环节出了问题—— 这就要求对数据链路进行监控分析。
一是要保证数据链路贯通,数据同步与融合的相关操作稳定,二是要核实数据计算逻辑是否正确,是否与最新的业务口径保持一致。
3.提升治理技术尤为重要
除了在源头控制以外,传统的事后检查的治理方式仍然很重要,尤其是针对一些短期内无法解决的黑盒系统数据进行治理的任务来说。
数据治理的基本对象是数据质量,数据质量的“六性”包括:完整性、及时性、准确性、一致性、唯一性、有效性。针对这些原则,可以提前制定一定的数据质量验证模型,判断是否满足这些质量约束条件。
通过定期将数据质量验证模型的代码脚本运行于业务数据库中,可以自动发现数据质量缺陷,动态生成“待处理”的问题数据任务工单。
因此,提升数据治理技术本质上就是验证模型的开发,验证模型有些可以基于经验进行总结,也有些可以构建具有概率推断能力的机器学习模型,或是专门针对治理任务的“专家系统”(Expert System)。
有些数据治理任务,在发现问题数据时,需要验证跨系统、跨表单之间的数据关系,为了降低脚本重复运行和数据比对的工作量,相关的RPA机器人的设计和开发也是未来重要的数据治理支撑技术之一。