资讯详情

浅谈数据质量管理

2023-10-23 10:25:234636

Part 01、什么是数据质量管理

数据质量管理，是DAMA数据管理知识体系指南中数据治理领域非常重要的一部分（图1 所示），主要是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

Part 02、数据质量问题原因及评价标准

数据在计划、获取、存储、共享、维护等各个环节都有可能引发数据质量问题，主要原因分为几下几个方面：

数据不完整：由于企业信息系统的孤立使用，各个业务系统或模块按照各自的需要录入系统，没有统一的录入工具和数据出口，业务系统不需要的信息就不录，造成同样的数据有不同的信息属性，再或者取数动作不规范，或许某个数据本身就是采集过来的，本来就是不完整的，数据完整性无法得到保障。

数据不合规：没有统一的数据管理平台和数据源头，数据生命周期管理不完整，同时企业各信息系统的数据录入环节过于简单且手工参与较多，就数据本身而言，缺少是否重复、合法、对错等校验环节，导致各个信息系统的数据不够准确，格式混乱，各类数据难以集成和统一，没有质量控制导致海量数据因质量过低而难以被利用。

数据时效性差：大数据项目对数据的时效性要求是非常严格的，比如离线项目是每天计算前一天的数据，如果前一天的源数据因为某些原因没有被及时的传输过来，这样就会严重影响后面指标的计算以及报表的生成。

数据冗余：各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一、且部分业务系统针对数据的验证标准缺失，造成了企业顶层视角的数据出现“一物多码，一码多物”等现象。

数据不精确：数据的精确性也是指数据的准确性，是指数据是否与目标值匹配；比如一个订购金额，如果远远大于或低于常规的数值，那么我们就要怀疑这个的数据的精确性不够。

那么如何判断数据质量的优劣？从哪些方面可以评估数据质量？在实践中，我们可以通过数据质量评估维度进行评估。数据质量评估维度是数据质量的特征之一，它们为度量和管理数据的质量提供了一种途径和标准。在一个具体的数据质量项目中，要选择最适用于业务需求的数据质量维度进行测量，以评价数据的质量。

在《GB/T36344－信息技术数据质量评价指标》中，国家标准化管理委员会明确了数据质量评价指标框架如图2所示。

图2

规范性：数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
完整性：按照数据规则要求，数据元素被赋予数值的程度。
准确性：数据准确表示其所描述的真实实体（实际对象）真实值的程度。
一致性：数据与其他特定上下文中使用的数据无矛盾的程度。
时效性：数据在时间变化中的正确程度。
可访问性：数据能被访问的程度。

Part 03、目前常用的数据质量管理工具

3.1 Apache Griffin

Griffin是一个开源的大数据质量解决方案， 2016年12月07日进入 Apache 孵化，由eBay开源，它支持批处理和流模式两种数据质量检测方式，是一个基于Hadoop和Spark建立的数据质量服务平台 (DQSP)，如图3所示。它提供了一个全面的框架来处理不同的任务，例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证，以及跨多个数据系统的统一数据质量可视化。

图3

Griffin由Define、Measure、Analyze三大模块组成，各个部分的职责如下：

Define：主要负责定义数据质量统计的维度，比如数据质量统计的时间跨度、统计的目标（源端和目标端的数据数量是否一致，数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等）。

Measure：主要负责执行统计任务，生成统计结果。这一块主要技术栈使用的是Livy+ Spark，Spark作为执行引擎，Apache Livy基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。

Analyze：主要负责保存与展示统计结果。

-现状分析：

Griffin的社区并不太活跃，现在最新版本还是0.6，网上技术文档并不算太多，担心出了问题比较难找到解决方案。
从技术栈的角度Livy过于小众，数据存储方面ES的运维对于一个小团队来说也比较麻烦。
针对数据检查任务的调度和数据检查结果的后续处理方面，Griffin一般还需要和现有的大数据调度平台打通，也有一定的工作量。

3.2 Apache DolphinScheduler

在2022年4月22日，Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本发布，此版本中用户期待已久的数据质量校验应用功能上线，实现了数据质量的原生支持，支持在工作流运行前进行数据质量的校验，可由用户自定义数据质量的校验规则，实现了任务运行过程中对数据质量的严格控制和运行结果的监控，如图4所示。

图4

-现状分析：

DolphinScheduler作为一个任务调度系统，具备了执行任务的基础，不需要引入新的组件来提交任务；
数据质量检查可以作为一种任务类型无缝接入到工作流当中；
无需新增其他服务来增加运维的难度；
可以很好地与社区共建开源。

基于以上现状，DolphinScheduler是一款比较适合与业务相结合进行二次开发的数据质量工具，但是目前仅适用于离线数据验证。

3.3 Deequ

Deequ是一个来自AWS实验室的开源工具，可以用来验证许多大型生产数据集的质量。数据生产者可以通过添加和编辑数据质量约束，使得系统定期计算数据质量指标。当数据质量约束成功时将数据集发布给消费者，错误时可停止数据集的发布，并通知生产者采取行动，这样数据质量问题就不会传播到消费者的数据管道，从而减少它们的爆炸半径。主要组件如图5所示。

图5

指标计算（Metrics Computation），Deequ 计算数据质量指标，即完整性、最大值或相关性等统计数据。Deequ 使用 Spark 从 Amazon S3 等源中读取数据，并通过一组优化的聚合查询计算指标。
约束验证（Constraint Verification）,作为用户，可以专注于定义一组要验证的数据质量约束，Deequ负责利用该约束在数据集上进行计算，进而生成数据质量报告，其中包含约束验证的结果。
约束建议（Constraint Suggestion）,可以选择自定义所需的数据质量约束，或使用自动约束建议方法来分析数据以推断有用的约束。

-现状分析：

Deequ和spark关联密切，使用spark技术框架的可以考虑。
社区较为活跃，使用的较多。

3.4 Great Expectations

Great expectations是一个python的工具包，Python近几年在数据分析领域大放异彩，而Python本身对于数据质量问题的解决一直是一个大问题。而Great expectations正好弥补了这方面的不足。对于一些对Python支持良好的公司，可以优先选择Great expectations来进行数据质量的解决方案建设。

-现状分析：