资讯详情

大话数仓，数据仓库

2023-11-24 09:42:074636

数据仓库，是越来越流行的数据解决方案。传统烟囱式的数据开发模式，显然不能满足日益增长的数据需求，而作为大数据量化方案、解决大数据问题、发掘数据价值的大数据仓库被很多公司采纳使用。想要建设好数据仓库，就要了解数据仓库模型设计及其原理、怎样处理数据仓库建设的需求分析？又如何处理基础数据元和维度表、事实表？下面就来简单谈谈数据仓库。

一、什么是数据仓库？

数据仓库的概念

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，用于支持管理决策、商业营销、运营分析。数据仓库实际上是一种数据存储，它将各种异构数据源中的数据集成在一起，并保持其语义一致，为企业决策提供支持。

1.面向主题。在较高层次对数据综合、归类，针对某一分析领域所抽象出来的分析对象。

构建主题的步骤：首先抽象出需要分析的主题域，确定每个主题域需要分析的维度、其所包含哪些数据表。一般主题域所有表都有一个连接键，作为主题的一部分，通过这个连接键可把主题域所有表关联汇总成一张宽表。如会员主题，分为会员基本信息、会员积分数据、会员的资产数据、会员的行为数据、会员的信用等多张表。

2.集成的。数据来源的格式类型不同；编码、命名格式、属性单位不一致，然后对原有数据进行综合、计算。

把不同表、不同类型的数据放入到统一的数据仓库中。如Mysql、Oracle、Redis、Hbase中的数据，我们通过同步全量数据把数据存入统一的系统中。对于增量数据设置定时抽取，可以采用并发架构，多任务同时同步，把数据持续存到我们的分布式文件系统中来。

3.时变的。数据仓库的数据是不同时间的数据集合；随时间变化不断增加、删除、综合数据；数据仓库表结构中一般都带有时间字段。

数据仓库的数据不是一成不变的，它是随着时间变化不断新增内容，更新与时间有关的综合数据，这些数据一般都包含有时间字段。

4.稳定非易失的。.数据仓库中的数据一般只插入新增，不做update更新、delete删除操作。

数据是经过抽取而形成的分析型数据，不具有原始性(不是第一手数据，一般是经过其他数据源或业务系统，抽取到数据仓库中)，主要供企业决策分析之用，执行的主要是查询操作，一般情况下不执行更新操作。抽到数据仓库的数据在ODS层不做任何操作，来保持数据的原始性(不改变字段属性，不补值等操作)。

二、数据仓库建模理论

数据一般用于两种目的，一种是基于操作型记录保存，一种是分析决策的制定。简单来说，前者是操作系统保存数据(OLTP-联机事务处理)，一般仅反映数据的最新状态，按单条记录事务性来处理数据；其优化的核心是更快地处理事务；后者是分析系统使用数据(OLAP-联机事务分析)，按大批量方式处理数据；其核心是高性能、多维度处理数据。针对两种不同的数据用途，如何组织数据，高效的使用数据，这里就涉及到数据建模的问题。

2.1、什么是Inmon范式模型？

数据仓库是商业智能的一部分，一家企业或公司只有一个数据仓库，数据集市的信息皆来源数据仓库。现在的数据库大多数都是依据3FN范式来建立的，而依据范式的思想来进行数据仓库建模，就是范式建模。数据仓库中的数据信息必须符合第三范式。

范式是关系型数据库的基本概念。是指符合某些条件、符合某些规则的关系集合。范式是分级的，每向上一级，条件和规则更加严格，每一级是下一级的子集。

范式最主要的目的是消除冗余，每一份信息必须存放一次，也只能存储一次。数据的冗余不仅仅会造成存储资源的浪费，而且可能会引发数据的更新异常。

2.2、什么是Kimball维度建模？

数据仓库是公司内部所有数据集市的集合，信息总是被存储在多维模型中。是面向数据集市、数据主题的，一般采用星型模型建模。依据星型模型，构建事实表和维度表，建立数据仓库模型的过程，就是维度建模。Kimball的核心思想就是星型模型和维度建模。

2.2.1、什么是星型模型？

所有的表直接与事实表关联，整个图解就像星星一样，该模型称为星型模型。星型模型是一种非正规化的结构，是反范式的。因为多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一定的冗余，

星型模型

2.3、事实表和维度表

事实表描述业务过程的度量、以可加数据为主题，每一行代表一个可以观察的实体或事件。主要的是发生了业务过程，如卖出一件商品，用户购买一件商品，这都触发了业务过程。卖出的商品有商品属性、有卖出的门店、有出货记录，有购物者信息等等。

维度表描述事实所处的环境、面向分析，代表针对事实的一种分类。直白点，维度表就是用来描述事实的。还以卖出商品为例，卖出的商品，商品有属性，包括颜色、尺码、风格、季节等多种属性，这些属性组合在一起就构成了描述商品的维度表。

对维度表再建立更细的维度，称为支架表。支架表是维度表的维度表，支架表是去冗余的产物，在星型模型中，对冗余很宽容。所以支架并不是必须的，并且应该尽量少用。合适的方法是：将支架表合并到和事实表直接连接的维度表。

注意：维度表中需要注意维度退化和缓慢变化维

退化维度：在维度类型中，有一种重要的维度称作为退化维度，亦称维度退化。这种维度指的是直接把一些简单的维度放在事实表中。维度退化是维度建模领域中的一个非常重要的概念，它对理解维度建模有着非常重要的作用，维度退化一般在分析中可以用来做分组使用。

缓慢变化维：维度的属性并不是始终不变的，它会随着时间的流逝发生缓慢的变化，这种随时间发生变化的维度我们一般称之为缓慢变化维。

常用处理缓慢变化维的方式：用户变更手机号码

EX1，直接覆盖原值。

直接覆盖原值

EX2，增加维度行。

增加新行

在增加新行时，需为其分配新的代理键。并且，至少需要在维度行再增加三列：有效日期、结束日期、行状态，可以使用拉链表处理。

EX3,增加新的属性列。

增加属性列

2.2、什么是雪花模型？

当有维表没有直接连接到事实表上，而是通过连接其他维表间接连接到事实表，其图解就像多个雪花连接在一起，故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化，把原有的维表进一步拓展，形成更多细分层次。

处理雪花模型的方式，和支架表一样，理想的模型是只存在和事实表直接相连接的维度表。在数据仓库中，数据冗余不重要，连接性能更重要！我们通过牺牲空间来换取时间，这些数仓很常用的手段。

雪花模型

雪花模型是一种规范的数据建模模型，规范化的目的是去冗余，在节省存储的同时减少重复更新。但是对于数据仓库来说，这两者都不重要，数据仓库本来就不更新。Kimball模式的数据仓库的查询性能优先！星型模型，是反范式的

总结：数据仓库建模过程是一个很复杂的过程，一方面不仅要根据自家业务处理建模需要，一方面还要深入了解建模的理论基础。

资讯详情

大话数仓，数据仓库

大数据在推动心理健康研究中的作用

超越云和边缘计算：下一步是什么？

相关资讯