视频字幕
数据仓库是一个面向分析的集成化数据环境,它具有四个核心特征。首先是面向主题,按照业务主题来组织数据,而不是按照应用系统。其次是集成性,能够整合来自多个不同数据源的信息。第三是非易失性,数据一旦进入仓库就稳定存储,不会被随意修改。最后是时变性,能够反映数据随时间的历史变化。与传统的OLTP事务处理系统不同,数据仓库主要服务于OLAP分析处理,通过ETL过程将操作型数据转换为分析型数据。
数据仓库采用分层架构设计,包含三个核心层次。首先是ODS操作数据存储层,用于保存从业务系统抽取的原始数据,作为临时存储区域。然后是DW数据仓库层,对原始数据进行清洗、整合和标准化处理,形成企业级的核心数据资产。最后是DM数据集市层,面向特定业务主题构建汇总数据,直接支撑业务应用。整个过程通过ETL实现,包括数据抽取、转换和加载三个步骤。同时配备元数据管理和数据质量控制机制,确保数据的准确性和一致性。
维度建模是数据仓库设计的核心方法,基于事实表和维度表构建分析模型。事实表是模型的中心,存储业务过程的度量值,如销售额、数量等数值型指标数据,通过外键与维度表关联。维度表存储描述性属性信息,提供数据分析的角度和层次,包含如时间、产品、客户、地区等文本型描述数据。在销售场景中,销售事实表记录每笔交易的度量值,而时间维度、产品维度、客户维度和地区维度分别提供不同的分析视角,形成一对多的关联关系,支持多维度的数据分析。
星型模式是最常用的维度建模方法,其结构特点是事实表居中,维度表围绕分布,形如星星。以零售业务为例,中心的销售事实表包含销售金额、数量、利润等度量值,以及指向各维度表的外键。周围的维度表包括时间、产品、客户、门店、促销等,每个维度表都采用非规范化设计,包含丰富的描述性属性。星型模式的优点是查询性能优异、结构简单易懂、维护成本较低,支持快速聚合分析。缺点是存储空间较大、数据冗余较多。设计时要确保主键外键关系清晰,支持多维度的钻取和切片操作。
雪花模式是星型模式的规范化版本,将维度表进一步分解为层次结构。与星型模式相比,雪花模式的维度表采用规范化设计,能够节省存储空间,减少数据冗余,但查询时需要更多的表连接操作。以产品维度为例,星型模式中产品维度表包含所有产品属性,而雪花模式将其分解为产品表、类别表、品牌表等多个规范化的表。在查询性能方面,星型模式通常只需要2个表的连接就能完成分析,而雪花模式可能需要4个或更多表的连接,因此查询速度相对较慢。选择哪种模式需要根据具体的业务需求、存储空间限制和查询性能要求来决定,实际项目中也可以采用混合方式。