美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

业务主导,轻量化建设数据仓库秘笈分享

2024-01-05 16:36:00
随着大数据时代的来临,数据已经成为企业决策的关键因素,很多企业都选择通过构建数据仓库来管理数据并支撑数据应用,从而实现整合数据源、提高数据质量、数据支持决策制定、提高企业竞争力、降低运营成本等目的。
然而,对于很多已经实施和将要实施数据仓库建设的企业来说,耗费大量的技术和资源构建好的数据仓库究竟是否贴合实际业务?能否真正支撑企业决策?
我们和市面上很多已构建和计划构建数据仓库的企业深入沟通交流后,总结了几点当前数仓建设所面临的主要问题:
01、技术层面构建的数据仓库无法贴合实际业务。
数仓建设一般都是技术人员根据已有系统库中的数据进行构建,花费大量人力财力精力构建出的数仓并不贴合实际业务,业务层无法直接使用数据仓库,甚至完全不懂数据仓库。
02、异常数据无法追踪溯源。
数仓建设大多都是使用SQL脚本来生成各个层级的数据,出现异常数据时只能通过一步步解读SQL来确定异常问题,整个过程耗时耗力且只能请专业的技术人员来查看。
03、汇总层内容繁多无法聚焦重点数据。
常用的数仓建设在最终形成汇总层时总是将各个来源的数据汇聚为一张大宽表,其中混杂着维度数据、指标数据、日期时间数据、标记数据等,无法快速聚焦重点数据,一眼望去全是数据却抓不到重点。
04、业务变动时又需重新构建数据仓库。
企业的组织架构、业绩标准、指标定义往往是在不断迭代更新的,不可能一成不变,在这些内容发生变动时,已构建好的数仓又要推倒重来,根据新的标准重新建设数据仓库,整个过程周期长、难开发,导致数据仓库完全无法使用。
针对以上种种问题,我们美林数据深耕数据治理方案多年,总结出一套以业务为主导,轻量化构建数据仓库的实施方法。
 
轻量化构建数据仓库以指标为牵引,通过维度表和事实表的关联直接开发关键指标数据,并将成果以汇总表的形式落库形成数据仓库。
 
01、梳理企业指标
从企业现有业务系统入手,梳理出各项业务流程、并明确每项业务流程中涉及的所有业务活动,再从业务活动中精确提取所产生的指标数据,根据系统和流程确定指标体系和关键指标。也可以参考国资委数字化考核要求、一利五率要求等等,对于大多数企业来说,也会有基于自身发展提出的企业年度/月度经营目标。我们可以从这些建设目标入手,梳理出这些目标的达成条件,明确目标达成过程中产生的指标数据,再层层剖析关键指标和指标体系。例如在采购系统中,可以根据实际的采购业务流程梳理出每个节点的关键指标。
梳理企业指标
02、构建维度表,关联事实表
数据仓库中,维度表是与事实表相对应的表。维度表是维度建模的基础和灵魂。事实表紧紧围绕业务过程进行设计,存储度量数据,如销售额、数量、收入等,而维度表则围绕业务过程所处的环境进行设计,维度表存储描述度量数据的各个方面的信息,例如时间、地理位置、产品、客户等。维度表主要包含一个主键和各种维度字段,维度字段称为维度属性。
例如,我们基于上一步中梳理好的关键指标构建“物料维度表”和“供应商维度表”。规范化各个维度属性的命名规范,通过唯一值来关联“采购库存事实表”,将多个维度表和事实表相关联,在不创建大宽表的情况下将关键指标和规范维度属性相关联,就算后续业务活动中指标数据或维度属性发生了变化,也只需改动所关联的数据表内字段,其余相关数据随之调整,无需再重新构建汇总层数据。
构建维度表,关联事实表
 
指标都是汇总计算出来的,有聚合过程。
例如单笔订单的金额不能是一个指标,统计一天的订单金额才是指标。
指标需要维度进行多方面的描述分析,维度可以根据需要无限扩展。
根据原子-衍生-复合指标的计算顺序,依次计算出规范化指标数值。
➤ 原子指标指的是基于业务过程的度量值,顾名思义是不可以在进行拆分的指标;
➤ 衍生指标是在原子指标的基础上增加维度、时间限定、过滤条件创建而成的;
➤ 复合指标是在一个或多个衍生指标的基础上,通过各种逻辑运算符合而成的。
例如,汇总每笔订单的采购金额为原子指标,而在此基础上汇总计算“每月”“已入库”且“质量上等”的订单采购金额为衍生指标,这样的订单金额与同等条件下的预算款相比就是节约成本数据,我们将此定义为复合指标。
指标开发
 
04、汇总模型,构建数仓
将构建完成的指标汇总落库,生成一张基于实际业务活动的汇总事实表,表中仅保留指标、维度、统计周期字段数据。保证汇总层数据均是出自企业实际业务活动的关键指标,构建起真正服务于企业实际业务需求的数据仓库。
数据仓库
从业务出发、以指标为牵引所构建起的数据仓库具有这样的特点:
➤ 面向分析维度进行设计,分析维度通常是业务经常需要的看数据的角度。
➤ 指标模型可以构建公共汇总层,提供不同维度的统计指标,指标的口径一致,并且标注详细描述
➤ 以宽表的形式进行设计,比如相同维度和统计周期的指标可以放在一起,避免创建太多的表,在数据分析时也方便取用
➤ 维度允许存在一定冗余存储到汇总表里,方便应用时不通过跨表关联,提高查询效率
要实现上述数据仓库建模过程,TempoEM指标平台绝对是最好的轻量化指标建仓工具。
TempoEM指标平台是集数据模型、指标管理、指标加工、应用服务、监测预警于一体的全链路指标体系管理平台。秉持“轻量化打造企业指标体系,助力业务增长”的设计理念,帮助企业构建口径统一、自上而下、业务驱动的指标体系,有效衡量业务经营和发展情况。
实现指标的全局规范化定义及全生命周期管理,形成指标单一可信来源,助力打造标准统一、指标资产化、服务化、闭环自优化的智能指标体系,满足用户指标可视、可信、可用、可管、可追溯需求。
TempoEM指标平台
TempoEM指标平台中可以实现“业务指标梳理 ➜ 规范化指标体系 ➜ 指标标准开发 ➜ 数仓模型构建 ➜ 成果资产管理”全链路指标管理工作。同时配备有各个行业的业务专家咨询团队并提供内容丰富多样的行业资产指标库,赋能业务价值,提升组织运营效率,沉淀数据资产,推动组织升级。以产品、技术、方法论和实施能力为支撑,助力业务人员所见即所得的轻量化建设企业指标体系,提供用户落地指标标准,疏通指标数据和全面的指标洞察能力,助力业务增长。
服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询