在日常工作中,产品、运营、研发及数据分析师常常会发现:处理、加工和识别数据等数据处理工作往往会占用整个工作流程80%的时间。造成这种困境的原因,大致有三点:
1)数据量大且混乱、数据质量参差不齐;
2)整体概括信息缺乏,度量信息如最大值、最小值、平均值、汇总值、方差、中位数等,维度信息如枚举值分布等,均不能直接对用户可见;
3)元数据管理不完善,如表名称备注、字段类型、描述不准确、口径未统一等存在元数据管理混乱或缺失的情况。
而以上问题,通过数据探查就能得到有效解决。
01、数据探查是什么?
数据探查是数据开发的基础,是保障数据质量非常重要的一步。如果没有数据探查,数据分析师就会在数据管理类项目频繁反复地进行重复的工作,对项目开发、运维来讲都是低质量低效率的行为,同时也在拖延项目周期。
数据探查可通过自动化的手段分析数据内容、背景、结构、路径等信息,检查数据成分、数据关系及数据格式等是否存在问题。通过精准识别数据转化机制、建立数据有效性及准确性规则、校验数据间依赖性的过程,帮助企业全面剖析数据,并确定这些数据可用性。
数据探查可以帮助企业完善对数据的认识,避免由于不够了解数据而遗漏场景,做好提前预防,从而提高数据质量,把控数据来源,减少返工,常见的场景有:
1)字段标签分析:在没有字段注释的情况下,通过对字段值进行剖析,识别出该字段所描述的内容,提高数据的可读性和解释性,为后续的数据分析和决策提供有力支持。
2)数据间关系剖析:发现主、外键字段,揭示数据之间的相互关系和依赖性,分析字段中有多少重复值,重复值影响的行数等。帮助我们发现数据中的隐藏模式、群体结构和网络连接,从而更好地理解数据的复杂性和互动性,协助业务人员在决策制定和业务优化中做出更准确的判断。
3)字段值深度洞察:通过分析计算字段的数据类型、空值、唯一值、平均值、标准差、方差等数据分布情况,对数据进行更深入的洞察,提升数据质量,为数据清洗和预处理提供指导,帮助业务人员提高数据清洗和加工效率,让数据分析做到开箱即可拿到高质量数据。
03、如何进行高效的数据探查?
传统方法下,数据探查过程的过滤、替换、合并等操作都是独立的单一模型,步骤之间没有进行融合,需要分别对数据进行处理,且各模型和方法具有不同的使用模式和接口,难以结合使用。另外,传统方法对于文本类字段较少涉及,导致在对数据描述内容不了解的情况下难以进行更深入的数据分析。
因此,我们需要一种更加综合和灵活的数据探查方法,能够同时针对不同类型的数据进行处理分析,Tempo数据治理平台的数据探查功能可以满足这个需求,只需要简单3步,就能帮助数据团队了解数据特征和规律,为后续的数据处理和分析工作提供依据和支持。
△数据探查算法逻辑框架图
第一步:从表、字段以及字段值三个维度多数据源进行统计分析,包括:总量、空值唯一值、重复值、时间、增量等;
第二步:通过正则表达式、机器学习算法等方法对数据内容进行洞察分析,包括实体、事件等属性的识别;
第三步:综合前两步所得属性,采用大数据挖掘及人工智能算法进行业务建模,快速实现从人工经验向自动化、智能化的跳变,加速企业数据质量核查与管理。
04、数据探查有什么价值?
Tempo数据治理平台的数据探查功能在某煤炭企业中得到了应用,通过数据治理和数据中台项目中的mt_csms(煤炭销售管理系统)、mt_erp(电子采购平台系统)、mt_hrs(人力资源系统)三个业务系统中的验证,得到的验证结果如下:
准确率:81.76%
查全率:100%
Tempo数据治理平台还能进行数据结构探查,数据内容探查及数据关系探查,可以帮助数据分析团队更深入理解数据集,揭示数据的内在特征和规律,并提供数据驱动的决策支持。
▶ 数据结构探查:可以了解数据在内存中的组织方式,从而更好地设计算法和优化数据处理流程。
▶ 数据内容探查:使数据分析团队能够发现数据的分布、异常和趋势,帮助识别数据质量问题、处理缺失值和异常值以及改进数据预处理过程。
▶ 数据关系探查:揭示了特征之间的关系和相互作用,帮助企业挖掘出隐藏的模式、找到关键特征和构建更准确的预测模型。
小T总结
通过数据探查,可以为企业提供了对数据的直观认识,减少对主观假设的依赖,使数据分析和决策更加可靠和可信,及早防控风险,并有效利用数据资源,为业务决策、产品优化和创新提供有力的支持。