美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

大数据分析之数据缺失值处理教程来啦!

2022-11-10 16:04:55
高质量的决策必然依赖于高质量的数据输入。
数据分析师在进行挖掘建模时,先要对数据进行预处理,这一阶段常常占据数据挖掘建模80%左右的工作量。数据预处理做得好,往往能让后续的数据分析工作事半功倍,而数据缺失作为数据分析中经常遇到的问题,更是数据准备工作中不可忽视的重要一环。

什么是缺失值?
缺失值是指粗糙数据中由于缺少信息而造成的数据缺失或截断,导致现有数据集中某个或某些属性的值不完全。缺失值不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值。
在实际业务中,数据往往都是来自不同的系统或业务部门,缺乏统一的标准和机制,结构多样的海量的数据汇集在一起,很容易出现有缺失值的情况。
缺失值处理
当数据缺失比例较小时,我们可以直接手动删除缺失记录,但在实际业务数据中,通常缺失数据占比较大,这时候如果手工进行处理效率非常慢,如果直接删除缺失记录,会造成大量信息丢失,影响最终的分析结论。
那么当数据出现缺失时,我们要进行怎样的操作呢?下面我们用Tempo AI来进行演示,只需简单几步就可以实现从缺失值的识别到缺失值的处理过程。

缺失值识别
对于缺失值的识别可以使用到的节点包括属性生成、描述数据特征和数据过滤节点。
属性生成节点
该节点可以使用isnull函数进行缺失值识别,该函数支持任意类型数据的缺失值识别,具体操作如下所示。
01、使用文件输入和属性生成节点构建流程;
数据分析之缺失值识别
02、通过文件输入节点上传存在缺失数据的数据集;
数据分析之缺失值识别
03、在属性生成中用isnull函数对存在缺失的数据进行处理;
数据分析之缺失值识别
04、流程执行成功后,在洞察查看运行结果。如果存在空值返回true,如果不为空返回false。
数据分析之缺失值识别

描述数据特征节点
该节点可通过勾选【缺失个数】选项进行实现。
01、首先使用文件输入和描述数据特征节点构建流程;
数据分析之缺失值识别
02、通过文件输入节点上传存在缺失数据的数据集;
数据分析之缺失值识别
03、在描述数据特征中通过勾选【缺失个数】选项对存在缺失的数据进行整理;
数据分析之缺失值识别
04、流程执行成功后,在洞察查看运行结果,可查看到是否存在缺失值情况,以及具体每个指标的缺失值个数。
数据分析之缺失值识别
数据过滤节点
该节点可以在【过滤条件】处选择保留缺失或过滤非缺失达到此目的。
01、首先使用文件输入和数据过滤节点构建流程;
数据分析之缺失值处理
02、通过文件输入节点上传存在缺失数据的数据集;
数据分析之缺失值处理
03、在数据过滤节点中,通过在【过滤条件】处选择“缺失”,对存在缺失的数据进行识别,并选择保留满足以下任意条件的数据;
数据分析之缺失值处理
04、流程执行成功后,在洞察查看运行结果,将存在缺失过滤出来,可查看具体哪些数据存在缺失值。
数据分析之缺失值处理
缺失值处理
对于缺失值的处理可以使用到的节点包括数据过滤、缺失值处理和自动数据处理节点。
数据过滤节点
该节点适用于将存在缺失值的行为全部删除的情况。
01、使用文件输入和数据过滤节点构建流程;
数据分析之缺失值处理
02、通过文件输入节点上传存在缺失数据的数据集;
数据分析之缺失值处理
03、在数据过滤节点中,在【过滤条件】处选择“非缺失”,并选择保留满足以下全部条件的数据,对存在缺失的数据进行过滤;
数据分析之缺失值处理
04、流程执行成功后,在洞察查看运行结果,结果中已经将存在缺失情况的数据过滤掉,实现了对缺失值的处理。
数据分析之缺失值处理

缺失值处理节点
该节点可以对【处理方式】根据使用场景进行选择。
01、使用文件输入和缺失值处理节点构建流程;
数据分析之缺失值处理
02、通过文件输入节点上传存在缺失数据的数据集;
数据分析之缺失值处理
03、在缺失值处理节点中通过选择【处理方式】对缺失值进行处理;
数据分析之缺失值处理
04、流程执行成功后,在洞察查看运行结果。如果存在空值将按照设置处理方式进行填充。
数据分析之缺失值处理
自动数据处理节点
该节点可以选择缺失值填充规则来进行处理。
01、使用文件输入和自动数据处理节点构建流程;
数据分析之缺失值处理
02、通过文件输入节点上传存在缺失数据的数据集;
数据分析之缺失值处理
03、在自动数据处理节点中通过选择【缺失值填充规则】对缺失值进行处理;
数据分析之缺失值处理
04、流程执行成功后,在洞察查看运行结果。如果存在空值情况将按照缺失值填充规则进行填充。
数据分析之缺失值处理

Tempo 机器学习平台在设计之初,就秉承着“智建模、易应用”的设计理念,除了上面所提到的方法,还支持通过建立预测模型来对缺失值进行填充,使用机器学习模块的回归和分类等相关节点进行预测模型建立和利用,从而达到填充缺失值的目的。
处理完缺失值后,还能使用Tempo机器学习平台的多种数据预处理方法,轻松实现数据清理,集成,变换,归约等数据处理工作,为后续的挖掘分析做准备。以图形化、拖拽式的操作,让用户以更快的体验,高效完成数据分析的全部流程,还支持分析成果一键式服务发布,能够与企业现有业务系统无缝整合,真正赋能企业的数字化发展!

服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询