美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

【数据分析工具】机器学习平台—数据处理算法讲解之异常值检测

2022-10-25 18:51:39
异常值指样本中的个别值,其数值明显偏离他们所属样本的其余观测值也成异常数据。异常值检测利用原始数据的分布的特征情况,对存在异常和噪声的数据进行检测和识别。同时可进一步对识别出的异常值进行处理。对异常值处理平台提供了,直接删除、用均值替换、仅输出异常值、标记异常值并输出整表4种方式。
异常值检测方法具体如下:
1、四分位数法
    定义:

    如果x满足或者则x为异常值.其中为x特征的中位数,为x特征的上四分位数,为x特征的下四分位数。
2、自定义
定义如下表达式:
满足表达式的值为异常值。

功能说明
异常值检测利用原始数据的分布的特征情况,对存在异常和噪声的数据进行检测和识别。同时可进一步对识别出的异常值进行处理。
数据格式
数值型字段
参数说明

异常值监测 
参数 类型 描述
满足以下全部条件 单选按钮 满足所有条件即可进行异常值处理
满足以下任意条件 单选按钮 满足任意条件即可进行异常值处理
异常值操作 下拉框 提供直接删除、用均值替换、仅输出异常值以及标记异常值并输出整表
选择变量 列表框 用户指定需要进行异常值检测的属性列,这里的属性列数据类型必须为数值型
检测方式 下拉框 提供基于四分位距检测和自定义异常检测公式,其中基于四分位距,用户不需要指定值;当检测方法为用户自定义时,值为用户自定义表达式;示例:对属性列sepalwidth自定义异常检测公式:sepalwidth < 0.4

结果说明
数据分析工具—异常值监测
当选择异常值操作方式为“标记异常值并输出整表”时,产生新列“outliterTag”,标识是否为异常样本。

演示实例
用Tempo机器学习平台构建如下流程:
数据分析工具—异常值监测
【文件输入】节点配置如下:
数据分析工具—异常值监测
【异常值检测】节点置如下:
 数据分析工具—异常值监测
流程运行结果如下:
 数据分析工具—异常值监测


服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询