美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

【数据建模工具】数据处理算法分享之孤立点分析

2022-10-09 17:56:33
孤立点是指数据集中的那些小模式数据,其可能是度量或执行错误所导致的,或固有数据中的特异样本点。是基于聚类的、分析多维数据集的孤立点检测方法。先是将数据集中的所有样本按照某种聚类算法做初步聚类,然后根据聚类信息(包括类内距、类间距、类中心等),计算每一样本点属于孤立点的程度,最终根据所属程度的排序确定指定数量的孤立点。
一、算法思想
孤立点分析,又称离群点检测,多维空间中基于聚类的离群点诊断方法从综合分析的角度,通过聚类和计算样本点与数据组群之间的距离,以及距离远近的判断,实现里全店的诊断以及离群点成因的分析。
离群点分析包括三个阶段:第一阶段是聚类,即根据“亲疏程度”将样本聚成若干类;第二阶段是计算离群度,即在第一阶段聚类结果的基础上,依据距离度量(这里是对数似然距离),计算所有样本点的异常性测度指标值(这里是离群度);第三阶段是诊断,即在第二阶段异常性度量值的基础上,确定最终的离群点,并分析导致这些样本点异常的原因,也就是分析离群点主要在哪些变量方向上呈现异常。以下就这三个阶段分别讨论。
►第一阶段
计算距离阈值与样本聚类,主要如下:
首先是计算距离阈值,其值在CF树生长的过程中会被用到。距离阈值的计算公式为:
数据建模工具
其中,数据建模工具为每个数值型列的取值范围(即max-min );数据建模工具为各名词列属性的取值个数。
然后将所有输入变量视为聚类变量,进行CF树聚类,生成一棵完整的聚类树,其每个叶子结点表示一个聚类。这里的CF树是个二叉树,其每个结点存储了所含样本的统计信息,具体包括:结点内所有样本点的数值属性向量和V,所有样本点的数值属性向量平方和SV,所含样本点数及各样本ID,以及所含样本点名词列的各取值个数统计。
►第二阶段
第二阶段的任务是在第一阶段聚类结果及其统计信息的基础上,计算各样本点的离群测度指标值,包括组差异指标GDI、变量差异指标VDI、异常指标值AI及变量贡献指标VCM。
►第三阶段
第二阶段计算得到了所有样本点的GDI、VDI、AI和VCM,本阶段将依据这些指标的排序结果,确定离群点并分析离群点异常的原因。
① 将AI按照降序排序,排在前m位的样本点可能是离群点。同时,m位置的AI值就是离群点的判断标准。大于该值的为离群点,小于为非离群点。
② 对于离群点,将VDI按照降序排序,排在前L位的变量是导致该点可能异常的主要原因。
二、数据格式

  • 数值型和字符型字段;
三、参数说明
数据挖掘分析

参数 类型 描述
选择变量 列表框 用户指定需要进行孤立点分析的属性列,属性列的数据类型为数值型
选择方法 下拉框 提供按照数量和按照比例等方式进行孤立点样本个数筛选。当按比例指定孤立点个数时,需设置比例大小数值。当按数量指定孤立点个数时,需设置数量的具体数值,默认选择按照数量
数量 文本框 设置按照数量方式进行孤立点样本筛选的个数,正整数,默认值为5
比例大小 文本框 设置按照比例方式进行孤立点样本筛选的比例,正数,取值范围:(0,1],默认值为0.01
导致孤立点异常的最主要列个数 文本框 对于多维数据集,算法除了识别出孤立点外,还能够分析每个孤立点异常的列原因。该参数用于指定要分析前多少个导致孤立点异常的主要因素列,正整型,默认值为1。
四、结果说明
数据建模
属性列“isExceptional”表明样本是否为异常孤立点样本;
属性列“exceptionCol_1”表明导致异常孤立点的第1个主要因素列;
属性列“exceptionCol1_degree”表明导致异常孤立点的第1个主要因素列的度;
五、演示实例
通过Tempo机器学习平台构建如下流程:
Tempo机器学习平台
【文件输入】节点配置如下:
Tempo机器学习平台
【孤立点分析】节点配置如下:
Tempo机器学习平台
流程运行结果如下:
数据挖掘建模


服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询