美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

机器学习平台算法知识分享—7大统计分析算法

2022-10-28 16:35:14
方差分析
方差分析是为了解决一个因素对另外一个因素是否存在显著性影响提出的,因子为影响因素,因变量为分析因素。方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。最常见的是单因素方差分析,平台中的因变量又叫观测变量,而因子又称为控制变量或因素。单因素方差分析的过程,其实就是把样本的总离差平方S_T和与自由度分解为误差平方和(又称组内平方和S_e)和因素的效应平方和(又称组间平方和S_A)两部分,用于随机设计实验中样本均值的比较。其统计推断是推断各组样本总体均值是否相等。
单因素方差分析(ANOVA)的计算、分析步骤如下。
1、计算三种平方和:S_T,S_A 及S_e;

2、分析上述三种平方和对应的自由度;
3、计算F统计量的值;
4、将计算的结果,列成方差分析表;
5、按照给定的显著性水平(1-置信水平),以及F统计量的值,对原假设进行检验,给出检验结果。

相关系数
相关系数是用来反映变量之间的相关关系的密切程度的统计指标。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关的。常见的相关系数包括Pearson相关系数(有时简称为相关系数)以及Spearman相关系数。
Pearson相关系数是最早由统计学家卡尔•皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。其计算公式为:

其中,Cov(X,Y)为变量X与变量Y的协方差;D(X)与D(Y)分别为X和Y的方差。Pearson相关系数的取值范围是[-1,1],取值为-1时,表示两变量完全负相关;取值为1时,表示两变量完全线性相关;取值为0时,表示两变量不相关;相关系数的绝对值越接近于1,表示两变量间相关性越强。
Spearman相关系数,是衡量分级定序变量之间的相关程度的统计量。对不服从正态分布的数据、原始资料等级数据、总体分布未知的数据不符合使用Pearson相关系数来描述关联性。此时,可采用秩相关(也称等级相关),来描述两个变量的关联程度与方向,即Spearman相关。
Spearman相关系数的计算公式为:
   
其中,d_i是x_i和y_i的秩差,n为数据量。Spearman相关系数(ρ_s)的取值范围是[-1,1],ρ_s<0为负相关,ρ_s>0为正相关。若数据中无重复值,且两个变量完全单调相关时,spearman相关系数为1或-1.

典型相关分析
典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法。它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。
典型相关分析整个步骤如下:
设X和Y分别为p维和q维随机向量,已知的协方差矩阵为:

其中
  是两个常向量,令:
数据分析工具
,则有:

上式说明:λ^2既是矩阵A的特征根,也是矩阵B的特征根,且u和v分别是对应的一对特征向量。因此,这里先求出各特征值与对应的特征向量对。注意,可证明:,其中.
按照特征值大小顺序,先取出最大的特征值,求出其对应的一对特征向量.接下来做规格化处理,即设:

则令:

此结果即为系数向量的解,即:

此时的z_1和w_1有最大的相关系数。
上述z_1和w_1称为第一对典型变量。它们之间的相关系数的根值λ_1即为第一典型相关系数。类似地,可以得到X和Y的其它各典型变量和相应的典型相关系数。

偏相关分析
偏相关分析是常用相关分析的一种,是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析也称净相关分析,它在空值其它变量的线性影响的条件下分析两变量间的线性相关性,所采用的工具是偏相关系数(净相关系数)。控制变量个数为一时,偏相关系数称为一阶偏相关系数;控制变量个数为二时,偏相关系数称为二阶偏相关系数;控制变量个数为零时,偏相关系数称为零阶偏相关系数,也就是相关系数。
平台中偏相关系数采用迭代法实现,目前支持求一阶、二阶偏相关系数。其具体计算公式如下:

上面两式,分别是控制变量z时,x与y的一阶偏相关系数,以及控制变量z_1 和z_2后,x与y的二阶偏相关系数。

相似度
相似度计算用于衡量对象之间的相似程度,用来衡量对象之间的差异性的大小。在很多领域,如信息检索、推荐系统中,都涉及到对象之间的相似度计算。
其中,距离度量用于指定衡量对象之间差异性的距离度量方式,包括欧式距离、曼哈顿距离、余弦距离和Tanimoto距离等方式进行对象的相似度计算。

描述数据特征
描述数据特征节点用于总结观测数据,从而尽可能简单全面地表达数据所蕴含的数值范围、分布等信息。该节点可统计数值字段的:样本个数、缺失值个数、平均值、标准差、最小值、最大值、极差、中位数、众数、峰度、偏度等指标;字符字段的:样本个数、缺失值个数、最多计数、最少计数、分类计数、分类占比等。

概率单位回归
概率单位回归是将概率转换为与自变量所对应的标准正态离差,将因变量反应率P转换为单位概率,然后和协变量建立回归关系,即完成了概率单位回归方程构建。
概率单位回归算法的整个步骤如下:
给定协变量,以及反应频数R,观察单位总数T,其中 R,T∈R^n。对协变量进行变换对数变换,包含以e为底的变换以及以10为底的变换
利用反应频数和观察单位总数计算反应比例P=R/T,然后将反应比例P转换为标准正态分布下左侧面积为P时的Z界值,即得到实际的概率单位值;
结合步骤1和步骤2得到的协变量变换值与实际的概率单位值,利用线性回归拟合概率单位值和协变量的变化值之间的关系。
利用所得的线性回归模型得到拟合的系数信息:包含系数估计值、系数标准差、T统计量、显著程度、置信区间最小值和置信区间最大值。


服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询