Menu
产品
Tempo大数据分析平台
Tempo商业智能平台
Tempo人工智能平台
Tempo数据工厂平台
Tempo数据治理平台
Tempo主数据管理平台
Tempo指标平台
解决方案
自助式可视化分析
算法模型管理
指标管理解决方案
数字指挥中心
湖仓一体解决方案
智能场景应用构建
主数据应用监管
数据中台
行业应用
发电
电网
制造
油气
煤炭
高校
政企
金融
科研院所
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
DAMA认证
关于我们
美林数据
合作生态
内容中心
帮助中心
美林新闻
行业资讯
申请试用
方案咨询
产品
Tempo大数据分析平台
面向企业级用户的一体化大数据分析平台
Tempo商业智能平台
面向业务人员的自助式可视化分析平台
Tempo人工智能平台
自动化、智能化的分析模型构建平台
Tempo数据工厂平台
批流一体的大数据开发平台
Tempo数据治理平台
打破数据治理困境,为业务价值保驾护航
Tempo主数据管理平台
解决主数据集成难、应用难的问题
Tempo指标平台
让管理更敏捷、业务更智能
解决方案
自助式可视化分析
数据指导行动,让每一次都有进步
算法模型管理
构建企业级模型管理与应用平台
指标管理解决方案
轻量化打造指标体系,让企业高质量发展
数字指挥中心
从数据中获得见解,让决策有据可依
湖仓一体解决方案
一体化的数据存储、集成、开发解决方案
智能场景应用构建
从数据开发到智能分析的一站式解决方案
主数据应用监管
解决企业主数据应用无法监管难题
数据中台
打造企业数字化转型数据底座
行业应用
发电
数字化赋能新能源电厂提质增效
电网
助力数字电网建设
制造
数字化智造从顶层设计到落地实施
油气
以AI视角优化油气行业生产流程
煤炭
AI赋能智慧煤矿安全、高效生产
高校
教学、实践、科研一体化实验室解决方案
政企
助力智慧政务决策
金融
客群价值深度挖掘,打造精准营销新模式
科研院所
提升科研转化能力,助力产业应用创新
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
掌握DCMM国家标准,全面提升数据管理技能
DAMA认证
学习国际数据管理业界权威知识体系,培养数据人才
关于我们
美林数据
连续7年大数据企业50强
合作生态
基于多年成功经验,提供技术与方法论支持
内容中心
大数据专业知识沉淀与成果共享
帮助中心
Tempo产品操作手册及常见问题解析
美林新闻
美林数据动态尽在掌握
行业资讯
第一时间洞察最新行业资讯
美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。
产品简介
Tempo商业智能平台
提供了从数据接入、数据准备、数据可视化分析于一体的完整的解决方案
Tempo人工智能平台
为“全民数据科学家”提供自动化、智能化的数据分析模型构建能力。
Tempo数据工厂平台
支持大规模数据的快速集成和高效计算,构建流批一体大数据开发平台。
Tempo指标平台
指标的体系化建设和全生命周期管理。
Tempo数据治理平台
面向企业数据治理、数据中台落地的应用平台。
Tempo主数据管理平台
为用户提供全生命周期管控的主数据治理工具。
相关推荐
数据变现狂潮!细数数据资产入表如何助力企业“一夜暴富”?
RAG vs 微调:大模型知识的进化之路
大模型在企业数智化转型中可以做哪些事情?
美林新闻
/
NEWS
首页
美林数据
行业资讯
机器学习平台算法知识分享—7大统计分析算法
2022-10-28 16:35:14
次
►
方差分析
方差分析是为了解决一个因素对另外一个因素是否存在显著性影响提出的,因子为影响因素,因变量为分析因素。方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。最常见的是单因素方差分析,平台中的因变量又叫观测变量,而因子又称为控制变量或因素。单因素方差分析的过程,其实就是把样本的总离差平方S_T和与自由度分解为误差平方和(又称组内平方和S_e)和因素的效应平方和(又称组间平方和S_A)两部分,用于随机设计实验中样本均值的比较。其统计推断是推断各组样本总体均值是否相等。
单因素方差分析(ANOVA)的计算、分析步骤如下。
1、计算三种平方和:S_T,S_A 及S_e;
2、分析上述三种平方和对应的自由度;
3、计算F统计量的值;
4、将计算的结果,列成方差分析表;
5、按照给定的显著性水平(1-置信水平),以及F统计量的值,对原假设进行检验,给出检验结果。
►
相关系数
相关系数是用来反映变量之间的相关关系的密切程度的统计指标。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关的。常见的相关系数包括Pearson相关系数(有时简称为相关系数)以及Spearman相关系数。
Pearson相关系数是最早由统计学家卡尔•皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。其计算公式为:
其中,Cov(X,Y)为变量X与变量Y的协方差;D(X)与D(Y)分别为X和Y的方差。Pearson相关系数的取值范围是[-1,1],取值为-1时,表示两变量完全负相关;取值为1时,表示两变量完全线性相关;取值为0时,表示两变量不相关;相关系数的绝对值越接近于1,表示两变量间相关性越强。
Spearman相关系数,是衡量分级定序变量之间的相关程度的统计量。对不服从正态分布的数据、原始资料等级数据、总体分布未知的数据不符合使用Pearson相关系数来描述关联性。此时,可采用秩相关(也称等级相关),来描述两个变量的关联程度与方向,即Spearman相关。
Spearman相关系数的计算公式为:
其中,d_i是x_i和y_i的秩差,n为数据量。Spearman相关系数(ρ_s)的取值范围是[-1,1],ρ_s<0为负相关,ρ_s>0为正相关。若数据中无重复值,且两个变量完全单调相关时,spearman相关系数为1或-1.
►
典型相关分析
典型相关分析是研究两组变量之间相关关系的一种多元
统计分析方法
。它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。
典型相关分析整个步骤如下:
设X和Y分别为p维和q维随机向量,已知
的协方差矩阵为:
其中
是两个常向量,令:
记
,则有:
上式说明:λ^2既是矩阵A的特征根,也是矩阵B的特征根,且u和v分别是对应的一对特征向量。因此,这里先求出各特征值与对应的特征向量对。注意,可证明:
,其中
.
按照特征值大小顺序,先取出最大的特征值
,求出其对应的一对特征向量
.接下来做规格化处理,即设:
则令:
此结果即为系数向量的解,即:
此时的z_1和w_1有最大的相关系数。
上述z_1和w_1称为第一对典型变量。它们之间的相关系数的根值λ_1即为第一典型相关系数。类似地,可以得到X和Y的其它各典型变量和相应的典型相关系数。
►
偏相关分析
偏相关分析是常用相关分析的一种,是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析也称净相关分析,它在空值其它变量的线性影响的条件下分析两变量间的线性相关性,所采用的工具是偏相关系数(净相关系数)。控制变量个数为一时,偏相关系数称为一阶偏相关系数;控制变量个数为二时,偏相关系数称为二阶偏相关系数;控制变量个数为零时,偏相关系数称为零阶偏相关系数,也就是相关系数。
平台中偏相关系数采用迭代法实现,目前支持求一阶、二阶偏相关系数。其具体计算公式如下:
上面两式,分别是控制变量z时,x与y的一阶偏相关系数,以及控制变量z_1 和z_2后,x与y的二阶偏相关系数。
►
相似度
相似度计算用于衡量对象之间的相似程度,用来衡量对象之间的差异性的大小。在很多领域,如信息检索、推荐系统中,都涉及到对象之间的相似度计算。
其中,距离度量用于指定衡量对象之间差异性的距离度量方式,包括欧式距离、曼哈顿距离、余弦距离和Tanimoto距离等方式进行对象的相似度计算。
►
描述数据特征
描述数据特征节点用于总结观测数据,从而尽可能简单全面地表达数据所蕴含的数值范围、分布等信息。该节点可统计数值字段的:样本个数、缺失值个数、平均值、标准差、最小值、最大值、极差、中位数、众数、峰度、偏度等指标;字符字段的:样本个数、缺失值个数、最多计数、最少计数、分类计数、分类占比等。
►
概率单位回归
概率单位回归是将概率转换为与自变量所对应的标准正态离差,将因变量反应率P转换为单位概率,然后和协变量建立回归关系,即完成了概率单位回归方程构建。
概率单位回归算法的整个步骤如下:
给定协变量
,以及反应频数R,观察单位总数T,其中 R,T∈R^n。对协变量进行变换对数变换,包含以e为底的变换
以及以10为底的变换
。
利用反应频数和观察单位总数计算反应比例P=R/T,然后将反应比例P转换为标准正态分布下左侧面积为P时的Z界值,即得到实际的概率单位值;
结合步骤1和步骤2得到的协变量变换值与实际的概率单位值,利用线性回归拟合概率单位值和协变量的变化值之间的关系。
利用所得的线性回归模型得到拟合的系数信息:包含系数估计值、系数标准差、T统计量、显著程度、置信区间最小值和置信区间最大值。
上一篇:企业要做数字化转型的三个必要原因—大数据分析行业知识分享
下一篇:【数据挖掘算法分享】机器学习平台——回归算法之保序回归
在线咨询
服务热线
400-608-2558
咨询热线
15502965860
电话联系
微信扫描二维码,立即在线咨询
微信沟通
申请试用