美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

机器学习平台建模过程中多变量数据分析应该怎么做?

2022-09-23 10:06:00
变量分析目的是为了发现变量之间的关系。按照预先设定的重要程度来发掘变量之间的关联,在数据分析过程中,经常会遇到变量关系的定性及定量分析。
这时,需要数据分析师们通过图表或数值计算等方式来探索数据变量之间是否存在某种关联关系,可以在离散变量和连续变量的任意组合上面使用双变量分析方法。
离散型变量和连续型变量有什么区别?

离散变量是指其数值只能⽤⾃然数或整数单位计算的则为离散变量.例如,企业个数,职⼯⼈数,设备台数等,只能按计量单位数计数,这种变量的数值⼀般⽤计数⽅法取得.
反之,在⼀定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作⽆限分割,即可取⽆限个数值.例如,⽣产零件的规格尺⼨,⼈体测量的⾝⾼,体重,胸围等为连续变量,其数值只能⽤测量或计量的⽅法取得.如果变量可以在某个区间内取任⼀实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量。
多变量数据分析方法

双变量分析法组合可以是:离散型和离散型、离散型和连续型、连续型和连续型,针对不同的组合可以使用不同的分析方法。接下来为大家介绍如何用Tempo机器学习平台完成多变量分析:

1、连续型和连续型:
当两个变量都是连续型的时候,可以观察他们的散点图(scatter)分布情况,这是一种很实用的方法来发现变量间的关系,根据散点图的形状能够显示(indicates)出变量是线性(linear)关系还是非线性(non-linear)的关系。
首先我们选取全国销售订单数据,构建销售额与利润散点图,由此得出销售额与订单数量为非线性。
多变量数据分析
由于散点图只能直观的展示出变量之间的关系,但并不说明化关系的强弱,这里还需相关系数(Correlation)进一步量化变量关系。相关系数是一个大于-1小于1的值,包括pearson、spearman等。
同样,我们选取全国销售订单数据,构建销售额、订单数量、折扣点、利润、单价与运输成本的相关系数,由此得出销售额与单价相关程度最高。
数据分析中的多变量分析
相关系数的绝对值越大,说明两个变量的相关程度越高。如果相关系数为正值,表示两个变量呈正相关特性,若为负值,则表示变量为负相关。
 

2、离散型与离散型
为了发现离散型变量之间的关系,我们可以使用以下方法:
 分类汇总:按照某种分类变量和需要分析的数据进行分类计算,对原始数据分类,做出表格形式,便于直观地观察数据的大致分布情况。
同样的我们选取全国销售订单数据,对省份和订单数量(平均值)进行分类汇总,便于直观地观察各省份订单数量的大致分布情况。
数据分析中的多变量分析

堆叠条线图:将每个柱子进行分割以显示相同类型下各个数据的大小情况。
它可以形象地展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系。
同样,我们选取全国销售订单数据,使用条线图来表示不同销售市场下的利润和订单数量情况(勾选堆叠),能直观反映出利润与订单数量占比情况。

数据分析中的多变量分析
3、离散型和连续型:当处理离散型和连续型变量的时候,可以为每一个类别变量绘制箱线图,也可以通过单因素方差分析等方法来描述变量间的关系。
箱线图:展示原始数据分布的特征,还可以进行多组数据分布特征的比较。
同样的我们选取全国销售订单数据,使用箱线图来表示不同销售市场下的销售额,能直观展示销售额数据特征。
数据分析中的多变量分析
单因素方差分析:解决一个因素对另外一个因素是否存在显著性影响提出的,因子为影响因素,因变量为分析因素。
同样的我们选取全国销售订单数据,使用方差分析(单因素)来计算不同产品类别对销售额的影响,结果为P<0.05,说明产品类别的取值对销售额影响显著。
数据分析中的多变量分析
运用Tempo机器学习平台实现多变量数据分析,通过图表或数值计算等方式探索数据变量之间存在的某种关联关系。
如果大家在实际业务中想要探究变量之间的关系,欢迎申请试用Tempo机器学习平台!
 

服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询