这份被夸爆了的数据分析指南,让你的工作效率up up!
2022-10-13 19:31:21
次
在数据驱动业务的大背景下,数据分析已经逐渐变成了一项必备技能,在实际应用中,数据往往都是具有多变量的,想要洞察不同变量间的关系,就需要进行数据的变量分析。通过图表或数值计算等方式来探索数据变量之间的某种关联,常见的是双变量分析法,主要是帮助大家研究离散变量和连续变量的任意组合之间的关系。
离散型变量和连续型变量有什么区别?
▶离散型变量:指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。这种变量的数值⼀般⽤计数⽅法取得;
▶连续型变量:在⼀定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作⽆限分割,即可取⽆限个数值。如⽣产零件的规格尺⼨,⼈体测量的⾝⾼和体重等,其数值只能⽤测量或计量的⽅法取得。
以往通常会使用excel或者编程进行双变量分析,但这两种传统方法对分析人员的要求较高,操作过程中也存在着一些问题。
有没有办法可以高效便捷地实现多变量分析呢?小T帮大家整理了一份数据分析指南,来看看Tempo AI在面对不同数据类型组合时,是如何通过简单操作来实现高效分析的!
1、连续变量-连续变量
相关系数
相关系数是用来反映变量之间的相关关系的密切程度的统计指标,通过热力图将变量之间的相关系数矩阵可视化呈现出来。
▶excel操作:
在excel中需要用到多种函数进行变量间相关系数矩阵的计算,同时使用非常复杂的步骤来创建热力图,且输出的表格不够直观,美观度较差。
▶Tempo机器学习平台操作:
可在一个操作节点选择不同的相关系数计算函数(Pearson和Spearman),除此之外,还支持方差膨胀因子的计算,可以解释变量之间存在多重共线性时的方差,与不存在多重共线性时的方差之比。
Tempo机器学习平台的相关系数节点可自动输出热力图,并支持自定义颜色。以下图为例,我们选取全国销售订单数据,构建销售额、订单数量、折扣点、利润、单价与运输成本的相关系数,通过热力图,很直观地就能看到销售额与单价的相关程度最高。
自动输出的相关系数矩阵还能以excel的形式进行导出和查看编辑。
2、离散变量-离散变量
分类汇总
在日常的数据分析过程中,我们常需要通过某一个标准对原始数据进行分类汇总,以便于快速地将大量数据进行汇总和分析,从而实现后续的最大值、最小值、平均值、标准差等统计指标的计算。
▶excel操作:
选中单元格→选择数据→排序→选分类汇总→设置相关字段→完成汇总
▶Tempo机器学习平台操作:
可在一个操作节点完成数值变量和字符变量的批处理,自动输出表格形式,就能清晰地看到数据分布情况。以下图举例,我们选取全国销售订单数据,对省份和订单数量(平均值)进行分类汇总,便于直观地观察各省份订单数量的大致分布情况。
Tempo AI的分类汇总节点可将汇总结果和原表数据进行拼接,构造出机器学习中一个新特征。
堆叠条形图
堆叠条形图可以形象地展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系,通过堆叠条线图能直观明了地识别异常值,判断数据的偏态和尾重,还能比较多批数据的形状,最常见的是用于质量管理、人事测评、探索性数据分析等统计分析活动。
▶excel操作:添加辅助数据→插入堆积条形图→选择坐标系及图表类型→添加图表元素→设置坐标轴格式→添加数据标签→填充颜色
在excel的堆叠条形图中,仅能对原始数据进行展示,不支持数据的计算。
▶TempoTempo机器学习平台操作:
只用在条形图的节点中勾选堆叠选项即可,且支持不同坐标轴的多种聚合方式,可以完成数据的平均值、最大值、最小值、计数和唯一计数等多维指标的计算。
我们选取全国销售订单数据,使用条形图来表示不同销售市场下的利润和订单数量情况(勾选堆叠),能直接反映出利润与订单数量分布情况。
3、离散变量-连续变量
箱线图
▶excel操作:
计算上四分位数、中位数、下四分位数、四分位数差→去除异常值→确定箱线图的上下界→插入图表→绘制箱线图
▶TempoTempo机器学习平台操作:
在箱线图节点中勾选“离群值标记”选项,即可自动完成上下界的数值计算,而且还支持多种离群值的处理方式,在图表上显示出离群值的数值。
我们选取全国销售订单数据,使用箱线图来表示不同销售市场下的销售额,销售额数据特征就被展现出来了。
单因素方差分析
单因素方差分析是研究自变量对因变量的影响,通过检验各个总体均值是否相等,来判断离散型自变量对连续型因变量是否有显著影响。
▶excel操作:
选择数据菜单→数据分析→单因素方差分析→输入区域→勾选标志
▶Tempo机器学习平台操作:
直接在方差分析节点选择对应的字段,即可一键完成单因素方差分析。
我们选取全国销售订单数据,使用方差分析(单因素)来计算不同产品类别对销售额的影响,结果为P<0.05,说明产品类别的取值对销售额影响显著。
Tempo机器学习平台作为一个一体化的机器学习模型开发及应用平台,拥有强大的建模算法引擎,除了以上举例的这些,还包含120种以上分布式算法、5种以上独创算法,支持对数据进行方差分析、相关系数、典型相关分析、偏相关分析、相似度、描述数据特征、概率单位回归等统计分析。
谁说做数据分析就一定要懂复杂函数和编程,通过Tempo机器学习平台,不仅可以快速满足复杂数据处理需求,实现数据表级处理,还能高效赋能分析人员快速构建数据特征,有效降低建模技术门槛,让建模效率up up提升!