数据分析常见问题的解决思路
2023-12-07 19:13:20
次
在数据分析项目中明确问题类型后,即可根据不同的问题初步设计解决思路,确定大致的解决问题框架,公司参与了很多项目,积累了大量的业务知识和业务成果,我们面对的项目有很大可能存在可供参考的先例,借鉴历史相似案例的模型设计思路可以提升项目交付效率,本文总结了几个经典具体问题的解决思路。
1、寻找关键因素
关键因素是通过对大量的历史数据分析,寻找影响结果的关键因素。在寻找关键因素时,我们可以使用多种方法去提取影响目标变量的关键因素。可以将关键因素的寻找问题转换为回归问题,在对于目标变量为数值型时,去构建回归模型,从而在模型中寻找出关键的因素和影响程度。又可以使用统计分析方法去寻找关键因素,比如主成分分析、因子分析、卡方检验、lasso、F检验等。
例如某地PM2.5影响因素分析项目中,PM2.5是空气中直径小于2.5微米的颗粒物,能够长时间悬浮在空中,其能够长时间悬浮在空中,因其粒径较小,表面积大,易于集聚有毒物质,是霾的成因之一。它随着呼吸进入到人体肺部,危害人体的呼吸系统和心血管系统,导致咳嗽、心率失常等疾病的发生,对心肺病患危害尤为重要。客户的目标是哪些因素对产生PM2.5息息相关,根据已有PM2.5的历史样本信息判断PM2.5含量,从而寻找出关键因素。使用回归算法建议PM2.5预测模型,从而得到影响PM2.5的因素为一氧化氮、观测数据发生的时间点、臭氧等。
2、预测分析
一般对于预测分析问题,根据业务目标和数据类型可以判断属于回归问题还是分类问题,确定问题类型之后,可以将其进行转换处理。当目标变量为字符型时,判断属于分类问题,可以使用分类算法去解决,当目标变量为数值型时,判断属于回归问题,可以使用回归算法去解决,但有时候可以将分类问题转换成回归问题进行处理。
例如在石油压裂井预测项目中,原来的目标是预测是否对油井压裂,但是实际模型实施过程中,需要知道油井压裂后具体的产量,从而根据产品去判断是否给井上压。这时就可以将油井是否压裂预测转变为油井压裂之后产油量情况,就需要使用回归方法进行产油量的预测,得到产油量预测结果,结合现有的业务规则进行结果的区间划分,从而去挑选出需要压裂的井信息,为业务人员做参考。
3、评价类问题的定性和定量解法
定性评价和定量评价是什么。简单来说,定量评价是将评价指标量化,并采用模型和数学统计方法对评价对象做出判断。定性评价是带有主观性的评价做出判断。
在实际的分析项目中经常会遇到“设备运行状态评价”等这种评价类的问题,首先去判断给出的指标类型,从而判断是使用定性评价还是定量评价,有时候为了更精准的把每一类设备或者用户进行描述,需要将定性和定量的方法结合起来进行综合的描绘。
例如在泵站机组运行状态评价中,利用泵站机组的摆度方数据、振动数据、瓦温、油温数据、电机数据等,基于AHP层次分析法综合评价算法,构建泵组机组运行状态评价模型,从而实现水泵机组实时运行状态的综合评价。
例如设备运行状态的重过载精准预测,基于设备的基本信息数据、资产信息数据、投入信息数据、运行数据等,利用综合评价算法完成设备运行状态智能感知,并将其结果划分为优、良、劣、差四级。基于评价结果,再结合设备投运年限、设备半年内重过载情况、设备上一年同期运行情况等数据,利用分类算法可以预测出哪些配变下个月的哪一天会发生重过载,为检修部门提供精准维护配变名单。
4、信号分析
信号是工业领域中多种时变要素的表示方式,它不同于关系型业务数据的特殊性,属于单一数据类型,次序与间隔包含时间信息,使其难以直接使用现有数据分析工具,并且大量的机器学习、深度学习方法难以直接应用于原生信号数据形式。因此平台针对信号数据拥有特有的信号接入,信号处理,信号特征提取等算法去对信号数据进行分析。主要的分析思路可根据下方进行构建。