大话数据挖掘之数据挖掘流程(以钢铁行业为例)
2021-01-18 18:00:36
次
某985高校管理学院第五届EMBA班的《数据挖掘及其应用》课程上。
上一节课结束时,徐教授建议让国内不锈钢巨头公司的品质部李部长与大家分享他们公司数据挖掘的成功经验,向学员们介绍数据挖掘的流程。
李部长说:“钢铁企业是流程化的生产单位,虽然生产自动化程度非常高,但是,老实说,我们的很多工序如炼铁、炼钢、连铸、轧钢等的过程控制很大程度上依赖技术工人的经验,对生产过程的驾驭还比较粗放。不过,我们已经建立了先进的信息化平台。尤其是近几年企业形成的‘建设创新型企业’的文化氛围下,我们公司积累了丰富的数据,也具备了一支高素质的管理技术队伍。企业高层领导一致认为,科学决策是企业信息化建设的最终目标,数据挖掘是实现这一目标的有效工具,是构筑未来核心竟争优势、保持可持续发展、实施精细化管理的战略选择。”
李部长继续说道:“大家知道, ERP系统它以供应链为主线,包括从销售订单或生产经营计划—生产排程—组织采购—安排生产—销售发货的整个过程,着力于计划流、物流、信息流、资金流的统一运转,通过计划流驱动物流,通过物流驱动资金流的良性循环。从ERP的角度来看,SAP系统确实不辱‘全球最佳’这一称号。但从数据挖掘的角度 着眼,关注新产品设计、改进产品质量、降低生产成本、设备故障检测等这些主题。这些方面涉及到基础自动化(L1)、过程自动化(L2)、产线管控(MES)、经营管理(ERP)、决策支持(DSS)等信息系统。可是这五级系统并没有完全整合,在一定程度上还是‘信息孤岛’。当确定了数据挖掘的目标后,就需要对数据进行整理。当然,像我们这样正在进军世界五百强的大型钢铁公司,可以通过数据挖掘解决的问题太多了,最好是统一规划,建立数据仓库。”
李部长道:“目前我国的大中型企业不乏信息化方面的技术人员,但懂得数据挖掘的人才寥寥无几,在这种条件下开展数据挖掘工作,一方面需要与高校等科研单位或专业的数据挖掘公司合作,另一方面还要加强数据挖掘知识培训,培养一些既精通本领域业务,又熟悉数据挖掘流程,了解数据挖掘方法的技术骨干。这样,行业领域技术人员和数据挖掘专家一起才能从实际工作中提炼出可以通过数据挖掘方法解决的问题,建立合理的数据模型,客观地评估数据挖掘的结果。”
李部长接着说:“组建了团队以后,怎样开展工作呢?大家首先要清楚地认识到,数据挖掘可以解决企业生产、管理中的很多用常规方法难以处理的问题,但数据挖掘也不是万能的,不能包揽所有问题。而且还会有一些问题应用经典的数据挖掘方法无法得到满意的结果,需要数据挖掘专家针对具体问题建立相应的数学模型并设计特有的求解算法才能解决。因此,开展数据挖掘的初期,最好选择一些相对容易的问题,这样,一方面能够很快领略到数据挖掘的奥妙,另一方面为解决较为复杂的问题积累经验。”
李部长道:“我们认为硅钢纵条纹问题是我们迫在眉睫、不能回避的问题。虽然有相当的难度,但也得背水一战。在硅钢纵条纹项目完成后,我们继续进行基于支撑向量机和遗传算法的热连轧质量控制方法研究。经公司领导同意后,我们钢铁公司和数据挖掘公司先签订了消除硅钢钢板纵条纹缺陷的数据挖掘方法研究技术协议。双方决定共同组建数据挖掘团队,团队由专家组、数据组、算法组、软件组和部署组5个组构成,由李部长担任甲方数据挖掘项目经理,负责整体负责数据项目的实施。由数据挖掘公司的卢经理担任乙方项目经理,具体开展数据挖掘工作。”
数据挖掘项目实施
“李部长,这回你可谓骑马上独木桥——回不得头了!”S钢铁公司的赵总说。
李部长显得不慌不忙的样子:“研究团队成立后各小组立即紧锣密鼓地按照‘跨行业数据挖掘标准流程’既有分工又相互协作地开展工作,经过一个半月的奋战,终于取得了可喜的成果。”
李部长用光笔指着这张流程图说:“为了低成本、易操作、高效、可靠地进行数据挖掘,经过数据挖掘标准化联盟对十几年数据挖掘实践进行经验总结和理论抽象,创建了跨行业数据挖掘标准流程,即CRoss Industry Standard Process for Data Mining,简称CRISP-DM。它包括业务理解、数据理解以及收集、数据准备、建立模型、模型评估和部署六个阶段。我们消除硅钢钢板纵条纹缺陷的数据挖掘方法项目也是按照这六个步骤进行的。”
1 业务理解阶段(business understanding)
李部长手中的光笔指着投影幕:“我代表甲方提出,硅钢纵条纹问题的需求很明确,就是要应用数据挖掘方法找出导致纵条纹的关键因素,并实现对关键因素的控制达到消除硅钢纵条纹的目的。”
“在第一次数据挖掘会议上,我先汇报了硅钢生产线出现纵条纹缺陷的情况。我们公司技术中心教授级高工刘主任从冶金学原理方面陈述了纵条纹产生的机理,轧钢厂杨总工描述了硅钢生产流程并分析了影响硅钢纵条纹的因素。X大学数据挖掘中心金教授介绍了对硅钢纵条纹问题数据建模的初步设想。经过各小组成员一起认真分析认为,硅钢纵条纹问题有望通过非平衡的分类方法解决。最后,提出了将硅钢纵条纹比率由现在的12.1%降低到1.8%的目标。”
2 数据理解阶段(data understanding)
“下一步我们进入了数据挖掘的数据理解阶段。在这一阶段,我们根据硅钢纵条纹产生的机理和硅钢生产流程,经过反复筛选,初步确定硅钢纵条纹的影响因素有连铸中包温度、连铸拉速、铸坯成分、粗轧出口温度、精轧出口温度和卷取温度等共21个。”李部长说。
李部长得意地说:“用了5天时间,数据组就将数据从相关部门收集来了。他们对各部门的数据浏览,发现数据有不少缺失,甚至还有明显的异常。进一步分析发现,有些影响因素的数据方差特别小,于是便将它们认为是常量。数据组一致认为虽然从理论上说这些因素对硅钢纵条纹有作用,但生产工艺控制命中率足够高,使得相应的影响因素数据变化很小,对硅钢纵条纹的作用几乎恒定不变。于是将这些影响因素删除,影响因素从原来的21个减少到15个。最后,数据组给出了影响纵条纹的因素列表,并对数据具体含义、命中目标值、异常、缺失等进行了详细的描述,形成了《数据收集及质量检验报告》。”
3 数据准备阶段(data preparation)
李部长接着说:“数据理解阶段已经初步确定,硅钢纵条纹的主要影响因素有15个,包含连铸中包温度t1、t2、t3,连铸拉速v1、v2、v3(数据来源于连铸数据库),铸坯成分C、Si、Mn、S、P、Al(数据由检化验数据库获得),粗轧出口温度RT0、精轧出口温度FT6和卷取温度CT(要从轧钢数据库提取)。这些数据可由铸坯编号、转炉编号和硅钢卷号关联形成一个数据表。然后再对这个表进行空值及异常值处理、离群值剔除操作。”
李部长:“一般最好不要轻易删除数据,对于空值、异常值处理、离群值通常采取均值、迭代回归等方法进行补缺或修正处理,尤其在样本数量较少的情况下更应当如此。不过经过1个多月的生产数据积累,我们采集的数据量比较充分,删除极少量‘坏’样本对数据建模不会有什么影响。”
4 建模阶段(modeling)
李部长指着大屏幕说道:“硅钢纵条纹问题初步分析就是一个非平衡分类问题,可将几乎所有的分类问题的数学模型和求解算法统统试验了多遍,所得到模型的预测能力都非常差。后来发现硅钢纵条纹数据集不仅是非平衡数据集,而且是不相容数据。”
“硅钢生产是非常复杂的生产过程,产生纵条纹的影响因素很多,为了简化问题和数据获取方便,我们忽略了一些对纵条纹作用相对较小的影响因素,这样就会存在很多硅钢产品其影响纵条纹的因素非常相同或相近,但纵条纹的类别完全相反。这样的样本称为不相容样本,相应的数据集称为不相容数据集。”
李部长指向图上的红点:“这些红点大部分中还套有蓝色的‘+’号,这些样本就是不相容数据?”
李部长继续说道:“不知大家留心没有,图的左下方全是蓝色的‘+’号,代表这一片区域都是正品,是生产的‘优区’,右上方蓝色和红色交叠,表明这部分区域次品正品都有,是生产的‘劣区’。我们只要使生产在优区进行的规则就行了。”
“我们先提出了一种新的分类准则,称为支持度最大化准则,即分类器分出的‘优区’的样本尽可能的多。还提出了实现支持度最大化准则的代价敏感损失函数,在此基础上才建立了消除硅钢纵条纹缺陷的L1正则化模型,还创新性的设计了求解该模型的L1稀疏迭代算法。”
李部长的光笔指向图中间的直线:“这条线就是模型求解得出的生产‘优区’和‘劣区’的分界线,线的左面全是正品,优区样本的数量对所有样本的比率即支持度高达49.11%。如果将生产控制在优区进行,就会极大的降低硅钢纵条纹出现的几率。”
5 模型评估阶段(evaluation)
李部长说:“模型评估是至关重要的一个环节,未经过评估的模型千万不可直接就去应用。因为所得出的模型只是通过已有的数据得出,对未来数据的预测能力如何,一定要经过实践的检验。”
“我们获得的分界线即分类器是线性的,我们可以根据每一个变量前面的系数的正负判断其对纵条纹是正面影响还是负面影响,依据其绝对值的相对大小衡量相应的变量对纵条纹的作用大小。从分类器的表达式容易看出,Si、FT6、Al和P为硅钢纵条纹的主要影响因素,这与理论分析的定性结论相符。”
6 部署阶段(deployment)
李部长:“我们将原来生产控制策略中影响硅钢纵条纹的15个因素的命中目标值代入所得到得分类器中,发现它正好位于‘优区’和‘劣区’分界线偏右处。可见,这正是硅钢纵条纹比率高的原因。为了保持生产的稳定进行,我们只对硅钢纵条纹影响最大的4个因素的命中目标值作了调整,将调整后的15个影响因素的目标值代入所得的分类器中,结果落入‘优区’和‘劣区’分界线的左侧。”
李部长:“我们将一个半月来的数据挖掘工作进行了详细总结,最后完成了《应用部署报告》,上报公司领导批准实施改进的生产控制策略。”
李部长铿锵地回答道:“董事长召集公司技术中心硅钢研究室的几位研究员、硅钢生产线的主要技术人员和国内著名硅钢专家W钢铁公司的施总工对我们改进的控制策略进行了反复论证,最后同意了我们的方案。”
“一个月后统计结果令人振奋,硅钢纵条纹的比率降低到了1.65%,产品的各项性能指标达到了国际先进水平。”李部长激动的说。