工业大数据分析技术在实践应用中的思路与方法(下篇)
2020-11-10 14:10:30
次
导读:欲避免数据分析工作的陷阱,就须事先了解可能遇到的各类问题和困难。在《工业大数据分析技术在实践应用中的思路和方法》(上篇)中,我们一起研讨了工业大数据分析的特殊性和难点;今天我们将继续和您分享(下篇)内容,共同探讨如何用少的时间代价换取数据分析工作的高成功率和大价值;如何选择合适的方法解决具体的应用问题,并对分析结果的可靠性做出科学评估,避免技术在具体应用中受阻、被淹没……
一、工业大数据分析的基本框架
目前,业界在开展工业大数据分析时主要遵从CRISP-DM分析流程,以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行等六个步骤,如下图所示。此流程相关步骤存在多处循环和反复迭代,如业务理解和数据理解、数据准备和建模之间,整个分析过程需要在不断交替中深入进行,甚至会出现模型验证评估和业务理解之间的修正调整。
图 1:CRISP-DM方法
由于工业数据关联关系复杂、工业数据质量差、工业场景的分析要求高等导致CRISP-DM方法在工业领域的具体应用中遇到一些问题。加之,工业大数据分析过程中往往需要对业务和数据进行充分解读,难免会出现大量无效的循环往复的工作,导致在用CRISP-DM方法分析时效率较低。所以,在工业大数据分析过程中,用好CRISP-DM的关键是减少上下步骤之间的反复,避免单向箭头变成双向。更需要注意的是,要尽量减少模型验证评估失败后重新进入业务理解这样大跳跃的反复。这就是在前文提到的在开展工业大数据建模前要固化好分析场景和评估确定好数据条件。
二、工业大数据分析具体如何开展
长期实践来看,CRISP-DM模型须补充进新内涵才能更好的指导工业应用场景的工业大数据分析。CRISP-DM模型在工业大数据的中的应用推进,主要分以下几个阶段:
01 业务理解
明确业务需求和数据分析的目标。
业务理解的过程通常需要将专业领域的知识和数据模型充分融合,业务领域的知识可作为工业建模的输入变量融入到工业分析模型中,也可以作为知识去辅助建立高效地诊断、检测、预测模型从而指导工业应用。工业大数据分析需要数据分析师深入理解业务,且要对这个“度”把握和控制好。一方面,只有数据分析师深入理解业务,才能实现领域知识与数据分析的有机融合,得到高水平、有价值的分析结果;另一方面,成为一个业务领域专家需要多年的积累,完整掌握业务知识是不现实的,需要专业人员及环境的多项支持。因此,为提升工业应用现场业务认知深度,企业基本是采用业务咨询顾问和数据分析师配合组队的模式来开展工业大数据分析工作。
02 数据理解
准确建立数据和业务间的关联关系,从数据的角度深度解读业务。
数据分析师会习惯性地把工业大数据分析过程中遇到的分析效率低、数据信噪比低、机理融合难、错误结果多等问题归结到数据质量层面,而忽略在数据理解阶段的深层次问题,而数据理解恰恰是数据建模的关键所在,也常常是数据分析过程中大家的盲点所在。数据理解需要从数据类型状态、数据质量条件和数据间的关联关系等方面开展判断论证,确定是否满足业务场景的要求。
03 数据准备
为工业建模分析提供干净、有效的输入数据源。
工业企业数据准备环节主要为解决业务应用问题开展数据集成治理,实现数据资源的互通和共享,提供工业建模所需的数据。通常需要成立专项数据治理组织,通过数据集成和定期运维等方式保证业务系统和线下数据准确与完整。此外,工业过程数据由于传感器故障、人为操作因素、系统误差、异构数据源、网络传输乱序等因素极易出现噪声、缺失值、数据不一致等情况,鉴于此通常需采用一定的数据预处理技术,消除数据中的噪声、纠正数据不一致、识别和删除离群数据,来提高算法模型的鲁棒性,防止模型过拟合或欠拟合。
04 数据建模
对业务和数据进行深入理解,选择合适的算法和建模工具,并对数据中的规律进行固化、提取,最后输出数据分析模型。
工业模型不同于数据分析中的聚类、分类、回归等算法,它更多的是基于业务机理知识与算法融合后解决实际业务问题的一套理论体系或业务机制。数据建模的本质是发现知识和固化知识,工业领域的知识主要通过试验\试加工等手段获得,把累次试验加工所用到的参数慢慢地固化下来,最终得到稳定的产品质量,此逻辑对工业领域的数据建模同样有效。
例如,我们在给航发某厂做外场服务备件年度需求预测分析时,首先定义业务场景及需求是面向服务部提供外场备件的需求预测服务,解决外场备件需求预测不准、不及时的问题。然后,通过数据集成和数据预处理等手段获取外场备件预测相关的近十年发动机故障信息、装机记录、计量信息和发货记录等数据,在对数据进行充分理解和探索后,结合厂内业务专家的业务知识,在开展工业建模时将备件细分为换件频次低但价值高的故障件(特殊消耗件、周转件)和换件频次高、换件量波动大且价值密度相对较低的消耗件(一般消耗件),分别进行建模预测。最后,在不同的规则约束下,通过模型评估和工程实际应用效果,优选出合适的算法模型,实现故障件和消耗件各自细分类别下的准确预测,极大提升了服务备件计划的准确性和外场服务保障的及时性。
图2:外场服务备件需求预测建模思路
因此,工业大数据建模需要对已有工业领域的知识深入理解,并在数据建模的过程中予以参考和融入,以通过数据分析获得大量“不纠结于因果的知识”,这是得到高质量模型的关键所在。对于企业而言,鉴于场景化数据积累量和全面性短期难以全面达到全面数据分析的要求,可优先以挖掘到的新知识\方法相比现有业务环节在结果和流程上得到提升或改进为原则,以保证分析建模工作达到基础的应用效果,然后在此基础随着数据积累和认知提升,持续改进优化。
05 模型的验证和评估
确认数据分析的结果或模型是否满足具体工业应用场景的使用需求的过程。
工业界通常追求分析结果具备高度的可靠性及准确性。所以,验证与评估的重点是验证模型在什么范围内有效,有效程度是多少,不能只盯平均精度。也就是说,需要分场景去验证和评估模型,结合数学精度要求与专业领域知识综合进行评估和改善。例如,我们针对某钢厂开展的硅钢纵条纹工艺参数优化项目,通过领域知识发现硅和铝的成分占比对生产工艺影响较大,但在工艺数据层面,此类关键参数控制的比较稳定,其对纵条纹影响的重要性就完全显现不出来。因此,生产控制过程中涉及到的工艺参数优化,其目标应该是首先选择波动较大的参数进行重点采集与调整,其次在设计区间约束的范围内对模型进行控制与调整,开展实际生产验证,进而获得对生产控制策略改进优化后的模型。
06 模型部署
将训练、分析得到的知识模型,以便于用户使用的方式和要求重新固化,形成便于用户使用的形式的过程,其成果可以是研究报告、可重复使用的数据挖掘程序或模型服务程序。
分析应用模型通常以软件定义和呈现的方式应用在企业的业务、管理或者监控系统中。模型在运行过程中需要持续地进行优化,否则模型就没有持续生命力,因为其精度很大程度上决定于数据的质量,往往模型在部署之后,由于缺乏数据的管理维护,导致数据的质量较差或者不满足采集条件。因此,要保证分析模型给企业带来效益,需要花费人力和物力保障数据的采集条件,从而为提高数据的精度奠定基础。同时,随着数据质量的提高和数量的增加,可能会挖掘出新的知识或规则,需要定期对模型进行完善,这也是推动模型不断优化的动力。
结语
随着工业大数据分析技术体系的不断成熟、企业数据资产的不断沉淀、应用场景的不断延伸、数据化意识的不断深化,工业大数据应用必将是企业数字化转型的持续动力和重要着力点。未来,在新技术条件下,我们将同各类工业企业一起着力于实现贯穿于产品研发设计、生产、管理、仓储、物流、服务等各业务环节和全流程的大数据采集、存储、管理和分析应用,利用工业大数据分析技术和解决方案融合应用能力,挖掘工业数据的深层次价值,达到改进产品设计、提升生产效率、提高产品质量、降低企业成本、提升运营能力等多项目标,为提升企业的生产力、竞争力和创新力不断赋能。