美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

大话数据挖掘之预测分析

2021-02-23 16:00:53
某985高校管理学院第五届EMBA班的《数据挖掘及其应用》课程上。
这一节要讲预测,学员们兴趣盎然,早早地来到教室。
徐教授健步走上讲台:“今天我们一起学习数据挖掘的预测方法。”
他的话刚一停顿,就被马处长打断了:“徐老师,税务局的姚局长一直研究周易预测,整天给我们叨叨他料事如神,数据挖掘预测与周易预测有什么不同,哪个更厉害?”
没有想到课堂上会有人提出这样的问题,徐教授灵机一动说:“姚局长,那你就先给大家以最精辟的语言介绍一下周易预测吧!”
姚局长站起来,挠着头:“其实周易预测也是一门科学,马处长、李部长这些人不懂还妄加评论,老是批判我。徐老师,您给了我机会,我得给周易预测正名!”
姚局长越说越激动,徐教授示意他坐下慢慢说。
“周易是建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。周易灵验的预测,千百年来流传不息,充分证明其具有强大生命力。其实世俗对周易一直存有误解,比如从迷信的角度去解读它。历史上有许多学者为其正名,他们认为周易理论依据的是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实,希望人人都能理解,千万不要挖苦讽刺。”姚局长一边说,一边向马处长和李部长投去挑战的目光。
徐教授发现马处长准备站起来反击,急忙以手势示意他坐下。“其实自古以来,确实有太多的伪周易玷污了科学的周易。姚局长和马处长实际上都是科学周易阵线的斗士,但你俩却内讧起来了!”
马处长马上反应了过来:“说来也是,姚局长高举科学周易的大旗,我扛着反击伪科学周易的旗帜,我们本该就是一家人!”说着,马处长将手伸向了姚局长。
这时,姚局长又站了起来,大胆地讲到:“实际上,我们要辩证的看待周易,要以批判继承的观点对待周易。周易在一定程度上揭示和描述了宇宙万事万物运动变化发展的内在规律。如果万事万物不存在相似性、关联性和全息性,周易预测就是不可能的。全息性是周易预测所依据的又一重要原理,科学已经证明了全息性的存在。”
李部长也搭上了话:“是的,美国科学家做过这样的实验,用一架特制的全息照相机对一颗树苗进行拍照,拍到了一颗大树的照片,后来这颗树苗长大以后正好和这颗大树的照片相吻合。”
听到李部长也开始支持他了,姚局长更起劲了:“考古工作者对一颗牙齿进行化验,得出了古人的身高等许多数据。法医工作者对一根毛发进行化验,得出了死者或者罪犯的许多特征。这说明事物的某一局部包含了其整体的信息。这就是现代科技所证实了的全息论。所以其预测的理论根据是科学的,几千年的实践检验已经证明了这点。”
用余光扫瞄了瞄同排的专注倾听的学员后,姚局长受到鼓舞,接着说:“可是现在有人硬要把周易预测说成是迷信,那是既不懂周易又不懂科学的表现,是很浅薄的,还有人认为周易很神秘,科学解释不通,这也是不懂科学的表现。周易本身是科学,古老的周易与现代科学是相通的,是血脉相承的。”
姚部长的一到段话,激起了全班一阵热烈的掌声,结束了EMBA班自开学以来对周易的激战。
徐老师觉得是引进数据挖掘的预测概念的时候了,于是说:“数据挖掘的预测是周易预测的继承与发展。周易预测首先要了解事物的属性即状态信息,在利用以往已经获得的事物间的相似性和关联性,对事物的未来状况作出判断。实际上这种相似性和关联性就是对历史事件的学习而积累的经验。而数据挖掘预测则是通过对反映了事物输入与输出之间的关联性即内在规律的历史数据的学习,得到预测模型,再利用该模型对未来数据进行预测的过程。”
马处长对徐教授所讲的内容感到疑惑不解,大声请求道:“徐老师,您讲的太深奥了,能不能再具体地描述描述数据挖掘预测的过程?”
徐教授将PPT翻到新的一页,说道:“数据挖掘预测的基本原理是黑箱子模型,即将事物输入与输出之间的关系不管其多么复杂,均当做一个黑箱子,以往的输入、输出数据是这个黑箱子内复杂规律的反映。通过数据挖掘的机器学习方法,建立黑箱子模型来预测未来的输入数据所对应的输出数据。”


预测方法

“慢点慢点,徐老师,什么是机器学习?”马处长扑捉道了一个新名词,急忙问道。
徐教授早已预料到有人会问这样的问题,不紧不慢的说道:“假定事物的输入、输出之间存在一种函数关系y=f(x,β),其中是待定参数,y=f(x,β)称为学习机器。通过数据建模,由历史输入输出数据学习得到参数β,就确定了的具体表达形式y=f(x,β),于是便可以对新的预测了。这样的过程称为机器学习。”
“徐老师,我只听说过数学建模,您刚才提到数据建模是什么意思?”姚部长也提出了一个问题。
“数据建模就是基于数据建立数学模型,它是相对于基于物理、化学和其他专业基本原理建立数学模型即机理建模而言的。对于预测来说,如果所研究的对象有明晰的机理,可以依其进行数学建模,这当然是最好的选择。但是,我们经常会遇到很多实际问题,如社会学问题、金融问题、复杂工业过程问题和生物医学问题等等,不好以某种机理来描述,从而无法进行机理建模。如果积累有足够的历史数据,这时,数据建模就可大显身手了。”
受徐教授的启发,学员们纷纷谈论其本行业的情况。
李部长深有感触地说:“冶金工业是极其复杂的流程化生产过程,各个工序对产品质量都有影响,尤其是产品表观质量问题如冷轧板重皮、夹杂、侧翻和硅钢纵条纹等缺陷根本无法建立机理模型。不过,冶金生产自动化程度很高,数据积累非常丰富,数据建模提供了良好的基础。”
李部长的话也引起了马处长的共鸣:“在我们电力行业,设备状态及寿命评估、负荷预测、电力暂态稳定性性分析、电力系统规划等诸多问题都难于进行机理建模,机器学习可以发挥重大作用了。”
铁路局的高副局长也开了口:“在我们铁路部门,高铁的轨道检测、交通流量预测、铁路票价制定、调度优化等等,均可以用机器学习的方法解决啦!”
税务局赵局长也忍不住了:“好啊,税务稽查也有数据挖掘这把利器了!”
航天研究院的黄主任接着说:“说起机器学习,我这里有个非常典型的实例跟大家分享,就是关于劳动定额的预测。以某飞机零部件生产加工为例,通过分析历史数据中的加工宽度、加工直径、加工深度和劳动定额之间的关系,最终建立起各加工尺寸和劳动定额的BP神经网络回归预测模型。经过对模型的效果分析评估,我们将此模型固化应用在实际生产中几个月后,发现此模型预测准确率高达99.21%,帮助企业节省了大量的收集数据的经济和时间成本。更具现实意义的是,将得到的劳动定额制度在企业的生产中组织贯彻,并采取有关的技术组织措施,如竞赛、技术培训、动作分析、定额考核等,能帮助职工达到和不断突破现行劳动定额。根据职工完成定额的情况进行分析,管理者亦能发现定额管理中存在的问题加以解决。”
工行的张行长显得非常平静,慢条斯理地说:“其实,我们已经开始尝试利用机器学习的方法进行信用评价、贷款风险评估和反洗钱等工作,希望徐教授和其他学员不吝指教。”
移动公司梁总显得有点得意,喜形于色地说:“我们公司两年前就开始应用数据挖掘解决电信业面临最紧迫的四大问题:市场分群、精确营销、新业务响应和客户流失分析等。这四大问题最本质的还是预测问题,我们已经总结出了比较成功的解决方案,有机会邀请徐教授给我们指导指导。”
……
“好的,大家都讲了很多了。预测未来趋势和行为,使得行动目标更具有前瞻性,并作出具有知识驱动的决策,是每一个行业的共同希望,但愿数据挖掘的机器学习方法能使大家以后的工作如虎添翼。”徐教授总结道。
马处长估计徐教授下面要讲具体的机器学习方法了,急忙建议说:“徐老师,机器学习的数学模型和求解算法很多,而且新方法层出不穷,在应用中让人难以选择,您就给我们讲解一些实用而先进的方法吧。”
徐教授没有对答马处长的话,轻轻的点了一下鼠标,几种典型的机器学习方法在屏幕上跃然而入。

  • 决策树方法
  • 人工神经网络
  • 支撑向量机
  • 正则化方法
服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询