大量的数据中隐藏着商业价值,各行各业都在做大数据分析,挖掘数据价值,但是却很少有人关注数据质量的问题,数据分析质量高不高,直接影响数据分析成果的价值,保证数据质量才是数据分析的关键。
数据质量体现为数据的正确性、准确性、不矛盾性、一致性、完整性和集成性这六大方面。数据质量在数据分析的各个环节都应加以控制和保证,从数据采集、数据处理、数据分析到最后数据分析成果展现及应用,其中数据处理环节是提升数据质量的重要环节。《哈佛商业评论》的一项研究表明,人们将80%的时间用于数据清理和组织,而数据分析时间仅占20%。有了Tempo,数据预处理将变得简单高效!下面我们来看看其中一些重要的功能。
Tempo 支持多种数据预处理方法,包括对行、列、表的30余种数据预处理节点,实现数据清理,集成,变换,归约等数据预处理,为挖掘分析做好准备。其中行处理包括:数据过滤、排序、随机抽样、数据平衡等;列处理包括:重命名、属性过滤、属性生成、随机数生成、缺失值处理、字符型/数值型/日期型属性变换、设置角色等;表处理包括:数据连接、数据追加、数据拆分、数据分解、分类汇总、表转置等;高级处理包括:数据平滑、主成分分析、因子分析、孤立点分析、RFM、季节解构、异常值检测、奇异值分解、分箱、局部多项式回归、过程查询分析器等。
以某企业的全国销售订单分析为例,在构建挖掘分析模型前需要进行数据预处理。