数据分析需要很多步骤,在整个过程中,数据的预处理往往会占用项目很长的时间,包含清洗、融合、异常值处理等。而作为数据分析的第一步,数据预处理在人工智能的落地实现中是非常重要的一环,这一步的整体质量直接决定了后续建模的准确性,数据越多、训练模型越复杂,对数据预处理的工作需求量就越大。
数据预处理的核心工作往往包含了数据融合、异常值处理、数据类型转换、归一化、去噪等多个方面,这些都是数据挖掘任务中不可缺少的环节。通过这些处理,可以进一步提高数据的质量,也能让数据更好地适应特定的挖掘技术或工具。那么,该如何高效完成数据的预处理工作呢?
Tempo机器学习平台数据预处理解决方案了解下!
01 数据融合
常用场景
数据分析中使用的数据常常来自于不同的数据源,当单张表的内容无法满足当前的分析需求时,就需要将多张表的数据信息进行关联,从而展开更为全面的分析与洞察。
Tempo机器学习平台可以通过简单的操作,完成不同表之间的数据连接与融合。
▶ 融合方式多样:涵盖内连接、完全外连接、左连接、右连接4种方式;
▶ 操作便捷:将两表拖拽至配置区,通过连线和双击,配置连接关系,简单几步就能实现表与表之间的连接和交集。
02 缺失值处理
常用场景
由于信息缺失,致使一部分属性值空缺出来,在实际的业务场景中,一般有机械和人为两种原因会导致数据存在空值:
1)机械原因:数据存储的失败、存储器损坏、机械故障导致某段时间数据未能收集(对于定时数据采集而言);
2)人为因素:主观失误、历史局限、有意隐瞒。如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。
Tempo机器学习平台可根据不同类型的数据,使用不同的处理方法填补缺失值,同时也支持批量修改操作:
▶ 数值型处理:针对数值型提供最小值、最大值、平均值、中位数和自定义等方式的缺失值处理;
▶ 日期型处理:针对日期型提供自定义方式的缺失值处理。支持用户自己设置一个特定的日期值赋给缺失的单元格;
▶ 字符型/文本型处理:针对字符型及文本型提供最多次数项、最少次数项和自定义等方式的缺失值处理。
03 数据去重
常用场景
由于某些原因,致使一部分数据被重复记录,为了节省存储和计算资源,在实际的分析过程中,只保留有意义的数据,进行后续分析,通过数据去重消除冗余数据。
造成重复值的原因大多是因为采集时多次采集数据,或者在数据合并时再次合并数据,比如问卷填写时用户多次填写,可根据用户名只保留最后一次填写的数据,通过去重避免数据冲突。
Tempo机器学习平台内置了多种策略,可以帮助用户在使用过程中,根据不同情况进行数据的去重处理。
▶ 默认方式:去掉所有列的完全重复数据,随机保留一行;
▶ 自定义方式:去掉指定列的完全重复数据。
04 属性变换
使用场景
在实际业务中,需要对业务进行细化分类、数据缩放、空值替换、类型转换等情况。
Tempo机器学习平台可支持数值型属性变换、字符型属性变换和日期型属性变换:
▶ 数字转字符:对于数值型属性变换,可以将数值型数据通过不同的变换方式进行转换;
▶ 区间转字符:用于设置用户自定义的日期区间转字符的规则,选择组内区间,设置日期区间的上下限和转换值。支持剩余值转化为其他值或剩余值保留原始值;
▶ 其他转换方式:平台还存在数字转字符、数字转日期、平方、平方根、对数、空值转换、非空值转换、四舍五入、转LONG/DOUBLE/FLOAT/INT(四舍五入)/INT(向下取整)、单位转换等变换方式。
Tempo机器学习平台支持多种数据预处理方法,能快速实现数据清理、集成、变换、归约等数据预处理操作,涵盖了行、列、高级、表级的数据处理方法和多种特征工程方法,能满足90%以上数据预处理需求,帮助用户高效完成多源数据的处理、分析,为后续的数据挖掘和分析打下良好的基础。
图片
对数据的快速洞察,已成为众多企业的核心诉求之一。而数据预处理的质量则直接决定了后续建模与分析的成果,通过Tempo AI灵活多样的数据预处理手段,不仅大大提升了数据清洗的质量,为后续构建模型提供精准的数据,还能有效降低难度,为数据分析师带来更为便捷的操作,也让业务人员拥有数据分析的新方式和能力。
Tempo机器学习平台除了有高效的数据预处理能力,还提供了从数据接入、数据探索、模型构建、模型评估、模型管理、模型部署到最终的工程化应用的全流程“端对端”解决方案。通过多模态多场景智能建模,助力 AI 时代的数据化运营,让企业轻松开展数据分析,快速洞察数据价值,赋能数字化转型升级。