教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

数据清洗转换是什么意思?

更新时间:2022年08月12日11时01分 来源:传智教育 浏览次数:

好口碑IT培训

  在Python工作中,我们经常要对数据进行清洗与转换。数据的清洗转换是指将抽取到的数据源表中的数据,根据数据仓库系统模型的要求进行数据的清洗、转换等操作,保证来自不同系统、不同格式数据的一致性和完整性,并且要按照业务要求加载到目标表中。

  数据的清洗转换是ETL中最为复杂的篇章,主要的任务是过滤掉不符合要求的数据。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。下面针对不符合要求的三大类数据进行详细介绍。

  1.不完整的数据

  数据上报、接口调用时都会产生大量的不完整数据,不完整数据的产生是不可避免的现象,而不完整的数据对大数据环境下的决策具有一定的影响。不完整数据主要包括缺失部分信息的数据。检测不完整数据的方法具体如下。

  缺失部分或全部内容的数据主要是采用计算机和人工相结合的方法进行查找,并对缺失的内容进行填充处理。不完整数据的清洗流程如图2-2所示。

不完整的数据清洗流程

  图2-2 不完整数据的清洗流程

  在图2-2中,不完整数据的清洗流程主要分为3个步骤,具体如下。

  (1)对获得的数据源进行不完整数据检测,为后续的数据处理提供所需的数据。

  (2)对检测出来的不完整数据进行处理,如修复缺失部分或全部内容的数据。

  (3)输出处理后的符合要求的完整数据。

  2.错误的数据

  大数据环境下数据量的剧增使得获取到的数据源会由于各种原因存在大量的错误数据。

  错误数据产生的原因是业务系统不够健全,在接收输入数据后没有进行过滤判断,而是直接将数据写入后台数据库造成的,如数值数据输成全角数字字符、字符串数据后面出现一个回车操作、日期格式不正确、日期越界等错误。错误数据的清洗流程如图2-3所示。

错误数据的清洗流程

  图2-3 错误数据的清洗流程

  在图2-3中,错误数据的清洗流程主要分为3个步骤,具体如下。

  (1)将数据源按照规定的数据格式进行检测,并执行数据预处理,为后续的处理步骤做准备。

  (2)对预处理后的数据进行一致性检测,如果预处理后的数据与原始数据存在完整性不一致的问题,则通过数据修改过程使数据统一。为避免再次出现该问题,应重复进行检测与修改过程,直到符合要求为止。

  (3)输出修改后的数据

0 分享到:
和我们在线交谈!