更新时间:2022年11月15日14时12分 来源:传智教育 浏览次数:
抽样工作到底是不是必需的呢?其实不是。一般我们在数据获取量很少或者不容易处理海量数据的时候,抽样工作就会经常派上用场,抽样工作主要有以下几个方面的背景来源。
(1)数据计算资源不足,不抽样往往不能计算海量数据。
(2)数据采集限制。比方说,做社会调查必须采用抽样方法,因为我们不能针对所有人群做调研分析。
(3)时效性要求以极小的数据计算量来实现对整体数据的统计分析,在时效性方面大大增强。
如果存在上述条件限制或有类似强制性要求,那么抽样工作仍然必不可少。即使在数据计算资源充足、数据采集端可以采集更多的数据并且可以通过多种方式满足时效性要求的前提下,抽样工作在很多时候也是必要的。
大数据分析师平时会接触很多数据预处理工作,那么是不是每次做数据分析都要做一遍呢?答案当然不是,数据预处理是为后续的分析和建模服务的,如果后续的分析和建模不依赖于特定的数据问题,那么特定的预处理工作可以不做。例如:
(1)CART(分类回归树)对异常值不敏感,因此无须处理异常值;
(2)DBSCAN(基于密度的带有噪声的空间聚类)模型使用的是基于密度的方法而非距离相似度的方法,因此不需做数据的标准化和唯一化。
因此,所有的预处理工作都基于用户对整个数据工作流程的理解,尤其是理解模型、算法对于特定问题的依赖和受影响程度。