ETL主要是用来实现异构数据源数据集成的。多种数据源的所有原始数据大部分未作修改就被载入ETL,因而,无论数据源在关系型数据库、非关系型数据库,还是在外部文件,集成后的数据都将被置于数据库的数据表或数据仓库的维度表中,以便在数据库内或数据仓库中作进一步转换(因此,一般会将最终的数据存储到数据库或者数据仓库中)。 查看全文>>
Python+大数据学习常见问题2022-11-10 |传智教育 |初始ETL,ETL的体系结构
漏斗分析通过定义有序的过程环节和步骤,分析不同步骤之间的转化过程,而由于后续的转化一般都会比前面的转化数量更少,因此会形成类似于漏斗的形状。漏斗分析是网站分析的基本方法,很多强大的工具支持全站页面、事件、目标之间的混合漏斗分析,通过漏斗查看特定目标的完成和流失情况。 查看全文>>
Python+大数据学习常见问题2022-11-09 |传智教育 |漏斗分析,基本数据统计分析
Serde是Serializer and Deserializer(序列化和反序列化)的简称,Hive 通过Serde处理Hive数据表中每一行数据的读取和写入,例如查询Hive数据表数据时,HDFS中存放的数据表数据会通过Serializer序列化为字节流便于数据传输;向Hive数据表插入数据时,会通过Deserializer将数据反序列化成Hive数据表的每一行值,方便将数据加载到数据表中,不需要对数据进行转换。 查看全文>>
Python+大数据学习常见问题2022-11-08 |传智教育 |Serde表属性,Serde是什么
NLTK全称为Natural Language Toolkit,它是一套基于Python的自然语言处理工具包,可以方便地完成自然语言处理的任务,包括分词、词性标注、命名实体识别(NER)及句法分析等。 查看全文>>
Python+大数据学习常见问题2022-11-08 |传智教育 |Python文本数据分析,NLTK与jieba概述
在Python中,我们可以通过dropna()方法来删除含有空值或缺失值的行或列,其语法格式如下。 查看全文>>
Python+大数据学习常见问题2022-11-04 |传智教育 |dropna()函数的用法,数据预处理
Pandas为我们提供了非常多的描述性统计分析的指标方法,比如总和、均值、最小值、最大值等。接下来,笔者来罗列一些常用的描述性统计方法,以及它们的具体说明。 查看全文>>
Python+大数据学习常见问题2022-11-02 |传智教育 |Pandas工具,统计计算
我们之前在介绍finally语句时,说过finally语句用于释放资源,如关闭文件等。除了在finally语句中手动释放资源以外,还可以使用with语句预定义清理操作,即无论资源在使用过程中是否发生异常,都会执行释放资源的操作,比如文件使用后自动关闭... 查看全文>>
Python+大数据学习常见问题2022-10-25 |传智教育 |预定义清理,with语句
假设现在产生另外一个需求,不仅需要求出每组数据的极差,还需要计算出每组数据的和,即对一列数据使用两种不同的函数。这时,可以将两个函数的名称放在列表中,之后在调用agg()方法聚合时作为参数传入即可,具体示例代码如下... 查看全文>>
Python+大数据学习常见问题2022-10-24 |传智教育 |对数据应用不同函数