Cloudera Manager是用于管理CDH群集的端到端应用程序。Cloudera Manager通过对CDH集群的每个部分提供细粒度的可视性和控制来设置企业部署的标准,使运营商能够提高性能,提高服务质量,提高合规性并降低管理成本... 查看全文>>
Python+大数据技术文章2021-12-08 |传智教育 |ClouderaManager
ReduceTask的工作过程主要经历了5个阶段,分别是Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段,如下图所示。 查看全文>>
Python+大数据技术文章2021-12-06 |传智教育 |ReduceTask工作机制
什么是幂等性?用http举例来说,一次或多次请求,得到地响应是一致的(网络超时等问题除外)就是幂等性,换句话说,就是执行多次操作与执行一次操作的影响是一样的。 查看全文>>
Python+大数据技术文章2021-12-06 |传智教育 |Kafka怎样实现生产者幂等性
MapReduce是一种编程模型,用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候,每个任务的执行过程都会被分为两个阶段,分别是Map和Reduce,其中Map阶段用于对原始数据进行处理,Reduce阶段用于对Map阶段的结果进行汇总,得到最终结果,这两个阶段的模型如下图所示。 查看全文>>
Python+大数据技术文章2021-12-06 |传智教育 |MapReduce编程模型
Flume的核心角色是Agent,通过Agent可以从其他服务中采集数据,并通过内部event流的形式传输到Sink,并根据需求最终向下一个Agent传输或者进行集中式存储。 查看全文>>
Python+大数据技术文章2021-12-01 |传智教育 |Flume日志采集系统结构图
爬取网页其实就是通过URL获取网页信息,网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块,该模块支持发送请求,也支持获取响应。 查看全文>>
Python+大数据技术文章2021-11-19 |传智教育 |使用requests模块抓取网页
利用json模块的dumps()函数和loads()函数可以实现Python对象和JSON数据之间的转换,下面来分别演示两种函数的用法 查看全文>>
Python+大数据技术文章2021-11-18 |传智教育 |利用函数实现Pytho对象和JSON数据的相互转换
程序中与数据相关的操作分为数据的存储与读写。下面将对如何存储与读写不同维度的数据进行讲解。1.数据存储数据通常存储在文件之中,为了方便后续的读写操作,数据通常需要按照约定的组织方式进行存储。一维数据呈线性排列,一般用特殊字符分隔,具体示例如下。 查看全文>>
Python+大数据技术文章2021-11-18 |黑马程序员 |存储与读写不同维度的数据