掌握了Hadoop集群中的高可用架构后,接下来,我们来手把手教大家搭建一个Hadoop高可用集群,具体步骤如下: 查看全文>>
Python+大数据技术文章2021-07-26 |传智教育 |高可用集群,高可用架构,Hadoop
数据发布与订阅模型,即所谓的全局配置中心,顾名思义就是发布者将需要全局统一管理的数据发布到Zookeeper节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。接下来,我们介绍一些数据发布与订阅的主要应用场景。 查看全文>>
Python+大数据技术文章2021-07-26 |传智教育 |数据发布与订阅的应用场景,zookeeper,
大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的,因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题,但是,数据分层却可以给我们带来如下的好处: 查看全文>>
Python+大数据技术文章2021-07-23 |传智教育 |Hive数据仓库,Hive安装
线程由线程ID、当前指令指针(PC)、寄存器集合和堆栈组成,它不能独立拥有系统资源,但它可与同属一个进程的其它线程共享该进程所拥有的全部资源。 查看全文>>
Python+大数据技术文章2021-07-20 |传智教育 |什么是线程,线程的分类
map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中关键的一个流程,这个流程就叫shuffle。本章节内容来看一下shuffle的工作流程和工作机制。 查看全文>>
Python+大数据技术文章2021-07-20 |传智教育 |Shuffle的工作机制
combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map 端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。 查看全文>>
Python+大数据技术文章2021-07-20 |传智教育 |Combiner的作用,partition的作用
在Unix/Linux操作系统中,通过Python的os模块中封装的fork()函数可以轻松地创建一个进程。fork()函数的声明如下: 查看全文>>
Python+大数据技术文章2021-07-20 |传智教育 |python创建进程
在Scala中,不能用类名直接访问类中的方法和字段,而是创建类的实例对象去访问类中的方法和字段。Scala中提供了object这个关键字用来实现单例模式,若单例对象名与类名相同,则把这个单例对象称作伴生对象,下面具通过体用代码演示单例对象和伴生对象的创建方法。 查看全文>>
Python+大数据技术文章2021-07-16 |传智教育 |创建单例和半生对象