针对多任务、可视化调度的调度需求,Apache以及其他组织提供了一系列工作流管理器,包括Oozie、Azkaban、Zeus、Dagobah、Luigi、Pinball和Airflow等。 查看全文>>
Python+大数据学习常见问题2023-12-11 |传智教育 |常用工作流管理器介绍
在实际生产中,YARN(Yet Another Resource Negotiator)的队列可以通过以下步骤进行设置。YARN是Apache Hadoop的资源管理器,用于管理集群资源和任务调度。 查看全文>>
Python+大数据学习常见问题2023-12-08 |传智教育 |实际生产中Yarn的队列如何设置
在Spark中,宽窄依赖(Wide vs Narrow Dependency)指的是作业(Job)中不同RDD(Resilient Distributed Dataset)之间的依赖关系类型。 查看全文>>
Python+大数据学习常见问题2023-12-07 |传智教育 |Spark的宽窄依赖是什么意思
当Spark遇到数据倾斜时,这可能导致作业性能下降。数据倾斜是指数据在分区中分布不均匀,导致部分任务处理了大部分数据而其他任务处理了很少的数据。以下是一些解决数据倾斜的方法 查看全文>>
Python+大数据学习常见问题2023-12-06 |传智教育 |Spark遇到数据倾斜怎么办
Yarn是Apache Hadoop的资源管理器,用于分配和管理集群资源。在实际生产中,配置Yarn的队列非常重要,可以根据不同的业务需求和优先级来管理资源。以下是设置Yarn队列的一般步骤和考虑因素。 查看全文>>
Python+大数据学习常见问题2023-12-05 |传智教育 |实际生产中Yarn的队列如何设置
RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失。RDD的数据是过程数据,只在处理的过程中存在,一旦处理完成,就不见了。这个特性可以最大化的利用资源,老旧RDD没用了就从内存中清理,给后续的计算腾出内存空间。 查看全文>>
Python+大数据学习常见问题2023-12-04 |传智教育 |RDD缓存具有哪些特点
一般在非正常断电或强制关闭下不会备份。在Hadoop分布式文件系统(HDFS)中,DataNode通常不会备份数据。DataNode是HDFS的组件之一,负责存储实际的数据块,并按需传输这些数据给客户端。备份通常由另一个重要组件NameNode来处理。 查看全文>>
Python+大数据学习常见问题2023-12-04 |传智教育 |datanode在什么情况下不会备份
二分查找(Binary Search)是一种在有序数组中查找特定元素的搜索算法。它的思想是不断将待查找区间分成两部分,并通过比较目标值与中间元素的大小关系来确定目标值可能存在的区间,从而缩小搜索范围,直到找到目标值或确定目标值不存在为止。 查看全文>>
Python+大数据学习常见问题2023-11-30 |传智教育 |二分查找的思想是什么