Python文档作为学习Python的“必备宝典”之一,我们可以通过多种渠道来找到,例如: 查看全文>>
Python+大数据技术文章2023-06-06 |传智教育 |Python文档
Python中定义变量的方式非常简单,只需要指定数据和变量名即可。变量的定义格式如下: 查看全文>>
Python+大数据技术文章2023-05-22 |传智教育 |什么是变量,变量的定义和命名
当我们编写Python代码时,我们得到的是一个包含Python代码的以.py为扩展名的文本文件。要运行代码,就需要Python解释器去执行.py文件。Python解释器,又称Python虚拟机,它有多种不同的实现,下面列举常见的几种Python解释器。 查看全文>>
Python+大数据技术文章2023-05-18 |传智教育 |Python常见解释器
Python程序的运行方式有两种:交互式和文件式。交互式是指Python解释器逐行接收Python代码并即时响应;文件式也称批量式,是指先将Python代码保存在文件中,再启动Python解释器批量解释代码。 查看全文>>
Python+大数据技术文章2023-05-17 |传智教育 |Python程序的运行方式,交互式和文件式
在这我们将关系模型简单理解为 Table 和 SQL 语句,那么问题变为如何在 KV 结构上保存 Table 以及如何在 KV 结构上运行 SQL 语句。 假设我们有这样一个表的定义: 查看全文>>
Python+大数据技术文章2023-05-17 |传智教育 |模型映射,KV映射
窄依赖:Spark可以对窄依赖进行优化:合并操作,形成pipeline(管道),同一个管道中的各个操作可以由同一个线程执行完,且如果有一个分区数据丢失,只需要从父RDD的对应个分区重新计算即可,不需要重新计算整个任务,提高容错。 查看全文>>
Python+大数据技术文章2023-05-12 |传智教育 |Spark依赖关系,什么是宽依赖,什么是窄依赖
通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫,它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的重要组成部分... 查看全文>>
Python+大数据技术文章2023-05-11 |传智教育 |通用网络爬虫和聚焦网络爬虫的区别
表层网页是指传统搜索引擎可以索引的页面,主要是以超链接可以到达的静态网页构成的网页。深层网页是指大部分内容无法通过... 查看全文>>
Python+大数据技术文章2023-05-11 |传智教育 |表层网页和深层网页的定义和区别