JSONPath是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括Javascript、Python、PHP和Java。 查看全文>>
Python+大数据技术文章2021-05-27 |传智教育 |JsonPath基本语法
被继承的类称为父类或基类,继承的类称为子类或派生类。子类在继承父类时,会自动拥有父类中的方法和属性。单继承指的是子类只继承一个父类,其语法格式如下: 查看全文>>
Python+大数据技术文章2021-05-27 |传智教育 |单继承,单继承的语法格式
MySQL数据库事务的基本性质为ACID即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)。接下来就来了解一下各种特性的内容: 查看全文>>
Python+大数据技术文章2021-05-26 |传智教育 |MySQL的隔离级别包含哪些内容?
有两种方法可以进行二次排序,分别为:buffer and in memory sort和 value-to-key conversion。buffer and in memory sort的主要思想是:在reduce()函数中,将某个key对应的所有value保存到内存中,然后进行排序。 查看全文>>
Python+大数据技术文章2021-05-26 |传智教育 |Hadoop实现二次排序
一般情况下,在选择是使用多进程还是多线程时,主要考虑的业务到底是IO密集型(多线程)还是计算密集型(多进程)。在爬虫中,请求的并发业务属于是网络的IO类型业务,因此网络并发适宜使用多线程;但特殊需求下,比如使用phantomjs 或者chrome-headless来抓取的爬虫,应当是多进程的,因为每一个phan/chro实例就是一个进程了,并发只能是多进程。 查看全文>>
Python+大数据技术文章2021-05-21 |传智教育 |写爬虫是用多进程好,多线程
一般爬虫使用的数据库,是根据项目来定的。如需求方指定了使用什么数据库、如果没指定,那么决定权就在爬虫程序员手里,如果自选的话,mysql 和mongodb 用的都是比较多的。但不同的数据库品种有各自的优缺点,不同的场景任何一种数据库都可以用来存储,但是某种可能会更好。比如如果抓取的数据之间的耦合性很高,关系比较复杂的话,那么mysql可能会是更好的选择。如果抓取的数据是分版块的,并且它们之间没有相似性或关联性不强,那么可能mongodb 会更好。 查看全文>>
Python+大数据技术文章2021-05-21 |传智教育 |Python爬取数据用哪个数据库存储数据好
每个数据仓库都包含一个或者多个事实数据表,事实表是对分析主题的度量,它包含了与各维度表相关联的外键,并通过连接(Join)方式与维度表关联。 查看全文>>
Python+大数据技术文章2021-05-21 |传智教育 |什么是事实表和维度表
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。其实,关键还是在于Spark 本身快。那么Spark为什么快呢? 查看全文>>
Python+大数据技术文章2021-05-20 |传智教育 |Spark处理数据,Hive,大数据面试题