更新时间:2022年12月21日10时38分 来源:传智教育 浏览次数:
聚焦网络爬虫面向有特殊需求的人群,它会根据预先设定的主题顺着某个垂直领域进行抓取,而不是漫无目的地随意抓取。与通用网络爬虫相比,聚焦网络爬虫会根据一定的网页分析算法对网页进行筛选,保留与主题有关的网页链接,舍弃与主题无关的网页链接。其目的性更强。聚焦网络爬虫的工作原理如图1所示。
关于图1中各环节的介绍如下。
(1)根据需求确定聚焦网络爬虫的采集目标,以及进行相关的描述。
(2)获取初始URL。
(3)根据初始URL抓取对应的网页,并获得新LRL。
(4)从新URL中过滤掉与采集目标无关的URL。因为聚焦网络爬虫对网页的采集有着明确的目标,所以与目标无关的URL都会被过滤掉。
(5)将过滤后的URL放入URL队列。
(6)根据一定的抓取策略,从URL队列中确定URL优先级,并确定下一步要抓取的URL。
图1 聚焦网络爬虫的工作原理
(7)从下一步要抓取的URL中读取新URL,以准备根据新URL抓取下一个网页。
(8)若聚焦网络爬虫满足设置的停止条件,或没有可获取的URL时,停止采集;若网络爬虫没有满足设置的停条件,则继续根据新URL抓取对应的网页,并重复步骤(3)~步骤(8)。
综上所述,聚焦网络爬虫的工作原理较为复杂。除了做通用网络爬虫的任务之外,聚焦网络爬虫还需要多做3个任务,包括确定采集目标、过滤与采集目标无关的URL,以及确定下一步要抓取的URL。