更新时间:2020年09月18日15时43分 来源:传智播客 浏览次数:
与通用爬虫相比,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1所示。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:
(1) 对抓取目标的描述或定义。我们需要根据爬取需求定义聚焦爬虫的爬取目标,并进行相关的描述。
(2) 对网页或数据的分析与过滤。
(3) 对URL的搜索策略。
猜你喜欢: