垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引。而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范,并且垂直搜索往往只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫更加精确。
垂直爬虫抓取数据分成三个步骤:list-crawling(列表url抓取),detail-crawling(详情url抓取),data-extract and store (数据抽取和存储),其实原理上并不复杂,以下是整体垂直搜索的架构及流程图:
1. 首先运营人员会选定需要抓取的目标网站,录入数据库的站源表sitelist,即这些url作为爬虫的seed。同时,开发人员会在爬虫规则库中增加相应网站的规则解析。
2.crawler读取种子url,根据事先制定的规则(一般是正则表达式规则),从种子url中进行列表页url的抽取,并提取出来保存到数据库中(实际工作中,直接抽取出来放到调度队列中,继续抓取)。需要注意的是,很多网站的列表页的url都是通过js的方式处理的,因此制定规则时,需要懂得js分析。
3. 进行列表页url的请求,之后抽取出详情页的url列表
4. 进行详情页url的请求,之后抽取出具体的数据。
其他一些点补充:
1. url会做去重处理,不会重复调度同样的url
2. 抽取数据的过程中,一般都是使用xpath处理。
相关推荐
爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.内有丰富的开发案例,希望对大家有用
计算机-爬虫-基于网络爬虫的垂直搜索引擎设计与实现.pdf
计算机-爬虫-基于垂直搜索引擎的主题爬虫算法的研究.pdf
本教程旨在帮助初学者掌握Python爬虫的基础知识,包括爬虫的概念、爬虫的工具、爬虫的流程、爬虫的常用库等。此外,本教程还将介绍Python爬虫的一些高级技巧和实践案例,以帮助学习者更深入地了解该领域。 在本教程...
计算机-爬虫-搜索引擎爬虫协议的竞争法分析.pdf
php 抓取图片-----爬虫
Python大作业--爬虫(完美应付大作业),Python大作业--爬虫(完美应付大作业)。 Python大作业:微信爬虫 程序功能:爬取指定公众号的微信文章标题、作者、链接、图标文件,暂不支持保存成pdf(时间有限,保存...
计算机-爬虫-搜索引擎中网络爬虫技术研究.pdf
基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip ...
计算机-爬虫-基于爬虫与文本挖掘的985高校图书馆微信公众号的调研.pdf
计算机-爬虫-基于布谷鸟搜索算法的主题爬虫搜索策略研究.pdf
Python系列--自动化-机器学习-人脸识别-高级爬虫工程师-数据采集-黑马-爬虫实例-大小1-2t按需转存
计算机-爬虫-可定制的聚焦网络爬虫.pdf
计算机-爬虫-基于Chrome浏览器插件的爬虫系统.pdf
python-爬虫案例
爬虫(1) - 爬虫基础入门理论篇.doc
BIT-爬虫课件
python3-code-爬虫代码-保存豆瓣电影TOP250名称
计算机-爬虫-利用网络爬虫技术攫取他人数据的正当性认定:以典型案例为视角.pdf
景和千城-爬虫1