垂直搜索-爬虫部分 - - ITeye博客

`

jimmee

浏览: 530522 次
性别:
来自: 杭州

最近访客更多访客>>

loven_11

shohokuf

sunyeshigou

新的开始2015

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

GGGGeek：看完了博主的博文，如果没猜错的话应该是浙大吧？很多优秀的人因为 ...
转《D君的故事》以时刻警示自己
游牧民族：楼主写的不错，学习了，最近对爬虫比较感兴趣，也写了些爬虫相关的 ...
通用爬虫框架及heritrix爬虫介绍
jimmee： jerome_s 写道ice 你怎么看？粗略的看了一下ice ...
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明
jerome_s： ice 你怎么看？
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明
jimmee： nk_tocean 写道照着做了，但是不行啊，还是乱码.先确认 ...
hive编写udf处理非utf-8数据

垂直搜索-爬虫部分

博客分类：

搜索引擎
笔记

垂直爬虫搜索列表页详情页

阅读更多

垂直搜索与通用搜索不同之处在于，通用搜索不需要理会网站哪些资源是需要的，哪些是不需要的，一并抓取并将其文本部分做索引。而垂直搜索里，我们的目标网站往往在某一领域具有其专业性，其整体网站的结构相当规范，并且垂直搜索往往只需要其中一部分具有垂直性的资源，所以垂直爬虫相比通用爬虫更加精确。

垂直爬虫抓取数据分成三个步骤：list-crawling(列表url抓取)，detail-crawling(详情url抓取)，data-extract and store (数据抽取和存储)，其实原理上并不复杂，以下是整体垂直搜索的架构及流程图：

1. 首先运营人员会选定需要抓取的目标网站，录入数据库的站源表sitelist，即这些url作为爬虫的seed。同时，开发人员会在爬虫规则库中增加相应网站的规则解析。

2．crawler读取种子url，根据事先制定的规则（一般是正则表达式规则），从种子url中进行列表页url的抽取，并提取出来保存到数据库中（实际工作中，直接抽取出来放到调度队列中，继续抓取）。需要注意的是，很多网站的列表页的url都是通过js的方式处理的，因此制定规则时，需要懂得js分析。

3. 进行列表页url的请求，之后抽取出详情页的url列表

4. 进行详情页url的请求，之后抽取出具体的数据。

其他一些点补充：

1. url会做去重处理，不会重复调度同样的url

2. 抽取数据的过程中，一般都是使用xpath处理。

查看图片附件

分享到：

通用爬虫框架及heritrix爬虫介绍 | MessagePack, Protocol Buffers和Thrift序 ...

2014-04-09 23:11
浏览 2040
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.zip: 爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.内有丰富的开发案例，希望对大家有用

计算机-爬虫-基于网络爬虫的垂直搜索引擎设计与实现.pdf: 计算机-爬虫-基于网络爬虫的垂直搜索引擎设计与实现.pdf

计算机-爬虫-基于垂直搜索引擎的主题爬虫算法的研究.pdf: 计算机-爬虫-基于垂直搜索引擎的主题爬虫算法的研究.pdf

01-爬虫基础.zip: 本教程旨在帮助初学者掌握Python爬虫的基础知识，包括爬虫的概念、爬虫的工具、爬虫的流程、爬虫的常用库等。此外，本教程还将介绍Python爬虫的一些高级技巧和实践案例，以帮助学习者更深入地了解该领域。在本教程...

计算机-爬虫-搜索引擎爬虫协议的竞争法分析.pdf: 计算机-爬虫-搜索引擎爬虫协议的竞争法分析.pdf

php 抓取图片------爬虫: php 抓取图片-----爬虫

Python大作业--爬虫（完美应付大作业）.zip: Python大作业--爬虫（完美应付大作业），Python大作业--爬虫（完美应付大作业）。 Python大作业：微信爬虫程序功能：爬取指定公众号的微信文章标题、作者、链接、图标文件，暂不支持保存成pdf（时间有限，保存...

计算机-爬虫-搜索引擎中网络爬虫技术研究.pdf: 计算机-爬虫-搜索引擎中网络爬虫技术研究.pdf

基于java的开发源码-爬虫框架WebMagic.zip: 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip 基于java的开发源码-爬虫框架WebMagic.zip ...

计算机-爬虫-基于爬虫与文本挖掘的985高校图书馆微信公众号的调研.pdf: 计算机-爬虫-基于爬虫与文本挖掘的985高校图书馆微信公众号的调研.pdf

计算机-爬虫-基于布谷鸟搜索算法的主题爬虫搜索策略研究.pdf: 计算机-爬虫-基于布谷鸟搜索算法的主题爬虫搜索策略研究.pdf

Python系列-自动化-机器学习-人脸识别-高级爬虫工程师-数据采集-爬虫实例-大小1-2t按需转存: Python系列--自动化-机器学习-人脸识别-高级爬虫工程师-数据采集-黑马-爬虫实例-大小1-2t按需转存

计算机-爬虫-可定制的聚焦网络爬虫.pdf: 计算机-爬虫-可定制的聚焦网络爬虫.pdf

计算机-爬虫-基于Chrome浏览器插件的爬虫系统.pdf: 计算机-爬虫-基于Chrome浏览器插件的爬虫系统.pdf

python-爬虫案例: python-爬虫案例

爬虫（1） - 爬虫基础入门理论篇.doc: 爬虫（1） - 爬虫基础入门理论篇.doc

BIT-爬虫课件: BIT-爬虫课件

python3-爬虫代码-保存豆瓣电影TOP250名称: python3-code-爬虫代码-保存豆瓣电影TOP250名称

计算机-爬虫-利用网络爬虫技术攫取他人数据的正当性认定：以典型案例为视角.pdf: 计算机-爬虫-利用网络爬虫技术攫取他人数据的正当性认定：以典型案例为视角.pdf

景和千城-爬虫1: 景和千城-爬虫1

Global site tag (gtag.js) - Google Analytics