深圳学习的网络爬虫你了解有哪几种分类吗?
作者:广州电脑培训甘发布时间:2020-11-05分类:深圳电脑学校浏览:599
如果说对于python有过了解的学员的话肯定就是对于python就是有了解的了,爬虫是python的一部分了,在系统结构中网络爬虫的分类是要分为多少种的呢?大家对于这些网络爬虫是否真的了解呢?今天科技就来和大家一起了解下网络爬虫的分类。
1.通用网络爬虫(General Purpose Web Crawler)
爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。
通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。
通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。
2.聚焦网络爬虫(Focused Crawler)
将爬取目标定位在与主题相关的页面中,主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务
聚焦网络爬虫的基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成
3.增量式网络爬虫(Incremental Web Crawler)
增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方则不更新,只爬取内容发生变化的网页或者新产生的网页,一定程度上能保证所爬取的网页,尽可能是新网页
4.深层网络爬虫(Deep Web Crawler)
表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页
深层网页:隐藏在表单后面,不能通过静态链接直接获得,是需要提交一定的关键词之后才能够获取得到的网页。
深层网络爬虫最重要的部分即为表单填写部分
深层网络爬虫的基本构成:URL列表,LVS列表
深层网络爬虫表单填写有两种类型:
基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写)
基于网页结构分析的表单填写(一般是领域只是有限的情况下使用,这种方式会根据网页结构进行分析,并自动的进行表单填写)
- 深圳电脑学校排行
- 最近发表
-
- 阳江信息:如何办理社保卡挂失?|||计算机培训机构
- 阳江信息:职业技能提升补贴在哪里申领?|||计算机网络培训学校
- 茂名信息:2024年茂名市技工教育招生院校名单|||计算机职业技能培训班
- 江门信息:我市两名金牌选手将代表广东省出战第二届全国乡村振兴职业技能大赛养老护理项目|||中专学计算机平面设计女生可以学计算机网络技术好吗
- 惠州信息:“惠州市就业驿站巡礼”之博罗石湾站|||广州市北大青鸟计算机职业培训学校
- 惠州信息:惠州市技工教育联盟成立大会暨第一届理事会全体会议成功召开|||计算机培训机构
- 河源信息:河源市和平县举办培训班进一步推进保障农民工工资支付制度全面贯彻落实|||计算机培训学校招生
- 江门信息:江门市举办劳动保障监察业务培训班,全面提升执法能力|||计算机网络培训学校
- 东莞信息:在莞被拖欠工资了?可到这个平台反映|||电脑计算机编程培训学校
- 肇庆信息:广东省2024年二级造价工程师职业资格考试报考通知|||北大青鸟计算机培训中心
- 标签列表
-