当前位置: 首页 > news >正文

做网站vi系统是什么/营销型网站建设报价

做网站vi系统是什么,营销型网站建设报价,找外包网站 和自己做,网站怎样排版需求 想要爬去糗事百科全站的数据方法:(1)基于Scrapy框架中的Spider的递归爬去实现(2) 基于Scrapy框架的CrawlSpider的自动爬取来进行实现那么CrawlSpider又是什么呢?如何实现它的自动爬取?CrawlSpider的简介一 简介crawlspider是spider的一个…

需求 想要爬去糗事百科全站的数据

方法:

(1)基于Scrapy框架中的Spider的递归爬去实现

(2) 基于Scrapy框架的CrawlSpider的自动爬取来进行实现

那么CrawlSpider又是什么呢?如何实现它的自动爬取?

CrawlSpider的简介

一 简介

crawlspider是spider的一个子类,除了继承到Spider的功能外,还派生了其自己的更强大的功能和特性。其中最显著的功能就是'”LinkExtractors链接提取器'。Spider是所有怕爬虫类的基类

二 使用

步骤:

(1)创建scrapy工程:scrapy startproject projectName

(2) 创建爬虫文件:scrapy genspider -t crawl spidername www.xxx.com

注意 这里创建爬虫文件时比之前创建的爬虫文件多了-t crawl 表示的时创建的爬虫文件是一个基于CrawlSpider这个类,而不是Spider这个基类了

(3)生成的爬虫文件和之前的spider基类的爬虫文件有所不同

需求 爬取到抽屉网站中分页中的url

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

#爬取抽屉网站的分页的URL

#注意 这里继承的类是CrawlSpider 而不是Spider

class ChoutiSpider(CrawlSpider):

name = 'chouti'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

#allow表示链接提取器提取链接的规则

rules = (

#Rule 规则提取器:将链接提取器提取到的链接所对应的页面进行指定形式的解析

#follow 让连接提取器继续作用到链接提取器提取到的链接所对应的页面中

Rule(LinkExtractor(allow=r'/r/scoff/hot/\d+'), callback='parse_item', follow=True),

)

def parse_item(self, response):

print(response)

item = {}

item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()

item['name'] = response.xpath('//div[@id="name"]').get()

item['description'] = response.xpath('//div[@id="description"]').get()

return item

需求 爬取糗事百科网站的分页的URL

#爬取糗事百科网站的分页的URL

class ChoutiSpider(CrawlSpider):

name = 'qiubai'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://www.qiushibaike.com/pic/']

#allow表示链接提取器提取链接的规则

link = LinkExtractor(allow=r'/pic/page/\d+\?s=\d+')

link1 = LinkExtractor(allow=r'/pic/$')

#注意这里可以有多个规则

rules = (

#Rule 规则提取器:将链接提取器提取到的链接所对应的页面进行指定形式的解析

#follow 让连接提取器继续作用到链接提取器提取到的链接所对应的页面中

Rule(link, callback='parse_item', follow=True),

Rule(link1,callback='parse_item',follow=True)

)

def parse_item(self, response):

print(response)

http://www.lbrq.cn/news/1363483.html

相关文章:

  • 做网站插音乐怎么隐藏/关键词排名方法
  • 贸易公司网站案例/百度一下首页网址
  • 双峰做网站/爱站关键词挖掘工具
  • wordpress集成收藏功能/东莞百度快速排名优化
  • 河北企业网站建设公司/网站分析
  • 平凉市建设局门户网站/中国十大网站有哪些
  • 网站死循环/想要网站推广页
  • 做类似淘宝的网站开发需要什么/免费使用seo软件
  • 朝阳专业网站建设/seo优化的内容有哪些
  • 网络工作室主要工作内容/aso安卓优化
  • 郑州开发app公司哪家好/搜索引擎优化专员
  • 河南省建设厅举报网站/怎样去推广自己的网店
  • 如何创建网站目录/永久域名查询
  • 问鼎电子娱乐下载官方网站/关键词排名优化公司哪家强
  • 武汉光谷做网站价格/网站推广的常用途径有哪些
  • 张家口建设局网站/营销型网站建设方案
  • 阳江网站建设/windows优化大师破解版
  • 高明网站建设哪家好/网络营销平台都有哪些
  • 手机网站建设 小程序/石家庄最新新闻事件
  • 做水军那些网站好/抖音搜索引擎优化
  • 公司培训网站建设/google应用商店
  • 动态ip做网站影响seo吗/宁波seo网络推广定制多少钱
  • wordpress 做音乐网站/想做网络推广如何去做
  • 网上哪个网站做的系统好用吗/网页代码
  • 做国际网站的流程/长春seo排名扣费
  • node做网站/软文网
  • rss 网站插件/网站优化培训
  • 可以挣钱的网站/网站的搜索引擎
  • 吴中企业建设网站报价/网站推广技巧和方法
  • 企业网站优化外包/自媒体135的网站是多少
  • 《Python 实用项目与工具制作指南》· 2.3 导入
  • 零售消费行业研究系列报告
  • Android工程命令行打包并自动生成签名Apk
  • Socket编程——TCP协议
  • Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资决策辅助中的应用(379)
  • 电脑声音标志显示红叉的原因