当前位置：首页 > news >正文

做网站vi系统是什么/营销型网站建设报价

news 2025/8/5 23:53:54

做网站vi系统是什么,营销型网站建设报价,找外包网站和自己做,网站怎样排版需求想要爬去糗事百科全站的数据方法：(1)基于Scrapy框架中的Spider的递归爬去实现(2) 基于Scrapy框架的CrawlSpider的自动爬取来进行实现那么CrawlSpider又是什么呢？如何实现它的自动爬取？CrawlSpider的简介一简介crawlspider是spider的一个…

需求想要爬去糗事百科全站的数据

方法：

(1)基于Scrapy框架中的Spider的递归爬去实现

(2) 基于Scrapy框架的CrawlSpider的自动爬取来进行实现

那么CrawlSpider又是什么呢？如何实现它的自动爬取？

CrawlSpider的简介

一简介

crawlspider是spider的一个子类，除了继承到Spider的功能外，还派生了其自己的更强大的功能和特性。其中最显著的功能就是'”LinkExtractors链接提取器'。Spider是所有怕爬虫类的基类

二使用

步骤：

(1)创建scrapy工程：scrapy startproject projectName

(2) 创建爬虫文件：scrapy genspider -t crawl spidername www.xxx.com

注意这里创建爬虫文件时比之前创建的爬虫文件多了-t crawl 表示的时创建的爬虫文件是一个基于CrawlSpider这个类，而不是Spider这个基类了

(3)生成的爬虫文件和之前的spider基类的爬虫文件有所不同

需求爬取到抽屉网站中分页中的url

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

#爬取抽屉网站的分页的URL

#注意这里继承的类是CrawlSpider 而不是Spider

class ChoutiSpider(CrawlSpider):

name = 'chouti'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

#allow表示链接提取器提取链接的规则

rules = (

#Rule 规则提取器：将链接提取器提取到的链接所对应的页面进行指定形式的解析

#follow 让连接提取器继续作用到链接提取器提取到的链接所对应的页面中

Rule(LinkExtractor(allow=r'/r/scoff/hot/\d+'), callback='parse_item', follow=True),

)

def parse_item(self, response):

print(response)

item = {}

item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()

item['name'] = response.xpath('//div[@id="name"]').get()

item['description'] = response.xpath('//div[@id="description"]').get()

return item

需求爬取糗事百科网站的分页的URL

#爬取糗事百科网站的分页的URL

class ChoutiSpider(CrawlSpider):

name = 'qiubai'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://www.qiushibaike.com/pic/']

#allow表示链接提取器提取链接的规则

link = LinkExtractor(allow=r'/pic/page/\d+\?s=\d+')

link1 = LinkExtractor(allow=r'/pic/$')

#注意这里可以有多个规则

rules = (

#Rule 规则提取器：将链接提取器提取到的链接所对应的页面进行指定形式的解析

#follow 让连接提取器继续作用到链接提取器提取到的链接所对应的页面中

Rule(link, callback='parse_item', follow=True),

Rule(link1,callback='parse_item',follow=True)

)

def parse_item(self, response):

print(response)

http://www.lbrq.cn/news/1363483.html

相关文章：

做网站插音乐怎么隐藏/关键词排名方法

贸易公司网站案例/百度一下首页网址

双峰做网站/爱站关键词挖掘工具

wordpress集成收藏功能/东莞百度快速排名优化

河北企业网站建设公司/网站分析

平凉市建设局门户网站/中国十大网站有哪些

网站死循环/想要网站推广页

做类似淘宝的网站开发需要什么/免费使用seo软件

朝阳专业网站建设/seo优化的内容有哪些

网络工作室主要工作内容/aso安卓优化

郑州开发app公司哪家好/搜索引擎优化专员

河南省建设厅举报网站/怎样去推广自己的网店

如何创建网站目录/永久域名查询

问鼎电子娱乐下载官方网站/关键词排名优化公司哪家强

武汉光谷做网站价格/网站推广的常用途径有哪些

张家口建设局网站/营销型网站建设方案

阳江网站建设/windows优化大师破解版

高明网站建设哪家好/网络营销平台都有哪些

手机网站建设小程序/石家庄最新新闻事件

做水军那些网站好/抖音搜索引擎优化

公司培训网站建设/google应用商店

动态ip做网站影响seo吗/宁波seo网络推广定制多少钱

wordpress 做音乐网站/想做网络推广如何去做

网上哪个网站做的系统好用吗/网页代码

做国际网站的流程/长春seo排名扣费

node做网站/软文网

rss 网站插件/网站优化培训

可以挣钱的网站/网站的搜索引擎

吴中企业建设网站报价/网站推广技巧和方法

企业网站优化外包/自媒体135的网站是多少

《Python 实用项目与工具制作指南》· 2.3 导入

零售消费行业研究系列报告

Android工程命令行打包并自动生成签名Apk

Socket编程——TCP协议

Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资决策辅助中的应用（379）

电脑声音标志显示红叉的原因