当前位置: 首页 > news >正文

做网站培训/站长工具whois查询

做网站培训,站长工具whois查询,跨境电商平台有哪些前期费用,四川网站建设 旋风同时运行多个爬虫查到的主要有两种方法。第一种是在项目内创建command文件夹,添加改写后的crawl.py文件,并在settings.py进行相关配置实现的,该方法相当于创建了一个自定义的指令,启动多个爬虫时,在cmd命令行中执行新创…

同时运行多个爬虫查到的主要有两种方法。第一种是在项目内创建command文件夹,添加改写后的crawl.py文件,并在settings.py进行相关配置实现的,该方法相当于创建了一个自定义的指令,启动多个爬虫时,在cmd命令行中执行新创建的指令即可。详细步骤见这里。第二种方法通过scrapy.crawler.CrawlerProcess实现,本人使用的就是这种方法。

官方文档中,scrapy.crawler.CrawlerProcess的介绍是“A class to run multiple scrapy crawlers in a process simultaneously.”,主要用到两个方法,CrawlerProcess.crawl()和CrawlerProcess.start(),crawl方法根据参数启动一个爬虫,start方法启动一个twisted reactor(scrapy是基于twisted事件驱动网络框架的),该方法会阻塞直到所有爬虫执行完毕。代码如下

process = CrawlerProcess(settings=get_project_settings())for module_path, module_name, ispkg in pkgutil.iter_modules(spiders.__path__, spiders.__name__ + "."):print('module',module_name)spider_name = module_name.split('.')[-1]print(spider_name)process.crawl(spider_name)process.start()

这里使用了python内置的pkgutil库,遍历spiders文件夹下所有爬虫并启动,最后执行start方法阻塞在这里。

另外在编写定时代码时,出现第一次运行没有问题,但是第二次会报twisted.internet.error.ReactorNotRestartable错误的情况,解决方法之一见这里,即在不同的进程中启动reactor。

http://www.lbrq.cn/news/1318897.html

相关文章:

  • 做网赌网站需要多少钱/西安百度推广开户运营
  • 洛阳室内设计公司排名/烟台seo关键词排名
  • 三亚房产网站建设/英文seo兼职
  • 济南百度公司做网站吗/站内优化主要从哪些方面进行
  • 做色网站/网推app
  • 自己做商城网站能卖服装吗/百度网盘搜索引擎入口官网
  • 玉山县建设局的网站/外包公司排名
  • 外贸网站建设网站/营销策划机构
  • 在谷歌上做国际网站/sem是什么
  • 九亭镇村镇建设办官方网站/免费留电话的广告
  • 网站开发 需求说明书/seo标题优化关键词
  • 杭州网站建设公司排名/谷歌aso优化
  • 手机网站怎么制作软件/点击器 百度网盘
  • 专门做旅游的网站有哪些/seo外包是什么
  • 分销渠道的三种模式/路由优化大师
  • 免费网站制作报价/18款禁用网站app直播
  • 非交互式网站可以做商城吗/企业网络营销推广方案
  • 沛县专业做网站/广东网站seo策划
  • 建设一个做资料库的网站/cba最新排名
  • 腾讯云服务器12元一年/云浮seo
  • 做响应式网站的意义/中国搜索引擎排名2021
  • 济南单位网站建设/互联网推广是干什么的
  • 网站建设直播/中央刚刚宣布大消息
  • 达内网站开发学习培训/长沙seo研究中心
  • 电商网站是什么意思/seo工具包
  • 吴忠网站建设哪家好/自建站模板
  • wordpress打开网站前广告/西安关键词优化排名
  • 上海企业登记在线/seo网站推广怎么做
  • 做网站需要注意的事项/seo优化工具哪个好
  • 有关网站开发的文献或论文/推广方案范例
  • 关于鸦片战争的历史
  • sc-atac的基础知识(0)
  • “神威·太湖之光”:科技创新引擎与国家算力基石的崛起之路
  • 在线免费的AI文本转语音工具TTSMaker介绍
  • SpringMVC的高级特性
  • 24黑马SpringCloud安装MybatisPlus插件相关问题解决