当前位置: 首页 > news >正文

网站建设名词解释与简答题/宁波正规优化seo价格

网站建设名词解释与简答题,宁波正规优化seo价格,电子商务网站系统建设进度安排,地方网站域名这个只是个人的一点思考,因为我的提议被否决了,所以只停留在我个人的设计层面,以下的个人设想针对的是scrapy的框架. 众所周知,国内的ip代理池是混淆的,所以不需要考虑自己再混淆一次,二国外的代理池&…

这个只是个人的一点思考,因为我的提议被否决了,所以只停留在我个人的设计层面,以下的个人设想针对的是scrapy的框架.

众所周知,国内的ip代理池是混淆的,所以不需要考虑自己再混淆一次,二国外的代理池,一般是固定ip,这个旧很要命了,如果是高频次的抓取,是特别容易被封禁的,如果想降低频次的话,一是扩大代理池,二是混淆代理,增加复用率。
如何提高复用率呢?

针对scrapy框架,个人有一些设想:
假如我们有80个代理,我们可以用:

random.choice(代理list)

通过每次random不同的代理来迷惑网站,降低proxy访问网站的频次.这是一种简单实用的办法,缺点是不一定有效利用了proxy.

下面说下的我的思路:
1、把代理存在数据库或者redis中(频次高,redis效果更好),我们设立一个queue,来装填这些代理,
2、每次装填前使用random.shuffle打乱顺序,
3、每次爬虫爬取的时候去queue 取,然后在queue的数量不够时,再重复2的操作,或者定时任务装填

相比第一种做法,这种做法:第一实现了proxy的全利用,第二实现了实用的混淆,就是复杂了些,我想要实现高可用的话,也是一种策略.

假如 咱们有多个爬虫,咱们可以用爬虫名字来命名queue,让爬虫取对应名字的queue取proxy(一次启动多个爬虫,可以互不干扰),queue放在rabbitmq中,让爬虫跟mq对接proxy。再然后设置一个定时任务,往queue中装填proxy数据.因为queue是先进先出,所以不会影响.
在scrapy的download middleware,我们可以写一个与mq对接,获取proxy的中间件,就可以实现.

关于为什么要请求mq的来实现代理的queue呢?
众所周知scrapy作为一个异步应用,一般是单线程启动,虽然python中的queue可以实现多线程的通信,在这里的处境却很窘迫,一个scrapy是单线程,第二个这里的queue要应用在middleware中,使用queue怎么实现每个爬虫都有一个单独而全局反应的变量,也是个难题.

假如你有更好的方法,不妨留下评论告诉我.

在这里插入图片描述

http://www.lbrq.cn/news/1104229.html

相关文章:

  • 热门网站建设加盟平台/模板网站建设开发
  • 信誉好的龙岗网站制作/seo公司是什么
  • wordpress插件 2017/淘宝怎么优化关键词步骤
  • 江苏省住房和城乡建设部网站/青岛seo网站排名
  • 竹业网站建设/网络推广工作
  • 多语言网站是怎么做的/建网站用什么软件
  • 深圳网站建设公司 概况/中国国家培训网是真的吗
  • 域名网站建设教程/网站优化培训
  • 模板网站怎么做才美观/设计网站排行榜前十名
  • thinkphp租房网站开发/怎样做一个产品营销方案
  • 任家房网站建设/windows10优化软件
  • 冷水江网站定制/seo排名技巧
  • 开发网站多少钱/大众网疫情最新消息
  • 中韩双语网站制作价格/揭阳seo快速排名
  • 成都 网站建设/网络上如何推广网站
  • 云服务器网站解析/seo搜索排名优化是什么意思
  • 北京网站设计公司飞沐/网络营销策划案
  • 初创企业的建站流程/门户网站推广方案
  • drupal做的网站/seo网站推广方案策划书
  • 手机销售网站建设项目书/品牌软文范文
  • 做宣传海报的网站/360广告投放平台
  • seo查询爱站网/电商大数据查询平台免费
  • 莉莉卡是哪个网站做的/美区下载的app怎么更新
  • 海报模板免费下载网站/dw网站制作
  • 网络营销方式哪些/深圳百度网站排名优化
  • 教育兼职网站开发/软文新闻发稿平台
  • 做网贷中介网站赚钱吗/百度seo排名优
  • 绿色国外网站/网站建设与管理就业前景
  • 网站语言切换前端可以做么/广州头条今日头条新闻
  • 漳州专业做网站/公司网站建设平台
  • 网鼎杯2020青龙组notes复现
  • 30天打牢数模基础-K均值聚类
  • LVS(Linux Virtual Server) 集群
  • 【Linux】基本指令
  • java: DDD using sql server 2019 or Oracle21c
  • 【C语言进阶】结构体