当前位置: 首页 > news >正文

正能量视频免费网站免下载/网络营销工具分析

正能量视频免费网站免下载,网络营销工具分析,福安网站建设,仿网站前言 爬虫爬取网页数据时由于频繁访问会被锁定IP,返回错误响应码以及验证字母验证,可以动态使用ip代理解决。 代理服务可以自己搭建,也可以购买收费的强力代理服务更靠谱。 这里是爬取的ip池示例: 项目来源GITHUB项目&#xff…

 

前言

爬虫爬取网页数据时由于频繁访问会被锁定IP,返回错误响应码以及验证字母验证,可以动态使用ip代理解决。

代理服务可以自己搭建,也可以购买收费的强力代理服务更靠谱。

这里是爬取的ip池示例:

项目来源GITHUB项目:jhao104/proxy_pool

下面示例win10下搭建项目

 

下载

安装redis:

windows下载地址:https://github.com/MicrosoftArchive/redis/releases
#下载zip解压即可
启动redis:运行redis-server.exeLinux安装:sudo apt-get install redis-server
启动redis:运行redis-server

启动成功:

 

安装项目:

#下载源码
git clone git@github.com:jhao104/proxy_pool.git或者直接到https://github.com/jhao104/proxy_pool 下载zip文件,解压出来

 安装依赖:

#进入项目目录执行pip命令 也可以手动安装
pip install -r requirements.txt

 配置项目:

# Config/setting.py 为项目配置文件# 配置DB     
DATABASES = {"default": {"TYPE": "SSDB",        # 如果使用SSDB或redis数据库,均配置为SSDB"HOST": "127.0.0.1",   # db host"PORT": 6379,          # db port redis默认6379"NAME": "proxy",       # 默认配置"PASSWORD": ""         # db password}
}# 配置 ProxyGetterPROXY_GETTER = ["freeProxyFirst",      # 这里是启用的代理抓取函数名,可在ProxyGetter/getFreeProxy.py 扩展"freeProxySecond",....
]# 配置 API服务SERVER_API = {"HOST": "0.0.0.0",  # 监听ip, 0.0.0.0 监听所有IP"PORT": 5010        # 监听端口
}# 上面配置启动后,代理池访问地址为 http://127.0.0.1:5010

启动项目:

# 如果你的依赖已经安全完成并且具备运行条件,可以直接在Run下运行main.py
# 到Run目录下:
>>>python main.py# 如果运行成功你应该看到有4个main.py进程# 你也可以分别运行他们,
# 依次到Api下启动ProxyApi.py,Schedule下启动ProxyRefreshSchedule.py和ProxyValidSchedule.py即可.

启动查看抓取的ip:http://127.0.0.1:5010/get_all/ 

项目有提供api使用:

 

爬虫动态代理:

def get_proxy():#可以换成我的Apireturn requests.get("http://127.0.0.1:5010/get/").textdef getURL(self, url, redirects=False, tries_num=6, sleep_time=0.5, time_out=1000, max_retry=6, ):#从ip池动态获取一个ipproxy = get_proxy()try:res = requests.Session()# res = requests.get(url,headers=self.randHeader(), allow_redirects=redirects, timeout=time_out)res = requests.get(url,headers=self.randHeader(), allow_redirects=redirects, timeout=time_out, proxies={"http": "http://{}".format(proxy), "https": "https://{}".format(proxy)})res.raise_for_status()  # 如果响应状态码不是 200,就主动抛出异常except requests.RequestException as e:sleep_time_p = sleep_time_p + 10time_out_p = time_out_p + 10tries_num_p = tries_num_p - 1# 设置重试次数,最大timeout 时间和 最长休眠时间if tries_num_p > 0:time.sleep(sleep_time_p)print (self.getCurrentTime(), url, 'URL Connection Error: 第', max_retry - tries_num_p, u'次 Retry Connection', e)return self.getURL(url, 'False', tries_num_p, sleep_time_p, time_out_p, max_retry)return res

 

http://www.lbrq.cn/news/1365733.html

相关文章:

  • 微信公众号里怎么做网站/宁波网站推广公司报价
  • 速递物流系网站建设与维护/seo的范畴是什么
  • 网站开发工作分解结构/seo网站优化优化排名
  • 杭州优化公司多少钱/班级优化大师下载
  • 最新的网站建设软件有哪些/seo优化培训多少钱
  • 桂林漓江自由行攻略/windows优化大师官方下载
  • 做商务网站需要什么资料/搜狗网
  • 视频网站程序/海外发布新闻
  • 国际外贸网站/b站黄页推广
  • 怎么用国外的服务器做网站/最好用的磁力搜索器
  • 网站可以做动态背景吗/湖南中高风险地区
  • 响应式网站建设平台/最新注册域名查询
  • 怎么样做微网站/代写文章哪里找写手
  • 网页设计学校网站制作/网络营销ppt
  • WordPress招标采购/seo顾问服务咨询
  • 网站设计兼容模式/做优化的网站
  • 网站建设与网页设计是什么/seo的理解
  • 西安网站托管商家/域名交易中心
  • 网页做的很美的网站/搜索引擎网站推广如何优化
  • 做网站建设公司怎么样/谷歌网站优化
  • 免费招工人在哪个网站/seo优化员
  • 宁波网站建设运营/域名注册网站系统
  • 游戏攻略网站开发/优化关键词哪家好
  • 哪些网站做兼职可靠吗/seo优
  • 订制型网站费用/推广运营
  • 哪些网站不能备案/seo搜索工具栏
  • 北京网站开发要多少钱/潍坊seo按天收费
  • 珠海做网站制作/it培训机构学费一般多少
  • 贵阳做网站kuhugz/线上营销渠道有哪些
  • 手机怎么建立微信公众号/网页关键词排名优化
  • SQL注入SQLi-LABS 靶场less39-50详细通关攻略
  • 案件线索展示与交付项目
  • SpringBoot学习总结
  • hcip---ospf知识点总结及实验配置
  • 【python】转移本地安装的python包
  • StarRocks vs ClickHouse:2025 年 OLAP 引擎终极对比指南