当前位置: 首页 > news >正文

还有哪些网站可以做H5/信阳网络推广公司

还有哪些网站可以做H5,信阳网络推广公司,专业网站建设方案,专业做淘宝网站推广"""爬取斗图吧里面的所有表情包知识点总结: 一、使用requests库进行爬取,随机请求头(网站反爬措施少。挂个请求头足矣) 二、具体思路: 1.先爬取所有的图片url,放在列表里 …
"""
爬取斗图吧里面的所有表情包

知识点总结:
一、使用requests库进行爬取,随机请求头(网站反爬措施少。挂个请求头足矣)

二、具体思路:
1.先爬取所有的图片url,放在列表里
2.循环遍历url请求这些图片,
3.将图片进行分类保存
三、分类保存用到一个知识点,endwith(以***结尾)
使用这个函数,将jpg,gif,png等不同类型的图片分开
四、演示案例中,只爬取了前20页。
五、各个定义的数字变量意思为:
n=1 网页页数
num=1 保存图片数

注:该案例主要是练习
    1.图片的保存,应注意,保存时使用字节流的形式。
    2.书写爬虫代码的逻辑思维。
"""
from fake_useragent import FakeUserAgent
import requests
import re
import time
import random
def getUrls():
# 将获取到的url列表在放到list这个列表里
url_list=[]
n=1
while True:
url = f"http://www.doutula.com/article/list/?page={n}"
headers = {
"User-Agent":FakeUserAgent().random
}
htmlStr = requests.get(url,headers=headers).text
# print(htmlStr)

# 定义 提取图片url的正则
urls = r'data-original="(.*?)"'
# 编译
urls = re.compile(urls)
#正则提取
urls = re.findall(urls,htmlStr)
url_list.append(urls)
print("正在收集第%s页的图片"%n)
n = n + 1
# 设置延时
time.sleep(0.5)
# 当n=21的时候,爬虫程序停止.为了演示方便只保存前二十页其实共有615页
if n == 21:
break
print(len(url_list))
return url_list


# 保存图片
# 以字节的形式将图片保存
def download(url_list):
num = 1
for urls in url_list:
for url in urls:
header={
"User-Agent":FakeUserAgent().random
}
# 因为爬取到的图片有两种,所以写了一个判断条件,分类保存,
if url.endswith('.jpg'):
# 保存到本地
with open('./img/%s.jpg'%num,'wb') as file:
# 获取到图片 字节
img = requests.get(url, headers=header)
file.write(img.content)
print("正在保存第%s张图片"%num)
num += 1
time.sleep(0.3)
elif url.endswith('.gif'):
# 保存到本地
with open('./img/%s.gif' % num, 'wb') as file:
# 获取到图片 字节
img = requests.get(url, headers=header)
file.write(img.content)
print("正在保存第%s张图片" % num)
num += 1
time.sleep(0.3)

if __name__ == '__main__':
url_list=getUrls()
download(url_list)

转载于:https://www.cnblogs.com/YangQingHong/p/11006257.html

http://www.lbrq.cn/news/1058959.html

相关文章:

  • 衡阳网站seo/常熟网站建设
  • 网上接单做效果图哪个网站好/网站搭建需要多少钱?
  • 最方便在线网站开发/百中搜优化软件
  • 手机网站推荐一个/网址推荐
  • 宁波网站建设费用/百度关键词排名查询
  • 深圳昨天下午出大事/杭州seo顾问
  • wordpress get_header/什么是seo搜索
  • 无锡网站营销公司/淘宝app官方下载
  • 什么网站做视频最赚钱/路由优化大师
  • 网站制作属于什么行业/网页推广链接怎么做
  • 网站解析后显示建设中/seo是指什么
  • wordpress简题/新浪博客seo
  • 宠物网站建设总结/广告软文200字
  • 怎么开一个做网站的工作室/百度手机助手免费下载
  • 小程序开发公司简介范本/东营seo整站优化
  • 百度上做网站/无锡百度推广代理商
  • 昆山高端网站建设公司哪家好/视频推广一条多少钱
  • 学网站设计/免费发布信息网站大全
  • 学生为学校做网站/100条经典广告语
  • 青海做网站找谁/关键词在线听
  • 枣庄做网站/模板建站的网站
  • 自己做的影视会员网站违法么/宁波外贸网站推广优化
  • 邯郸企业做网站/百度账号是什么
  • wordpress 视频站模板/百度搜索排行
  • 社交电商平台排行榜/seo深圳培训班
  • 中华人民共和国商务部网站/seo优化服务商
  • 做淘宝网站多少钱/怎么免费做网站
  • 余姚做百度网站建设/seo专员
  • 个人网站设计的意义/长沙网站优化
  • 做网站方案怎么写/新产品如何快速推广市场
  • Mysql常用语句
  • nuxt学习笔记
  • Python包安全工程实践:构建安全可靠的Python生态系统
  • 三款好用的PDF阅读器
  • C++-异常
  • [spring-cloud: 负载均衡]-源码分析