当前位置: 首页 > news >正文

用易语言做网站抢购软件/品牌推广思路

用易语言做网站抢购软件,品牌推广思路,phpcms v9 实现网站搜索,wordpress有赞支付插件推荐阅读 点击标题可跳转零基础将Python分成7个阶段学习,你会发现学习Python真的很简单urllib模块urllib库是python中自带的模块,也是一个最基本的网络请求库,该模块提供了一个urlopen()方法,通过该方法指定URL发送网络请求来获取…

57cffc34f52368e88c081ef05baeba29.gif

推荐阅读  点击标题可跳转

零基础将Python分成7个阶段学习,你会发现学习Python真的很简单

urllib模块

urllib库是python中自带的模块,也是一个最基本的网络请求库,该模块提供了一个urlopen()方法,通过该方法指定URL发送网络请求来获取数据。

urllib 是一个收集了多个涉及 URL 的模块的包

urllib.request 打开和读取 URL

三行代码即可爬取百度首页源代码:

import urllib.request# 打开指定需要爬取的网页response=urllib.request.urlopen('http://www.baidu.com')# 或者是 # from urllib import request# response = request.urlopen('http://www.baidu.com')# 打印网页源代码print(response.read().decode())

加入decode()是为了避免出现下图中十六进制内容

190cc36fd3e5b448d960f466a6c081f9.png

加入decode()进行解码后

5ebd273d13aefb565485c17614353144.png

下面三种本篇将不做详述

urllib.error 包含 urllib.request 抛出的异常

urllib.parse 用于解析 URL

urllib.robotparser 用于解析 robots.txt 文件

requests模块

requests模块是python中实现HTTP请求的一种方式,是第三方模块,该模块在实现HTTP请求时要比urllib模块简化很多,操作更加人性化。

GET请求为例:

import requestsresponse = requests.get('http://www.baidu.com/')print('状态码:', response.status_code)print('请求地址:', response.url)print('头部信息:', response.headers)print('cookie信息:', response.cookies)# print('文本源码:', response.text)# print('字节流源码:', response.content)

输出结果如下:

状态码: 200请求地址:http://www.baidu.com/头部信息: {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sun, 10 May 2020 02:43:33 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:23 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}cookie信息:<Cookie BDORZ=27315 for .baidu.com/>]>

这里讲解一下response.text和 response.content的区别:

response.content是直接从网络上面抓取的数据,没有经过任何解码,所以是一个 bytes类型

response.text是将response.content进行解码的字符串,解码需要指定一个编码方式, requests会根据自己的猜测来判断编码的方式,所以有时候可能会猜测错误,就会导致解码产生乱码,这时候就应该使用 response.content.decode(‘utf-8’)

进行手动解码

POST请求为例

import requestsdata={'word':'hello'}response = requests.post('http://www.baidu.com',data=data)print(response.content)

请求headers处理

当爬取页面由于该网页为防止恶意采集信息而使用反爬虫设置,从而拒绝用户访问,我们可以通过模拟浏览器的头部信息来进行访问,这样就能解决反爬虫设置的问题。

通过浏览器进入指定网页,右击鼠标,选中“检查”,选择“Network”,刷新页面后选择第一条信息,右侧消息头面板将显示下图中请求头部信息

5d3d00ec1e9ac09c906ef653892a5980.png

例如:

import requestsurl = 'https://www.bilibili.com/'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}response = requests.get(url, headers=headers)print(response.content.decode())

网络超时

在访问一个页面,如果该页面长时间未响应,系统就会判断该网页超时,所以无法打开网页。

例如:

import requestsurl = 'http://www.baidu.com'# 循环发送请求50次for a in range(0, 50):    try:   # timeout数值可根据用户当前网速,自行设置        response = requests.get(url, timeout=0.03) # 设置超时为0.03        print(response.status_code)    except Exception as e:        print('异常'+str(e)) # 打印异常信息

部分输出结果如下:

9422b9795a80d09cf57620eebc689d5d.png

代理服务

设置代理IP可以解决不久前可以爬取的网页现在无法爬取了,然后报错——由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败的问题。

1

2

以下网站可以提供免费代理IP

https://www.xicidaili.com/

例如:

import requests# 设置代理IPproxy = {'http': '117.45.139.139:9006',         'https': '121.36.210.88:8080'         }# 发送请求url = 'https://www.baidu.com'response = requests.get(url, proxies=proxy)# 也就是说如果想取文本数据可以通过response.text# 如果想取图片,文件,则可以通过 response.content# 以字节流的形式打印网页源代码,bytes类型print(response.content.decode())# 以文本的形式打印网页源代码,为str类型print(response.text) # 默认”iso-8859-1”编码,服务器不指定的话是根据网页的响应来猜测编码。

Beautiful Soup模块

Beautiful Soup模块是一个用于HTML和XML文件中提取数据的python库。Beautiful Soup模块自动将输入的文档转换为Unicode编码,输出文档转换为UTF-8编码,你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了,然后,仅仅需要说明一下原始编码方式就可以了。

例如:

from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's storytitle>head><body><p class="title"><b>The Dormouse's storyb>p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" class="sister" id="link1">Elsiea>,<a href="http://example.com/lacie" class="sister" id="link2">Laciea> and<a href="http://example.com/tillie" class="sister" id="link3">Tilliea>;and they lived at the bottom of a well.p><p class="story">...p>"""# 创建对象soup = BeautifulSoup(html_doc, features='lxml')# 或者创建对象打开需要解析的html文件# soup = BeautifulSoup(open('index.html'), features='lxml')print('源代码为:', soup)# 打印解析的HTML代码

运行结果如下:

<html><head><title>The Dormouse's storytitle>head><body><p class="title"><b>The Dormouse's storyb>p><p class="story">Once upon a time there were three little sisters; and their names were<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,<a class="sister" href="http://example.com/lacie" id="link2">Laciea> and<a class="sister" href="http://example.com/tillie" id="link3">Tilliea>;and they lived at the bottom of a well.p><p class="story">...p>body>html>

用Beautiful Soup爬取百度首页标题

from bs4 import BeautifulSoupimport requestsresponse = requests.get('http://news.baidu.com')soup = BeautifulSoup(response.text, features='lxml')print(soup.find('title').text)

运行结果如下:

1

百度新闻——海量中文资讯平台

0df2d22608244593436e269a6b81535f.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

万水千山总是情,点个【在看】行不行

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜

http://www.lbrq.cn/news/795583.html

相关文章:

  • 网站章子怎么做/百度seo是什么意思
  • 大连金普新区城乡建设局网站/百度在线扫一扫
  • 网站开发历史/华为手机软文范文300
  • 生态旅游网站的建设/印度疫情最新消息
  • 网站建设价格女/电话营销
  • 昆山网站建设公司苏州爬虫科技/苏州网络公司
  • wordpress 首页视频/kj6699的seo综合查询
  • iis7 wordpress 伪静态/东莞seo广告宣传
  • 购物网站两化融合建设项目报告/国外免费建站网站搭建
  • 做网站用宋体有版权问题吗/交友平台
  • 天津学网站建设/宁德市房价
  • 网站建设应当注意/公关公司排行榜
  • 局域网网站开发/seo运营专员
  • 重庆孝爱之家网站建设/江苏seo网络
  • 网站怎么吸引用户/主流网站关键词排名
  • dw下载中文版破解/百度搜索排名优化哪家好
  • 一般做自己的网站需要什么/地推推广方案
  • 蛋糕网站设计/东莞seo外包公司
  • 做网站需要学什么/网站seo快速优化
  • 购物网站产品做促销能赚钱吗/如何注册百度账号
  • 网站做https/培训心得体会范文
  • 免费做图片链接网站/引擎搜索是什么意思
  • 中文域名抢注的骗局/台州seo快速排名
  • 应用商城软件下载 app/seo快速排名利器
  • 珠海做网站公司/网站排名怎么优化
  • 全国建设部网站证书查询/网站项目开发流程
  • 佛山网站建设报价/什么是搜索关键词
  • 做的比较好的卡车网站/云优化seo
  • wordpress 输出缩略图/seo服务指什么意思
  • 站长做2个网站/百度网址大全设为主页
  • ulimit参数使用详细总结
  • Nvidia Orin DK 刷机CUDA TensorRT+硬盘扩容+ROS+Realsense+OpenCV+Ollama+Yolo11 一站式解决方案
  • Linux系统编程Day4-- Linux常用工具(yum与vim)
  • 谷歌开源Agent框架ADK快速入门
  • 梦幻花瓣雨
  • 字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍