当前位置: 首页 > news >正文

淄博网站建设电话咨询/国外免费源码共享网站

淄博网站建设电话咨询,国外免费源码共享网站,四川高速公路建设集团网站,商标查询网站建设爬虫简单来说就是爬取网页页面信息。在谈基础编写爬虫程序之前,首先了解一些计算机网页基础知识:简单来说,生活中的快递的订单跟踪,从提交订单的发货地到接收到包裹的目的地,中间的每一环都是信息的传递节点。我们的计…

1a35fdb7d06392674c4daad82db49f2e.png

爬虫简单来说就是爬取网页页面信息。在谈基础编写爬虫程序之前,首先了解一些计算机网页基础知识:简单来说,生活中的快递的订单跟踪,从提交订单的发货地到接收到包裹的目的地,中间的每一环都是信息的传递节点。我们的计算机网络的信息传递也是由多个不同功能的节点组成的。抽象来说,OSI模型在每一层有不同的标示,信息传递的时候在每一层都打上戳,不同层次之间通过信息加工进行传递。埋点用来记录用户的网页使用行为。

网站是什么?输入浏览器地址,得到网页信息。网页显示的东西包括图片,HTML, CSS,JS等。HTML(给节点打标签;manipulate),CSS(操作节点的一些属性;manipulate),JS(生成或者插入节点,也可以操作节点的某些性质)的代码告诉浏览器解析代码,如何呈现网页信息(图片,颜色,大小,排版)。之后再详细说明。

cc889fbaf9f43d84259da12b85cafd5f.png
图片来源于网络

静态网站和动态网站:动态网站是通过程序从数据库提取程序,程序再生成HTML文件,最后交给浏览器去解析;静态网站直接通过不同请求读取固定的一些HTML文件。对于两种网站的选择,要根据工程任务来定;没有好坏之分,看的是适合不适合。对于比较少的网页个数,静态网站的工作量不大;对于需要执行大量网页操作的任务,应用动态网站更合适。

网站的信息如何传输?用户输入网站之后,http 发送request到 web server , web server 接收到请求,返回响应http response,用户接收到并解析响应。

https://www.programmersought.com/article/68784569117/​www.programmersought.com
537d5dd40cea6731b7ed7583b1449229.png
Take you to understand the HTTP protocolTake you to understand the HTTP protocol​www.programmersought.com
537d5dd40cea6731b7ed7583b1449229.png

4c3b3f7637ef383a1979e4074e5e6c97.png
图片来自网络

python爬虫里面用到的库有:

Request:用来爬取页面信息。

Requests: HTTP for Humans™​requests.readthedocs.io
a914d96ceae348ffb4baed0d7ab4f2a3.png

BeautifulSoup中的一部分代码:Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

We called him Tortoise because he taught us.​www.crummy.com
2c07792eb3c5ad9327d71e0a127b89b4.png

这些包都需要提前安装,安装code都是 pip install requests/bs4

import requests

from bs4 import BeautifulSoup

开始爬虫,第一步,首先确定爬虫的页面:

url='输入特定网址' #输入需要爬取信息的网页

response = requests.get(url)# 命名获取的信息

response #显示获取的结果

response.text# 显示获取的内容

soup=BeautifulSoup(response.text,'lmxl') # 文本通过lxml的形式解析出来,记得一定要加上这个形式/使用BeautifulSoup解析这段代码,能够得到一个BeautifulSoup的对象,并能按照标准的缩进格式的结构输出

接下来要输入筛选条件了,这个项目是找所有图片后面存在的超链接:

link_div = soup.find_all('div',class_='pic_panel') #在这里根据html的信息

links=[div.a.get('href') for dive in link_div]#把仅要提取的东西提取出来

links

整理一下上述代码,可以定义一个函数

def get_links(url)

response = requests.get(url)# 命名获取的信息

soup=BeautifulSoup(response.text,'lmxl') # 文本通过lxml的形式解析出来

link_div = soup.find_all('div',class_='pic_panel') #在这里根据html的信息

links=[div.a.get('href') for dive in link_div]# 设置提取的链接

return links

定义函数的好处是,之后可以直接调用函数,对其他的相似结构的页面进行处理。

对于上述的链接,可以定义一个函数

def get_url(url)

response = requests.get(url)# 命名获取的信息

soup=BeautifulSoup(response.text,'lmxl') # 文本通过lxml的形式解析出来

return soup

两个函数在一起使用,优化代码的结果为:

def get_links(url)

soup=get_url(url)

link_div = soup.find_all('div',class_='pic_panel') #在这里根据html的信息

links=[div.a.get('href') for dive in link_div]# 设置提取的链接

return links

对于一个新的student_url

soup=get_url(student_url)

links=get_links(student_url)

要提取其他的信息,继续重复代码结构:

name=soup.find('',class_='total').text#单引号里填入位置信息

age=soup.find('',class_='total').text.strip()#单引号里填入位置信息

other_info=soup.find('',class_='total').text.strip()#单引号里填入位置信息

http://www.lbrq.cn/news/1302013.html

相关文章:

  • wordpress add filter/seo怎么收费
  • 荣泰建设集团网站/重庆今日头条新闻消息
  • 桥南做网站/网络关键词排名软件
  • 网站想更换服务器怎么做/宣传推广的形式有哪些
  • 强大的wordpress主题/武汉久都seo
  • 本地网站建设官网/百度首页登录入口
  • 传奇手游排行榜2021前十名/seo优化一般包括哪些
  • 网络网站建设价格/760关键词排名查询
  • 陕西建设网综合综合服务中心/搜索引擎优化的主要手段
  • 亚购物车功能网站怎么做的/济南谷歌推广
  • 马云的网站怎么做的/个人网站网页首页
  • 设计大赛官网/网站自然排名怎么优化
  • 学校网站建设源代码/全国疫情最新报告
  • 网易网站建设/网站内容检测
  • 网站建设需要哪些/360seo
  • 自己的网站可以做淘客吗/湖南产品网络推广业务
  • 如何制作自己的作品集网站/搜索引擎营销的特点包括
  • 深圳网站的设计公司/学百度推广培训
  • 360免费建站怎么样/seo入门教程seo入门
  • 广州推广公司/seo技术是干什么的
  • 三亚城乡建设局网站/事件营销的概念
  • 我要啦免费统计怎么做网站/win7优化极致性能
  • 做我的奴隶 good网站/世界球队实力排名
  • 找团队做网站需要明确哪些东西/东莞seo靠谱
  • 旗舰店的网站怎么做/长尾关键词搜索网站
  • 制作网站公司合同注意事项/临沂森工木业有限公司
  • 国家重点学科建设网站/百度seo和sem的区别
  • 如何做日语网站/seo服务公司上海
  • 怎么做钓鱼网站生成/企业网络推广平台
  • 织梦网站所有图片不显示/seo专业培训seo专业培训
  • Java 性能调优实战:JVM 参数配置与 GC 日志分析
  • 市场数据+幸存者偏差提问,有趣的思考?
  • 【AI News | 20250717】每日AI进展
  • spring boot 实战之分布式锁
  • 6 种无线传输照片从安卓到 Mac 的方法
  • 文献分享0719