当前位置: 首页 > news >正文

尚云网站建设seminar是什么意思

尚云网站建设,seminar是什么意思,html网站开发实战,用vs做web网站时下拉框Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它…

Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分
Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。
CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。

XPath选择器

常用的路径表达式,这里列举了一些常用的,XPath的功能非常强大,内含超过100个的内建函数。
下面为常用的方法

nodeName    选取此节点的所有节点
/           从根节点选取
//          从匹配选择的当前节点选择文档中的节点,不考虑它们的位置
.           选择当前节点
..          选取当前节点的父节点
@           选取属性
*           匹配任何元素节点
@*          匹配任何属性节点
Node()      匹配任何类型的节点

CSS选择器

CSS层叠样式表,语法由两个主要部分组成:选择器,一条或多条声明
Selector {declaration1;declaration2;……}

下面为常用的使用方法

.class              .color              选择class=”color”的所有元素
#id                 #info               选择id=”info”的所有元素
*                   *                   选择所有元素
element             p                   选择所有的p元素
element,element     div,p               选择所有div元素和所有p元素
element element     div p               选择div标签内部的所有p元素
[attribute]         [target]            选择带有targe属性的所有元素
[arrtibute=value]   [target=_blank]     选择target=”_blank”的所有元素

选择器的使用例子

上面我们列举了两种选择器的常用方法,下面通过scrapy帮助文档提供的一个地址来做演示
地址:http://doc.scrapy.org/en/latest/_static/selectors-sample1.html
这个地址的网页源码为:

    <html><head><base href='http://example.com/' /><title>Example website</title></head><body><div id='images'><a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a><a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a><a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a><a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a><a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a></div></body></html>

我们通过scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html来演示两种选择器的功能

获取title

这里的extract_first()就可以获取title标签的文本内容,因为我们第一个通过xpath返回的结果是一个列表,所以我们通过extract()之后返回的也是一个列表,而extract_first()可以直接返回第一个值,extract_first()有一个参数default,例如:extract_first(default="")表示如果匹配不到返回一个空

In [1]: response.xpath('//title/text()')
Out[1]: [<Selector xpath='//title/text()' data='Example website'>]In [2]: response.xpath('//title/text()').extract_first()
Out[2]: 'Example website'In [6]: response.xpath('//title/text()').extract()
Out[6]: ['Example website']

同样的我们也可以通过css选择器获取,例子如下:

In [7]: response.css('title::text')
Out[7]: [<Selector xpath='descendant-or-self::title/text()' data='Example website'>]In [8]: response.css('title::text').extract_first()
Out[8]: 'Example website'

查找图片信息
这里通过xpath和css结合使用获取图片的src地址:

In [13]: response.xpath('//div[@id="images"]').css('img')
Out[13]: 
[<Selector xpath='descendant-or-self::img' data='<img src="image1_thumb.jpg">'>,<Selector xpath='descendant-or-self::img' data='<img src="image2_thumb.jpg">'>,<Selector xpath='descendant-or-self::img' data='<img src="image3_thumb.jpg">'>,<Selector xpath='descendant-or-self::img' data='<img src="image4_thumb.jpg">'>,<Selector xpath='descendant-or-self::img' data='<img src="image5_thumb.jpg">'>]In [14]: response.xpath('//div[@id="images"]').css('img::attr(src)').extract()
Out[14]: 
['image1_thumb.jpg','image2_thumb.jpg','image3_thumb.jpg','image4_thumb.jpg','image5_thumb.jpg']

查找a标签信息
这里分别通过xapth和css选择器获取a标签的href内容,以及文本信息,css获取属性信息是通过attr,xpath是通过@属性名

In [15]: response.xpath('//a/@href')
Out[15]: 
[<Selector xpath='//a/@href' data='image1.html'>,<Selector xpath='//a/@href' data='image2.html'>,<Selector xpath='//a/@href' data='image3.html'>,<Selector xpath='//a/@href' data='image4.html'>,<Selector xpath='//a/@href' data='image5.html'>]In [16]: response.xpath('//a/@href').extract()
Out[16]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']In [17]: response.css('a::attr(href)')
Out[17]: 
[<Selector xpath='descendant-or-self::a/@href' data='image1.html'>,<Selector xpath='descendant-or-self::a/@href' data='image2.html'>,<Selector xpath='descendant-or-self::a/@href' data='image3.html'>,<Selector xpath='descendant-or-self::a/@href' data='image4.html'>,<Selector xpath='descendant-or-self::a/@href' data='image5.html'>]In [18]: response.css('a::attr(href)').extract()
Out[18]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']In [27]: response.css('a::text').extract()
Out[27]: 
['Name: My image 1 ','Name: My image 2 ','Name: My image 3 ','Name: My image 4 ','Name: My image 5 ']In [28]: response.xpath('//a/text()').extract()
Out[28]: 
['Name: My image 1 ','Name: My image 2 ','Name: My image 3 ','Name: My image 4 ','Name: My image 5 ']In [29]: 

高级用法
查找属性名称包含img的所有的超链接,通过contains实现

In [36]: response.xpath('//a[contains(@href,"image")]/@href').extract()
Out[36]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']In [37]: response.css('a[href*=image]::attr(href)').extract()
Out[37]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']In [38]: 

查找img的src属性

In [41]: response.xpath('//a[contains(@href,"image")]/img/@src').extract()
Out[41]: 
['image1_thumb.jpg','image2_thumb.jpg','image3_thumb.jpg','image4_thumb.jpg','image5_thumb.jpg']In [42]: response.css('a[href*=image] img::attr(src)').extract()
Out[42]: 
['image1_thumb.jpg','image2_thumb.jpg','image3_thumb.jpg','image4_thumb.jpg','image5_thumb.jpg']In [43]: 

提取a标签的文本中name后面的内容,这里提供了正则的方法re和re_first

In [43]: response.css('a::text').re('Name\:(.*)')
Out[43]: 
[' My image 1 ',' My image 2 ',' My image 3 ',' My image 4 ',' My image 5 ']In [44]: response.css('a::text').re_first('Name\:(.*)')
Out[44]: ' My image 1 '

 

所有的努力都值得期许,每一份梦想都应该灌溉!
http://www.lbrq.cn/news/2386063.html

相关文章:

  • 污染网站代码seo流量
  • 桐乡建设规划局网站seo优化的价格
  • 网站tdk设置界面排名优化公司口碑哪家好
  • 万网主机怎么做网站大数据网站
  • 关于水果怎么做网站域名站长工具
  • 网站建设规划报告湖南企业竞价优化服务
  • 哪个公司可以专门做网站今天今日头条新闻
  • 香港特别行政区土地面积seo怎么优化
  • 网站开发验收方案新闻内容摘抄
  • 张家界酷网科技网站建设网站转让出售
  • 宝安做棋牌网站建设哪家技术好官网seo是什么
  • 动漫设计软件厦门网站优化
  • 大淘客网站怎样做百度推广长沙seo优化推广公司
  • 网站改了关键词百度关键词优化软件
  • 服装网站建设策划书地推公司
  • wordpress 留言簿seo具体怎么优化
  • 免费外国黄色网站sem是什么显微镜
  • 北京手机网站建设公司百度seo排名360
  • 做羞羞的专门网站重庆seo黄智
  • 中国建设银行嵊州市支行网站搜索引擎广告形式有
  • 优化企业网站模板企业查询网
  • 小米路由器做网站服务器吗seo搜索引擎优化实训总结
  • 银川如何做百度的网站自助建站系统代理
  • 会同县政府网站建设2023广东又开始疫情了吗
  • 设计作品靖江seo要多少钱
  • 公司电子商务网站建设规划方案永久免费用的在线客服系统
  • 台州招聘网站建设河北seo公司
  • wordpress如何实现北京seo排名公司
  • 微网站用什么做5g网络优化培训
  • 聊城住房建设局网站手机做网页的软件
  • 【c++】提升用户体验:问答系统的交互优化实践——关于我用AI编写了一个聊天机器人……(12)
  • CMake指令:常见内置命令行工具( CMake -E )
  • pycharm结构查看器
  • Linux系统安装Docker及部署Node.js 20.15.0(含pnpm、pm2)完整指南
  • x86上编译jetson nano的docker
  • 【人工智能99问】梯度消失、梯度爆炸的定义、后果及规避手段?(7/99)