当前位置: 首页 > news >正文

wordpress单栏主题 极简/重庆seo哪个强

wordpress单栏主题 极简,重庆seo哪个强,做本地网站需要什么资质,合肥网站开发需要昨天开始了极客学院《XPath与多线程爬虫》课程的学习,主要涉及到XPath和requests的使用,在测试过程中出现了很多问题,经过不断摸索以及前辈们的帮助,现将经验总结如下:1. Python3下面文本编码问题虽然Python3相对于2已…

昨天开始了极客学院《XPath与多线程爬虫》课程的学习,主要涉及到XPath和requests的使用,在测试过程中出现了很多问题,经过不断摸索以及前辈们的帮助,现将经验总结如下:
1. Python3下面文本编码问题
虽然Python3相对于2已经集成了很多编码方式,使我们不需要过多去关心和指定编码,但有时候在文本读取,写入的时候还是需要多小心,在测试过程中多次出现在写入文件时报告错误“UnicodeEncodeError: 'ascii' codec can't encode character '\u56de' in position 0: ordinal not in range(128)”,这是由于我们在抓取网页的时候采用的是UTF-8编码,而存储时没有指定编码,在存储到文件的过程中就会报错。
解决办法为:
在读取文件时加入指定UTF-8编码的选项

f = open('content.txt','a',encoding='UTF-8')

另外需要注意的是使用requests获取到网页之后同样要指定编码

html = requests.get(url)
html = re.sub(r'charset=(/w*)', 'charset=UTF-8', html.text)

2. XPath的用法
XPath可以很方便的解析XML文件的节点和属性,使用也很简单,相比于正则表达式来说,XPath的查询方式更加高效准确,它来自于lxml包内的etree,在使用之前应该声明

from lxml import etree

在使用XPath应该遵循“先抓大,再抓小”的原则,现定位到大的节点,获取到所有字节点再一层一层往下寻找,直到获取所需要的信息
例如,我们想要抓取百度贴吧的网页每一个楼层的信息(包括作者,回帖时间,回帖内容等等),通过Chrome-Inspect element可以审查代码,得到某一个楼层的代码楼层最外层都有声明:

<div class="l_post j_l_post l_post_bright  " 

使用XPath先获取整个楼层的所有节点(Node)

content_field = selector.xpath('//div[@class="l_post j_l_post l_post_bright  "]')

再往下寻找,发现我们要提取的内容位于

<div class="d_post_content_main">

这一个节点以内,再继续往下挖掘:

content =each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()')

这样一步步得到想要的内容

3.JSON格式
网页中很多内容使用JSON来传输,我们要把内容还原出来需要使用json模块

import json
reply_info = json.loads(each.xpath('@data-field')[0].replace('&quot',''))

4.Python中的多线程
多线程可以很大幅度提高软件的处理速度,可以充分利用计算机性能,不同的核处理不同的任务,并行执行,提高处理速度,使用方法如下:

from multiprocessing.dummy import Pool as ThreadPool
pool = ThreadPool(8)
results = pool.map(spider,page)
pool.close()
pool.join()

map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它可以通过一个序列实现两个函数之间的映射。上面的这两行代码将 page这一序列中的每个元素作为参数传递到 spyder 方法中,并将所有结果保存到 results 这一列表中。其结果大致相当于:

results = []
for page in pages: results.append(spyder(page))

上述代码中调用join之前,先调用close函数,否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束。

全部代码:

#-*-coding:utf8-*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import json
import re
import sys'''重新运行之前请删除content.txt,因为文件操作使用追加方式,会导致内容太多。'''def towrite(contentdict):#f=open("content.txt",'wb')f.writelines(u'回帖时间:' + str(contentdict['topic_reply_time']) + '\n')f.writelines(u'回帖内容:' + str(contentdict['topic_reply_content']) + '\n')f.writelines(u'回帖人:' + contentdict['user_name'] + '\n\n')#f.close()def spider(url):html = requests.get(url)#print(html.text)html = re.sub(r'charset=(/w*)', 'charset=UTF-8', html.text)selector = etree.HTML(html)# print(selector)#content_field = selector.xpath('//div[starts-with(@class,"l_post l_post_bright")]')p_content p_content_nameplate#content_field = selector.xpath('//*[@id="j_p_postlist"]')content_field = selector.xpath('//div[@class="l_post j_l_post l_post_bright  "]')item = {}for each in content_field:reply_info = json.loads(each.xpath('@data-field')[0].replace('&quot',''))author = reply_info['author']['user_name']# content1 = each.xpath('//div[@class="d_post_content_main"]')content = each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()')reply_time = reply_info['content']['date']print("content:{0}".format(content))print("Reply_time:{0}".format(reply_time))print("Author:{0}".format(author))item['user_name'] = authoritem['topic_reply_content'] = contentitem['topic_reply_time'] = reply_timetowrite(item)if __name__ == '__main__':pool = ThreadPool(8)f = open('content.txt','a',encoding='UTF-8')# f = open('content.txt','a')page = []for i in range(1,21):newpage = 'http://tieba.baidu.com/p/3522395718?pn=' + str(i)page.append(newpage)results = pool.map(spider,page)pool.close()pool.join()f.close()

结果如下:


回帖时间:2015-01-11 16:52
回帖内容:['            6和plus纠结买哪款。还有 买完新机可以让他上色吗']
回帖人:斗已转0回帖时间:2015-01-11 16:53
回帖内容:['            我现在是以贴吧高级会员的身份帮你顶贴,请注意你的态度']
回帖人:暑假干啥回帖时间:2015-01-11 16:57
回帖内容:['            我去']
回帖人:qw518287200回帖时间:2015-01-11 16:57
回帖内容:['            能教我怎么看序列号或imei号麽,大神\uf618']
回帖人:花颜诱朕醉

需要注意的是,极客学院附带资料的源代码是无法使用的,以上说到的几点就是我在调试过程中淌过的坑,要注意使用Chrome对要抓取的网页进行细心分析,修改xpath参数并不断试验。

+++++++明日计划++++++++++++++++
加入计时功能,测试单线程与多线程的性能差别
尝试抓取网页中的图片并保存

http://www.lbrq.cn/news/1370017.html

相关文章:

  • wordpress复制一个英文版/seo优化工作内容做什么
  • 外贸型网站方案/seo优化专员编辑
  • 微信网站怎样做/网站服务器是什么意思
  • 宿州大型网站建设公司/新闻热点大事件
  • 成都广告公司排行前十名/优化设计答案大全
  • 南宁网站建设_seo优化服务公司/百度有几个总部
  • 北京网站建设学习/2022最新小学生新闻
  • 近期军事新闻/站长工具seo综合查询烟雨楼
  • 创建app与网站的区别/免费网站流量
  • 网站建设用模板/百度一下网页首页
  • 做胃镜多少钱天津津门网站I/谷歌浏览器在线打开
  • 中国建设会计协会网站/厦门seo代理商
  • 深圳网站建设公司简介/百度热搜榜在哪里看
  • 中国菲律宾冲突岛屿/肇庆seo优化
  • 杭州网站建设杭州手机网站建设/百度指数官方版
  • 宝安网站建设深圳信科/网址提交入口
  • 做外销b2b网站对比/搜索引擎推广的三种方式
  • 网站空间租用哪个好/网站seo综合诊断
  • 临朐网站建设价格/武汉软件测试培训机构排名
  • 网站没备案可以做商城吗/北京seo技术
  • 网站目录字典/化工网站关键词优化
  • 查找网站开发者/网站设计制作在哪能看
  • 时尚网站设计/友链交易平台
  • bootstrap网站模板/长尾关键词挖掘爱站网
  • 公司网站建设前期情况说明/关键词热度查询
  • 你学做网站学了多久/seo的五个步骤
  • 网站标题字符/十大免费域名
  • ts-428 WordPress/如何做seo
  • 怎么做微信小说网站/视频号链接怎么获取
  • 江门网站建设外包/yande搜索引擎官网入口
  • Docker 国内可用镜像
  • Arrays.asList() add方法报错java.lang.UnsupportedOperationException
  • 实战《从0开始使用SwiftUI搭建记账软件》- 2、SwiftUI 知识点详解与使用场景
  • 自动驾驶中的传感器技术15——Camera(6)
  • Javaweb————Apache Tomcat服务器介绍及Windows,Linux,MAC三种系统搭建Apache Tomcat
  • 基于coze studio开源框架二次定制开发教程