当前位置: 首页 > news >正文

丹东建设工程信息网站html简单网页设计作品

丹东建设工程信息网站,html简单网页设计作品,杭州网站建设哪家权威,靠谱的代做毕业设计网站爬虫基础urllib,urllib2,re都是python自带的模块urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏览器访问url而urllib仅可以技术url,不可以伪装user-agent字符串等,urllib提供的urlencode方法用…

爬虫基础

urllib,urllib2,re都是python自带的模块

urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏览器访问url

而urllib仅可以技术url,不可以伪装user-agent字符串等,urllib提供的urlencode方法用来get查询字符串的产生,所以要搭配使用,但urllib2使用的更广泛

re是正则表达式模块,用来分析网站信息

(.*?)是常用的匹配模式,匹配出了换行符以外的字符,是非贪婪模式,读取最少的匹配信息

在编译模式中是用re.S可以让(.*?)匹配任意字符,包括换行符。

一个简单的例子

importurllib2,redefgetPage(url):try:

request= urllib2.Request(url, headers=headers)

response=urllib2.urlopen(request, data, timeout)

page=response.read()exceptException, e:printereturn page

headers,data,timeout可以根据需要来填写

下载图片urllib.urlretrieve(url, "name.jpg")

try:

except Exception, e:

print e

捕获所有异常并打印异常信息

基础教程http://cuiqingcai.com/1052.html

由于re模块不美观,后面学习了BeautifulSoup的使用

安装BeautifulSoup

pip install BeautifulSoup4

相关用法https://cuiqingcai.com/1319.html

基本实例

from bs4 importBeautifulSoupdefgetMessage(page):

soup=BeautifulSoup(page)

parent=soup.find_all()ifparent:for child inparent:

do somthingelse:print "parent not found"

逐层查找先find()在find_all()

由于urllib2只能操作静态网站,为了爬动态网站,可以使用selenium工具,selenium是可以用脚本打开浏览器进行爬虫的工具

由于selenium3会遇到各种问题,所以使用selenium2.53.6

安装selenium2.53.6

pip install selenium==2.53.6

selenium和firefox或chrome或IE等等浏览器混合使用

由于firefox版本不同会遇到不兼容问题,所以使用firefox46.0.1

基本实例

from selenium importwebdriver

browser=webdriver.Firefox()

browser.get("http://www.baidu.com")

打开网站后就可以用bs或者re来分析网站信息

在学习过程中发现了一个爬虫框架scrapy,感觉挺好用的

安装scrapy

安装scrapy有点麻烦需要安装各种库

下载教程http://blog.csdn.net/php_fly/article/details/19364913

其中的zope.interface可以通过pip install zope.interface来安装,其他的库可以直接从云盘下载exe文件安装

在python中import各种模块验证是否安装成功

最后一步pip install Scrapy

在命令行中输入scrapy验证是否安装成功

基础教程http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

基本实例

importscrapyclassDmozSpider(scrapy.Spider):

name= "dmoz"allowed_domains= ["dmoz.org"]

start_urls=["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/","http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"]defparse(self, response):

filename= response.url.split("/")[-2]

with open(filename,'wb') as f:

f.write(response.body)

dir(),查看当前对象的所有可用方法,type()查看当前对象的类型

sys.exit(),os.exit()用来退出进程,第一个常用

yield关键词,此关键词的作用是返回某个对象后继续执行。如果不用该关键字,则直接会在函数中返回。

http://www.lbrq.cn/news/2798623.html

相关文章:

  • 网站建设在线推广推广代理公司
  • 投票网站设计百度官网app下载
  • 游戏网页代码西安百度seo
  • 宁波哪家公司做网站好百度云盘登录入口
  • 响应式网站是怎么做的seo的基本内容
  • 建站节沈阳黄页88企业名录
  • 西安做门户网站最好的公司运营推广
  • 珠海市住房城乡建设官网北京seo公司wyhseo
  • 成都app制作软件seo教程免费
  • 建设摩托车是名牌吗关键词优化到首页怎么做到的
  • 靠谱网站优化哪家好交换友链
  • 网页设计需求模板seo营销服务
  • 住房新建网站在线crm系统
  • 医院网站建设方案书360指数在线查询
  • wordpress做学校网站合肥网站排名推广
  • 我先做个网站怎么做的百度快速排名优化技术
  • 怎样制作微信网站优化设计答案五年级上册
  • 建站的步骤有哪些在线培训网站
  • 网站建设需要注意哪些百度优化教程
  • 微信显示wordpress南京seo外包
  • 北京城市建设档案馆网站网站优化seo怎么做
  • dw怎么做网站首页广州seo排名优化服务
  • 赣州建站一手app推广接单平台
  • 东西湖区网站建设公司网络营销策划需要包括哪些内容
  • 一站式企业服务提高工作效率
  • 公司网站建设方案模板下载郑州网络推广方案
  • 成都怎样制作公司网站四川网络推广seo
  • 开发公司 网站建设kol合作推广
  • 做3d打印网站百度竞价ocpc
  • 淘宝网站建设好评语seo的内容主要有哪些方面
  • 【力扣 Hot100】滑动窗口巧解字串问题
  • 记一次 .NET 某光谱检测软件 内存暴涨分析
  • 从vue2到vue3
  • JavaScript 性能优化实战:从原理到落地的完整指南
  • AI 效应: GPT-6,“用户真正想要的是记忆”
  • 【PostgreSQL内核学习:WindowAgg 节点对 Tuplestore 的复用机制】