当前位置: 首页 > news >正文

网站建设怎么打开/最近三天的新闻大事

网站建设怎么打开,最近三天的新闻大事,临沭县哪里有建网站的,成都中小企业申请网站使用python对csdn的博主文章进行爬取,期间又遇到了新的问题和旧的已经遇到过的问题。首先做一个笔记,免得以后遇到同样的问题时还得浪费时间和经历。 刚开始目的没那么明确,主要在于熟悉相关的规则及流程。采用的方式时正则表达式 Beautifu…

 使用python对csdn的博主文章进行爬取,期间又遇到了新的问题和旧的已经遇到过的问题。首先做一个笔记,免得以后遇到同样的问题时还得浪费时间和经历。

刚开始目的没那么明确,主要在于熟悉相关的规则及流程。采用的方式时正则表达式 + BeautifulSoup, 个人感觉正则表达时的好处时方便对数据进行过滤和筛选;BeautifulSoup则时专门用来处理xml文件的,它可以很方便的提取xml文件不同节点信息(包括节点的属性信息和参数值)。


# author   : sunzd
# date     : 2019/9/01
# position : beijingfrom fake_useragent import UserAgent
from bs4 import BeautifulSoup
from urllib import request
from urllib import error
import re
import timedef html_request(url):if url is None:returnprint("download html is :{0}".format(url))#如果url包含中文,则需要进行编码#模拟浏览器行为headers = {'UserAgent': str(UserAgent().random)}req = request.Request(url, headers=headers)try:html = request.urlopen(req).read().decode('utf-8')except error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return None#print(html)return htmldef html_parser(url, html):if url is None or html is None:return# pattern = '<main>(.+?)</main>'   #因为<main>后紧跟的时‘\n’因此需要忽略掉使用模式修正符re.S使'.'可以匹配任意字符# articles = re.compile(pattern, re.S).findall(html)# articles = articles[0]pattern_art = '<div class="article-item-box csdn-tracking-statistics" data(.+?)</div>'# print(articles)articles = re.compile(pattern_art, re.S).findall(html.replace('\n', ''))print(articles.__len__())for article in articles:soup = BeautifulSoup(article, 'html.parser')title = soup.find('a', attrs={'target': '_blank'})# print(title)print("文章题目:{0}\n文章类型:{1}".format(title.text.replace(' ', '').replace("原", "").replace("转", ""), title.span.text))print("文章链接:{0}".format(title.attrs['href']))infors = soup.find('div', attrs={'class': 'info-box d-flex align-content-center'})# for infor in infors.p.next_siblings:   next_siblings : 因为不包括自己,因此会把第一个p节点信息去掉。for infor in infors.children:if infor == ' ':               # ‘ ’空格也会识别为他的孩子,因此需要过滤掉continue# print("======{0}".format(infor))if infor.span:                # 只需要<span >节点的信息print("{0}".format(infor.span.text))pattern_next = '<li class="js-page-next js-page-action ui-pager ui-pager-disabled">'next = re.compile(pattern_next).findall(html)# print(html)# print("是否为最后一页:{0}----{1}".format(len(next), next))if len(next) == 0:return 0else:return 0if __name__ == '__main__':name = 's2603898260'page = 1url = "https://blog.csdn.net/" + name + "/article/list/" + str(page) + '?'while page < 4:html = html_request(url)# print(html)next = html_parser(url, html)page += 1url = "https://blog.csdn.net/" + name + "/article/list/" + str(page) + '?'# if next != 0:#    page += 1#    url = "https://blog.csdn.net/" + name + "/article/list/" + str(page) + '?'#else:#    print("finished")#    url = None'''
https://blog.csdn.net/s2603898260/article/details/100067370
'''

爬去的结果信息仅仅做了打印处理。后续添加存储到文件的处理。

爬去的结果如下:

C:\ProgramData\Anaconda3\python.exe D:/pycharm/workspace/spiderAnalysis/AI_pie/sunzd_csdn.py
download html is :https://blog.csdn.net/s2603898260/article/list/1?
20文章题目:Python中正则表达式简介
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/100067370
2019-08-25 21:48:03
阅读数 19 
评论数 0 文章题目:select、poll、epoll之间的区别
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/97536708
2019-07-27 18:13:12
阅读数 22 
评论数 0 文章题目:如何实现自定义sk_buff数据包并提交协议栈
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/92019175
2019-06-15 00:00:20
阅读数 54 
评论数 0 文章题目:DHCP协议及其交互过程
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/90547537
2019-05-25 15:52:23
阅读数 31 
评论数 0 文章题目:交换机之三层交换理
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/90489608
2019-05-23 22:44:45
阅读数 53 
评论数 0 文章题目:交换机之vlan详解
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/90489469
2019-05-23 22:34:32
阅读数 178 
评论数 0 文章题目:指针与引用,值传递与地址传递的关系
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/90417121
2019-05-21 22:43:20
阅读数 30 
评论数 0 文章题目:数据结构(三):双向循环链表的函数实现
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/90315926
2019-05-18 15:49:57
阅读数 13 
评论数 0 文章题目:数据结构(二):线性表之链式存储函数实现
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/90314798
2019-05-18 14:52:34
阅读数 10 
评论数 0 文章题目:数据结构(一):线性表的顺序存储和链式存储
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/90312257
2019-05-18 13:20:02
阅读数 18 
评论数 0 文章题目:Linuxproc文件系统小记
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/89681905
2019-04-29 20:24:09
阅读数 15 
评论数 0 文章题目:第09课:GDB实用调试技巧(下)
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683723
2019-03-23 14:39:03
阅读数 7 
评论数 0 文章题目:第08课:GDB实用调试技巧(上)
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683713
2019-03-23 14:38:58
阅读数 7 
评论数 0 文章题目:第07课:GDB常用命令详解(下)
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683699
2019-03-23 14:38:53
阅读数 13 
评论数 0 文章题目:第06课:GDB常用命令详解(中)
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683582
2019-03-23 14:38:47
阅读数 44 
评论数 0 文章题目:第05课:GDB常用命令详解(上)
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683576
2019-03-23 14:38:19
阅读数 15 
评论数 0 文章题目:第04课:使用VS管理开源项目
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683568
2019-03-23 14:38:12
阅读数 20 
评论数 0 文章题目:第三课:GDB常用的调试命令概览
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683558
2019-03-23 14:38:02
阅读数 15 
评论数 0 文章题目:第二课:启动GDB调试
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683543
2019-03-23 14:37:46
阅读数 23 
评论数 0 文章题目:第一课:调试信息和调试理
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683528
2019-03-23 14:37:38
阅读数 25 
评论数 0 
download html is :https://blog.csdn.net/s2603898260/article/list/2?
20文章题目:GDB调试:Linux开发人员必备技能
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/86683504
2019-03-23 14:37:24
阅读数 14 
评论数 0 文章题目:python3爬虫五大模块之五:信息采集器
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/88760206
2019-03-23 14:34:48
阅读数 101 
评论数 0 文章题目:python3爬虫五大模块之四:网页解析器
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/88759540
2019-03-23 14:00:55
阅读数 291 
评论数 0 文章题目:python3爬虫五大模块之三:网页下载器
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/88758555
2019-03-23 12:17:19
阅读数 100 
评论数 0 文章题目:python3爬虫五大模块之二:URL管理器
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/88758180
2019-03-23 11:59:04
阅读数 140 
评论数 0 文章题目:python3爬虫五大模块之一:爬虫调度器
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/88757023
2019-03-23 11:36:28
阅读数 310 
评论数 0 文章题目:Windos下通过Wpcap抓包实现两个网卡桥接
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/85067018
2018-12-18 16:43:02
阅读数 259 
评论数 0 文章题目:Linux始套接字抓取底层报文
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/85020006
2018-12-16 00:08:09
阅读数 865 
评论数 0 文章题目:Linux网络编程:始套接字简介
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/85019718
2018-12-15 23:18:45
阅读数 46 
评论数 0 文章题目:mac、ip、udp头解析
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/85019482
2018-12-15 22:48:53
阅读数 46 
评论数 0 文章题目:IP头详解
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/85019438
2018-12-15 22:43:39
阅读数 44 
评论数 0 文章题目:Linux网卡驱动sk_buff内核源码随笔
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/83448735
2018-10-27 19:33:41
阅读数 238 
评论数 1 文章题目:图像处理之Canny边缘检测(一)
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/80724816
2018-08-27 23:01:11
阅读数 86 
评论数 0 文章题目:针对Autocad2014第二次安装不上的问题
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/81463225
2018-08-06 23:21:40
阅读数 5699 
评论数 0 文章题目:matlab纹理映射之地球
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/81463073
2018-08-06 23:07:03
阅读数 365 
评论数 0 文章题目:SNMP协议之序言
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/81041731
2018-07-14 11:40:17
阅读数 111 
评论数 1 文章题目:uboot命令简介
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/80747431
2018-06-20 16:04:05
阅读数 100 
评论数 0 文章题目:tornado2.2安装教程
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79519506
2018-03-11 20:30:30
阅读数 1349 
评论数 2 文章题目:tar命令简介
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79435842
2018-03-04 12:37:54
阅读数 52 
评论数 0 文章题目:find命令简介
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79435828
2018-03-04 12:35:15
阅读数 71 
评论数 0 
download html is :https://blog.csdn.net/s2603898260/article/list/3?
7文章题目:文件的描述符和重定向
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79435815
2018-03-04 12:31:58
阅读数 72 
评论数 0 文章题目:containerof()函数简介
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79371024
2018-02-25 21:15:45
阅读数 15950 
评论数 12 文章题目:vim编辑器设置
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79354248
2018-02-25 19:20:50
阅读数 193 
评论数 0 文章题目:ubantu下载源详细目录
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/79354253
2018-02-25 12:57:29
阅读数 285 
评论数 0 文章题目:sqlite数据库的基本用法及C语言的API接口简介
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/78480137
2017-11-08 16:20:27
阅读数 185 
评论数 0 文章题目:C语言中volatile、register、const、static、extern、auto关键字的作用
文章类型:转
文章链接:https://blog.csdn.net/s2603898260/article/details/78476555
2017-11-08 11:16:20
阅读数 284 
评论数 0 文章题目:linux网络编程(一)
文章类型:原
文章链接:https://blog.csdn.net/s2603898260/article/details/78475106
2017-11-08 09:42:21
阅读数 155 
评论数 0 Process finished with exit code 0

 

 

http://www.lbrq.cn/news/2264275.html

相关文章:

  • 网站开发软件网站开发/代写文章兼职
  • 网站开发工期安排/网盘资源共享群吧
  • 随州网站建设厂家/seo公司官网
  • 公司网站建设需要提供什么材料/下载优化大师app
  • 廊坊做网站的大公司/关于普通话的手抄报
  • wordpress 会员投稿/整站优化的公司
  • wordpress搜索页面不同/seo排名优化推荐
  • 深圳 企业网站建设/中央常委成员名单
  • 课程网站课程资源建设/企业网站seo服务
  • wordpress七牛汉化主题/苏州百度快照优化排名
  • 网站建设放入什么会计科目/优化大师安卓版
  • 渭南做网站公司/网络营销的手段包括
  • 网站开发技术服务协议/网站域名查询地址
  • 网站制作建站/网络营销策划方案论文
  • 专业h5网站建设教程/网推公司
  • 龙口网站制作公司/推广普通话内容100字
  • 网站推广基本方法/新业务在线软件下载
  • dlink nas建设网站/学生个人网页优秀模板
  • 男科医院网站建设策略/线上宣传渠道有哪些
  • 共青城网站建设/视频互联网推广选择隐迅推
  • 静态展示网站多少钱/东莞网站公司
  • 南京代做网站/怎么免费创建自己的网站
  • b2b商务平台网站有哪些/百度公司地址
  • 滨州网站建设公司电话/百度seo排名优化排行
  • 商城网站前端更新商品天天做吗/班级优化大师头像
  • 肇庆做网站/长尾关键词是什么意思
  • 怎么建立自己的微信商城/品牌seo培训
  • 网站tag页面如何做/企业营销战略
  • 手机app制作网站模板/seo是什么缩写
  • 建设银行新加坡分行网站/株洲网站建设
  • django在线音乐数据采集-22647
  • vivo S30评测:用设计诠释科技,以性能书写情怀
  • 读取ubuntu的磁盘分区表与超级块
  • 基于cornerstone3D的dicom影像浏览器 第二章,初始化页面结构
  • 【GPIO】从STM32F103入门GPIO寄存器
  • 分布式通信框架 - JGroups