当前位置: 首页 > news >正文

微商城 网站制作舆情分析报告案例

微商城 网站制作,舆情分析报告案例,广州模板网站建设,北京住房城乡建设委官方网站学习笔记之——网络爬虫的Robots协议一、 网络爬虫的尺寸二、爬虫的风险三、网络爬虫限制四、Robots协议1. Robots协议2. Robots协议的遵守方式五、参考资料一、 网络爬虫的尺寸 小规模、数据量小,爬取速度不敏感,Requests库,>90%——爬去…

学习笔记之——网络爬虫的Robots协议

  • 一、 网络爬虫的尺寸
  • 二、爬虫的风险
  • 三、网络爬虫限制
  • 四、Robots协议
    • 1. Robots协议
    • 2. Robots协议的遵守方式
  • 五、参考资料

一、 网络爬虫的尺寸

  1. 小规模、数据量小,爬取速度不敏感,Requests库,>90%——爬去网页,玩转网页。
  2. 中规模,数据规模较大,爬取速度敏感,Scrapy库——爬取网站,爬取系列网站。
  3. 大规模,搜索引擎,爬取速度关键,定制开发——爬取全网。

二、爬虫的风险

  1. 给Web服务器造成巨大的资源开销。
  2. 服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险。
  3. 网络爬虫可能具备突破简单访问控制的能力,获得被保护数据,从而泄露个人隐私。

三、网络爬虫限制

  1. 来源审查:判断User‐Agent进行限制
  2. 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
  3. 发布公告:Robots协议
  4. 告知所有爬虫网站的爬取策略,要求爬虫遵守

四、Robots协议

1. Robots协议

Robots Exclusion Standard,网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件

Robots协议基本语法——# 注释,*代表所有,/代表根目录

User‐agent: *
Disallow: /
例如:京东的Robots协议
https://www.jd.com/robots.txt
User‐agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider
Disallow: /
User‐agent: HuihuiSpider
Disallow: /
User‐agent: GwdangSpider
Disallow: /
User‐agent: WochachaSpider
Disallow: /

2. Robots协议的遵守方式

网络爬虫:自动或人工识别robots.txt,再进行内容爬取
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
对Robots协议的理解

  1. 小规模、数据量小,爬取速度不敏感,Requests库,>90%——爬去网页,玩转网页。访问量很小:可以遵守;访问量较大:建议遵守。
  2. 中规模,数据规模较大,爬取速度敏感,Scrapy库——爬取网站,爬取系列网站。非商业且偶尔:建议遵守;商业利益:必须遵守。
  3. 大规模,搜索引擎,爬取速度关键,定制开发——爬取全网。必须遵守。
    原则:类人行为可以不参考Robots协议。

五、参考资料

学习的北京理工大学嵩天老师的《Python网络爬虫与信息提取》

后记:
我从本硕药学零基础转行计算机,自学路上,走过很多弯路,也庆幸自己喜欢记笔记,把知识点进行总结,帮助自己成功实现转行。
2020下半年进入职场,深感自己的不足,所以2021年给自己定了个计划,每日学一技,日积月累,厚积薄发。
如果你想和我一起交流学习,欢迎大家关注我的微信公众号每日学一技,扫描下方二维码或者搜索每日学一技关注。
这个公众号主要是分享和记录自己每日的技术学习,不定期整理子类分享,主要涉及 C – > Python – > Java,计算机基础知识,机器学习,职场技能等,简单说就是一句话,成长的见证!
每日学一技

http://www.lbrq.cn/news/2718397.html

相关文章:

  • b2c建设网站公司东莞网络优化调查公司
  • 上蔡县做彩票网站开源cms建站系统
  • 创建网站的六个步骤网络游戏推广怎么做
  • 旅游网页设计说明200字百度seo排名培训 优化
  • 中文设计网站站长之家网站查询
  • 什么网站教你做美食360推广联盟
  • 没有网站如何做落地页网络广告案例以及分析
  • 城市建设规划网站app推广代理平台
  • 网站个人空间怎么做今日国内新闻10则
  • 网站内容seo广州seo优化外包公司
  • 暴雪公司现状seo快速排名百度首页
  • 让网站百度不到网络营销的渠道有哪些
  • SEO优化网站建设价格sem网站推广怎么做
  • 哪些网站可以做视频收费汕头网站建设方案优化
  • 新手做免费网站seo实战密码电子书
  • 北理工网站开发与应用答案百度一下首页登录入口
  • 温州网站建设案例seo搜索是什么意思
  • ks2e独服做网站手机优化软件哪个好用
  • 程序开源网站搜索网站排名
  • 深圳网站设计公司电话seo黑帽有哪些技术
  • 南宁市做网站百度的网站网址
  • 网站建设 风险今日国际新闻最新消息事件
  • 微信上微网站怎么做的常德今日头条新闻
  • 所有购物网站的名字如何在微信上做广告
  • 网站框架设计企业网络营销推广方案
  • 做网站需要学习什么百度seo是啥意思
  • 外贸建设网站网站优化及推广方案
  • 北海做网站的网络公司班级优化大师怎么用
  • wordpress 登录后查看网站优化排名软件
  • 网站缓存设置怎么做淄博新闻头条最新消息
  • MacOS 系统计算机专业好用工具安装
  • OpenCV对椒盐处理后的视频进行均值滤波处理
  • 分享10个ai生成ppt网站(附ai生成ppt入口)
  • Go语言实战案例:简易图像验证码生成
  • STM32HAL 快速入门(七):GPIO 输入之光敏传感器控制蜂鸣器
  • EN 61010电子电气设备安全要求标准