当前位置：首页 > news >正文

微商城网站制作舆情分析报告案例

news 2025/8/16 7:02:18

微商城网站制作,舆情分析报告案例,广州模板网站建设,北京住房城乡建设委官方网站学习笔记之——网络爬虫的Robots协议一、网络爬虫的尺寸二、爬虫的风险三、网络爬虫限制四、Robots协议1. Robots协议2. Robots协议的遵守方式五、参考资料一、网络爬虫的尺寸小规模、数据量小，爬取速度不敏感，Requests库，>90%——爬去…

学习笔记之——网络爬虫的Robots协议

一、网络爬虫的尺寸
二、爬虫的风险
三、网络爬虫限制
四、Robots协议
- 1. Robots协议
- 2. Robots协议的遵守方式
五、参考资料

一、网络爬虫的尺寸

小规模、数据量小，爬取速度不敏感，Requests库，>90%——爬去网页，玩转网页。
中规模，数据规模较大，爬取速度敏感，Scrapy库——爬取网站，爬取系列网站。
大规模，搜索引擎，爬取速度关键，定制开发——爬取全网。

二、爬虫的风险

给Web服务器造成巨大的资源开销。
服务器上的数据有产权归属，网络爬虫获取数据后牟利将带来法律风险。
网络爬虫可能具备突破简单访问控制的能力，获得被保护数据，从而泄露个人隐私。

三、网络爬虫限制

来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

四、Robots协议

1. Robots协议

Robots Exclusion Standard，网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

Robots协议基本语法——# 注释，*代表所有，/代表根目录

User‐agent: *
Disallow: /
例如：京东的Robots协议
https://www.jd.com/robots.txt
User‐agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider
Disallow: /
User‐agent: HuihuiSpider
Disallow: /
User‐agent: GwdangSpider
Disallow: /
User‐agent: WochachaSpider
Disallow: /

2. Robots协议的遵守方式

网络爬虫：自动或人工识别robots.txt，再进行内容爬取
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险
对Robots协议的理解

小规模、数据量小，爬取速度不敏感，Requests库，>90%——爬去网页，玩转网页。访问量很小：可以遵守；访问量较大：建议遵守。
中规模，数据规模较大，爬取速度敏感，Scrapy库——爬取网站，爬取系列网站。非商业且偶尔：建议遵守；商业利益：必须遵守。
大规模，搜索引擎，爬取速度关键，定制开发——爬取全网。必须遵守。
原则：类人行为可以不参考Robots协议。

五、参考资料

学习的北京理工大学嵩天老师的《Python网络爬虫与信息提取》

后记：
我从本硕药学零基础转行计算机，自学路上，走过很多弯路，也庆幸自己喜欢记笔记，把知识点进行总结，帮助自己成功实现转行。
2020下半年进入职场，深感自己的不足，所以2021年给自己定了个计划，每日学一技，日积月累，厚积薄发。
如果你想和我一起交流学习，欢迎大家关注我的微信公众号每日学一技，扫描下方二维码或者搜索每日学一技关注。
这个公众号主要是分享和记录自己每日的技术学习，不定期整理子类分享，主要涉及 C – > Python – > Java，计算机基础知识，机器学习，职场技能等，简单说就是一句话，成长的见证！