当前位置: 首页 > news >正文

网站建设开发怎么选专业/友情链接怎么交换

网站建设开发怎么选专业,友情链接怎么交换,做网站江西,wordpress 图片裁剪插件2019独角兽企业重金招聘Python工程师标准>>> 自己是写.Net程序出身的,但是这个生态圈……不说了都是泪,一时兴起玩玩nodejs,想着拿什么练个笔,于是就准备复刻一下以前自己写的爬虫,自己一直在用的都是C#.Ne…

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

自己是写.Net程序出身的,但是这个生态圈……不说了都是泪,一时兴起玩玩nodejs,想着拿什么练个笔,于是就准备复刻一下以前自己写的爬虫,自己一直在用的都是C#.Net写的Winform程序,nodejs正好解决了跨平台的问题。

网络上开源的爬虫类应用基本处于两强吧,python遥遥领先,java也有一席之地,python写的爬虫我是拒绝的,我就是饿死……也不用黑乎乎没有gui的程序,但是等等啊,nodejs也是么有界面的,可以用起web服务器形式,然后走本地浏览器,还有现在外面很火的nw.js和electron两大解决方案,都内置了Chromium内核浏览器,不过正准备动手的时候发现了Google Carlo,Google的这个项目解绑了浏览器,可以让程序调用系统中安装的Chrome,感觉很接近当年的IE核心的WebBrowser控件了有木有,而且还跨平台。

说说写爬虫本身吧,写爬虫其实真没什么难的,关键就是要在浏览器上把从登录到下载所做的一系列操作,记录好控制台上显示的关键的网络传输信息,包括请求的url地址、类型(GET、POST、HEAD等)、头部数据(Referer、Range等)、查询数据(a=b&c=d这样的),然后记录返回信息,对于登录来说,一般就是一次POST请求,注意重定向即可,登录之后保存cookie用于后续的访问。对于爬取和分析页面,按照不同的情况有不同的解决方案,一般对于非脚本生成的页面,直接抓取html然后进行解析,但是有些页面是用脚本动态生成的,你用程序爬取的代码和用浏览器打开的完全不同,这就需要你观察这个页面内有哪些请求,往往可以从一些json请求中获取最原始不需要解析就能获取的宝贵信息。最后没什么好说的啦,获取到资源的url就用力下载就行啦,注意有些大文件服务器会强制要求分块下载,设置请求头部的header中的Range信息即可。

回到nodejs平台,nodejs拥有不弱于python的三方类库,如果对飙的话估计要吵几天几夜,不过对于我们来说够用好用就行了,nodejs下http下载一般用request类库,解析网页用cheerio,这两个就足够了,我为了减少硬盘读写用了memorystream。代码库托管在github:https://github.com/wildwind3325/pied,可以用于爬取Pixiv、Inkbunny和Ex绅士网站的图片、动图、flash和漫画,虽然功能只有Winform版本的5%都不到……代码很简单,纯粹当示例了。

其实刚开始后端http请求我用的是SuperAgent,后来发现这个类库虽然年纪和request差不多,但是后端bug太多,遂弃用了。SuperAgent在遇到302重定向时居然直接抛异常,在请求ex绅士时不知什么原因总是404……

转载于:https://my.oschina.net/viperwhip/blog/2988369

http://www.lbrq.cn/news/1235701.html

相关文章:

  • 郑州网站推广招聘/百度免费推广方法
  • python怎么做抢课网站/电商网站销售数据分析
  • wordpress 集赞功能/西安百度关键词优化
  • 网站建设建网站/搜索引擎免费登录入口
  • 网站 自助建站/产品推广营销
  • 制作网站软件下载/2022社会热点事件及看法
  • 上海网站开发制/行业关键词一览表
  • 建设银行纪检监察网站首页/企业qq怎么申请
  • 做淘客需要用的网站/网站建设小程序开发
  • 做封面的地图网站/域名查询阿里云
  • 不良网站进入窗口/西安百度推广开户运营
  • wordpress实现论坛功能/哪里可以学seo课程
  • 做网站的重要性/关键词挖掘工具免费
  • 阿里云网站建设方案书填写/微营销平台
  • 营销型网站的基础建设/百度sem认证
  • 微官网 手机网站/谷歌搜索入口 镜像
  • 装修网站源码/搜索关键词软件
  • 东莞网站建设硅胶/福建百度推广开户
  • 可以接项目做的网站/seo刷排名软件
  • 网站做链接操作步骤/semir是什么品牌
  • 网站建设规划文案/最近三天的国内新闻
  • 做win精简系统的网站/网推项目
  • 做性的网站/首页关键词排名代发
  • 自己做的手工在哪个网站卖会更好/宁德市疫情最新消息
  • 网页设计师介绍/seo整体优化步骤怎么写
  • 企业网企业网站制作/网站建设规划要点详解
  • 企业网站建设和维护/河南制作网站
  • 桂林网红餐厅/移动网站优化排名
  • 有人做几个蝎子养殖门户网站/seo百度百科
  • 织梦做淘宝客网站视频教程/百度站长之家工具
  • 第N个泰波那契数
  • 关于Web前端安全防御之内容安全策略(CSP)
  • 基于图像识别与分类的中国蛇类识别系统
  • Java多线程入门-基础概念与线程操作
  • 3 使用 Jenkins 构建镜像:将你的应用打包成镜像
  • Next.js 怎么使用 Chakra UI