当前位置: 首页 > news >正文

办公门户网站模板百度关键词权重查询

办公门户网站模板,百度关键词权重查询,承包客服外包到哪找资源,手机端访问 php网站继昨天使用SeleniumChromeDriver爬取中国知网页面后&#xff0c;今天又想到了一些别的方法&#xff0c;就是HtmlUnit&#xff0c;作为一名萌新程序员&#xff0c;多写写总是好的&#xff0c;操蛋的是&#xff0c;还没想出好的爬取方法。 奉上jar包 <!-- https://mvnreposit…

继昨天使用Selenium+ChromeDriver爬取中国知网页面后,今天又想到了一些别的方法,就是HtmlUnit,作为一名萌新程序员,多写写总是好的,操蛋的是,还没想出好的爬取方法。

奉上jar包

			 <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit --><dependency><groupId>net.sourceforge.htmlunit</groupId><artifactId>htmlunit</artifactId><version>2.29</version></dependency><!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit-core-js --><dependency><groupId>net.sourceforge.htmlunit</groupId><artifactId>htmlunit-core-js</artifactId><version>2.28</version></dependency>

HtmlUnit就是无GUI的浏览器操作页面,本质上还是一个浏览器,所以在本质上和Selenium差别不大吧,稳定性可能存在差异。

说一下我的思路把找到特定大学的网址,检索出论文数量,和页面数量,抓取每个论文连接特有的filename,然后点击下一页,以福建农林大学为例,总共100355篇论文,我最多的时候抓取到了10339条记录,还是不完善。

下面就是代码了:

package com.qdcz.plugins;import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSpan;
import org.apache.commons.lang3.StringUtils;import java.io.IOException;
import java.util.List;public class CnkiPost {/** 获取动态url* throws IOException* InterruptedException* */public static void main(String args[]) throws IOException, InterruptedException {HtmlPage page=null;WebClient webClient=new WebClient();// 禁止JS//webClient.getOptions().setJavaScriptEnabled(false); 暂不需要下一页需要js渲染点击// 禁止CSSwebClient.getOptions().setCssEnabled(false);// 将返回错误状态码错误设置为falsewebClient.getOptions().setThrowExceptionOnFailingStatusCode(false);// 启动客户端重定向webClient.getOptions().setRedirectEnabled(true);page=webClient.getPage("http://navi.cnki.net/knavi/PPaperDetail?pcode=CDMD&logo=GFJNU");//休息等待数据缓冲Thread.sleep(2000);//获取总页数List<HtmlSpan> span=page.getByXPath("//*[@id=\"partiallistcount2\"]");String nums=span.get(0).asText();int num=Integer.parseInt(nums);System.out.println(num);int y=0;for(int j=0;j<num;j++){List<HtmlAnchor> l=page.getByXPath("//*[@id=\"rightCatalog\"]/div[2]/div[2]/table/tbody/tr/td/a");//获取论文的独有的filenamefor(int i=0;i<l.size();i++){String links=StringUtils.substringAfter(l.get(i).toString(),"FD&amp;");String linkss=StringUtils.substringBefore(links,"&amp;tab");System.out.println("--"+ i+"--"+linkss);y++;}System.out.println("现在爬取到"+ (j+1)+"页");//点击下一页HtmlAnchor next=(HtmlAnchor) page.getByXPath("//*[@id=\"rightCatalog\"]/div[1]/div[2]/a[2]").get(0);next.click();Thread.sleep(3500);}System.out.println(y);}}

老大布置的活过了几天了,还是原地踏步,心塞,头疼。
诸位有什么好的想法,可以告知一下在下,不胜感激。

在这里插入图片描述

http://www.lbrq.cn/news/2451277.html

相关文章:

  • 南宁建站企业seo关键词优化
  • wordpress 后门检查宝鸡百度seo
  • 微信怎么做淘客网站seo站长工具查询系统
  • 电脑系统做的好的几个网站短视频入口seo
  • 网站做邮箱附近电脑培训班零基础
  • 做网站实验体会网站整站优化推广方案
  • wordpress用户自定义头像成都seo顾问
  • 怎样把自己做的网站发到网上建设网站公司
  • 帮忙做ppt的网站海南seo
  • 工程建设国家标准网站百度小说app下载
  • 个人可以做网站导航的网站吗佛山seo整站优化
  • wordpress分类目录第二页惠州seo优化
  • 沙田仿做网站朝阳seo推广
  • 网页制作与网站建设教程网站cms
  • brophp框架做网站站长之家ping
  • 济南网站建设系统介绍服务昆明优化网站公司
  • 武邑县网站建设陕西网页设计
  • wordpress 4.4.1兰州seo培训
  • 常用的网站建设技术百度seo优化教程免费
  • 两学一做网站注册重庆seo网络营销
  • app软件开发公司 用友yonmaker宁德seo公司
  • 网站上的广告位是怎么做的腾讯疫情实时数据
  • 网站建设标题微信公众号怎么开通
  • 宣传广告设计图片搜索引擎优化排名关键字广告
  • 做新闻类网站南宁seo网站排名优化公司
  • 如何管理网站页面设计超级优化
  • 建设教育局官方网站未来网络营销的发展趋势
  • 软件系统网站建设关键词挖掘啊爱站网
  • 网站建设经验材料武汉seo服务多少钱
  • 网站设计咨询电话百度集团公司简介
  • 如何轻松地让电脑传输大文件到另一台电脑?
  • 内网IM:BeeWorks私有化部署的安全通讯解决方案
  • 用python自动标注word试题选项注意事项
  • 电商项目_秒杀_架构升级
  • C++ 中打开文件的多种方式及相关流类
  • ARM 学习笔记(四)