当前位置: 首页 > news >正文

北京疫情宣布解除时间/郑州靠谱seo整站优化

北京疫情宣布解除时间,郑州靠谱seo整站优化,淮南最新通告今天,佛山建设银行网站想找一些图片做桌面背景,但是又不想一张张去下载,后来就想到了爬虫。。。对于爬虫我也没具体用过,在网上一顿搜索后写了个小demo。爬虫的具体思路就是:1.调用url爬取网页信息2.解析网页信息3.保存数据刚开始还用正则去匹配&#x…

想找一些图片做桌面背景,但是又不想一张张去下载,后来就想到了爬虫。。。

对于爬虫我也没具体用过,在网上一顿搜索后写了个小demo。

爬虫的具体思路就是:

1.调用url爬取网页信息

2.解析网页信息

3.保存数据

刚开始还用正则去匹配,获取img标签中的src地址,但是发现有很多不便(主要我正则不太会),后来发现了jsoup这个神器。 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

以下就用爬取图片为例:

import com.crawler.domain.PictureInfo;

import org.bson.types.ObjectId;

import org.springframework.data.mongodb.core.MongoTemplate;

import org.springframework.data.mongodb.gridfs.GridFsTemplate;

import org.springframework.stereotype.Service;

import org.apache.commons.io.FileUtils;

import org.apache.http.HttpEntity;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.springframework.util.DigestUtils;

import org.springframework.util.StringUtils;

import javax.annotation.Resource;

import java.io.*;

import java.net.HttpURLConnection;

import java.net.MalformedURLException;

import java.net.URL;

import java.net.URLConnection;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

* 爬虫实现

*@program: crawler

* @description

* @author: wl

* @create: 2021-01-12 17:56

**/

@Service

public class CrawlerService {

/**

* @param url 要抓取的网页地址

* @param encoding 要抓取网页编码

* @return

*/

public String getHtmlResourceByUrl(String url, String encoding) {

URL urlObj = null;

HttpURLConnection uc = null;

InputStreamReader isr = null;

BufferedReader reader = null;

StringBuffer buffer = new StringBuffer();

// 建立网络连接

try {

urlObj = new URL(url);

// 打开网络连接

uc =(HttpURLConnection) urlObj.openConnection();

// 模拟浏览器请求

uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

// 建立文件输入流

isr = new InputStreamReader(uc.getInputStream(), encoding);

// 建立缓存导入 将网页源代码下载下来

reader = new BufferedReader(isr);

// 临时

String temp = null;

while ((temp = reader.readLine()) != null) {// System.out.println(temp+"\n");

buffer.append(temp + "\n");

}

System.out.println("爬取结束:"+buffer.toString());

} catch (Exception e) {

e.printStackTrace();

} finally {

// 关流

if (isr != null) {

try {

isr.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

return buffer.toString();

}

/**

* 下载图片

*

* @param listImgSrc

*/

public void Download(List listImgSrc) {

int count = 0;

try {

for (int i = 0; i < listImgSrc.size(); i++) {

try {

PictureInfo pictureInfo = listImgSrc.get(i);

String url=pictureInfo.getSrc();

String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

URL uri = new URL(url);

// 打开连接

URLConnection con = uri.openConnection();

//设置请求超时为

con.setConnectTimeout(5 * 1000);

con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

// 输入流

InputStream is = con.getInputStream();

// 1K的数据缓冲

byte[] bs = new byte[1024];

// 读取到的数据长度

int len;

// 输出的文件流

String src = url.substring(URL.length());

int index = src.lastIndexOf('/');

String fileName = src.substring(0, index + 1);

File sf = new File(SAVE_PATH + fileName);

if (!sf.exists()) {

sf.mkdirs();

}

OutputStream os = new FileOutputStream(sf.getPath() + "\\" + imageName);

System.out.println(++count + ".开始下载:" + url);

// 开始读取

while ((len = is.read(bs)) != -1) {

os.write(bs, 0, len);

}

// 完毕,关闭所有链接

os.close();

is.close();

System.out.println(imageName + ":--下载完成");

} catch (IOException e) {

System.out.println("下载错误"+e);

}

}

} catch (Exception e) {

e.printStackTrace();

System.out.println("下载失败"+e);

}

}

/**

* 得到网页中图片的地址-推荐

* 使用jsoup

* @param htmlStr html字符串

* @return List

*/

public List getImgStrJsoup(String htmlStr) {

List pics = new ArrayList();

//获取网页的document树

Document imgDoc = Jsoup.parse(htmlStr);

//获取所有的img

Elements alts = imgDoc.select("img[src]");

for (Element alt : alts) {

PictureInfo p=new PictureInfo();

p.setSrc(alt.attr("src"));

p.setAlt(alt.attr("alt"));

p.setTitle(alt.attr("title"));

pics.add(p);

}

return pics;

}

}

http://www.lbrq.cn/news/1327645.html

相关文章:

  • 网站建设 模块/惠州百度seo在哪
  • 游戏推广平台代理加盟/六年级上册数学优化设计答案
  • 个体搞网站建设 经营范围/独立站谷歌seo
  • 做网站的用途/企业微信会话存档
  • 免费手机图片编辑器/seo每日一贴
  • 做一个网站后期维护需要做什么/海南seo顾问服务
  • 做网站需要企业/网站文章优化技巧
  • 企业网站界面 优帮云/seo查询源码
  • 北京市网站开发/关键词app
  • 美国纽约网站建设费用/网站热度查询
  • 网站赚取广告费/徐州seo顾问
  • ssm框架做电影网站/农业推广
  • 美工首页设计/宁波优化推广选哪家
  • 推广网站企业/360搜索引擎的特点
  • 做木马的网站/怎样和政府交换友链
  • 网站的页面设计/个人网站设计作品
  • 汕头建设局网站/潍坊seo推广
  • 敦煌网站做外贸怎样/福州网站开发公司
  • 绍兴网络公司网站建设/百度网盘下载速度
  • 幼儿园网站建设总结/简述seo的基本步骤
  • 中国建设教育网站/google下载安装
  • 电子商务网站建设与管理期末考试题/n127网推广
  • 做公众号必了解的网站/搜索引擎关键词排名
  • 给被k的网站做友链/做网站推广需要多少钱
  • 网站建设费用选网络专业/金泉网做网站多少钱
  • 网站建设寻求/郑州粒米seo顾问
  • 网站开发维护岗位职责/推广普通话内容
  • 长春网站运做思路/济南网站设计
  • 企业网站模板 简洁/青岛seo排名扣费
  • 网站 网络架构/关键词推广价格
  • Go语言中的盲点:竞态检测和互斥锁的错觉
  • Linux文件系统理解2
  • AR智能巡检系统:制造业设备管理的效率革新
  • Android ConstraintLayout 使用详解
  • React核心:组件化与虚拟DOM揭秘
  • CMake项目中如何按目录结构分离显示Header和Source文件