当前位置: 首页 > news >正文

黄石做网站的公司/2023国内外重大新闻事件10条

黄石做网站的公司,2023国内外重大新闻事件10条,引用网站代码,公司网站建设费用多少抓取包图网视频 目标抓取全站视频数据保存在本地,并以网站视频名命名视频文件。 分析网页数据结构经分析我们可以发现总站数据我们可以从这四这选项下手 分析网页数据格式网页数据为静态 抓取下一页链接OK, 上代码! import requests from lxml import etree import …

抓取包图网视频

目标抓取全站视频数据保存在本地,并以网站视频名命名视频文件。

分析网页数据结构

AAffA0nNPuCLAAAAAElFTkSuQmCC

AAffA0nNPuCLAAAAAElFTkSuQmCC

经分析我们可以发现总站数据我们可以从这四这选项下手

分析网页数据格式

AAffA0nNPuCLAAAAAElFTkSuQmCC

AAffA0nNPuCLAAAAAElFTkSuQmCC

网页数据为静态

抓取下一页链接

AAffA0nNPuCLAAAAAElFTkSuQmCC

OK, 上代码!

import requests

from lxml import etree

import threading

class Spider(object):

def __init__(self):

self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}

self.offset = 1

def start_work(self, url):

print("正在爬取第 %d 页......" % self.offset)

self.offset += 1

response = requests.get(url=url,headers=self.headers)

html = response.content.decode()

html = etree.HTML(html)

video_src = html.xpath('//div[@class="video-play"]/video/@src')

video_title = html.xpath('//span[@class="video-title"]/text()')

next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0]

# 爬取完毕...

if next_page == "http:":

return

self.write_file(video_src, video_title)

self.start_work(next_page)

def write_file(self, video_src, video_title):

for src, title in zip(video_src, video_title):

response = requests.get("http:"+ src, headers=self.headers)

file_name = title + ".mp4"

file_name = "".join(file_name.split("/"))

print("正在抓取%s" % file_name)

with open(file_name, "wb") as f:

f.write(response.content)

if __name__ == "__main__":

spider = Spider()

for i in range(0,3):

# spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html")

t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",))

t.start()

运行结果

AAffA0nNPuCLAAAAAElFTkSuQmCC

AAffA0nNPuCLAAAAAElFTkSuQmCC

同学们 是不是so easy…!

(老师声明下, 仅限爬取绿色网站,其它颜色的不准的噢…)!

(原创文章,转载请注明出处)

http://www.lbrq.cn/news/1282771.html

相关文章:

  • 做雕塑网站/集团网站推广
  • 快速提高关键词排名的软件/seo是什么东西
  • wordpress登录页样式美化/windows7系统优化工具
  • 自贡市网站建设/国内搜索引擎
  • 网站开发的目的意义/kol营销
  • 怎么做网站卖产品/怎样搭建自己的网站
  • 网站权重6了该则么做优化方案/做竞价推广这个工作怎么样
  • 重庆双八自助建设网站/百度导航2023年最新版
  • 怎么做网站赌博/企业品牌策划
  • 四川建设网网网站维护电话/网站快照优化公司
  • 网站的种类/产品推广方案怎么做
  • 网站建设中 模版/推广软文范例大全500
  • 平面设计软件有哪些可以免费使用/网站搜索优化技巧
  • 一级a做爰片免费网站黄/响应式网站模板的应用
  • 涿州网站建设/唯尚广告联盟平台
  • 做网站是用myecli/源码网
  • 企业网站 seo怎么做/网站网页设计
  • 信誉好的郑州网站建设/百度统计登录
  • 长沙做网站排名/中国关键词官网
  • 龙岩做网站/seo排名的影响因素有哪些
  • 深圳横岗网站建设/南京网络推广公司排名
  • 专门做游戏交易的网站有哪些/代做seo关键词排名
  • 网站如何调用微博/二级域名免费分发
  • 深圳政府网站建设/上海关键词seo
  • 胶州为企业做网站的公司/收录网站
  • 做网站的相关教程/电商平台建设方案
  • 详情页设计的逻辑框架/响应式模版移动优化
  • 电商设计网站培训/seo整站优化哪家专业
  • 影响网站收录的因素/盘多多百度网盘搜索引擎
  • 公关公司网站/软文发稿系统
  • 【机器学习深度学习】NLP评价指标 BLEU 和 ROUGE
  • 基于动态增强的 LLM 置信度方法研究
  • Windows Server系统安装JDK,一直卡在“应用程序正在为首次使用作准备,请稍候”
  • 雨雪雾冰全预警:交通气象站为出行安全筑起“隐形防护网”
  • Kafka——Java消费者是如何管理TCP连接的?
  • 基于新型群智能优化算法的BP神经网络初始权值与偏置优化