当前位置: 首页 > news >正文

多人一起做视频网站bt磁力搜索器

多人一起做视频网站,bt磁力搜索器,广州白云区,老外用网页设计软件wordpress sharp一、项目背景豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧 、顺便打分、写影评。极大地方便了人们的生活。今天小编以电视剧(美剧)为例,批量爬取对应的电影,写入csv文档 。用户可以通过评分…

一、项目背景

豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧 、顺便打分、写影评。极大地方便了人们的生活。

今天小编以电视剧(美剧)为例,批量爬取对应的电影,写入csv文档 。用户可以通过评分,更好的选择自己想要的电影。

二、项目目的

获取对应的电影名称,评分,详情链接,下载 电影的图片,保存文档。

三、涉及的库和网站

1、网址如下:

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start={}

2、涉及的库:requests、fake_useragent、json、csv

3、软件:PyCharm

四、项目分析

1、如何多网页请求?

点击下一页时,每增加一页paged自增加20,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

2. 如何获取真正请求的地址?

请求数据时,发现页面上并没有对应数据。其实豆瓣网采用javascript动态加载内容,防止采集。

(1)F12右键检查,找到Network,左边菜单Name , 找到第五个数据,点击Preview。

(2)点开subjects,可以看到 title 就是对应电影名称。rate就是对应评分。通过js解析subjects字典,找到需要的字段。

3. 如何网页访问?

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=0

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=20

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=40

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=60

当点击下一页时,每增加一页page自增加20,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

五、项目执行

1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。导入需要的库和请求网址。

import requests,json

from fake_useragent import UserAgent

import csv

class Doban(object):

def __init__(self):

self.url = "https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start={}"

def main(self):

pass

if __name__ == '__main__':

Siper = Doban()

Siper.main()

2、随机产生UserAgent,构造请求头,防止反爬。

for i in range(1, 50):

self.headers = {

'User-Agent': ua.random,

}

3、发送请求 ,获取响应,页面回调,方便下次请求。

def get_page(self, url):

res = requests.get(url=url, headers=self.headers)

html = res.content.decode("utf-8")

return html

4、json解析页面数据,获取对应的字典。

data = json.loads(html)['subjects']

# print(data[0])

5、for遍历,获取对应的电影名、 评分、下详情页链接。

print(name, goblin_herf)

html2 = self.get_page(goblin_herf) # 第二个发生请求

parse_html2 = etree.HTML(html2)

r = parse_html2.xpath('//div[@class="entry"]/p/text()')

6、创建csv文件进行写入,定义对应的标题头内容,保存数据 。

# 创建csv文件进行写入

csv_file = open('scr.csv', 'a', encoding='gbk')

csv_writer = csv.writer(csv_file)

# 写入csv标题头内容

csv_writerr.writerow(['电影', '评分', "详情页"])

#写入数据

csv_writer.writerow([id, rate, urll])

7、图片地址进行请求。定义图片名称,保存文档。

html2 = requests.get(url=urll, headers=self.headers).content

dirname = "./图/" + id + ".jpg"

with open(dirname, 'wb') as f:

f.write(html2)

print("%s 【下载成功!!!!】" % id)

8、调用方法,实现功能。

html = self.get_page(url)

self.parse_page(html)

9、项目优化:

(1)设置时间延时。

time.sleep(1.4)

(2)定义一个变量u, for遍历,表示爬取的是第几页。(更清晰可观)。

u = 0

self.u += 1;

六、效果展示

1、点击绿色小三角运行输入起始页,终止页( 从0页开始 )。

2、将下载成功信息显示在控制台。

3、保存csv文档。

4、电影图片展示。

最后总结:

1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

2、本文章就Python爬取豆瓣网,在应用中出现的难点和重点,以及如何防止反爬,做出了相对于的解决方案。

3、希望通过这个项目,能够帮助了解json解析页面的基本流程,字符串是如何拼接,format函数如何运用。

4、本文基于Python网络爬虫,利用爬虫库,实现豆瓣电影及其图片的获取。实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

5、欢迎大家点赞,留言,转发,感谢大家的相伴与支持,需要本文源码可以关注公众号:【编程语言之家】有惊喜哦!觉得不错,记得给个Star噢~

http://www.lbrq.cn/news/2575189.html

相关文章:

  • 公司专业设计网站整合营销是什么
  • 网站开发 用什么框架宁波网站制作优化服务公司
  • 驻马店哪里做网站指数型基金是什么意思
  • 图片存放网站做链接谷歌账号注册入口官网
  • 中国十大网站建设企业整合营销传播的六种方法
  • 政府网站用什么cms旺道网站优化
  • 如何创建一个网络平台seo超级外链发布
  • 武汉网站建站免费关键词排名优化
  • 企业网站哪家做的好陕西网站设计
  • 通辽做网站苹果要做搜索引擎
  • 广州微网站建设市场百度关键词seo推广
  • 简单的个人网站万能优化大师下载
  • 网站建设服务便宜seo相关ppt
  • 物流网站建设规划书自己开网站怎么开
  • 做淘宝客需要建网站吗sem账户托管公司
  • 做网站的公司地址搜索排行榜
  • 网站商城与网站区别搜索引擎优化教材答案
  • 合肥网站建设电话咨询网站生成
  • 朝阳市城乡建设委员会网站和福州短视频seo获客
  • 某网站建设策划方案快速网站推广公司
  • 微信上优惠券的网站怎么做的如何建立网站平台的步骤
  • 做简单网站后端需要学什么国内军事新闻最新消息
  • 贵阳做网站 优帮云宁波seo推广优化哪家强
  • 网站做视频播放占用cpu吗网络营销特点
  • 有哪几种语言做的网站培训心得体会1000字通用
  • 网站建设入门seo自然排名
  • 江宁网站建设价位安全优化大师
  • 网站如何测试有无未做链接的文件福州seo网址优化公司
  • 微信点赞网站怎么做新闻联播今日新闻
  • 苏州公司网站建设价格长春网站建设设计
  • 二叉树的锯齿形层次遍历
  • 回归的wry
  • 2025年6月电子学会青少年软件编程(C语言)等级考试试卷(四级)
  • (论文速读)探索多模式大型语言模型的视觉缺陷
  • SPI通信中CS片选的两种实现方案:硬件片选与软件片选
  • 半导体物理复习