当前位置: 首页 > news >正文

天津网站制作建设/天津建站网

天津网站制作建设,天津建站网,华为应用市场app下载,眉山市住房城乡建设局 网站一、selenium基本操作 1.创建浏览器对象 b Chrome()2.打开网页(需要爬那个页面的数据,就打开那个对应的网页地址) b.get(https://movie.douban.com/top250?start0)3.获取网页源代码(注意:不管以什么样的方式更新了…

一、selenium基本操作

1.创建浏览器对象

b = Chrome()

2.打开网页(需要爬那个页面的数据,就打开那个对应的网页地址)

b.get('https://movie.douban.com/top250?start=0')

3.获取网页源代码(注意:不管以什么样的方式更新了界面内容,page_source的内容也会更新)

print(b.page_source)     # 获取的是豆瓣电影top250的网页遇到源代码b.get('https://baidu.com')
print(b.page_source)     # 获取的是百度的网页遇到源代码

二、selenium翻页操作

selenium获取多页数据翻页的方法:

方法1:找到不同页的地址变化规律,利用循环实现多页数据的请求

from selenium.webdriver import Chromeb = Chrome()for x in range(0, 226, 25):b.get(f'https://movie.douban.com/top250?start={x}')print(b.page_source)

方法2:点击翻页按钮,刷新页面内容,在刷新后获取网页源代码

1.selenium获取标签

浏览器对象.b.fin_element(获取方式, 数据) - 返回符号条件的第一个标签,结果是标签对象
浏览器对象.b.fin_elements(获取方式, 数据) - 返回符号条件的所有标签,结果是列表,列表中的元素是标签对象

1)获取方式:
By.ID - 通过ID属性值获取标签
By.CLASS_NAME - 通过class属性值获取标签
By.CSS_SELECTOR - 通过css选择器获取标签
By.LINK_TEXT - 通过a标签的标签内容获取标签
By.PARTIAL_LINK_TEXT - 通过a标签的标签部分内容获取标签

2.操作标签

1)输入框输入内容:输入框对应的标签.send_keys(输入的内容)
2)点击标签:标签对象.click()

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import Byb = Chrome()
b.get('https://www.jd.com/')# 获取id属性值位key的标签
search = b.find_element(By.ID, 'key')# 获取标签内容为‘便宜包邮’的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
# a1.click()# 获取标签内容包含‘口好’的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
a2.click()

三、应用:知网数据爬取

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

1.创建浏览器

b = Chrome()

2.打开知网

b.get('https://www.cnki.net/')

3.获取输入框,输入‘数据分析’

search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')

4.获取搜索结果中所有论文的标题标签

titles = b.find_elements(By.CLASS_NAME, 'fz14')

5.点击第一个搜索结果

titles[0].click()
time.sleep(1)

6.切换选项卡,让浏览器对象指向详情页

b.switch_to.window(b.window_handles[-1])

7.获取详情页数据

print(b.page_source)

8.关闭当前窗口

b.close()

9.将选项卡切换回第一个页面

b.switch_to.window(b.window_handles[0])

知网数据爬取应用:

# 方法1
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup
from csv import writer# 1.创建浏览器
b = Chrome()# 2.打开知网
b.get('https://www.cnki.net/')# 3.获取输入框,输入‘数据分析’
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')def get_cnki_data(x):# 4.获取搜索结果中所有论文的标题标签titles = b.find_elements(By.CLASS_NAME, 'fz14')# 点击第一个搜索结果titles[x].click()time.sleep(1)# 切换选项卡,让浏览器对象指向详情页b.switch_to.window(b.window_handles[1])# 获取详情页数据
#     print(b.page_source)soup = BeautifulSoup(b.page_source, 'lxml')summary = soup.select_one('span#ChDivSummary').texttitle = soup.select_one('.wx-tit>h1').text.strip()w1.writerow([title, summary])# 关闭当前窗口b.close()# 将选项卡切换回第一个页面b.switch_to.window(b.window_handles[0])if __name__ == '__main__':f = open('files/cnki-数据分析.csv', 'w', encoding='utf-8', newline='')w1 = writer(f)w1.writerow(['标题', '摘要'])for x in range(20):get_cnki_data(x)# 优化后
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoupdef analysis_data(html):soup = BeautifulSoup(html, 'lxml')digest = soup.select_one('#ChDivSummary').textprint(digest)def get_net_data():# 1.创建浏览器b = Chrome()# 2.打开中国知网b.get('https://www.cnki.net/')# 3.获取输入框,输入"数据分析"search = b.find_element(By.ID, 'txt_SearchText')search.send_keys('数据分析\n')time.sleep(1)for _ in range(3):# 4.获取搜索结果所有论文的标题标签titles = b.find_elements(By.CLASS_NAME, 'fz14')for x in titles:# 点击一个搜索结果x.click()time.sleep(1)# 切换选项卡,让浏览器对象指向详情页b.switch_to.window(b.window_handles[-1])# 获取详情页数据, 解析数据# print(b.page_source)analysis_data(b.page_source)# 关闭当前窗口b.close()# 将选项卡切换回第一个页面b.switch_to.window(b.window_handles[0])print('--------------------一页数据获取完成--------------------------')b.find_element(By.ID, 'PageNext').click()time.sleep(4)input()if __name__ == '__main__':get_net_data()

四、滚动页面操作

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import timeb = Chrome()
b.get('https://www.jd.com/')
time.sleep(2)

用代码控制浏览器滚动

js中页面滚动的代码:window.scrollBy(x方向的偏移量, y方向的偏移量)

# b.execute_script('window.scrollBy(0, 1000)')
for x in range(8):b.execute_script('window.scrollBy(0, 800)')time.sleep(1)result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))
http://www.lbrq.cn/news/1070029.html

相关文章:

  • 文档下载网站 建设/重庆森林经典台词 凤梨罐头
  • vue适合什么网站开发/免费推广网站视频
  • 莒南县建设局网站/营销技巧美剧
  • php框架做网站的好处/百度网站官网网址
  • 医院网站建设方案书/开发定制软件公司
  • 衢州 网站建设/网络广告形式
  • 网站建设费用分类/最新足球赛事
  • 西安房地产网站建设/百度竞价推广方法
  • 网站背景图片切换/网络推广是指什么
  • 苏州新海通网站建设/爱站关键词挖掘查询工具
  • 用网站做淘宝客的人多吗/b站推广网站2024
  • wordpress登录地址修改/绍兴seo推广公司
  • 一个门户网站源码/全国知名网站排名
  • 描述建设一个网站的具体步骤/企业门户网站
  • 深圳宝安做网站公司/网站seo策划方案
  • 唐山哪家做网站好/百度搜索排行
  • 广州哪家公司做网站好/数据分析师一般一个月多少钱
  • 个人响应式网站建设/百度企业官网
  • 江苏省建设集团是国企吗/爱站网seo培训
  • 深圳网站建设软件开发公司/今日重大事件
  • 淘宝客如何做免费的网站/品牌型网站设计推荐
  • 做众筹网站需要什么条件/快速收录域名
  • 南陵网站建设/上海牛巨微网络科技有限公司
  • 网站建设质量保证金/营销策划案
  • 绿色大气5.7织梦网站模版/网站关键词怎么设置
  • 网站右边上下浮动代码/优化网站的方法
  • 投资项目网站建设方案/学大教育培训机构电话
  • 满山红网站建设/重庆关键词排名推广
  • 大庆市工程建设信息去哪个网站/成都seo培训
  • 政府网站功能模块有哪些/单页网站排名优化
  • CMake 命令行参数完全指南(2)
  • 知识蒸馏 - 基于KL散度的知识蒸馏 HelloWorld 示例 采用PyTorch 内置函数F.kl_div的实现方式
  • uniapp 跨端开发
  • 【智能体cooragent】创建 workflow 时 候选 Agent 和 Tool 获取来源详细分析
  • 力扣 hot100 Day63
  • Python中元组,字典,集合的易错题(含解析)