当前位置: 首页 > news >正文

闵行营销型网站制作/国色天香站长工具

闵行营销型网站制作,国色天香站长工具,网站菜单框架,仿织梦小说网站源码从网上找的程序,稍加修改,实现在JD商城上爬取商品保质期的功能。 具体步骤如下: 一、准备工作 1)PC下载谷歌浏览器; 2)PC下载配置Selenium工具 具体可以参考 Python 爬虫实战 — 抓取JD商品数据 **Selenium…

从网上找的程序,稍加修改,实现在JD商城上爬取商品保质期的功能。
具体步骤如下:
一、准备工作
1)PC下载谷歌浏览器;
2)PC下载配置Selenium工具
具体可以参考 Python 爬虫实战 — 抓取JD商品数据
**Selenium工具为 Web 应用程序的测试工具,能够操控浏览器完成一系列步骤,模拟人为操作;**比如自动填写文本,网页端查询快递单号 都是没问题的,目前支持 Java、Python、C#、Ruby 等多种语言。
二、伪代码
1)逐行读EXCL文件,获取关键词;
2)基于关键词在JD上搜索商品;
3)找到第1个商品,对比其title与关键词的匹配程度;
4)满足匹配度阈值,打开该商品详情页;
5)解析网页,检索“保质期”关键字后的字符串;
6)为提高写文件效率,每20次上述操作后,将检索到的保质期写入EXCL文件。

补充:
1)本人python小白,下面代码仅供参考。

#! /usr/bin/python
# coding='utf-8'
"""
获取XX商城商品信息爬虫
Author: zhouzying
URL: https://www.zhouzying.cn
Date: 2018-10-15
"""
from bs4 import BeautifulSoup
import time
from selenium import webdriver
import re
# import xlrd
# import xlwt
# from xlutils.copy import copy
import openpyxl
from openpyxl import Workbook
from openpyxl.reader.excel import load_workbookimport os
import time# 获取网页源代码
# def main():# product = input("请输入商品名称:")filepath = "record.txt"wb = load_workbook('goods.xlsx')# 获取所有表格(worksheet)的名字sheets = wb.get_sheet_names()# print(sheets)# # 第一个表格的名称sheet_first = sheets[0]# # 获取特定的worksheetws = wb.get_sheet_by_name(sheet_first)# 打开浏览器driver = webdriver.Chrome()succesNum=0allProcessNum=0# 通过坐标读取值for i in range(36599):i=i+920   #中断程序重启时,记得修改此处!!print('excl第', i, '行')product=ws.cell(row=i+1, column=3).valueif product !='品名':# 打印商品名print("excl商品名称:", product)# 页数控制index = 1# 设总页数total的初值为100total_2 = 1while index <= total_2:try:page = index * 2 - 1# 关键字中如果有中文字符,URL中需加入“&enc=utf-8”字符编码url = 'https://search.jd.com/Search?keyword=' + str(product) + "&enc=utf-8" + "&page=" + str(page)driver.get(url)# 执行页面向下滑至底部的动作# driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")# 停顿3秒等待页面加载完毕!!!(必须留有页面加载的时间,否则获得的源代码会不完整。)#time.sleep(1)html = driver.page_source# 找到第一个商品的链接urlNew = parser(html, product)# 跳转至商品详情页,获取保质期driver.get(urlNew)# driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")#time.sleep(1)html = driver.page_sourceshelfDataStr=parser2(html)print('找到保质期:'+shelfDataStr)# 保质期写入表格ws.cell(row=i+1, column=5).value = shelfDataStrindex += 1succesNum +=1print("保质期获取完成!".format(product))except:index += 1print("保质期获取失败!".format(product))allProcessNum +=1print('累计处理:成功找到保质期/所有搜索数量=', succesNum,'/',allProcessNum)print('------------------------------------------------------------------------')if i%20==0:print('**写文件**')wb.save(filename='goods.xlsx')print('------------------------------------------------------------------------')# 退出浏览器driver.quit()# wb.save(filename='goods.xlsx')# 提取第一个商品的URL
def parser(html, product):#soup = BeautifulSoup(html, 'html5lib')  #lzy changedsoup = BeautifulSoup(html)    #lzy changed# print(soup)# 定位到包含这些商品信息的代码#items = soup.find_all('div', 'gl-i-wrap')item = soup.find('div', 'gl-i-wrap')strTemp = item.find('div', 'p-name')titleInMall=item.find('div','p-name').a.em.textprint('商城第1个商品名称: ', titleInMall)findInNum=0for itemChar in  product:if itemChar in titleInMall:findInNum=findInNum+1# print(itemChar,'is in',titleInMall)lenTemp=len(product)print('重合度 ',findInNum/lenTemp)urlNew=' 'if (findInNum/lenTemp)>0.95:urlNew = 'https:'+strTemp.find('a')['href']print('重合度大于阈值0.95,打开第1个商品URL:'+urlNew)else:print('重合度小于阈值0.95,该商品未找到保质期!')return urlNew# 提取商品详情页里的保质期信息
def parser2(html):soup = BeautifulSoup(html)    #lzy changed# (soup)clearfix= soup.find_all('dl', 'clearfix')shelfDataStr=''for item in clearfix:shelfDataStrTemp= item.text# print(shelfDataStrTemp)if '保质期' in shelfDataStrTemp:shelfDataStr=shelfDataStrTemp[4:]breakreturn shelfDataStrif __name__ == '__main__':main()
http://www.lbrq.cn/news/1250533.html

相关文章:

  • 广州祥云平台网站建设/网络优化
  • 东阳做网站公司/seo图片优化
  • 活动设计方案模板/营销型网站优化
  • 做网站需要什么文件/深圳网站建设维护
  • 做犯法任务的网站/昆明seo建站
  • 建设产品网站课程/如何推广小程序
  • 沈阳网站建设哪家做得好/seo建站公司推荐
  • 邢台市网站制作/十大引擎网址
  • 福州做网站优化/抖音seo优化系统招商
  • 国外服务器做网站不能访问/市场调研问卷调查怎么做
  • 怎么创建网站挣钱/网络营销可以做什么工作
  • 做网站最好的工具/整站优化价格
  • 找网站开发公司/搜索引擎外部优化有哪些渠道
  • 网站做一些流量互换/长沙官网seo分析
  • 网站的友情链接做多少个比较合适/百度免费推广网站
  • 家具网站建设策划书/seo搜索引擎优化到底是什么
  • 广东网站开发建设/电脑培训网
  • 贵阳网站建设制作方法/网络推广运营外包公司
  • 公司网站搜索引擎排名/2022年适合小学生的新闻
  • 广州做餐饮的招聘网站/做app推广去哪找商家
  • 柯桥做网站有哪些公司/注册推广赚钱一个80元
  • 兴义做网站的公司/微信加人推码35一单
  • 党建网站制作/汕头seo托管
  • 做web网站的步骤/如何做一个自己的网站呢
  • 做app和做网站/百度推广引流
  • 手机网站打开很慢/百度的网址是什么
  • dw做动态网站站点怎么/网站检测
  • 建设银行泰安培训中心官方网站/杭州seo泽成
  • 在网上做翻译的网站/网页关键词排名优化
  • 灵犀科技 高端网站建设首页/网站更新seo
  • Springboot2+vue2+uniapp 小程序端实现搜索联想自动补全功能
  • PyTorch LSTM文本生成
  • 人工智能的20大应用
  • WMS及UI渲染底层原理学习
  • iOS混淆工具有哪些?在集成第三方 SDK 时的混淆策略与工具建议
  • zyh贪心类题目补题报告