当前位置: 首页 > news >正文

重庆帝一网络网站建设专家云seo

重庆帝一网络网站建设专家,云seo,企业网站托管外包方式,网站网页设计有哪些利用python可以实现对百度翻译内容的爬取,具体过程如下:前期工作本程序的测试环境为python3.5,Chrome浏览器。进入百度翻译的页面,点开F12进入开发者调试工具,点击network,并清空所有的请求,方便…

利用python可以实现对百度翻译内容的爬取,具体过程如下:

前期工作

本程序的测试环境为python3.5,Chrome浏览器。进入百度翻译的页面,点开F12进入开发者调试工具,点击network,并清空所有的请求,方便判断点击“翻译”按钮后,会有哪些请求,上述过程如下图所示:

26bbaa6abce6fb38978f0c58b6e52ec8.png

在百度翻译中输入想要翻译的内容,并点击翻译,在network的请求框中可以看到如下一堆的请求:

d4851848008ee72c604debf802dd784a.png

从上到下依次点击,在Response中,如果发现翻译结果,说明这个就是执行翻译请求的URL。本人对应的request是第四个,即v2transapi,对应的Response为:

08a63e53f86ffd0372a617f4f9f0929c.png


因为本人执行的是英译汉,即最后输出的是中文,所以在上述翻译结果中,中文被转码为Unicode编码格式,不影响后续爬取结果,后台转码就可以了,后续会有相应介绍。

对应的Headers(请求头,部分)为:

a4f9011d42dedd4c7509280d7e32195a.png

对于上述请求头中的内容,对我们来说比较重要的有如下几个部分:

  • General:

5b2f5575bcbe5be11758a269660cc50b.png
  • Request Headers:

6d916b0f61e4ed055ae5ea9279e93b7f.png
  • Form Data:

dd6dc0604a41790cc5100644b73fda1d.png

Python程序

# coding=utf-8import requestsurl = "https://fanyi.baidu.com/v2transapi"
data = {"from": "en","to": "zh","query": "hello","transtype": "translang","simple_means_flag": "3","token": "f8c8ea6c95d6e9e7ba318e136ee2c490","sign": "54706.276099" # 随着翻译内容变化而变化}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36","Cookie": "BDUSS=I2N2tPRVBXZk5zQnZJdmV6QnY5ZDc1anNEU2lrcWVCN25lQ2t6bXJ2amd5a1JiQVFBQUFBJCQAAAAAAAAAAAEAAACiHXkweGllY2hlbmcxOTk1AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOA9HVvgPR1bcT; BIDUPSID=FCDC0DE1E2A0BC542BE845EF57F0DA5F; PSTM=1560475969; BAIDUID=FCDC0DE1E2A0BC54F756173A5902B1FB:FG=1; locale=zh; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D; Hm_lvt_afd111fa62852d1f37001d1f980b6800=1561467752,1561468730,1561469040,1561469241; Hm_lpvt_afd111fa62852d1f37001d1f980b6800=1561469241; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1561468730,1561469040,1561469241,1561470454; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1561470454; yjs_js_security_passport=5453d43730575af39e7a665570b61ece7f5fc95b_1561470456_js"
}response = requests.post(url, data=data, headers=headers)print(response)
print(response.content.decode('unicode_escape')) # 中文转码

程序说明:

  • url为General中Request URL的地址;
  • data是将 Form Data中的内容写成字典的形式;
  • headers是请求头,从Request Headers中将"User-Agent"和"Cookie"提取出来;
  • response.content.decode(‘unicode_escape’):当相应结果中存在中文的时候,利用这种编码格式进行转码。

结果如下:

39de6278ee3547c3c4c69f0b88bbff90.png

注意

由于百度对外部爬虫的限制,在请求头当中,一定要把cookie带上,否则会出现error:997,没有翻译结果等类似的错误。另外data中内容一定要全,经笔者测试,改变翻译内容,data中的sign会发生变化,其他的如token(应该是加密用的),包括请求头中的cookie,user-agent在同一个浏览器下是不会改变的。sign的加入应该是百度为了防止外界直接对url进行请求,而不通过浏览器请求的一种限制吧。

http://www.lbrq.cn/news/2764801.html

相关文章:

  • 全国网站建设百度推广代理公司哪家好
  • 做网站电脑开一天用多少钱2022当下社会热点话题
  • 商标注册查询官网网站seo咨询服务
  • 哪里建设企业网站网站排名优化培训电话
  • 扬州高邮网站建设焊工培训心得体会
  • 抖音网站怎么做热门推广软件
  • 直播app开发教程seo排名优化app
  • 网站建设制作及推广seo基础知识培训
  • wordpress略缩图altseo服务包括哪些
  • 如何用xshell安装wordpress百度关键词优化推广
  • 单独做手机网站怎么做百度广告投放价格表
  • 如何提高网站点击率怎么做搜索引擎优化排名技巧
  • 前端入门先学什么seo交流群
  • 做好政府门户网站的建设百度排名点击
  • 网红营销模式分析英文网站seo
  • 计算机网站建设开题报告如何自己建设网站
  • 求个没封的a站yw1129cm苏州推广排名
  • 网站 开发流程国内最新消息
  • 外贸soho怎么建网站廊坊seo快速排名
  • 广州大型网站建设公司排名全网整合营销推广系统
  • 建设网站公司哪家好软件网站排行榜
  • 深圳企业网站建设费用温州seo招聘
  • 沈阳市网站建设哪里的公司比较好线上营销策划案例
  • dedecms能做什么网站微信引流推广精准粉
  • 静态网站作品怎么做网络营销推广啊
  • 网站建设公司网站定制开发网站怎么推广
  • 无锡优化网站公司百度合伙人答题兼职赚钱
  • wordpress的xmlrpc长沙优化科技有限公司
  • 苏州模板做网站官网整站优化
  • 九江建网站公司有哪些免费的关键词优化软件
  • 【Python面试题】写一个用元类(metaclass)实现API接口自动注册的Demo。以及装饰器在项目中典型应用场景。
  • (MST,并查集)nflsoj #4114 货车运输/洛谷 P1967NOIP2003 货车运输
  • Java开发MCP服务器
  • Trae 辅助下的 uni-app 跨端小程序工程化开发实践分享
  • Python入门第5课:如何定义和使用函数,提升代码复用性
  • bilibili视频总结