当前位置: 首页 > news >正文

浏阳做网站报价/站长之家站长工具综合查询

浏阳做网站报价,站长之家站长工具综合查询,网络推广如何做,长春市做网站哪家好文章目录⛳️ 实战场景⛳️ Python PDF 实战编码⛳️ 实战场景 Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况: 提取 PDF 中的文字将 PDF 中每页转换为图片word 转换为PDFPDF生成&#xff0c…

文章目录

    • ⛳️ 实战场景
    • ⛳️ Python PDF 实战编码

⛳️ 实战场景

Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况:

  1. 提取 PDF 中的文字
  2. 将 PDF 中每页转换为图片
  3. word 转换为PDF
  4. PDF生成,编辑,导入导出
  5. PDF在线渲染

除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现。

本次实战选择 pdfplumber 库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编辑无法实现,即本文学习一款专注于 PDF 内容提取的库。

> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

pdfplumber 库具备如下特点:

  • 可以访问PDF对象中的任意元素详细信息;
  • 可以提取文本和表格,而且用法简单;
  • 集成了可视化调试。

⛳️ Python PDF 实战编码

下面可以编写 PDF 操作的基础代码。

import pdfplumberwith pdfplumber.open('./dddd.pdf') as pdf:for page in pdf.pages:print(page.extract_text())# 每页打印一分页分隔print('---------- 分页分隔 ----------')

导入 pdfplumber 模块之后,使用 pdfplumber.open('./dddd.pdf') 打开本地 pdf 文件,然后通过 pdf.pages 遍历所有页,在通过页对象.extract_text() 方法,提取文本信息。

pdfplumber.open() 方法的签名如下所示:

pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })

其中各参数描述如下:

  • file_name:文件名,必选参数;
  • password:PDF的密码;
  • laparams:布局参数。

除此之外,如果希望读取 PDF,还可以使用 load() 方法,该方法也会返回 pdfplumber.PDF 类的实例。

pdfplumber.PDF 对象实例,主要有两个重要属性:

  • .metadata:从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等;
  • .pages:包含 pdfplumber.Page 实例的列表,每一个实例代表PDF每一页的信息。

上文提及的 pdfplumber.Page 实例是 pdfplumber 的核心,后续对 PDF 的操作大量围绕该类的属性和方法实施,其重要属性如下所示:

  • page_number:页码顺序,第一页的序号是 1;
  • witdh:宽度;
  • height:高度;
  • .objects/.chars/.lines/.rects/.curves/.figures/.images:获取PDF页中的重要数据。

核心方法如下所示:

  • extract_text():提取页中的文本;
  • extract_words():提取所有单词及其相关信息;
  • extract_tables(): 提取页面的表格。

extract_text() 呈现结果

在这里插入图片描述

extract_words() 呈现结果

在这里插入图片描述

extract_tables() 呈现效果,由于 PDF 中无表格,所有每页得到的都是空!

在这里插入图片描述

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕,可以点点小手赞一下
🌻 发现错误,直接评论区中指正吧
📆 橡皮擦的第 716 篇原创博客

从订购之日起,案例5年内保证更新

  • ⭐️ Python 爬虫 120,点击订购 ⭐️
  • ⭐️ 爬虫100例教程,点击订购 ⭐️
http://www.lbrq.cn/news/750151.html

相关文章:

  • 蚌埠市重点工程建设管理局网站/营销app
  • 卡密网站怎么做/北京网站设计公司
  • 模板做图 网站有哪些内容/市场调研问卷调查怎么做
  • 网站开发跟app开发的差别/搜狗官网
  • 西湖区外贸网站建设/宁波优化关键词首页排名
  • 国外优质网站/长春关键词优化报价
  • 怎么开发聊天软件/青岛优化网站关键词
  • 京东购物网站怎么做/网址域名注册
  • 做娱乐网站彩票代理/百度搜索量查询
  • 合肥seo网站多少钱/seo页面代码优化
  • 宁波网站建设方案咨询/郑州网站定制
  • 滨湖区知名做网站价格/网站托管代运营
  • 宜宾公司做网站/qq群推广链接
  • 辽ICP备 网站建设 中企动力/湖北百度seo
  • 无锡网站优化公司/网络营销策划与创意
  • 做网站用的编程语言/怎么开设自己的网站
  • 网站开发负载测试/今日国内重大新闻
  • vps小学生/windows优化大师兑换码
  • 北京注册公司代理/seo网络营销技术
  • 宁夏自治区住房城乡建设厅网站/如何提高seo关键词排名
  • 怎么做老虎机网站的/网站建设平台哪家好
  • 网站设计的机构/精准引流推广团队
  • 搭建网页教程/谷歌广告优化师
  • 商家产品展示网站源码/品牌营销策略论文
  • 长沙网站创建/seo公司运营
  • 手工迷你饮水机/天津网站优化
  • 做网站定位/百度大搜数据多少钱一条
  • 免费制作一个自己的网站/最新的疫情最新消息
  • 网站悬浮窗/0元入驻的电商平台
  • 有用vue做企业网站的/上海专业排名优化公司
  • 半敏捷卫星观测调度系统的设计与实现
  • 云智智慧停充一体云-allnew全新体验-路内停车源码+路外停车源码+充电桩源码解决方案
  • C#WPF实战出真汁13--【营业查询】
  • error #include<cuda_runtime_api.h>解决方案
  • 写一个linux脚本,要求实现查找9010端口,如果端口存在则kill,否则不处理,返回对应的提示
  • 【CV 目标检测】Fast RCNN模型①——与R-CNN区别