python学习笔记之读取pdf文件库pdfplumber（一）

发布时间：2024-02-19 08:00

python现在处理word、Excel、pdf等文档有很多的库，今天学习一个处理pdf的库：pdfplumber，主要学习提取文本内容和表格。

安装

pip install pdfplumber

提取文本 extract_text()

import pdfplumber
# 打开一PDF文档，比如打开《浪潮之巅》
pdf = pdfplumber.open(\'浪潮之巅.pdf\')
# 提取第一页的本文内容
text = pdf.pages[0].extract_text()
print(text)

如下输出，左边是我们的代码输出，右边是PDF的第一页内容，提取的text整体是一个字符串；

$\"python学习笔记之读取pdf文件库pdfplumber（一）_第1张图片\"$ $\"python学习笔记之读取pdf文件库pdfplumber（一）_第2张图片\"$

提取文本 extract_words()

提取文本还提供了另一个方法

text = pdf.pages[0].extract_words()
print(text)

其输出如下，提取出各部分的页面位置信息整体放在一个list中；

$\"python学习笔记之读取pdf文件库pdfplumber（一）_第3张图片\"$

提取表格 extract_table() 和 extract_tables()

我们换另外一个有表格的PDF文档来尝试一下，文档第一页内容如下（文档若侵权，请联系删除）：

$\"python学习笔记之读取pdf文件库pdfplumber（一）_第4张图片\"$

pdf_table = pdfplumber.open(\'M2021011300001742_1.pdf\')
print(pdf_table.pages[0].extract_table())

结果发现只提取页面中的最后一个表格内容信息，输出如下：

$\"python学习笔记之读取pdf文件库pdfplumber（一）_第5张图片\"$

所以我们再试一试extract_tables()

$\"python学习笔记之读取pdf文件库pdfplumber（一）_第6张图片\"$

此时发现便可以把所有的表格信息都提取出来，这便是两个方法的区别。

相关推荐

又一 Golang Proto Toml SQL 转换神器

vue3中hooks的介绍及用法

国产数据库现状分析

如何让任务栏一行同时显示日期和时间

认识微信小程序项目的基本组成结构

栈模拟队列

Loggie Geek Camp 火热启动，社区大牛带你玩开源

儿童学计算机编程好处,十个理由告诉你孩子为什么要学习编程?

优化|列生成算法及Java调用cplex实现

第十三届蓝桥杯嵌入式省赛第一场真题(基于HAL库的巨简代码＋超级详解)

转载：图解当前最强语言模型BERT：NLP是如何攻克迁移学习的？

python—selenium —xpath定位方法详解

HTTP请求中token和cookie 区别

tree shaking对打包体积优化及作用

详解回调地狱以及promise

python 安装tensorflow

Pytorch学习——用神经网络进行气温预测

DGL笔记3——自己写一个GNN模型

错误：org.springframework.web.util.NestedServletException: Handler dispatch failed； nested exception is

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com

桂ICP备16001015号