用 Python 开发了一个 PDF 抽取Excel表格的小工具

发布时间：2023-12-21 14:00

大家好哇
从 PDF 里 copy 表格时，粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过里，我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用，我把它部到 huggingface 了,同学可以直接去感受一下：

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

使用方法

准备一个PDF（暂不支持扫描版）

页面中上传PDF，也不支持过大的200M以上的文件，如果太大，大家可以先去压缩一下，我记得adobe官网有就类似小工具。

上传完成后，选择表格所在PDF的页码，等待片刻就会出现“提起完成，点击下载”

下载Excel，格式还需要微调，不过比直接复制出来的要好很多了，能节省一些时间。

目前这个工具我还在完善，比如直接梭哈，抽取PDF中所有表格，敬请期待。

实现方法之后再公布吧，其实经常看我文章的同学应该都很熟悉了吧。
之前在腾讯的这个算法，我搬到了网上，随便玩！一文中有介绍

本文代码能在huggingface看到，其实也是刚刚调试好，觉得有用，期待三连。

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com