Python新工具用三行代码提取PDF表格数据

2019-10-09 19:22:14 作者：责任编辑NO。许安怡0216浏览次数：1262

机器之心报导

项目作者：vinayak mehta

参加：一鸣

从 PDF 表格中获取数据是一项苦楚的作业。不久前，一位开发者供给了一个名为 Camelot 的东西，运用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种十分常用的文件格局，一般用于正式的电子版文件。它能够很好的将不同的排版格局固定下来，构成版面明晰且漂亮的展现作用。可是，关于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。

很多的学术报告、论文、剖析文章都运用 PDF 展现其间的表格数据，可是关于假如想要直接从表格中仿制数据则会十分费事。不久前，有一位开发者供给了一个可从文字 PDF 中提取表格信息的东西——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。

项目地址：https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称，Camelot 是一个 Python 东西，用于将 PDF 文件中的表格数据提取出来。

详细而言，用户能够像运用 Pandas 那样翻开 PDF 文件，然后运用这个东西提取表格数据，最终再指定输出的方式（如 csv 文件）。

代码示例

项目供给的 PDF 文件如图所示，假定用户需求提取这些文字之间的表格 2-1 中的信息。

PDF 文件。咱们需求提取表格 2-1。

运用 Camelot 提取表格数据的代码如下：

以下为输出的成果，关于兼并的单元格，Camelot 在抽取后做了空行处理，这是一个保险的办法。

装置办法

项目作者供给了三种装置办法。首要，你能够运用 Conda 进行装置，这是最简略的。

最盛行的装置办法是运用 pip 装置。

还能够从项目中克隆代码，并运用源码装置。

本文为机器之心编译，转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

推荐图文