机器之心报导
项目作者:vinayak mehta
参加:一鸣
从 PDF 表格中获取数据是一项苦楚的作业。不久前,一位开发者供给了一个名为 Camelot 的东西,运用三行代码就能从 PDF 文件中提取表格数据。
PDF 文件是一种十分常用的文件格局,一般用于正式的电子版文件。它能够很好的将不同的排版格局固定下来,构成版面明晰且漂亮的展现作用。可是,关于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。
很多的学术报告、论文、剖析文章都运用 PDF 展现其间的表格数据,可是关于假如想要直接从表格中仿制数据则会十分费事。不久前,有一位开发者供给了一个可从文字 PDF 中提取表格信息的东西——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。
项目地址:https://github.com/camelot-dev/camelot
Camelot 是什么
据项目介绍称,Camelot 是一个 Python 东西,用于将 PDF 文件中的表格数据提取出来。
详细而言,用户能够像运用 Pandas 那样翻开 PDF 文件,然后运用这个东西提取表格数据,最终再指定输出的方式(如 csv 文件)。
代码示例
项目供给的 PDF 文件如图所示,假定用户需求提取这些文字之间的表格 2-1 中的信息。
PDF 文件。咱们需求提取表格 2-1。
运用 Camelot 提取表格数据的代码如下:
以下为输出的成果,关于兼并的单元格,Camelot 在抽取后做了空行处理,这是一个保险的办法。
装置办法
项目作者供给了三种装置办法。首要,你能够运用 Conda 进行装置,这是最简略的。
最盛行的装置办法是运用 pip 装置。
还能够从项目中克隆代码,并运用源码装置。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------