MENU

案例:使用Pdfplumber+Camelot解提取年报中的表格数据

April 27, 2021 • 数据采集与数据分析(python)

很多朋友会问,pdfplumber也能解析表格,为什么还要使用Camelot呢?这因为年报中的表格很多都是一个单元格中有多个换行,像这样:
多行.jpg
pp的解析结果是每个换行都是表格中的一样,这很难提取出准确的数据。
相对于多换行,这样的pdfplumber就能正常解析:
QQ截图20210427172430.png

面对这一问题,使用Camelot的stream模式就能好解决,但是有个遗憾,就是它无法提取全文的字符串,只能提取表格,和所有与表格相关的元素。所以需要结合pdfplumber,通过pp来解决查找关键词。

未完待续
先放上源码文件parsepdf-sub_con.txt,供大家学习参考,由于我的博客后台禁止上传py文件,所以下载后请将txt后缀换成py。

Last Modified: April 28, 2021