這幾天想統計一下《中國人文社會科學期刊 AMI 綜合評價報告(2018 年):A 刊評價報告》中的期刊,但是只找到了該報告的PDF版,對于表格的編輯不太方便,于是想到用Python將表格轉成Excel格式。
看過別人寫的博客,發現Python解析PDF有以下四種方式:
-pdfminer:擅長文字的解析,把表格解析成普通的文本,沒有格式;
-pdf2html:把pdf解析成html,但html的標簽并沒有規律,解析一個表格還可以,多個表格的話不太好提?。?br />
-tabula:對于簡單的表格,即單元格中沒有換行的,表頭表尾形式不復雜的,使用比較方便。但是單腦需要Java環境;
-pdfplumber:是一個可以處理pdf格式信息的庫。可以查找關于每個文本字符、矩陣、和行的詳細信息,也可以對表格進行提取并進行可視化調試。
本文采用pdfplumber庫讀取PDF中的表格,運行環境:Python3.5.2,Anaconda4.2.0。首先簡單介紹一下pdfplumber庫:
-pdfplumber.pdf中包含了.metadata和.pages兩個屬性:
.metadata是一個包含pdf信息的字典。
.pages是一個包含頁面信息的列表。
-pdfplumber.page的類中包含的主要的屬性:
.page_number 頁碼。
.width 頁面寬度。
.height 頁面高度。
.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表,每個列表都包含一個字典,每個字典用于說明頁面中的對象信息, 包括直線,字符, 方格等位置信息。
-一些常用的方法:
.extract_text() 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串。
.extract_words() 返回的是所有的單詞及其相關信息。
.extract_tables() 提取頁面的表格。
.to_image() 用于可視化調試時,返回PageImage類的一個實例。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
import pdfplumber import pandas as pd path = 'test.pdf' pdf = pdfplumber. open (path) i = 1 #writer=pd.ExcelWriter('output.xlsx') df = pd.DataFrame(columns = [ '序號' , '刊名' , '主辦單位' , '等級' ]) sheetname = [ '考古文博' , '歷史學' , '馬克思主義理論' , '民族學與文化學' , '文學-外國文學' , '文學-中國文學' , '藝術學' , '語言學' , '哲學' , '宗教學' , '法學' , '管理學' , '環境科學' , '教育學' , '經濟學-財政科學' , '經濟學-工業經濟' , '經濟學-金融' , '經濟學-經濟管理' , '經濟學-經濟綜合' , '經濟學-貿易經濟' , '經濟學-農業經濟' , '經濟學-世界經濟' , '人文地理學' , '社會學' , '體育學' , '統計學' , '圖書館情報與檔案學' , '心理學' , '新聞學與傳播學' , '政治學-國際政治' , '政治學-中國政治' , '綜合-高校綜合性學報' , '綜合-綜合性人文社科期刊' ] ##由于存在一個表格跨頁的情況,先將所有表格存放在一個DataFrame中,再根據序號拆分。 for page in pdf.pages[ 17 : 59 ]: print (page) # 獲取當前頁面的全部文本信息,包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): #print(table) df = df.append(pd.DataFrame(table[ 1 :],columns = table[ 0 ]),ignore_index = True ) print (df) writer = pd.ExcelWriter( 'output3.xlsx' ) new_df = pd.DataFrame() j = 1 index = [] #記錄序號==1的行索引,用于后面的表格拆分 for i in range ( len (df)): if df.ix[i, 0 ] = = '1' : index.append(i) print ( "################" ) index.append( len (df)) #print (index) #按行索引將內容切片并逐個添加到表中 for t in range ( len (index) - 1 ): new_df = df.ix[index[t]:index[t + 1 ] - 1 ,:] #print (new_df) new_df.to_excel(writer,sheet_name = sheetname[t],encoding = 'gb2312' ,index = None ) writer.save() pdf.close() print ( 'finished' ) |
最終保存為Excel。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。
原文鏈接:https://blog.csdn.net/ziyin_2013/article/details/87980434