一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python實現PDF中表格轉化為Excel的方法

python實現PDF中表格轉化為Excel的方法

2020-06-17 10:55ziyin_2013 Python

這篇文章主要為大家詳細介紹了python實現PDF中表格轉化為Excel的方法,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下

這幾天想統計一下《中國人文社會科學期刊 AMI 綜合評價報告(2018 年):A 刊評價報告》中的期刊,但是只找到了該報告的PDF版,對于表格的編輯不太方便,于是想到用Python將表格轉成Excel格式。

python實現PDF中表格轉化為Excel的方法

看過別人寫的博客,發現Python解析PDF有以下四種方式:

-pdfminer:擅長文字的解析,把表格解析成普通的文本,沒有格式;
-pdf2html:把pdf解析成html,但html的標簽并沒有規律,解析一個表格還可以,多個表格的話不太好提?。?br /> -tabula:對于簡單的表格,即單元格中沒有換行的,表頭表尾形式不復雜的,使用比較方便。但是單腦需要Java環境;
-pdfplumber:是一個可以處理pdf格式信息的庫。可以查找關于每個文本字符、矩陣、和行的詳細信息,也可以對表格進行提取并進行可視化調試。

本文采用pdfplumber庫讀取PDF中的表格,運行環境:Python3.5.2,Anaconda4.2.0。首先簡單介紹一下pdfplumber庫:

-pdfplumber.pdf中包含了.metadata和.pages兩個屬性:
.metadata是一個包含pdf信息的字典。
.pages是一個包含頁面信息的列表。

-pdfplumber.page的類中包含的主要的屬性:

.page_number 頁碼。
.width 頁面寬度。
.height 頁面高度。
.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表,每個列表都包含一個字典,每個字典用于說明頁面中的對象信息, 包括直線,字符, 方格等位置信息。

-一些常用的方法:

.extract_text() 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串。
.extract_words() 返回的是所有的單詞及其相關信息。
.extract_tables() 提取頁面的表格。
.to_image() 用于可視化調試時,返回PageImage類的一個實例。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
import pdfplumber
import pandas as pd
 
path = 'test.pdf'
pdf = pdfplumber.open(path)
i=1
#writer=pd.ExcelWriter('output.xlsx')
df=pd.DataFrame(columns=['序號','刊名','主辦單位','等級'])
sheetname=['考古文博','歷史學','馬克思主義理論','民族學與文化學','文學-外國文學','文學-中國文學','藝術學','語言學','哲學','宗教學','法學'
   ,'管理學','環境科學','教育學','經濟學-財政科學','經濟學-工業經濟','經濟學-金融','經濟學-經濟管理','經濟學-經濟綜合','經濟學-貿易經濟'
   ,'經濟學-農業經濟','經濟學-世界經濟','人文地理學','社會學','體育學','統計學','圖書館情報與檔案學','心理學','新聞學與傳播學'
   ,'政治學-國際政治','政治學-中國政治','綜合-高校綜合性學報','綜合-綜合性人文社科期刊']
   
##由于存在一個表格跨頁的情況,先將所有表格存放在一個DataFrame中,再根據序號拆分。
 
for page in pdf.pages[17:59]:
 print (page)
 # 獲取當前頁面的全部文本信息,包括表格中的文字
 # print(page.extract_text())
 for table in page.extract_tables():
  #print(table)
  df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)
print (df)
 
writer=pd.ExcelWriter('output3.xlsx')
new_df=pd.DataFrame()
j=1
index=[]
#記錄序號==1的行索引,用于后面的表格拆分
for i in range(len(df)):
 if df.ix[i,0]=='1':
  index.append(i)
  print ("################")
index.append(len(df))
#print (index)
 
#按行索引將內容切片并逐個添加到表中
for t in range(len(index)-1):
 new_df=df.ix[index[t]:index[t+1]-1,:]
 #print (new_df)
 new_df.to_excel(writer,sheet_name=sheetname[t],encoding='gb2312',index=None)
writer.save()
pdf.close()
print('finished')

最終保存為Excel。

python實現PDF中表格轉化為Excel的方法

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。

原文鏈接:https://blog.csdn.net/ziyin_2013/article/details/87980434

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产精品九九热 | 国产精品日本一区二区不卡视频 | 四虎网站最新网址 | 黑人破中国女人处 | 亚洲国产欧美在线人成 | 好男人免费高清在线观看2019 | 日本免费在线观看视频 | 国产好痛疼轻点好爽的视频 | 国产色婷婷亚洲 | 国产欧美精品一区二区三区–老狼 | 国产中文在线视频 | www.爱情岛论坛 | 国产播放器一区 | 爆操 | 国产高清在线看 | 高h肉厨房 | 国产剧情在线播放 | 日本人泡妞18xxⅹ | 免费观看在线永久免费xx视频 | 日韩免费在线观看 | 99久久免费国产特黄 | 国产精品酒店视频免费看 | 视频免费观看在线播放高清 | 太紧太深了受不了黑人 | 男女男在线精品网站免费观看 | 国产第一页在线视频 | 午夜免费小视频 | 深夜草莓视频 | 久久综合网久久综合 | 久久精品久久久 | 欧美三级不卡在线观线看高清 | 91桃花视频| 久久中文字幕亚洲精品最新 | 特黄a大片免费视频 | 欧美在线视频一区在线观看 | 色吧五月婷婷 | 国产综合欧美日韩视频一区 | 国产精品久久久久久 | 日韩性事 | 狠狠操社区 | 国产美女在线一区二区三区 |