準備工作
首先是準備工作,導入需要使用的庫,讀取并創建數據表取名為loandata。
1
2
3
|
import numpy as np import pandas as pd loandata = pd.DataFrame(pd.read_excel( 'loan_data.xlsx' )) |
設置索引字段
在開始提取數據前,先將member_id
列設置為索引字段。然后開始提取數據。
1
|
Loandata = loandata.set_index( 'member_id' ) |
按行提取信息
第一步是按行提取數據,例如提取某個用戶的信息。下面使用ix函數對member_id
為1303503的用戶信息進行了提取。
1
|
loandata.ix[ 1303503 ] |
按列提取信息
第二步是按列提取數據,例如提取用戶工作年限列的所有信息,下面是具體的代碼和提取結果,顯示了所有用戶的工作年齡信息。
1
|
loandata.ix[:, 'emp_length' ] |
按行與列提取信息
第三步是按行和列提取信息,把前面兩部的查詢條件放在一起,查詢特定用戶的特定信息,下面是查詢member_id
為1303503的用戶的emp_length
信息。
1
|
loandata.ix[ 1303503 , 'emp_length' ] |
在前面的基礎上繼續增加條件,增加一行同時查詢兩個特定用戶的貸款金額信息。具體代碼和查詢結果如下。結果中分別列出了兩個用戶的代碼金額。
1
|
loandata.ix[[ 1303503 , 1298717 ], 'loan_amnt' ] |
在前面的代碼后增加sum
函數,對結果進行求和,同樣是查詢兩個特定用戶的貸款進行,下面的結果中直接給出了貸款金額的匯總值。
1
|
loandata.ix[[ 1303503 , 1298717 ], 'loan_amnt' ]. sum () |
除了增加行的查詢條件以外,還可以增加列的查詢條件,下面的代碼中查詢了一個特定用戶的貸款金額和年收入情況,結果中分別顯示了這兩個字段的結果。
1
|
loandata.ix[ 1303503 ,[ 'loan_amnt' , 'annual_inc' ]] |
多個列的查詢也可以進行求和計算,在前面的代碼后增加sum
函數,對這個用戶的貸款金額和年收入兩個字段求和,并顯示出結果。
1
|
loandata.ix[ 1303503 ,[ 'loan_amnt' , 'annual_inc' ]]. sum () |
提取特定日期的信息
數據提取中還有一種很常見的需求就是按日期維度對數據進行匯總和提取,如按月,季度的匯總數據提取和按特定時間段的數據提取等等。
設置索引字段
首先將索引字段改為數據表中的日期字段,這里將issue_d設置為數據表的索引字段。按日期進行查詢和數據提取。
1
|
loandata = loandata.set_index( 'issue_d' ) |
按日期提取信息
下面的代碼查詢了所有2016年的數據。
1
|
loandata[ '2016' ] |
在前面代碼的基礎上增加月份,查詢所有2016年3月的數據。
1
|
loandata[ '2016-03' ] |
繼續在前面代碼的基礎上增加日期,查詢所有2016年6月16日的數據。
1
|
loandata[ '2016-06-16' ] |
除了按單獨日期查詢以外,還可以按日期段進行數據查詢,下面的代碼中查詢了所有2016年1月至5月的數據。下面顯示了具體的查詢結果,可以發現數據的日期都是在1-5月的,但是按日期維度顯示的,這就需要我們對數據按月進行匯總。
1
|
loandata[ '2016-01' : '2016-05' ] |
按日期匯總信息
Pandas中的resample
函數可以完成日期的聚合工作,包括按小時維度,日期維度,月維度,季度及年的維度等等。下面我們分別說明。首先是按周的維度對前面數據表的數據進行求和。下面的代碼中W表示聚合方式是按周,how表示數據的計算方式,默認是計算平均值,這里設置為sum
,進行求和計算。
1
|
loandata.resample( 'W' ,how = sum ).head( 10 ) |
將W改為M,數據變成了按月聚合的方式。計算方式依然是求和。這里需要說明的是resample
函數會顯示出所有連續的時間段,例如前面按周的聚合操作會顯示連續的周日期,這里的按月操作則會在結果中顯示連續的月,如果某個時間段沒有數據,會以NaN值顯示。
1
|
loandata.resample( 'M' ,how = sum ) |
將前面代碼中的M改為Q,則為按季度對數據進行聚合,計算方式依然為求和。從下面的數據表中看,日期顯示的都是每個季度的最后一天,如果希望以每個季度的第一天顯示,可以改為QS。
1
|
loandata.resample( 'Q' ,how = sum ) |
將前面代碼中的Q改為A,就是按年對數據進行聚合,計算方式依然為求和。
1
|
loandata.resample( 'A' ,how = sum ) |
前面的方法都是對整個數據表進行聚合和求和操作,如果只需要對某一個字段的值進行聚合和求和,可以在數據表后增加列的名稱。下面是將貸款金額字段按月聚合后求和,并用0填充空值。
1
|
loandata[ 'loan_amnt' ].resample( 'M' ,how = sum ).fillna( 0 ) |
在前面代碼的基礎上再增加一個數值字段,并且在后面的計算方式中增加len
用來計數。在下面的結果中分別對貸款金額和利息收入按月聚合,并進行求和和計數計算
1
|
loandata[[ 'loan_amnt' , 'total_rec_int' ]].resample( 'M' ,how = [ len , sum ]) |
有時我們需要只對某一時間段的數據進行聚合和計算,下面的代碼中對2016年1月至5月的數據按月進行了聚合,并計算求和。用0填充空值。
1
|
loandata[ '2016-01' : '2016-05' ].resample( 'M' ,how = sum ).fillna( 0 ) |
或者只對某些符合條件的數據進行聚合和計算。下面的代碼中對于貸款金額大于5000的按月進行聚合,并計算求和。空值以0進行填充。
1
|
loandata[loandata[ 'loan_amnt' ]> 5000 ].resample( 'M' ,how = sum ).fillna( 0 ) |
除了按周,月,季度和年以外,resample
函數還可以按以下方式對日期進行聚合。
下面給出了具體的對應表和說明。
總結
以上就是利用python按特定的維度或條件對數據進行提取的全部內容,希望本文的內容對大家學習使用Python能有所幫助。
原文鏈接:http://bluewhale.cc/2016-08-22/data-extraction-using-python.html