pytorch在數據中采用Dataset的數據保存方式,需要繼承data.Dataset類,如果需要自己處理數據的話,需要實現兩個基本方法。
:.getitem:返回一條數據或者一個樣本,obj[index] = obj.getitem(index). :.len:返回樣本的數量 。 len(obj) = obj.len()。
Dataset 在data里,調用的時候使用
1
2
3
|
from torch.utils import data import os from PIL import Image |
數據在調用getitem的時候才會讀取圖片數據,如果需要可以修改成自己的getitem函數,根據自己的數據集來設定,比如
1
2
3
4
5
6
7
8
9
10
|
def _getitem_( self ,index): img_path = self .imgs[index]; ##這里理解是加載了所有圖像的路徑,封裝成自身的格式 labels = [] ##根據自己的格式進行處理 pil_img = Image. open (img_path); ##根據上面封裝好的格式進行讀取 array = np.array(pil_img); ##將讀取的圖像轉成array數據表示的格式 data = t.from_numpy(array) #轉成Tensor格式,方便后面網絡操作 return data,label; def _len_( self ): return len ( self .imgs); ###imgs是一個絕對路徑 |
在主函數里調用的時候,只需使用
采用Dataset的缺點在于實際中圖像的大小不一,對數據處理中很不友好,其次數據太大,容易造成溢出,需要進行歸一化,因此torchvision提供了transforms模塊對Image進行和Tensor進行操作。
對PIL_Image的常見操作:
Scale,調整圖像尺寸。centerCrop:randomcrop:randomsizecrop:裁剪圖片
pad:填充
ToTensor:將Image圖像轉化成tensor,并自動歸一化到[0,1]
對Tensor的常見操作:
Normalize:標準化,減去均值,除以標準差。 ToPILImage:將Tensor轉變成PILImage格式,可以方便后續的可視化。
—————————我是分割線—————————
上面介紹了需要自定義的數據處理方法,pytorch早封裝好了比較常用方便的方法.
transforms中的ImageFolder, 該類的好處是,所有文件按照類別進行保存,文件名就是類別名,不需要另外再生成label.txt了,也不需要像上面預處理下Label,該類會自動生成標簽,構造函數如下:
ImageFolder(root,transform= None,target_transforms=None,loader=default_loader) ##其中root指定路徑,transform:對PIL_Image進行轉換操作,輸入參數是loader的返回對象。target_transform:是label的轉換,loader:是指定加載圖片的函數,默認操作是讀取為PIL_Image對象。
通過該函數得到的Lable按照文件夾名順序排序后形成字典的,比如{類名:序號從0開始}
,一般最好把文件夾命名為從0開始的數字,和Imageloader的實際的Lable一致,如果不是,可以通過self.class_to_ids來查看你得到的數據的映射關系,比如你的文件夾是cat和dog,那么loader就是自動從0開始標簽,self.class_to_ids得到的就是{‘cat':0,'dog':1}。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
dataset = ImageLoader( 'root' ); dataset.imgs ##返回圖片路徑和對應的標簽 dataset[ 5 ][ 1 ] ; ##返回第5張圖的標簽 dataset[ 5 ][ 0 ]; ##返回第5張圖的圖像數據,顯示出來的就是一副圖像,這時候并沒有轉成Tensor格式,所以需要手動轉換 dataset[ 0 ][ 0 ].size(); ##輸出第一個圖像的大小 ##得到的結果如下,表示該圖像是3通道,大小為224*224 [ 3 , 224 , 224 ]; ###定義一個transform,對數據進行各種預處理。 mytransform = T.Compose([ randomSize; T.ToTensor(), ##重點是要記得轉成Tensor格式 normlize; ]); dataset = ImageLoader( 'root' ,transform = mytransform); |
調用ImageLoader把讀取的圖像轉成dataset存儲后,再使用DataLoader對上面得到的圖像tensor數據進行抽樣,打亂和分批次操作,操作格式如下:
1
|
DataLoader(dataset,batch_size,shuffle = False ,sampler = None ,num_workers = 0 ,collate_fn = default,pin_memory = False ,drop_last = False ); |
其中:
dataset:加載得到的dataset對象,就是上面得到的DataSet和ImageLoader得到的對象(ImageLoader需要進行tensor轉換后才行)。
batch_size:批處理的大小
shuffle:是否要把數據進行打亂。(這樣可以防止連續多個樣本都是同一類別)
sampler:樣本抽樣.會改變本身dataset的大?。梢栽诓皇莃atch倍數的時候使用)
num_workers:多進程數量,0表示不使用多進程。
collate_fn:一般采用默認的batch拼接方式。
pin_memory;是否將數據保存在pin_memory里,將這的數據轉到GPU會快一些。
drop_last:有可能不是batch的整數倍,將不足一個batch的數據丟棄。
dataloader是一個迭代對象,使用方法與一個迭代器相似,例如:
1
2
|
for batch_data, batch_label in dataloader: ##是按照一batch的數量進行拼接的,以每batch進行迭代。 |
--------torchvision數據處理和可視化常用工具--------------
models:保存了訓練好的模型
datasets:保存了數據集,主要包括minist,imagenet等
transforms:提供常用的數據預處理操作。
make_grid: make_grid(dataloader[0],4):將第一個batch的圖像拼接成4*4網格
save_image:直接將tensor格式的數據保存成圖像
tensorboard是tensorflow框架使用的,但是也有針對pytorch的Tensorboardx,能讀取數據并進行可視化,使用比tensorflow的更加方便,本文主要介紹另外一種工具visdom,pytorch的專屬可視化工具,支持數據,圖像,文本,視頻的顯示。visdom有以下兩種概念:
env:環境,默認使用Main環境,不同用戶的環境可能不同,需要專門指定。
pane:窗格,用于進行可視化,可以拖放,縮放和保存關閉,可以多個顯示。
可以使用pip install visdom直接進行安裝,在使用visdom的時候需要注意,保存時候需要手動指定保存的env,其次客戶端和服務端之間交互采用tornado框架,不會受其他程序的影響。visdom需要使用nohup python -m visdom.server命令啟動,放在后臺運行。
1
2
3
4
5
6
|
import visdom vis = visdom.Visdom(env = u 'test' );指定一個環境,新建一個客戶端,還可以指定host和端口 x = ; y = ; vis.line(X = x,Y = y,win = 'sinx' ,opts = { 'title' : 'y=sinx' }; #畫圖 - line, - image, - text, - histgram, - scatter, - bar, - pie. |
同時支持pytorch的tensor和Numpy結構,但不支持int float類型,vis.updateTrace更新之前的圖。
visdom的畫圖工具可以接受兩種,一種是image,接受二維或者三維的,前者是黑白的,后者是彩色圖像,Images接受一個4維向量的nch*w,c可以是1或者3,代表黑白或者彩色的,n表示圖片的數量。
--------臨時記錄下已有的Loss函數-------
nn.CrossEntropyLoss(); ##交叉熵函數
nn.MSELoss(); ##均方差函數
nn.NLLLoss()
nn.NLL2dLoss();
loss函數后面再學習。
以上這篇pytorch中的自定義數據處理詳解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持服務器之家。
原文鏈接:https://www.jianshu.com/p/6c8c14707d01