實際工作中,數據集很少是完整的,許多情況下樣本中都會包括若干缺失值NA,這在進行數據分析和挖掘時比較麻煩。
R語言通過na.fail和na.omit可以很好地處理樣本中的缺失值
1、na.fail(<向量a>): 如果向量a內包括至少1個NA,則返回錯誤;如果不包括任何NA,則返回原有向量a
2、na.omit(<向量a>): 返回刪除NA后的向量a
3、attr( na.omit(<向量a>) ,”na.action”): 返回向量a中元素為NA的下標
4、is.na:判斷向量內的元素是否為NA
example:
1
2
3
4
5
6
7
8
9
10
11
12
|
data<-c(1,2,NA,2,4,2,10,NA,9) data.na.omit<-na.omit(data) data.na.omit [1] 1 2 2 4 2 10 9 attr(, "na.action" ) [1] 3 8 attr(, "class" ) [1] "omit" attr(data.na.omit, "na.action" ) [1] 3 8 attr(, "class" ) [1] "omit" |
另外還可以使用!x方式方便地刪除NA。
例如:
1
2
3
|
a<-c(1,2,3,NA,NA,2,NA,5) a[!is.na(a)] [1] 1 2 3 2 5 |
其中,is.na用于判斷向量內的元素是否為NA,返回結果:c(FALSE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE,FALSE),即a內元素為NA,其對應的下標元素是TRUE,反之是FALSE。
!x是取非邏輯運算符,!is.na(a)表示a內元素不為NA,其對應的下標元素是TRUE,反之是FALSE。
通過a[!is.na(a)]進行索引后,即可取出a內不為NA的元素,將其過濾。
其中,函數na.fail和 na.omit 不僅可以應用于向量,也可以應用于矩陣和數據框。
example:
1
2
3
4
5
6
7
8
9
10
11
12
|
data <- read .table(text=" a b c d e f NA 1 1 1 1 1 1 NA 1 1 1 1 1 1 NA 1 1 1 1 1 1 NA 1 1 1 1 1 1 NA 1 1 1 1 1 1 NA",header=T) na.omit(data) data >[1] a b c d e f <0 行> (或0-長度的row.names) |
補充:R語言移除缺失值 NA.RM
看代碼~
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
|
> a <- 2:12 > b <- seq (2,23,2) > c <- c(1:11)^3 > d <- c(5:8, 30:36) > df <- data.frame(a,b,c,d) > df $a[ df $a==8] <- NA > df $b[ df $b==8] <- NA > df $c[ df $c==8] <- NA > df $d[ df $d==8] <- NA > df $d[ df $d==32] <- NA > df a b c d 1 2 2 1 5 2 3 4 NA 6 3 4 6 27 7 4 5 NA 64 NA 5 6 10 125 30 6 7 12 216 31 7 NA 14 343 NA 8 9 16 512 33 9 10 18 729 34 10 11 20 1000 35 11 12 22 1331 36 // 只根據第四列,也就是d 的 NA,移除相應的行 > bad.d <- is.na( df $d) > bad.d [1] FALSE FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE > df [!bad.d,] a b c d 1 2 2 1 5 2 3 4 NA 6 3 4 6 27 7 5 6 10 125 30 6 7 12 216 31 8 9 16 512 33 9 10 18 729 34 10 11 20 1000 35 11 12 22 1331 36 // 根據第二列和第三列的NA 移除相應的行 > df [complete.cases( df [,2:3]),] a b c d 1 2 2 1 5 3 4 6 27 7 5 6 10 125 30 6 7 12 216 31 7 NA 14 343 NA 8 9 16 512 33 9 10 18 729 34 10 11 20 1000 35 11 12 22 1331 36 // 根據第二列和 第四列的NA,移除相應的行 > df [complete.cases( df [,c(2,4)]),] a b c d 1 2 2 1 5 2 3 4 NA 6 3 4 6 27 7 5 6 10 125 30 6 7 12 216 31 8 9 16 512 33 9 10 18 729 34 10 11 20 1000 35 11 12 22 1331 36 // 根據所有列的NA,移除相應的行 > df [complete.cases( df ),] a b c d 1 2 2 1 5 3 4 6 27 7 5 6 10 125 30 6 7 12 216 31 8 9 16 512 33 9 10 18 729 34 10 11 20 1000 35 11 12 22 1331 36 > // 這個效果跟上面的 df [complete.cases( df ),] 相同 > na.omit( df ) a b c d 1 2 2 1 5 3 4 6 27 7 5 6 10 125 30 6 7 12 216 31 8 9 16 512 33 9 10 18 729 34 10 11 20 1000 35 11 12 22 1331 36 // 計算某一列的平均值, 移除NA值 > mean( df $d, na. rm =TRUE) |
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持服務器之家。如有錯誤或未考慮完全的地方,望不吝賜教。
原文鏈接:https://blog.csdn.net/SThranduil/article/details/71710283