日本a级三级三级三级久久,成人羞羞视频在线看网址,五月天婷婷精品视频

Kubernetes 應用問題的通用排查思路

大家好，我是明哥！

本片文章介紹下 Kubernetes 應用問題的通用排查思路，分享一個線上此類問題的排查案例，總結下背后的相關知識，以饗讀者，大家共勉！

1 技術趨勢大背景

我們知道，大數據進一步發展的一個趨勢，就是大數據和云計算進一步融合（包括在底層更加青睞存儲計算分離的架構，在底層更加青睞對象存儲），在部署架構上支持混合云和多云場景，擁抱云計算走向云原生化。

對應到底層具體技術堆棧上，體現在各個主流大數據平臺和底層的大數據組件，紛紛開始支持以 Kubernetes 和 Docker 為代表的容器系列技術棧。

所以大數據從業者，需要不斷擴展自己的技能包，掌握 Kubernetes 和 Docker 的基礎知識和常見命令，才能在排查大數據相關問題時不至于捉襟見肘，因技能儲備短缺，無從下手。

從技術視角看大數據行業的發展趨勢

在此分享一個大數據平臺中 docker 容器相關故障的排查案列，并介紹下此類問題的背后知識和排查思路，以饗讀者，大家共勉！

2 問題現象

星環大數據平臺 TDH 中， zookeeper 服務無法正常啟動。我們知道 TDH 中，各個服務其實是在 k8s 的管控下運行于 docker 容器中，通過 kubectl get pods -owide |grep -i zoo 可以發現，對應的 pod 的狀態是CrashLoopBackOff，如下圖所示:

Kubernetes 應用問題的通用排查思路

pod-CrashLoopBackOff

3 背后知識：什么是 CrashLoopBackOff?

某個 pod 處于 CrashloopBackOff，意味著該 pod 中的容器被啟動了，然后崩潰了，接下來又被自動啟動了，但又崩潰了，如此周而復始，陷入了（starting, crashing, starting，crashing）的循壞.

注意：pod 中的容器之所以會被自動重啟，其實是通過 PodSpec 中的 restartPolicy 指定的，該配置項默認是 Always，即失敗后會自動重啟：

A PodSpec has a restartPolicy field with possible values Always, OnFailure, and Never which applies to all containers in a pod， the default value is Always;
The restartPolicy only refers to restarts of the containers by the kubelet on the same node (so the restart count will reset if the pod is rescheduled in a different node).
Failed containers that are restarted by the kubelet are restarted with an exponential back-off delay (10s, 20s, 40s …) capped at five minutes, and is reset after ten minutes of successful execution.

4 背后知識：為什么會發生 CrashLoopBackOff 錯誤？

pod 的 CrashLoopBackOff 錯誤還是挺常見的，該錯誤可能會因為多種原因被觸發，幾個主要的上層原因有：

Kubernetes 集群部署有問題;
該 pod 或 pod 底層的 container 的某些參數被配置錯了；
該 pod 內部的 container 中運行的應用程序，在多次重啟運行時都一直處于失敗狀態；

5 背后知識：如何排查 pod 容器底層的應用程序的故障?

當 pod 容器底層的應用程序運行出現故障時，通用的排查思路，一般是：

步驟一：通過命令 kubectl describe pod xxx 獲取 pod 詳細信息
步驟二：通過命令 kubectl logs xxx 查看 pod 容器底層的應用程序的日志
步驟三：進一步獲取并查看 pod 容器底層的應用程序的其它日志文件，深挖問題原因

有的小伙伴可能會有疑問，上述步驟二和步驟三都是查看 pod 容器底層的應用程序的日志，有什么區別呢？

其實步驟二和步驟三在底層查看的是應用程序的不同的日志文件，其底層細節跟 kubernetes 的日志機制，以及該 pod 底層的應用程序將日志寫向何處有關：

kubectl logs 展示的是 pod 底層的 container 的標準輸出 stdout 和標準錯誤 stderr 的日志；
應用程序寫到其它文件的日志，kubectl logs 展示不了，需要獲取日志文件路徑，并自行查看；
k8s 建議應用程序將日志寫到 container 的標準輸出 stdout 和標準錯誤 stderr；
容器內的應用程序可以將日志直接寫到 container 的標準輸出 stdout 和標準錯誤 stderr；
如果容器內的應用程序不能或不方便將日志直接寫到 container 的標準輸出 stdout 和標準錯誤 stderr，可以使用 sidecar 即邊車模式，在應用程序的 container 所在的 pod 內部署另一個 sidecar container，該 sidecar container 負責讀取應用程序的日志文件并輸出到其標準輸出 stdout 和標準錯誤 stderr 里；
k8s 在底層會通過運行在各個節點的 kubelet 來收集節點中所有 container 的 stdout 和 stderr 日志，并寫到一個 kubelet 管理的本地文件中；
用戶執行 kubectl logs xx 命令時，該命令在底層會調用該 container 對應節點上的 kubelet 來檢索其管理的本地日志文件，以獲取日志;
用戶使用 kubectl log xxx 來檢索應用程序日志，省去了用戶登錄 k8s 集群中對應節點查看對應日志的繁瑣操作，提供了很大遍歷；

ps. 我們這里討論的是運行在 k8s 容器中的應用程序的日志，除了應用程序的日志，其實整個k8s 集群中還有很多系統組件的日志，如：docker，kubelet，kube-proxy，kube-apiserver，kube-scheduler，etcd等。

6 問題排查復盤

按照上述通用問題排查思路，我們復盤回顧下該 CrashLoopBackOff 問題的排查經過。

6.1：問題排查復盤：通過命令 kubeclt describe pod xxx 獲取 pod 詳細信息

該命令輸出的部分截圖如下，通過輸出中 Events 部分，我們可以獲取如下信息：該 pod 被成功地分配到了某個節點上，然后鏡像拉取成功，然后 contaier 創建和啟動成功，但隨后 contaier 中程序運行失敗，最后 pod 進入到了 BackOff 狀態：

Kubernetes 應用問題的通用排查思路

kubectl-describe-pod

該命令的詳細輸出如下：

kubectldescribepodzookeeper-server-license-7fbfc544fc-h8nn9
Name:zookeeper-server-license-7fbfc544fc-h8nn9
Namespace:default
Priority:0
PriorityClassName:
Node:uf30-tdh3-regression/10.20.159.115
StartTime:Mon,11Oct202116:56:30+0800
Labels:name=zookeeper-server-license
pod-template-hash=3969710097
podConflictName=zookeeper-server-license
Annotations:
Status:Running
IP:10.20.159.115
ControlledBy:ReplicaSet/zookeeper-server-license-7fbfc544fc
Containers:
zookeeper-server-license:
ContainerID:docker://0887c97ab185f1b004759e8c85b48631f511cb43088424190c3f27c715bb8414
Image:transwarp/zookeeper:transwarp-6.0.2-final
ImageID:docker-pullable://transwarp/zookeeper@sha256:19bf952dedc70a1d82ba9dd9217a2b7e34fc018561c2741d8f6065c0d87f8a10
Port:
Args:
boot.sh
LICENSE_NODE
State:Terminated
Reason:Error
ExitCode:1
Started:Mon,11Oct202117:12:09+0800
Finished:Mon,11Oct202117:12:10+0800
LastState:Terminated
Reason:Error
ExitCode:1
Started:Mon,11Oct202117:07:07+0800
Finished:Mon,11Oct202117:07:08+0800
Ready:False
RestartCount:8
Environment:
ZOOKEEPER_CONF_DIR:/etc/license/conf
Mounts:
/etc/license/conffromconf(rw)
/etc/localtimefromtimezone(rw)
/etc/tos/conffromtos(rw)
/etc/transwarp/conffromtranswarphosts(rw)
/usr/lib/transwarp/pluginsfromplugin(rw)
/var/licensefromdata(rw)
/var/log/license/fromlog(rw)
/var/run/secrets/kubernetes.io/serviceaccountfromdefault-token-g42jt(ro)
/vdirfrommountbind(rw)
Conditions:
TypeStatus
InitializedTrue
ReadyFalse
PodScheduledTrue
Volumes:
data:
Type:HostPath(barehostdirectoryvolume)
Path:/var/license
HostPathType:
conf:
Type:HostPath(barehostdirectoryvolume)
Path:/etc/license/conf
HostPathType:
log:
Type:HostPath(barehostdirectoryvolume)
Path:/var/log/license/
HostPathType:
mountbind:
Type:HostPath(barehostdirectoryvolume)
Path:/transwarp/mounts/license
HostPathType:
plugin:
Type:HostPath(barehostdirectoryvolume)
Path:/usr/lib/transwarp/plugins
HostPathType:
timezone:
Type:HostPath(barehostdirectoryvolume)
Path:/etc/localtime
HostPathType:
transwarphosts:
Type:HostPath(barehostdirectoryvolume)
Path:/etc/transwarp/conf
HostPathType:
tos:
Type:HostPath(barehostdirectoryvolume)
Path:/etc/tos/conf
HostPathType:
default-token-g42jt:
Type:Secret(avolumepopulatedbyaSecret)
SecretName:default-token-g42jt
Optional:false
QoSClass:BestEffort
Node-Selectors:zookeeper-server-license=true
Tolerations:node.kubernetes.io/not-ready:NoExecutefor300s
node.kubernetes.io/unreachable:NoExecutefor300s
Events:
TypeReasonAgeFromMessage
-------------------------
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"default-token-g42jt"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"conf"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"tos"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"mountbind"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"transwarphosts"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"log"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"plugin"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"data"
NormalSuccessfulMountVolume15mkubelet,uf30-tdh3-regressionMountVolume.SetUpsucceededforvolume"timezone"
NormalScheduled15mdefault-schedulerSuccessfullyassignedzookeeper-server-license-7fbfc544fc-h8nn9touf30-tdh3-regression
NormalPulled15m(x3over15m)kubelet,uf30-tdh3-regressionSuccessfullypulledimage"transwarp/zookeeper:transwarp-6.0.2-final"
NormalCreated15m(x3over15m)kubelet,uf30-tdh3-regressionCreatedcontainer
NormalStarted15m(x3over15m)kubelet,uf30-tdh3-regressionStartedcontainer
NormalPulling15m(x4over15m)kubelet,uf30-tdh3-regressionpullingimage"transwarp/zookeeper:transwarp-6.0.2-final"
WarningBackOff44s(x70over15m)kubelet,uf30-tdh3-regressionBack-offrestartingfailedcontainer

6.2 問題排查復盤：通過命令 kubectl logs xxx 查看 pod 容器底層的應用程序的日志

接下來我們嘗試通過命令 kubectl logs xxx 查看 pod 容器底層的應用程序的日志，以期找到問題的原因，該命令的輸出部分截圖如下所示：圖片

如上圖所見，不幸的是，該命令的輸出，沒有展示出問題的根本原因。

在底層日志機制上，應該是星環 tdh 中該 zk 應用沒有將日志打印到標準輸出 stdout 和標準錯誤 stderr, 所以 kubectl logs xxx 查看不到對應的日志。

我們需要進一步排查。

6.3 問題排查復盤：進一步獲取并查看 pod 容器底層的應用程序的其它日志文件，深挖問題原因

進一步排查問題，我們首先需要獲取 pod 容器底層的應用程序的其它日志文件的路徑。

由于 tdh 是閉源的，我們查看不到應用程序的源碼，在沒有聯絡官方客戶的情況下，我們可以通過命令 kubectl describe pod xxx 查看該 pod 掛載了哪些 volume，然后猜測并驗證獲得具體的日志文件的路勁給，（排查問題就是要，大膽猜想，小心求證！）

該命令輸出的部分截圖如下，我們看到其中掛載了路徑 /var/log/license:

Kubernetes 應用問題的通用排查思路

接下來我們查看這些日志文件/var/log/license，嘗試深挖問題原因，注意，該文件是本地文件系統的文件，需要登錄到對應的節點上去查看，該日志文件部分關鍵截圖如下：

Kubernetes 應用問題的通用排查思路

通過日志，問題原因找到了：zk 底層存儲在本地文件系統中的文件 /var/license/version-2/snapshot.70000007a 損壞了，所以無法啟動:

2021-10-1117:07:08,330ERRORorg.apache.zookeeper.server.persistence.Util:[myid:16]-[main:Util@239]-Lasttransactionwaspartial.
2021-10-1117:07:08,331ERRORorg.apache.zookeeper.server.quorum.QuorumPeer:[myid:16]-[main:QuorumPeer@453]-Unabletoloaddatabaseondisk
java.io.EOFExceptionatjava.io.DataInputStream.readInt(DataInputStream.java:392)

該日志文件詳細內容如下：

tail-50/var/log/license/zookeeper.log
2021-10-1117:07:08,203INFOorg.apache.zookeeper.server.DatadirCleanupManager:[myid:16]-[main:DatadirCleanupManager@101]-Purgetaskisnotscheduled.
2021-10-1117:07:08,212INFOorg.apache.zookeeper.server.quorum.QuorumPeerMain:[myid:16]-[main:QuorumPeerMain@127]-Startingquorumpeer
2021-10-1117:07:08,221INFOorg.apache.zookeeper.server.NIOServerCnxnFactory:[myid:16]-[main:NIOServerCnxnFactory@94]-bindingtoport0.0.0.0/0.0.0.0:2291
2021-10-1117:07:08,235INFOorg.apache.zookeeper.server.quorum.QuorumPeer:[myid:16]-[main:QuorumPeer@913]-tickTimesetto9000
2021-10-1117:07:08,235INFOorg.apache.zookeeper.server.quorum.QuorumPeer:[myid:16]-[main:QuorumPeer@933]-minSessionTimeoutsetto-1
2021-10-1117:07:08,235INFOorg.apache.zookeeper.server.quorum.QuorumPeer:[myid:16]-[main:QuorumPeer@944]-maxSessionTimeoutsetto-1
2021-10-1117:07:08,236INFOorg.apache.zookeeper.server.quorum.QuorumPeer:[myid:16]-[main:QuorumPeer@959]-initLimitsetto10
2021-10-1117:07:08,285INFOorg.apache.zookeeper.server.persistence.FileSnap:[myid:16]-[main:FileSnap@83]-Readingsnapshot/var/license/version-2/snapshot.70000007a
2021-10-1117:07:08,330ERRORorg.apache.zookeeper.server.persistence.Util:[myid:16]-[main:Util@239]-Lasttransactionwaspartial.
2021-10-1117:07:08,331ERRORorg.apache.zookeeper.server.quorum.QuorumPeer:[myid:16]-[main:QuorumPeer@453]-Unabletoloaddatabaseondisk
java.io.EOFException
atjava.io.DataInputStream.readInt(DataInputStream.java:392)
atorg.apache.jute.BinaryInputArchive.readInt(BinaryInputArchive.java:63)
atorg.apache.zookeeper.server.persistence.FileHeader.deserialize(FileHeader.java:64)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.inStreamCreated(FileTxnLog.java:558)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.createInputArchive(FileTxnLog.java:577)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.goToNextLog(FileTxnLog.java:543)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.next(FileTxnLog.java:625)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.init(FileTxnLog.java:529)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.(FileTxnLog.java:504)
atorg.apache.zookeeper.server.persistence.FileTxnLog.read(FileTxnLog.java:341)
atorg.apache.zookeeper.server.persistence.FileTxnSnapLog.restore(FileTxnSnapLog.java:132)
atorg.apache.zookeeper.server.ZKDatabase.loadDataBase(ZKDatabase.java:223)
atorg.apache.zookeeper.server.quorum.QuorumPeer.loadDataBase(QuorumPeer.java:417)
atorg.apache.zookeeper.server.quorum.QuorumPeer.start(QuorumPeer.java:409)
atorg.apache.zookeeper.server.quorum.QuorumPeerMain.runFromConfig(QuorumPeerMain.java:151)
atorg.apache.zookeeper.server.quorum.QuorumPeerMain.initializeAndRun(QuorumPeerMain.java:111)
atorg.apache.zookeeper.server.quorum.QuorumPeerMain.main(QuorumPeerMain.java:78)
2021-10-1117:07:08,332ERRORorg.apache.zookeeper.server.quorum.QuorumPeerMain:[myid:16]-[main:QuorumPeerMain@89]-Unexpectedexception,exitingabnormally
java.lang.RuntimeException:Unabletorunquorumserver
atorg.apache.zookeeper.server.quorum.QuorumPeer.loadDataBase(QuorumPeer.java:454)
atorg.apache.zookeeper.server.quorum.QuorumPeer.start(QuorumPeer.java:409)
atorg.apache.zookeeper.server.quorum.QuorumPeerMain.runFromConfig(QuorumPeerMain.java:151)
atorg.apache.zookeeper.server.quorum.QuorumPeerMain.initializeAndRun(QuorumPeerMain.java:111)
atorg.apache.zookeeper.server.quorum.QuorumPeerMain.main(QuorumPeerMain.java:78)
Causedby:java.io.EOFException
atjava.io.DataInputStream.readInt(DataInputStream.java:392)
atorg.apache.jute.BinaryInputArchive.readInt(BinaryInputArchive.java:63)
atorg.apache.zookeeper.server.persistence.FileHeader.deserialize(FileHeader.java:64)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.inStreamCreated(FileTxnLog.java:558)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.createInputArchive(FileTxnLog.java:577)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.goToNextLog(FileTxnLog.java:543)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.next(FileTxnLog.java:625)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.init(FileTxnLog.java:529)
atorg.apache.zookeeper.server.persistence.FileTxnLog$FileTxnIterator.(FileTxnLog.java:504)
atorg.apache.zookeeper.server.persistence.FileTxnLog.read(FileTxnLog.java:341)
atorg.apache.zookeeper.server.persistence.FileTxnSnapLog.restore(FileTxnSnapLog.java:132)
atorg.apache.zookeeper.server.ZKDatabase.loadDataBase(ZKDatabase.java:223)
atorg.apache.zookeeper.server.quorum.QuorumPeer.loadDataBase(QuorumPeer.java:417)
...4more

7 問題解決

通過以上通用問題排查思路，我們查看日志找到了問題原因：zk 底層存儲在本地文件系統中的文件 /var/license/version-2/snapshot.70000007a 損壞了，所以無法啟動。由于集群中 zk 是有多個節點的，且其它節點的 zk 啟動是成功的，所以我們可以刪除該問題節點上述目錄下的數據文件，然后重啟該節點的 zk，重啟后該節點的 zk 就可以從其它節點復制數據到本地，就可以正常對外提供服務了！

zk 底層存儲在本地文件系統中的文件，在正常節點于問題節點，對比截圖如下：

Kubernetes 應用問題的通用排查思路

zk data on good node

Kubernetes 應用問題的通用排查思路

zk data on bad node

按照上述方法，清空目錄重啟zk后，kubectl get pods 查看服務正常，截圖如下：

Kubernetes 應用問題的通用排查思路

kubectl-get-pods-after-fix

注意：其實 zk 也提供了系統工具 zkCleanup.sh 來清理本地數據文件，筆者沒有使用該工具，而是手工備份和清空了問題節點的本地文件。大家可以自行嘗試該工具。

Kubernetes 應用問題的通用排查思路

zkCleanup.sh

8 知識總結

大數據從業者，需要不斷擴展自己的技能包，掌握 Kubernetes 和 Docker 的基礎知識和常見命令，才能在排查大數據相關問題時不至于捉襟見肘，因技能儲備短缺，無從下手;
某個 pod 處于 CrashloopBackOff，意味著該 pod 中的容器被啟動了，然后崩潰了，接下來又被自動啟動了，但又崩潰了，如此周而復始，陷入了（starting, crashing, starting，crashing）的循壞;
當 pod 容器底層的應用程序運行出現故障時，通用的排查思路，一般是：

步驟一：通過命令 kubectl describe pod xxx 獲取 pod 詳細信息;

步驟二：通過命令 kubectl logs xxx 查看 pod 容器底層的應用程序的日志;

步驟三：進一步獲取并查看 pod 容器底層的應用程序的其它日志文件，深挖問題原因;

kubectl logs 展示的是 pod 底層的 container 的標準輸出 stdout 和標準錯誤 stderr 的日志, 應用程序寫到其它文件的日志，kubectl logs 展示不了，需要獲取日志文件路徑，并自行查看；
k8s 建議應用程序將日志寫到 container 的標準輸出 stdout 和標準錯誤 stderr；
容器內的應用程序可以將日志直接寫到 container 的標準輸出 stdout 和標準錯誤 stderr；如果容器內的應用程序不能或不方便將日志直接寫到 container 的標準輸出 stdout 和標準錯誤 stderr，可以使用 sidecar 即邊車模式，在應用程序的 container 所在的 pod 內部署另一個 sidecar container，該 sidecar container 負責讀取應用程序的日志文件并輸出到其標準輸出 stdout 和標準錯誤 stderr 里；
k8s 在底層會通過運行在各個節點的 kubelet 來收集節點中所有 container 的 stdout 和 stderr 日志，并寫到一個 kubelet 管理的本地文件中；
用戶執行 kubectl logs xx 命令時，該命令在底層會調用該 container 對應節點上的 kubelet 來檢索其管理的本地日志文件，以獲取日志;
用戶使用 kubectl log xxx 來檢索應用程序日志，省去了用戶登錄 k8s 集群中對應節點查看對應日志的繁瑣操作，提供了很大便利；
排查問題，需要大膽猜想小心求證！

原文鏈接：https://mp.weixin.qq.com/s/qA3dHhsOQtu56UNwn-tsLQ