前言
當一個iOS應用程序崩潰時,系統會創建一份crash日志保存在設備上。這份crash日志記錄著應用程序崩潰時的信息,通常包含著每個執行線程的棧調用信息(低內存閃退日志例外),對于開發人員定位問題很有幫助。
為保障線上 App 的用戶體驗,我們一般都會對線上 App 的 crash 率做實時監控,一旦檢測到 spike,可以即刻調查原因,但這一切的前提是 crash 日志能夠準確上報。
crash 日志上報有兩個難點:
-
crash handler 安裝之前的代碼要絕對穩定
如果日志采集器還沒成功啟動就 crash 了,自然什么日志也無法采集到。這一點并沒有太多技巧可言,只能嚴格限制 handler 啟動之前可以執行的代碼。 -
App 無限循環 crash 時上報
crash 日志上報時,會發送網絡請求,如果請求成功之前 App 又發生 crash 該如何處理?用戶甚至會陷入無限循環的 crash 中。
這篇文章介紹下出現第二種情況時,如何準確上報 crash 日志。
首先我們需要一種比較可靠的方式,可以在 app 啟動時判斷上次是否發生了啟動 crash。介紹一個可行的思路。
如何檢測連續閃退
連續閃退包含兩個元素,閃退和連續。只有這兩個元素同時具備時,才會影響我們的日志上傳。閃退的定義可以簡單為
app crash 時間 - app 啟動時間 <= 5s (或者其他 threshold)
連續的定義為,至少接連出現兩次或者以上。一般 2 次就夠了,很多時候用戶連續經歷兩次閃退,就會放棄嘗試。
我們可以通過記錄若干個特殊的時間點 timestamp 來試圖還原 App crash 場景下的生命周期。
-
App 啟動 timestamp,定義為 launchTs
App 每次啟動時,記錄當前時間,寫入時間數組。 -
App crash timestamp,定義為 crashTs
App 每次啟動時,通過 crash 采集庫,獲取上次 crash report 的時間戳,寫入時間數組。 -
App 正常退出 timestamp,定義為 terminateTs
App 在接收到 UIApplicationWillTerminateNotification 通知時,記錄當前時間戳,寫入時間數組。注意,還有很多種 App 退出行為的時間戳是無法被準確記錄的。
之所以要記錄 terminateTs,是為了排除一種特殊情況,即用戶啟動 App 之后立即手動 kill app。如果我們正確記錄了上面三個時間戳,那么我們可以得到一個與 App crash 行為相關的時間線。比如:
launchTs => crashTs => launchTs => terminateTs
或者
launchTs => launchTs => launchTs
或者
launchTs => crashTs => launchTs => crashTs => launchTs
請自行腦洞上面三種時間線的行為特征。很明顯,第三種時間線看上去是連續 crash 了兩次。我們只需要加上時間間隔判斷,就能得知是否為連續兩次閃退了。注意,如果兩個 crashTs 之間如果存在 terminateTs,則不能被認為是連續閃退。檢測代碼比較簡單,我就不貼了。
這個時間線只是記錄與 crash 相關的 App 啟動和退出行為,還有很多特殊的時間點沒有記錄,比如 App 在 前臺發生 out of memory(FOOM),App 在前臺 main thread 卡住被系統 Watch Dog 殺掉,iOS 系統升級時 App 被強殺,App 從 AppStore 升級時被強殺等等,這些特殊的時間點都沒有記錄,不過這些并不影響我們的 App 連續閃退檢測,所以可以忽略。
這里指的注意的是,因為啟動時要從 disk 讀取時間線記錄,涉及磁盤讀寫,會對 App 的啟動時間產生影響,一個優化點是,在每次寫入時間點移除掉較老的 timestamp,比如只記錄最近 5 個時間戳。或者在沒有讀取到 crash 日志時,甚至不用啟動連續閃退檢測的整個流程。
接下來,我們看假設檢測到連續閃退,我們如何繼續上傳日志。
同步等待 Crash 日志上傳
最直白的方式,在 App 的代碼繼續執行之前,先等待日志上傳成功。
把網絡請求改成同步的?這會卡住 UI 線程,網絡差的場景下會被系統 watch dog 強殺,顯然不可取。
我們可以依舊保持異步網絡請求,但是,暫時中斷 UI 線程的流程,讓整個 App 處于 UI 線程的 runloop 等待中,一旦網絡請求成功,則跳回到 UI 線程的原有代碼流程。
看著簡單的實現,有幾個細節需要注意。首先我們需要增加一個 App 交互,一旦進入 runloop 等待,展示一個 loading 界面,告知用戶耐心等待。其次,這個等待時間不能過長,我個人建議不超過 5s,一旦超過 5s,無論 crash 日志上傳的 request 是否成功,都恢復 App 原有代碼流程。5s 內日志都無法上傳成功的情況應該比較小,除非日志文件過大。
這種做法缺陷也很明顯,一是改動比較大(修改了原有代碼流程),二是需要增加新的 UI 交互,三是延長了用戶的等待時間。
我們來看另一種取巧的做法。
啟用后臺進程上傳 Crash 日志
其實最理想的日志上傳,是將上傳的 request 放到另一個不同的進程,那么即使 App 又發生閃退,也不會影響到另一個進程代碼的執行。
問題是,iOS app 都處于 sandbox 環境下,系統不允許代碼 fork 一個新進程。
幸運的是,從 iOS 8 開始,系統對 NSURLSession 新增了一個 background session 特性。這個特性允許 NSURLSession 將網絡請求放入到一個單獨的進程中執行。我個人感覺,這個特性設計,原本是為了增強某些 App 后臺下載音視頻等資源的體驗。我實際測試下來,發現不管下載或者是上傳,我們都可以將網絡請求放入另一個進程。代碼也很簡單,比如我寫一段如下的測試代碼:
1
2
3
4
5
6
7
|
NSURLSessionConfiguration *config = [NSURLSessionConfiguration backgroundSessionConfigurationWithIdentifier:@ "com.mrpeak.background.crashupload" ]; NSURLSession *session = [NSURLSession sessionWithConfiguration:config delegate:self delegateQueue:[NSOperationQueue new ]]; NSURL *url = [NSURL URLWithString:@ "https://images.unsplash.com/photo-1515816949419-7caf0a210607?ixlib=rb-0.3.5&ixid=eyJhcHBfaWQiOjEyMDd9&s=f46b60857b4826e733da34993ec26a2f&auto=format&fit=crop&w=1534&q=80" ]; NSURLSessionDownloadTask *task = [session downloadTaskWithURL:url]; [task resume]; exit (0); |
執行之后,我們可以在 console 中看到如下日志:
可以清楚的看到 nsurlsessiond 進程如何替我們完成網絡請求,并試圖喚醒已經異常退出的 App。
當然這種最理想的方式,也有一些細節需要處理。比如如何告知 App 某個 crash 日志上傳成功,并從本地移除。由于連續閃退的 App 處于極度不穩定的狀態,所以任何代碼邏輯都無法確保順利完成。
我個人感覺一種比較理想的方式是,給后臺進程上報的日志加上某個特殊的 flag,然后在后臺通過 client request ID 和這個 flag 來做去重和整理。
線上 App 連續閃退是一種極其惡劣和可怕的故障,可怕之處在于,發生大面積連續閃退且無法被監控時,你正哼著小曲敲著代碼,老板突然發現自己手機上 App 啟動不了了,一打開 AppStore,發現一星差評潮水般涌來,如果是主流 App 甚至還會上科技新聞,不難預料一口黑漆漆的大鍋正在成形。下次 App 的升級介紹里一定會出現 “fire peter” 了。
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對服務器之家的支持。
原文鏈接:http://mrpeak.cn/blog/ios-instacrash-reporting/