所有IT部門都在面臨這個問題。當服務器,網絡和應用出現問題時,他們必須盡快做出反應。這些情形往往具有破壞性和高壓性,并可能引發影響整個組織運營(和利潤)的停機時間。根據去年的報告,平均IT停機損失高達155萬美元。更嚴重的問題是,暴力事件導致每年545小時的員工產能損失。
出于這些原因,企業越來越多地投資于應用性能監視(APM)和服務器監控軟件以及其他解決方案。由于“基礎設施監控是否是企業所需的解決方案”已經不再是問題,因此問題就變成了應該使用哪些監控工具。
最佳IT基礎設施監控工具評估
服務器和網絡監控工具的目標是確保IT服務 24x7 小時全天候穩定運行,并在出現任何問題時告警給IT支持人員。這樣,我們可以最大化正常運行時間并制定更好的災難恢復計劃。
一般來說,所有工具都有共性,但又不盡相同。以下列出了我們認為最佳的工具列表。
1. Zabbix
Zabbix可以說是市場上最流行和健壯的實時監控解決方案之一。Zabbix是開源的,它具有一套簡潔的特性,擁有完善可靠的文檔,并且由活躍的社區用戶更新和支持。其他好處還包括它有良好的易用性,當然,它提供了一個不受制于任何供應商鎖定的解決方案。
Zabbix 的眾多亮點之一是它能夠預測流量趨勢并根據收集歷史數據來提供系統行為預測。
主要特點:
主動監控
容量規劃
內置Java應用服務器監控功能
硬件監控
網頁服務
虛擬機監控
Zabbix 可以配置為各種行業提供監控解決方案 —— 從航空航天到金融和零售,同樣也適用于大中型企業。Romexsoft 團隊依靠此工具為客戶提供24x7全天候IT支持。
2. Prometheus
這是我們團隊最喜歡的另一個開源監控工具,它基于時間序列數據提供詳細的基礎設施洞悉能力。它是監控高動態環境(如AWS上的容器)的可靠選擇。
從本質上講,Prometheus 爬取(scrape)指標,在本地存儲所有采樣數據并在數據之上運行其“規則”(rule)來聚合或生成告警。
Prometheus 的主要優勢包括:
它既適用于以機器為中心的架構的監控,又適用于面向服務的架構的監控;
它是服務中斷期間“首選”的完美工具,因為它使得用戶能夠快速診斷問題;
即使在故障情況下,用戶也始終可以查看系統的統計信息(每個Prometheus服務器都是獨立的)
3. Grafana
Grafana 是一款用于時間序列的、免費的、出色的分析和監控工具。它使我們能夠創建有吸引力的、一目了然的全局數據可視化圖像。特別是我們可以可視化系統CPU,內存,磁盤和 I/O 利用率等指標。
Grafana這個工具比較萬能,我們可以創建來自不同數據源的自定義儀表板和特征數據,并將它們展示為曲線圖,單一狀態圖,表格,熱圖或自由文本。
Grafana可以輕松的與 Prometheus、Graphite、InfluxDB、MySQL、PostgreSQL 和 Elasticsearch 集成,還可以通過插件與更多的其他數據源連接。雖然Grafana 不是一個獨立的解決方案,但它是一個值得考慮進監控體系的優秀插件。我們團隊利用Prometheus與Grafana集成來作為作為許多客戶的解決方案。
4. ManageEngine OpManager
ManageEngine OpManager 是一款綜合全面的性能監控工具,可提供服務器監控,并允許我們主動管理網絡,執行網絡配置和網絡流量分析,它還有一個應用性能管理插件。但它必須安裝到每個目標節點上才能正常使用。
為了滿足我們的需求,我們可以設置可自定義的儀表板來監控不同組件的網絡和指標。我們還可以將其用于 LAN/WAN 監控,并接收詳細的流量路徑可視化,查看帶寬流量監測并運行各種網絡系統性能指標的測定。
與前面的幾個工具不同,ManageEngine 屬于收費工具,它將會根據業務需求提供定制性報價。
5. Amazon CloudWatch
Amazon CloudWatch 可以為我們提供更好的應用性能、資源利用率、整體云基礎設施監控狀況的可視化能力,并幫助我們識別和糾正問題。
CloudWatch 使我們能夠以日志、指標和事件的形式收集運維數據。該工具在AWS和本地服務器上運行,這意味著我們可以真正獲得所有資產的統一視圖。其儀表板是可配置的,允許管理員指示AWS根據預定義事件采取特定操作。
如果我們最近將基礎設施遷移到AWS云,應考慮使用此云基礎設施管理軟件,至少應該用到某些容量的規劃上。
6. WhatsUp Gold 2017
其中一些亮點包括以下內容:
它最新的“plus”版本包括混合云監控,實時性能,自動和手動故障轉移,以及分布式網絡的可視化;
高度可定制的告警系統,可包括電子郵件,文本,松弛告警,IFTTT推送,服務重啟和Web警報;
自動發現和整個網絡映射;
伴隨移動應用可以隨時洞察應用監控;
WhatsUp Gold 可為不同的用戶提供完全可定制且極其友好的儀表板。
缺點?只有一個——它僅對Windows操作系統提供支持。
7. Icinga
Icinga 是最好的免費監控工具之一,它企業和初創公司的熱門選擇。它的優勢在于適應于各種規模組織的靈活性,它致力于監控基礎設施和服務。
而且,它提供了很好的閾值分析和清晰的報告和告警。這些都可以友好的顯示在儀表板上,并可以通過郵件,短信或其他消息應用進行分發。
此外,它還可以連接到許多流行的 DevOps 工具,為我們的業務需求創建更加個性化的監控解決方案。這些包括 Chef,Puppet,Graylog,Ansible 等。
8. Datadog
Datadog 被設計成一個為混合云生態系統提供監控的服務,它也可以配置為網絡、服務和應用性能提供監控。實際上,它附帶了業內最大受支持應用的集成列表,我們可以安插這些集成來獲得整個生態系統的統一視圖。
該工具可以聚合以下指標和事件:
SaaS和云提供商
自動化工具
數據庫和通用服務器組件
監控和儀表工具
源代碼控制和錯誤跟蹤解決方案
用戶根據一系列可選的圖形、指標和警報來輕松自定義可視化儀表板和報告。擁有最多五臺主機的小公司,可以免費獲得Datadog。專業版和企業版則要按每主機定價收費。