最近服務(wù)器宕機的現(xiàn)象比較頻繁,臨下班時分,G給掛掉了,502 Bad Gateway Nginx,不由得讓我想起之前的504 Gateway Time-out,兩者應(yīng)該有點聯(lián)系,一定得弄清楚。Nginx 504 Gateway Time-out的含義是所請求的網(wǎng)關(guān)沒有請求到,簡單來說就是沒有請求到可以執(zhí)行的PHP-CGI。
解決這兩個問題其實是需要綜合思考的,一般來說Nginx 502 Bad Gateway和php-fpm.conf的設(shè)置有關(guān),而Nginx 504 Gateway Time-out則是與nginx.conf的設(shè)置有關(guān)。
Nginx 504 Gateway在之前的文章中已經(jīng)記錄過,這里暫且忽略,直接說502 bad gateway的解決方法,最關(guān)鍵的是php-fpm.conf的設(shè)置。php-fpm.conf有兩個至關(guān)重要的參數(shù),一個是”max_children”,另一個是”request_terminate_timeout”,這兩個值是需要計算的。
如果你的服務(wù)器性能足夠好,且寬帶資源足夠充足,PHP腳本沒有系循環(huán)或BUG的話你可以直接將”request_terminate_timeout” 設(shè)置成0s。0s的含義是讓PHP-CGI一直執(zhí)行下去而沒有時間限制。而如果你做不到這一點,也就是說你的PHP-CGI可能出現(xiàn)某個BUG,或者你的寬帶不夠充足,或者其他的原因?qū)е履愕腜HP-CGI能夠假死,那么,就建議你給”request_terminate_timeout”賦一個值,這個值可以根據(jù)你服務(wù)器的性能進行設(shè)定。一般來說性能越好你可以設(shè)置越高。
”max_children”這個值又是怎么計算出來的呢?這個值原則上是越大越好,php-cgi的進程多了就會處理的很快,排隊的請求就會很少。設(shè)置”max_children”也需要根據(jù)服務(wù)器的性能進行設(shè)定,如果每一個php-cgi所耗費的內(nèi)存在20M左右,”max_children”設(shè)置成80,20M*80=1600M也就是說在峰值的時候所有PHP-CGI所耗內(nèi)存在1600M以內(nèi),低于有效內(nèi)存即可。
而如果”max_children”設(shè)置的較小,比如5-10個,那么php-cgi就會”很累”,處理速度也很慢,等待的時間也較長。如果長時間沒有得到處理的請求就會出現(xiàn)504 Gateway Time-out這個錯誤,而正在處理的”很累”的那幾個php-cgi如果遇到了問題就會出現(xiàn)502 Bad gateway這個錯誤。
下面是更詳細的介紹資料:
一些運行在Nginx上的網(wǎng)站有時候會出現(xiàn)“502 Bad Gateway”錯誤,有些時候甚至頻繁的出現(xiàn)。以下是小編搜集整理的一些Nginx 502錯誤的排查方法,供參考:
Nginx 502錯誤的原因比較多,是因為在代理模式下后端服務(wù)器出現(xiàn)問題引起的。這些錯誤一般都不是nginx本身的問題,一定要從后端找原因!但nginx把這些出錯都攬在自己身上了,著實讓nginx的推廣者備受置疑,畢竟從字眼上理解,bad gateway?不就是bad nginx嗎?讓不了解的人看到,會直接把責(zé)任推在nginx身上,希望nginx下一個版本會把出錯提示寫稍微友好一些,至少不會是現(xiàn)在簡單的一句 502 Bad Gateway,另外還不忘附上自己的大名。
Nginx 502的觸發(fā)條件
502錯誤最通常的出現(xiàn)情況就是后端主機當(dāng)機。在upstream配置里有這么一項配置:proxy_next_upstream,這個配置指定了 nginx在從一個后端主機取數(shù)據(jù)遇到何種錯誤時會轉(zhuǎn)到下一個后端主機,里頭寫上的就是會出現(xiàn)502的所有情況拉,默認(rèn)是error timeout。error就是當(dāng)機、斷線之類的,timeout就是讀取堵塞超時,比較容易理解。我一般是全寫上的:
復(fù)制代碼代碼如下:
proxy_next_upstream error timeout invalid_header http_500 http_503;
不過現(xiàn)在可能我要去掉http_500這一項了,http_500指定后端返回500錯誤時會轉(zhuǎn)一個主機,后端的jsp出錯的話,本來會打印一堆 stacktrace的錯誤信息,現(xiàn)在被502取代了。但公司的程序員可不這么認(rèn)為,他們認(rèn)定是nginx出現(xiàn)了錯誤,我實在沒空跟他們解釋502的原理 了……
503錯誤就可以保留,因為后端通常是apache resin,如果apache死機就是error,但resin死機,僅僅是503,所以還是有必要保留的。
解決辦法
遇到502問題,可以優(yōu)先考慮按照以下兩個步驟去解決。
1、查看當(dāng)前的PHP FastCGI進程數(shù)是否夠用:
復(fù)制代碼代碼如下:
netstat -anpo | grep "php-cgi" | wc -l
如果實際使用的“FastCGI進程數(shù)”接近預(yù)設(shè)的“FastCGI進程數(shù)”,那么,說明“FastCGI進程數(shù)”不夠用,需要增大。
2、部分PHP程序的執(zhí)行時間超過了Nginx的等待時間,可以適當(dāng)增加nginx.conf配置文件中FastCGI的timeout時間,例如:
復(fù)制代碼代碼如下:
http {
fastcgi_connect_timeout 300;
fastcgi_send_timeout 300;
fastcgi_read_timeout 300;
......
}
......
php.ini中memory_limit設(shè)低了會出錯,修改了php.ini的memory_limit為64M,重啟nginx,發(fā)現(xiàn)好了,原來是PHP的內(nèi)存不足了。
如果這樣修改了還解決不了問題,可以參考下面這些方案:
一、max-children和max-requests
一臺服務(wù)器上運行著nginx php(fpm) xcache,訪問量日均 300W pv左右。
最近經(jīng)常會出現(xiàn)這樣的情況:php頁面打開很慢,cpu使用率突然降至很低,系統(tǒng)負載突然升至很高,查看網(wǎng)卡的流量,也會發(fā)現(xiàn)突然降到了很低。這種情況只持續(xù)數(shù)秒鐘就恢復(fù)了。
檢查php-fpm的日志文件發(fā)現(xiàn)了一些線索。
復(fù)制代碼代碼如下:
Sep 30 08:32:23.289973 [NOTICE] fpm_unix_init_main(), line 271: getrlimit(nofile): max:51200, cur:51200 Sep 30 08:32:23.290212 [NOTICE] fpm_sockets_init_main(), line 371: using inherited socket fd=10, “127.0.0.1:9000″ Sep 30 08:32:23.290342 [NOTICE] fpm_event_init_main(), line 109: libevent: using epoll Sep 30 08:32:23.296426 [NOTICE] fpm_init(), line 47: fpm is running, pid 30587
在這幾句的前面,是1000多行的關(guān)閉children和開啟children的日志。
原來,php-fpm有一個參數(shù) max_requests,該參數(shù)指明了,每個children最多處理多少個請求后便會被關(guān)閉,默認(rèn)的設(shè)置是500。因為php是把請求輪詢給每個 children,在大流量下,每個childre到達max_requests所用的時間都差不多,這樣就造成所有的children基本上在同一時間 被關(guān)閉。
在這期間,nginx無法將php文件轉(zhuǎn)交給php-fpm處理,所以cpu會降至很低(不用處理php,更不用執(zhí)行sql),而負載會升至很高(關(guān)閉和開啟children、nginx等待php-fpm),網(wǎng)卡流量也降至很低(nginx無法生成數(shù)據(jù)傳輸給客戶端)
解決問題很簡單,增加children的數(shù)量,并且將 max_requests 設(shè)置未 0 或者一個比較大的值:
打開 /usr/local/php/etc/php-fpm.conf調(diào)大以下兩個參數(shù)(根據(jù)服務(wù)器實際情況,過大也不行)
復(fù)制代碼代碼如下:
<value name="max_children">5120</value> <value name="max_requests">600</value>
然后重啟php-fpm。
二、增加緩沖區(qū)容量大小
將nginx的error log打開,發(fā)現(xiàn)“pstream sent too big header while reading response header from upstream”這樣的錯誤提示。查閱了一下資料,大意是nginx緩沖區(qū)有一個bug造成的,我們網(wǎng)站的頁面消耗占用緩沖區(qū)可能過大。參考老外寫的修 改辦法增加了緩沖區(qū)容量大小設(shè)置,502問題徹底解決。后來系統(tǒng)管理員又對參數(shù)做了調(diào)整只保留了2個設(shè)置參數(shù):client head buffer,fastcgi buffer size。
三、request_terminate_timeout
如果主要是在一些post或者數(shù)據(jù)庫操作的時候出現(xiàn)502這種情況,而不是在靜態(tài)頁面操作中常見,那么可以查看一下php-fpm.conf設(shè)置中的一項:
request_terminate_timeout
這個值是max_execution_time,就是fast-cgi的執(zhí)行腳本時間。
0s
0s為關(guān)閉,就是無限執(zhí)行下去。(當(dāng)時裝的時候沒仔細看就改了一個數(shù)字)問題解決了,執(zhí)行很長時間也不會出錯了。優(yōu)化fastcgi中,還可以改改這個值5s 看看效果。
php-cgi進程數(shù)不夠用、php執(zhí)行時間長、或者是php-cgi進程死掉,都會出現(xiàn)502錯誤。