一、服務(wù)器怎么運營?
檢查磁盤使用率,當磁盤使用率超過80%,可以清除一些日志文件;
檢查內(nèi)存使用情況,當內(nèi)存使用過多時,需要檢查是哪個進程占用,是否合理;
檢查CPU使用情況,負載大?。划擟PU使用過多,負載過大時,需要檢查是哪個進程占用,是否合理。
檢查服務(wù)器網(wǎng)卡接口的數(shù)據(jù)統(tǒng)計和每秒收發(fā)包的個數(shù)和流量。
還需要結(jié)合服務(wù)器的業(yè)務(wù),當然,這些可用使用監(jiān)控軟件自動檢查,故障報警等,實時掌握服務(wù)器的運行情況。
二、服務(wù)器運營注意事項
1、提前檢查
服務(wù)器和網(wǎng)站漏洞檢測,對Web漏洞、弱口令、潛在的惡意行為、違法信息等進行定期掃描。
代碼的定期檢查,安全檢查,漏洞檢查。
服務(wù)器安全加固,安全基線設(shè)置,安全基線檢查。
數(shù)據(jù)庫執(zhí)行的命令,添加字段、加索引等,必須是經(jīng)過測試檢查的命令,才能在正式環(huán)境運行。
2、數(shù)據(jù)備份
服務(wù)器數(shù)據(jù)備份,包括網(wǎng)站程序文件備份,數(shù)據(jù)庫文件備份、配置文件備份,如有資源最好每小時備份和異地備份。
建立五重備份機制:常規(guī)備份、自動同步、LVM快照、Azure備份、S3備份。
定期檢查備份文件是否可用,避免出故障后,備份數(shù)據(jù)不可用。
重要數(shù)據(jù)多重加密算法加密處理。
程序文件版本控制,測試,發(fā)布,故障回滾。
3、安全監(jiān)控
nagios監(jiān)控服務(wù)器常規(guī)狀態(tài)CPU負載、內(nèi)存、磁盤、流量,超過閾值告警。
zabbix或cacti監(jiān)控服務(wù)器常規(guī)狀態(tài)CPU負載、內(nèi)存、磁盤、流量等狀態(tài),可以顯示歷史曲線,方便排查問題。
監(jiān)控服務(wù)器SSH登錄記錄、iptables狀態(tài)、進程狀態(tài),有異常記錄告警。
監(jiān)控網(wǎng)站W(wǎng)EB日志(包括nginx日志php日志等),可以采用EKL來收集管理,有異常日志告警。
運維人員都要接收告警郵件和短信,至少所負責的業(yè)務(wù)告警郵件和短信必須接收,運維經(jīng)理接收重要業(yè)務(wù)告警郵件和短信。(除非是專職運維開發(fā))
除服務(wù)器內(nèi)部監(jiān)控外,最好使用第三方監(jiān)控,從外部監(jiān)控業(yè)務(wù)是否正常(監(jiān)控URL、端口等),比如:監(jiān)控寶。
4、故障避免預(yù)防
網(wǎng)站W(wǎng)EB增加WAF,避免XSS跨站腳本、SQL注入、網(wǎng)頁掛馬等漏洞威脅。
程序代碼連接數(shù)據(jù)庫、memcache、redis等,可以使用域名(域名HOSTS指定IP),當出問題,有備用的服務(wù)器,就可以通過修改DNS或者HOSTS,恢復服務(wù)。
建立應(yīng)急預(yù)案機制,定期演練事故場景,估算修復時間。
部署蜜罐系統(tǒng),防范企業(yè)和服務(wù)器內(nèi)網(wǎng)APT攻擊。
建立雙活集群,包括業(yè)務(wù)服務(wù)的高可用,避免業(yè)務(wù)服務(wù)單點。
服務(wù)器集群采用跳板機或堡壘機登錄,避免服務(wù)器集群每臺服務(wù)器可以遠程連接管理。
操作重要業(yè)務(wù)升級、遷移、擴容……之前,列一下操作步驟,越詳細越好,實際操作按步驟操作,操作完做好記錄。
5、事中操作
網(wǎng)站W(wǎng)EB增加WAF,發(fā)現(xiàn)XSS、SQL注入、網(wǎng)頁掛馬等攻擊,會自動攔截,并記錄日志。
檢查服務(wù)器數(shù)據(jù)備份是否可用。
在處理需求和故障時,執(zhí)行風險命令(比如rm、restart、reboot等)需再三確認,執(zhí)行命令前,檢查所在服務(wù)器,所在服務(wù)器路徑,再執(zhí)行!
不要疲勞駕駛,喝酒不上機,上機不喝酒,尤其別動數(shù)據(jù)庫,避免在不清醒的狀態(tài)下,在服務(wù)器上執(zhí)行了錯誤命令,導致數(shù)據(jù)丟失或業(yè)務(wù)故障。
在處理事故時,一定要考慮處理措施是否會引發(fā)連鎖故障,重要操作三思而行。
6、事后檢查分析
實現(xiàn)網(wǎng)絡(luò)安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務(wù)器集群開放端口列表等。能對全網(wǎng)進行安全策略集中管理。統(tǒng)一日志收集和分析。
備份及篡改恢復功能,程序文件、圖片、數(shù)據(jù)文件、配置文件的備份,故障回滾機制。
對攻擊日志進行深度分析,展現(xiàn)攻擊路徑、攻擊源,協(xié)助管理員溯源。
踐行DevOps的無指責文化,尤其是在做事故分析時。事故分析重在定位原因,制定改進措施。