隨著信息時代的不斷發(fā)展,IT運維已成為IT服務內涵的重要組成部分。運維已從最初的幾臺服務器發(fā)展成為一個龐大的數據中心。單靠人工已不能再滿足技術,業(yè)務,管理等方面的要求,因此標準化,自動化,體系結構優(yōu)化,流程優(yōu)化和其他降低IT服務成本的因素引起了人們越來越多的關注。其中,對自動化運維進行了廣泛的研究,并將其作為替代手動操作的起點。那么有哪些常用的自動化運維工具?
有哪些常用的自動化運維工具?
1、監(jiān)控
2、網絡設備存活監(jiān)控
對于SRE來說,需要監(jiān)控程序是否正常;對于主機組來說,需要監(jiān)控服務器硬件是否正常;對于網絡來說,我們首先需要關心網絡設備是否可達。當一臺TOR不可達時,基本上預示著會有一片服務器不可達,業(yè)務的痛感是相當強烈的。
3、設備日志監(jiān)控
設備存活告警雖然可以預警很多異常,并且準確度很高,但是對于冗余性做得比較好的網絡,能Ping通并不代表完全沒問題,此時,細心的網絡工程師會去看日志,這里可以反映出更多細節(jié)。對于萬臺服務器規(guī)模,網絡設備的數量也就千臺,但是逐臺查看日志,人肉判斷是否有異常,那簡直是場噩夢。
4、流量監(jiān)控
高速公路鋪得再好,也架不住車多人多。確保網絡順暢,品質優(yōu)良,沒有丟包,延時穩(wěn)定也是網絡工程師的職責 ,此時流量監(jiān)控就成了剛需。
業(yè)務的飛速發(fā)展體現在網絡層面就是DC內流量上漲/DCI流量上漲/IDC出口流量上漲/專線流量上漲,流量監(jiān)控可以準確掌握業(yè)務的高峰和低谷,當線路需要擴容時,帶寬使用率是老板參考的重要數據。一般情況下線路中的流量超過50%即可發(fā)起擴容,因為這意味著當備份鏈路down之后,主線路將出現擁塞。
5、接口error監(jiān)控
接口的Error包監(jiān)控和流量監(jiān)控一樣,均可以通過snmp采集,OID:ifOutErrors,ifInErrors , Error包出現增量會直接影響業(yè)務的服務質量,一旦發(fā)現需要優(yōu)先處理,否則業(yè)務會拎著一堆TcpTimeOut指標找上門來。
6、制造自動化運維工具
第一章中的組合拳打完之后,基本上不會出現“意料之外的故障”,所有的異常都應該有據可查,當SRE莫名其妙提出對網絡環(huán)境的質疑時,你應該早已心中有譜。
但是網絡工程師的工作并非只有救火,日常運維工作中,經常需要配合業(yè)務發(fā)展做一些線上變更/ 機房擴建/業(yè)務類故障排查等。作為一名“懶惰”的網絡工程師,程序可以幫忙點什么忙呢?
7、UserDevice Tracker
這個名詞借用于Solarwinds套裝中的一個組件,直譯為“用戶設備追蹤器” , 在中小型企業(yè)網運維中,經常會有這樣的需求:
· 知道服務器的IP,請問連接在交換機的哪個口?
· 知道交換機的某個端口,請問連接的服務器的IP是多少?
· 給你一臺服務器的MAC地址,怎么知道在哪個交換機的哪個口?
大型互聯網公司一般會有CMDB或者網絡管理平臺來記錄這些信息, 但是如果你是一家中小型企業(yè)的網管,沒有運維研發(fā)團隊做支持,并且還在沿用二層的環(huán)境(服務器網關在核心設備),那就比較費勁了。以上幾個問題其實歸根到底是要捋清楚三個要素的對應關系:PORT<>MAC<>IP 。
8、網絡設備北向接口的二次封裝
日常網絡運維工作中,經常會有一些 “簡單重復勞動”,例如:為某個接口劃分Vlan/給某臺設備添加一條指向主機的路由等, 這些操作既沒有科技含量,還占用了工程師寶貴的時間,更要命的是再簡單的人肉操作,重復的次數只要足夠多,總有失誤的時候,正所謂“常在河邊走,哪有不濕鞋”,但是在這種問題上犯錯誤簡直是對職業(yè)生涯的抹黑,如此“雞肋”的工作怎么才能干得漂亮?
上述就是關于有哪些常用的自動化運維工具的全部內容介紹,想了解更多關于自動化運維的信息,請繼續(xù)關注中培偉業(yè)。