IT運(yùn)維工程師在中國(guó)也稱為Devops,在國(guó)外也稱為SRE,可以理解為站點(diǎn)可靠性工程師。主要負(fù)責(zé)維護(hù)和確保整個(gè)服務(wù)的高可用性,同時(shí)不斷優(yōu)化系統(tǒng)架構(gòu),提高部署效率,優(yōu)化資源利用率并提高總體ROI。那么運(yùn)維工程師需要什么樣的技能?怎樣才算是一個(gè)合格的運(yùn)維工程師?本文總結(jié)了8個(gè)運(yùn)維工程師需要會(huì)的技能,下文是詳解。
運(yùn)維工程師需要什么樣的技能?
1、獨(dú)立安裝系統(tǒng)與軟件
在安裝系統(tǒng)時(shí)你更會(huì)去留心學(xué)習(xí)Linux的目錄結(jié)構(gòu)和作用,學(xué)會(huì)系統(tǒng)的安裝方法和軟件安裝方式,對(duì)目錄與文件的操作,這些夠基礎(chǔ)嗎?
2、選擇一本適合自己的書籍
學(xué)習(xí)Linux除了網(wǎng)上免費(fèi)的視頻教程之外,還是要多看書,多理解、思考,將你不會(huì)、不懂的做好筆記,好記性不如爛筆頭。選擇一本適合自己的書籍,適合自己的就是最好的書,只有入門了才能更好的往下面學(xué)習(xí),合格的工程師更要學(xué)會(huì)選擇。
3、管理用戶
Linux是一個(gè)多用戶、多任務(wù)的操作系統(tǒng),允許許多用戶同時(shí)使用這個(gè)機(jī)器處理多個(gè)任務(wù),必須管理好這些用戶,即使初學(xué)Linux的小白也知道,可以通過網(wǎng)絡(luò)讓多人同時(shí)登錄,而非使用機(jī)器上僅有的一個(gè)顯示器、一個(gè)鍵盤和鼠標(biāo)。比如 web服務(wù)器,是不是多用戶?ftp服務(wù)器也是多用戶。系統(tǒng)上可以開啟遠(yuǎn)程登錄ssh 或者telnet,這樣幾個(gè)人同時(shí)登錄到該Linux系統(tǒng)上面。而需要管理好每個(gè)服務(wù)后面的賬號(hào), 可以安全、合理使用Linux系統(tǒng)資源。
4、磁盤的合理管理
做了運(yùn)維才知道磁盤不是最值錢,而數(shù)據(jù)才是無價(jià)的。往往磁盤的空間是有大小的,根據(jù)業(yè)務(wù)需求合理分配磁盤變的非常重要,我單位的服務(wù)器swap為66G使用1G,而/var空間為36G總是磁盤滿滿,不得不頻繁刪除產(chǎn)生的日志,以空出空間,否則就會(huì)影響業(yè)務(wù)的正常使用。真是血的教訓(xùn),有那么多空間卻不能拿來使用,而業(yè)務(wù)必須24小時(shí)*365工作。經(jīng)常查看磁盤利用率,查看目錄大小和文件大小,為在用或者新擴(kuò)容的磁盤做一個(gè)更好的規(guī)劃。
5、查看系統(tǒng)健康狀態(tài)
經(jīng)常有人問我的Linux系統(tǒng)怎么變的這么慢?重啟也變慢了?重啟慢可能是你加載的程序多,也可能磁盤有壞道,都需要你來檢測(cè),系統(tǒng)變慢,有可能運(yùn)行的程序占滿內(nèi)存,或者CPU跑慢,網(wǎng)絡(luò)利用率占滿,工程師拿起你的命令top 、sar 、 netstat、ps等,查看是什么原因引起的。我們的RHEL 6.8服務(wù)器多次發(fā)現(xiàn)登錄系統(tǒng)收、卡,有一個(gè)CPU使用率超100%,進(jìn)程殺死就可以恢復(fù),是一個(gè)木馬,可是沒過多久系統(tǒng)掛了,系統(tǒng)提示繳納2個(gè)比特幣,呃不多說了。
6、安全和備份
對(duì)于生產(chǎn)環(huán)境的系統(tǒng),真是安全太重要了。比特幣冰毒出現(xiàn)后,最后的解決方法是重新安裝系統(tǒng),但備份還是1個(gè)半月之前的數(shù)據(jù),無論怎么樣還是有備份,慘!!!因此發(fā)現(xiàn)安全問題,應(yīng)首先停止相應(yīng)的服務(wù),查看日志,執(zhí)行備份。Linux系統(tǒng)雖然說安全,但也不是百分百,及時(shí)打補(bǔ)丁,每天進(jìn)行日常備份還是極為必要、重要,備份同時(shí)存放在多個(gè)地方,U盤、網(wǎng)絡(luò)上面其它的計(jì)算機(jī)上。你做到了嗎?不然總有哭的一天,悲劇啊,真是不知道該如何向用戶解釋。只有最新的數(shù)據(jù)備份,即使系統(tǒng)出現(xiàn)問題,也可以將業(yè)務(wù)恢復(fù)到最新的狀態(tài),降低最小的損失。安全和備份,我不是一個(gè)適合的管理員。
7、網(wǎng)絡(luò)服務(wù)
數(shù)以百萬臺(tái)的Linux服務(wù)器承載著互聯(lián)網(wǎng)的繁榮,上網(wǎng)看新聞、視頻的Web服務(wù),下載文件的ftp服務(wù),郵件的Sendmail,DNS域名的Bind域名解析服務(wù),Squid代理服務(wù),MariaDB數(shù)據(jù)庫(kù)業(yè)務(wù)…,各種服務(wù)的使用方法,你都得會(huì),是不是好可憐啊。我們內(nèi)部需要搭建一個(gè)Linux的流媒體服務(wù)和VPN業(yè)務(wù),正在搭建中,其實(shí)都很好玩、有意思。當(dāng)你做完這些,一定會(huì)感覺到非常有成就感的。
8、系統(tǒng)管理和日志分析
將用戶管理、磁盤管理、網(wǎng)絡(luò)服務(wù)合理使用和優(yōu)化系統(tǒng),將一些不需要的業(yè)務(wù)kill掉,Linux系統(tǒng)中通知運(yùn)行著非常多的進(jìn)程,但是CPU在統(tǒng)一時(shí)鐘周期內(nèi)只能運(yùn)算一個(gè)指令,進(jìn)程優(yōu)先級(jí)決定了每個(gè)進(jìn)程處理的先后順序,優(yōu)化進(jìn)程的優(yōu)先級(jí),提升服務(wù)效率。
怎樣才算是一個(gè)合格的運(yùn)維工程師?
1、保證服務(wù)達(dá)到要求的線上標(biāo)準(zhǔn),如99.9%;保證線上穩(wěn)定,這是運(yùn)維工程師的基本責(zé)職所在。
2、不斷的提升應(yīng)用的可靠性與健壯性、性能優(yōu)化、安全提升;這方面非??简?yàn)主動(dòng)性和創(chuàng)新思維。
3、網(wǎng)站各層面監(jiān)控、統(tǒng)計(jì)的覆蓋度,軟件、硬件、運(yùn)行狀態(tài),能監(jiān)控的都需要監(jiān)控統(tǒng)計(jì),避免監(jiān)控死角、并能實(shí)時(shí)了解應(yīng)用的運(yùn)轉(zhuǎn)情況。
4、通過創(chuàng)新思維解決運(yùn)維效率問題;目前各公司大部份運(yùn)維主要工作還是依賴人工操作干預(yù),需要盡可能的解放雙手。
5、運(yùn)維知識(shí)的積累與沉淀、文檔的完備性,運(yùn)維是一個(gè)經(jīng)驗(yàn)性非常強(qiáng)的崗位,好的經(jīng)驗(yàn)與陷阱都需積累下來,避免重復(fù)性范錯(cuò)。
6、計(jì)劃性和執(zhí)行力;工作有計(jì)劃,計(jì)劃后想法設(shè)法達(dá)到目標(biāo),不找借口。
7、自動(dòng)化運(yùn)維;能對(duì)日常機(jī)械化工作進(jìn)行提煉、設(shè)計(jì)并開發(fā)成工具、系統(tǒng),能讓系統(tǒng)自動(dòng)完成的盡量依靠系統(tǒng);讓大家更多的時(shí)間用于思考、創(chuàng)新思維、做自已喜歡的事情。
上述就是關(guān)于運(yùn)維工程師需要什么樣的技能,以及怎樣才算是一個(gè)合格的運(yùn)維工程師的全部?jī)?nèi)容介紹,想了解更多關(guān)于運(yùn)維工作師的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。