IT運維自動化是指將IT運維中日常的、大量的重復性工作自動化,把過去的手工執行轉為自動化操作。自動化是IT運維工作的升華,IT運維自動化不單純是一個維護過程,更是一個管理的提升過程,是IT運維的最高層次,也是未來的發展趨勢。
隨著IT建設的不斷深入和發展,IT系統的運行維護已經成為運維管理者普遍關注和不堪重負的問題。在過去的5年中,很多企業都實施了很多IT系統,使到IT運行越來越復雜,也越來越難管理。調查結果顯示有50%的受訪運維管理者認為IT運維成本過高的一個原因是IT運維的自動化做得還不夠好,依靠手工流程來管理,不但使到運維效率不高,而且人力成本更是花費驚人。
當下,IT運維已經成為企業的必需品,企業關注的是如何提高IT運維的效率,從而實現IT資源利用率的最大化。國際知名調查機構Gartner調查發現,在IT運維成本中,源自技術或產品(包括硬件、軟件、網絡等)成本其實只占20%,而流程維護成本占40%,運維人員成本占40%。流程維護成本包括日常維護、變更管理、測試成本等;人員成本包括訓練、教育、人員流失、招聘成本等。因此,如何提高IT運維管理效率,降低運維成本是時下IT界和運維管理者最熱門的話題之一。
一.傳統式IT運維管理面臨挑戰
目前許多企業的IT運維雖然已經實現從人工運維到計算機管理,但這只是處在“半自動化”的運維狀態。因為這種IT運維仍然是等到IT故障出現后再由運維人員采取相應的措施,所以傳統被動的、孤立的、半自動式的IT運維管理模式經常是讓IT部門疲憊不堪。主要有以下幾個方面:
(一)運維人員被動低效率手工救火
在IT運維過程中,IT員工被動低效率手工救火,只有當事件已經發生并已造成業務影響時才能發現和著手處理。這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質量很難提高,導致IT部門和業務部門對IT運維的服務滿意度都不高。目前絕大多數的企業的IT運維現狀是如此:①IT運維人員日常大部分時間和精力是處理一些簡單重復的問題;②由于故障預警機制不完善,往往是故障發生后或報警后才會進行處理,使到IT運維人員的工作經常是處于被動“救火”的狀態,不但事倍功半而且故障還常常會出現惡性連鎖反應。
(二)缺乏一套高效的IT運維機制支撐
目前許多企業現有的IT運維機制存在如下問題:IT運維管理過程中缺少自動化的運維管理模式,也沒有明確的角色定義和責任劃分,使到問題出現后很難快速、準確地找到根本原因,并及時地找到相應的人員進行修復和處理;或者是在問題找到后缺乏流程化的故障處理機制,而在處理問題時不但欠缺規范化的解決方案,也缺乏全面的跟蹤記錄。
(三)缺乏高效的IT運維技術工具
隨著信息化建設的深入,企業IT系統日趨復雜,林林總總的網絡設備、服務器、中間件、業務系統等讓IT運維人員難以從容應對,即使加班加點地維護、部署、管理也經常會因設備出現故障而導致業務的中斷,嚴重影響企業的正常運轉。部分原因是企業缺乏事件監控和診斷工具等IT運維技術工具,因為在沒有高效的技術工具的支持下故障事件很難得到主動、快速處理。
盡管IT運維管理的技術在不斷進步,但實際上很多IT運維人員并沒有真正解脫出來,原因并不復雜。目前的技術雖然能夠獲取IT設備、服務器、網絡流量,甚至數據庫的警告信息,但成千上萬條警告信息堆積在一起更本沒法判斷問題的根源在哪里。還有,目前許多企業的更新管理絕大多數工作都是手工操作的。即使一個簡單的系統變更或更新往往都需要運維人員逐一登錄每臺設備進行手工變更,當設備數量達至成百上千時,其工作量之大可想而知。而這樣的變更和檢查操作在IT運維中往往每天都在進行,占用了大量的運維資源。因此,實現運維管理工作的自動化對企業來說已迫在眉睫。
二.為什么自動化是IT運維的發展趨勢?
(一)為什么IT運維需要自動化?
所謂IT運維管理的自動化是指通過將日常IT運維中大量的重復性工作,小到簡單的日常檢查、配置變更和軟件安裝,大到整個變更流程的組織調度,由過去的手工執行轉為自動化操作,從而減少乃至消除運維中的延遲,實現“零延時”的IT運維。簡單的說,IT運維自動化是指基于流程化的框架,將事件與IT流程相關聯,一旦被監控系統發生性能超標或宕機,會觸發相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。自動化工作平臺還可幫助IT運維人員完成日常的重復性工作(如備份,殺毒等),提高IT運維效率。同時,IT運維的自動化還要求能夠預測故障、在故障發生前能夠報警,讓IT運維人員把故障消除在發生前,將所產生損失減到最低。
首先,IT運維流程自動化能夠提高流程的可控性,可以基于業務需求來制定個性化的流程,使企業領導有機會看見他們的業務流程,對企業流程有一個深刻的分析和理解,進而改造和優化流程。其次,IT運維流程的自動化能提高透明度。因為隨著業務需求的變化可能會有多個版本出現,手工流程的不透明將會給流程定制和優化帶來相當大的困難,而自動化流程可以使用戶能夠一目了然的看到整個流程的各個節點運轉情況,自動化工具潛移默化地提升業務保障能力。再者,運維系統實行了自動化監控以后,通過工具自動監控對人的工作是一種減負,也是一種降低成本的表現。
(二)IT運維自動化管理的具體內容
IT運維管理,是指單位IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT運行環境(如硬軟件環境、網絡環境等)、IT業務系統和IT運維人員進行的綜合管理。IT運維管理主要包括七個方面的管理內容:
設備管理:對網絡設備、服務器設備、操作系統運行狀況進行監控和管理;
應用/服務管理:對各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web等的監控與管理;
數據/存儲/容災管理:對系統和業務數據進行統一存儲、備份和恢復;
業務管理:包含對企業自身核心業務系統運行情況的監控與管理,對于業務的管理,主要關注該業務系統的CSF(關鍵成功因素Critical Success Factors)和KPI(關鍵績效指標KeyPerformance Indicators);
目錄/內容管理:該部分主要對于企業需要統一發布或因人定制的內容管理和對公共信息管理;資源資產管理:管理企業中各IT系統的資源資產情況,這些資源資產可以是物理存在的,也可以是邏輯存在的,并能夠與企業的財務部門進行數據交互;
信息安全管理:目前信息安全管理主要依據的國際標準ISO17799,該標準涵蓋了信息安全管理的十大控制方面,36個控制目標和127種控制方式,如企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通信與運營安全、訪問控制、業務連續性管理等;日常工作管理:該部分主要用于規范和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段。
(三)、IT運維自動化需關注的兩類工具
對于企業來說,要特別關注兩類自動化工具:一是IT運維監控和診斷優化工具;二是運維流程自動化工具。這兩類工具主要應用于:①監控自動化,是指對重要的IT設備實施主動式監控,如路由器、交換機、防火墻等。②配置變更檢測自動化是指IT設備配置參數一旦發生變化,將觸發變更流程轉給相關技術人員進行確認,通過自動檢測協助IT運維人員發現和維護配置。③維護事件提醒自動化,是指通過對IT設備和應用活動的時時監控,當發生異常事件時系統自動啟動報警和響應機制,第一事件通知相關責任人。④系統健康檢測自動化,是指定期自動地對IT設備硬件和應用系統進行健康巡檢,配合IT運維團隊實施對系統的健康檢查和監控。⑤維護報告生成自動化,是指定期自動的對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供IT運維的可用性、性能、系統資源利用狀況分析報告。
四、基于ITIL的IT運維自動化平臺構建
20世紀80年代,英國政府為了提升信息化設備和系統的運行效率,指定當時的英國政府計算機與通信局,研究開發一種方法,用于指導全國政府部門高效、經濟地運營信息化設備和系統,結果產生了信息技術基礎架構庫(Information Technology Infrastructure Library—ITIL)。ITIL供組織內部進行IT服務管理的參考經驗,它匯集了IT服務業內的最佳實踐,是指導如何在運維管理中定義人員、流程、服務活動及其之間關系的指導框架。
ITIL的框架包括業務管理、服務管理、IT基礎架構管理、安全管理、應用管理、IT服務管理規劃等,其中最核心的是服務管理中的服務支持和服務提供。IT主管部門可能更關心服務支持,服務支持主要包括:服務臺、故障管理、問題管理、配置管理、變更管理和發布管理等六個模塊。
可以借鑒ITIL的思想來構建全面的基于ITIL的IT運維自動化平臺。主要包括如下幾個核心部分:
(一)IT服務管理基礎平臺
搭建IT服務管理基礎平臺系統由應用服務器、數據庫服務器、客戶機組成,使用分布式部署,減輕核心服務器的壓力。創建用戶類型、定義安全機制、代碼表配置、組織結構數據建設、人員數據建設、資產數據裝載,制作統計報表。
(二)服務臺建設
數據中心服務臺負責全行服務請求的處理和轉發,技術上主要是對服務臺工作人員進行培訓,掌握全面的運維知識,熟悉服務臺職責;管理上主要是制定服務臺運維管理制度,明確服務臺人員的工作內容與操作規程。服務臺是用戶申報事故以及獲得事故處理結論的統一入口,主要工作包括以下幾個方面,一是完成響應服務請求,處理常見的運維事件,將不能解決的事件升級;二是發布相關的運維信息,如網絡、業務系統、設備故障等;三是協助提高IT部門事故處理質量,增加用戶滿意度,形成有效的事故處理和蹤的手段。
(三)事故管理建設
借鑒IT服務管理的經驗,為了靈活實現運維系統各個流程建設,在實踐中簡化了流程以適應運維工作的需要。在事故處理流程建設中,管理標準的做法是直接將事故送到服務臺,由服務臺負責處理或者分發,而實際工作中,將業務系統的監控事件直接送到業務管理系統的管理員,服務臺負責監督事故處理完成的情況。
(四)問題管理建設
問題管理管理員直接手工新建問題工單,或者由服務臺或事故管理來觸發問題工單管理流程。當問題由于成本與技術等原因暫不消除時,可定為已知錯誤,后期可繼續處理。找到問題的根本原因,并提供臨時措施與根本解決方案,防止問題再次發生或減少問題的數量。
(五)配置管理建設
配置管理數據庫儲存與管理企業IT架構中設備的各種配置信息,它與所有服務支持和服務交付流程都緊密相聯,一方面支持這些流程的流暢運轉、發揮配置信息的價值;另一方面,幫助技術人員受到服務請求時獲取相關技術支持,同時依賴于相關流程保證數據的準確性。
在建設初期通過配置項自動發現,整個企業IT架構的配置項導入配置項,為了保證數據的準確、全面、我們要求業務系統、設備等管理人員提供、核對相關數據,保證在運維中能準確利用數據進行運維。
(六)變更管理建設
確保在IT服務變動的過程中能夠有標準的方法,以有效的控制變更,降低或消除因為變更對業務運營所造成的影響與問題。由專家和技術顧問組成,對提交的變更請求(RFC)進行評審,并最終裁定是否批準實施該變更請求。變更審計管理,通過自動化管理系統定期對配置項進行自動掃描,發現企業IT架構中的非法變更,管理員根據變更的信息,選擇變更恢復或者進入變更流程,幫助管理人員進行變更的審計管理。
(七)發布管理建設
通過正式的流程確保只有經過完整測試與得到授權的軟件與硬件才能夠進入正式運行環境,以確保變更后生產環境的質量。發布的最終結果將會反映到自動化管理系統中。
(八)知識庫建設
將成熟可行的解決方案錄入知識庫,進行數據共享,快速排除故障,從而達到提高用戶“自助式服務”能力的目的。當運維人員進行事故、問題、變更和發布運維流程時,可以根據不同資源類型,自動關聯該類型的知識條目,幫助運維人員快速解決問題。知識庫的自身管理,包括建立、審核、分類、評價、訂閱、收藏、搜索知識等,需要經過知識庫管理員審核后才能進入知識庫。
結語,隨著社會的發展和信息化的進步,IT運維服務管理必將是一個長期性的話題,需要運維管理業內人員進行不斷的研究和進取。實現IT運維自動化管理是IT運維工作的升華,IT運維自動化不單純是一個維護過程,更是一個管理的提升過程,是IT運維的最高層次,也是未來的發展趨勢。