一、IT運維的困境
當下,IT運維已經成為企業的必需品,企業關注的是如何提高IT運維的效率,從而實現IT資源利用率的最大化。國際知名調查機構Gartner調查發現,在IT運維成本中,源自技術或產品(包括硬件、軟件、網絡等)成本其實只占20%,而流程維護成本占40%,運維人員成本占40%。流程維護成本包括日常維護、變更管理、測試成本等;人員成本包括訓練、教育、人員流失、招聘成本等。因此,如何提高IT運維管理效率,降低運維成本是時下IT界和CIO最熱門的話題之一。
目前許多企業的IT運維雖然已經實現從人工運維到計算機管理,但這只是處在“半自動化”的運維狀態。因為這種IT運維仍然是等到IT故障出現后再由運維人員采取相應的措施,所以傳統被動的、孤立的、半自動式的IT運維管理模式經常是讓IT部門疲憊不堪。主要有以下幾個方面:(1)運維人員被動低效率手工救火;(2)缺乏一套高效的IT運維機制支撐;(3)缺乏高效的IT運維技術工具;
二、IT運維自動化的主要內容
IT 運維管理,是指單位IT 部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT 運行環境(如硬軟件環境、網絡環境等)、IT 業務系統和IT 運維人員進行的綜合管理。IT 運維管理主要包括七個方面的管理內容:
設備管理:對網絡設備、服務器設備、操作系統運行狀況進行監控和管理;
應用/服務管理:對各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web 等的監控與管理;
數據/存儲/容災管理:對系統和業務數據進行統一存儲、備份和恢復;
業務管理:包含對企業自身核心業務系統運行情況的監控與管理,對于業務的管理,主要關注該業務系統的CSF(關鍵成功因素Critical Success Factors)和KPI(關鍵績效指標Key Performance Indicators);
目錄/內容管理:該部分主要對于企業需要統一發布或因人定制的內容管理和對公共信息的管理;
資源資產管理:管理企業中各IT 系統的資源資產情況,這些資源資產可以是物理存在的,也可以是邏輯存在的,并能夠與企業的財務部門進行數據交互;
信息安全管理:目前信息安全管理主要依據的國際標準是ISO17799,該標準涵蓋了信息安全管理的十大控制方面,36 個控制目標和127 種控制方式,如企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通信與運營安全、訪問控制、業務連續性管理等;
日常工作管理:該部分主要用于規范和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段。
所謂IT運維管理的自動化是指通過將日常IT運維中大量的重復性工作,小到簡單的日常檢查、配置變更和軟件安裝,大到整個變更流程的組織調度,由過去的手工執行轉為自動化操作,從而減少乃至消除運維中的延遲,實現“零延時”的IT運維。簡單的說,IT運維自動化是指基于流程化的框架,將事件與IT流程相關聯,一旦被監控系統發生性能超標或宕機,會觸發相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。自動化工作平臺還可幫助IT運維人員完成日常的重復性工作(如備份,殺毒等),提高IT運維效率。同時,IT運維的自動化還要求能夠預測故障、在故障發生前能夠報警,讓IT運維人員把故障消除在發生前,將所產生損失減到最低。
首先,IT運維流程自動化能夠提高流程的可控性,可以基于業務需求來制定個性化的流程,使企業領導有機會看見他們的業務流程,對企業流程有一個深刻的分析和理解,進而改造和優化流程。其次,IT運維流程的自動化能提高透明度。因為隨著業務需求1的變化可能會有多個版本出現,手工流程的不透明將會給流程定制和優化帶來相當大的困難,而自動化流程可以使用戶能夠一目了然的看到整個流程的各個節點運轉情況,自動化工具潛移默化地提升業務保障能力。再者,運維系統實行了自動化監控以后,通過工具自動監控對人的工作是一種減負,也是一種降低成本的表現。
三、IT運維自動化需關注的兩類工具
對于企業來說,要特別關注兩類自動化工具:一是IT運維監控和診斷優化工具;二是運維流程自動化工具。這兩類工具主要應用于:①監控自動化,是指對重要的IT設備實施主動式監控,如路由器、交換機、防火墻等。②配置變更檢測自動化,是指IT設備配置參數一旦發生變化,將觸發變更流程轉給相關技術人員進行確認,通過自動檢測協助IT運維人員發現和維護配置。③維護事件提醒自動化,是指通過對IT設備和應用活動的時時監控,當發生異常事件時系統自動啟動報警和響應機制,第一事件通知相關責任人。④系統健康檢測自動化,是指定期自動地對IT設備硬件和應用系統進行健康巡檢,配合IT運維團隊實施對系統的健康檢查和監控。⑤維護報告生成自動化,是指定期自動的對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供IT運維的可用性、性能、系統資源利用狀況分析報告。
四、基于ITIL的IT運維自動化平臺構建
20世紀80年代,英國政府為了提升信息化設備和系統的運行效率,指定當時的英國政府計算機與通信局,研究開發一種方法,用于指導全國政府部門高效、經濟地運營信息化設備和系統,結果產生了信息技術基礎架構庫(Information Technology Infrastructure Library—ITIL)。ITIL供組織內部進行IT服務管理的參考經驗,它匯集了IT服務業內的最佳實踐,是指導如何在運維管理中定義人員、流程、服務活動及其之間關系的指導框架。
ITIL的框架包括業務管理、服務管理、IT基礎架構管理、安全管理、應用管理、IT服務管理規劃等,其中最核心的是服務管理中的服務支持和服務提供。IT主管部門可能更關心服務支持,服務支持主要包括:服務臺、故障管理、問題管理、配置管理、變更管理和發布管理等六個模塊。
可以借鑒ITIL的思想來構建全面的基于ITIL的IT運維自動化平臺。主要包括如下幾個核心部分:
(一)IT服務管理基礎平臺的搭建
IT服務管理基礎平臺系統由應用服務器、數據庫服務器、客戶機組成,使用分布式部署,減輕核心服務器的壓力。創建用戶類型、定義安全機制、代碼表配置、組織結構數據建設、人員數據建設、資產數據裝載,制作統計報表。
(二)服務臺建設
數據中心服務臺負責全公司服務請求的處理和轉發,技術上主要是對服務臺工作人員進行培訓,掌握全面的運維知識,熟悉服務臺職責;管理上主要是制定服務臺運維管理制度,明確服務臺人員的工作內容與操作規程。服務臺是用戶申報事故以及獲得事故處理結論的統一入口,主要工作包括以下幾個方面,一是完成響應服務請求,處理常見的運維事件,將不能解決的事件升級;二是發布相關的運維信息,如網絡、業務系統、設備故障等;三是協助提高IT部門事故處理質量,增加用戶滿意度,形成有效的事故處理和跟蹤的手段。
(三)事故管理建設
借鑒IT服務管理的經驗,為了靈活實現運維系統各個流程建設,在實踐中簡化了流程以適應運維工作的需要。在事故處理流程建設中,管理標準的做法是直接將事故送到服務臺,由服務臺負責處理或者分發,而實際工作中,將業務系統的監控事件直接送到業務管理系統的管理員,服務臺負責監督事故處理完成的情況。
(四)問題管理建設
問題管理管理員直接手工新建問題工單,或者由服務臺或事故管理來觸發問題工單管理流程。當問題由于成本與技術等原因暫不消除時,可定為已知錯誤,后期可繼續處理。找到問題的根本原因,并提供臨時措施與根本解決方案,防止問題再次發生或減少問題的數量。
(五)配置管理建設
配置管理數據庫儲存與管理企業IT架構中設備的各種配置信息,它與所有服務支持和服務交付流程都緊密相聯,一方面支持這些流程的流暢運轉、發揮配置信息的價值;另一方面,幫助技術人員受到服務請求時獲取相關技術支持,同時依賴于相關流程保證數據的準確性。
在建設初期通過配置項自動發現,整個企業IT架構的配置項導入配置項,為了保證數據的準確、全面、我們要求業務系統、設備等管理人員提供、核對相關數據,保證在運維中能準確利用數據進行運維。
CMDB通過拓撲關聯圖展現各個配置項之間的關聯關系,可以清晰的看到各個硬件、軟件間的關聯關系,也能看到IT配置項和IT服務之間的關聯關系,因此當IT服務出現問題時,可以通過該關聯關系,快速查找IT服務不可用的根本原因。
將配置項和事故記錄、問題記錄、變更記錄和發布記錄相關聯,有利于針對具體的IT設施進行運維優化和改進。
(六)變更管理建設
確保在IT服務變動的過程中能夠有標準的方法,以有效的控制變更,降低或消除因為變更對業務運營所造成的影響與問題。由專家和技術顧問組成,對提交的變更請求(RFC)進行評審,并最終裁定是否批準實施該變更請求。
變更審計管理,通過CMDB定期對配置項進行自動掃描,發現企業IT架構中的非法變更,管理員根據變更的信息,選擇變更恢復或者進入變更流程,幫助管理人員進行變更的審計管理。
(七)發布管理建設
通過正式的流程確保只有經過完整測試與得到授權的軟件與硬件才能夠進入正式運行環境,以確保變更后生產環境的質量。發布的最終結果將會反映到CMDB中。
(八)知識庫建設
將成熟可行的解決方案錄入知識庫,進行數據共享,快速排除故障,從而達到提高用戶“自助式服務”能力的目的。當運維人員進行事故、問題、變更和發布運維流程時,可以根據不同資源類型,自動關聯該類型的知識條目,幫助運維人員快速解決問題。知識庫的自身管理,包括建立、審核、分類、評價、訂閱、收藏、搜索知識等,知識需要經過知識庫管理員審核后才能進入知識庫。