數(shù)據(jù)中心技術(shù)包括云計(jì)算、內(nèi)部部署技術(shù)和IT管理方法的組合而成。IT運(yùn)營團(tuán)隊(duì)正在努力適應(yīng)這一新現(xiàn)實(shí),并應(yīng)對其帶來的日益復(fù)雜的問題。人們可以從新聞報道中了解到,越來越多的停電和停機(jī)事件使銀行和金融服務(wù)癱瘓、強(qiáng)迫機(jī)場停止運(yùn)營、影響了醫(yī)療的可用性。因此AIOps的出現(xiàn),解決了這些問題,那么AIOps發(fā)展趨勢如何?
第一個趨勢就是AIOps落地的多樣化,這個結(jié)論是基于我通過多種渠道采集到的信息。我們自己有一個公眾號“智能運(yùn)維前沿”,馬上要突破10000個用戶了;我們還有一個超過千人AIOps群,已經(jīng)成功舉辦了兩屆AIOps 挑戰(zhàn)賽,我一年中會到幾十家各行各業(yè)機(jī)構(gòu)去進(jìn)行現(xiàn)場交流。從上述多種渠道采集到的信息清楚表明:現(xiàn)在開始落地AIOps的,除了互聯(lián)網(wǎng)公司、銀行以外,證券、保險,電力、運(yùn)營商、工業(yè)制造、國家機(jī)關(guān)、自動駕駛公司也都在嘗試AIOps落地。
第二個趨勢是AIOps產(chǎn)業(yè)生態(tài)化。各個行業(yè)都在試圖嘗試落地AIOps,給AIOps方向提供了一個很好的產(chǎn)業(yè)基礎(chǔ)。“產(chǎn)、學(xué)、研、用”各方也都在積極跟進(jìn),形成了一個AIOps生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)里,專業(yè)的人負(fù)責(zé)專業(yè)的事,有越來越多的學(xué)術(shù)機(jī)構(gòu)從事AIOps原理研究;由機(jī)構(gòu)用戶負(fù)責(zé)提出實(shí)際需求,由有預(yù)研能力的廠商把AIOps原理上的突破變成實(shí)際落地效果;有負(fù)責(zé)數(shù)據(jù)采集、接入、存儲等的廠商,還有負(fù)責(zé)集成、交付、維保等的廠商。也就是說,“學(xué)、研、產(chǎn)、用”幾方專業(yè)分工,通力協(xié)作。AIOps產(chǎn)業(yè)生態(tài)化在AIOps落地過程中是一個重要的里程碑,會大力推動AIOps的更快落地。
第三個趨勢是AIOps數(shù)據(jù)多樣化。數(shù)據(jù)中心的系統(tǒng)物理架構(gòu)和軟件架構(gòu)都非常龐大復(fù)雜。因此我們必須采集、治理、融合多種運(yùn)維數(shù)據(jù)源、從中提取對運(yùn)維最有用的信息,幫助我們了解數(shù)據(jù)中心最新最全的運(yùn)行狀態(tài), 從而為AIOps的眾多場景服務(wù)。因此我們說AIOps數(shù)據(jù)多樣化是必然趨勢。
第四個趨勢是AIOps場景多樣化。下面羅列了一些我們與合作伙伴合作、交流時遇到的具體場景。我們分成幾個大場景:即異常發(fā)現(xiàn)、事件發(fā)現(xiàn)、事件分析、系統(tǒng)畫像、圖譜豐富等。每一個大場景會包含很多的具體場景,比如“事件分析”大場景就包括“異常機(jī)器定位”、“交易鏈條定位”、“多維度異常定位”等多種類型的事件分析。也就是說,當(dāng)用戶認(rèn)識到AIOps能實(shí)際幫助到運(yùn)維的時候,會自發(fā)與生態(tài)系統(tǒng)中的伙伴共同找到越發(fā)多樣化的AIOps場景。
第五個趨勢是AIOps場景精細(xì)化。異常檢測(也就是通過分析監(jiān)控?cái)?shù)據(jù)自動發(fā)現(xiàn)運(yùn)維故障)就包含單指標(biāo)異常檢測、多指標(biāo)異常檢測、多維度異常檢測、日志異常檢測等等。而單指標(biāo)異常檢測在檢測業(yè)務(wù)、機(jī)器、網(wǎng)絡(luò)、數(shù)據(jù)庫、存儲系統(tǒng)、批處理的異常時,其場景和檢測側(cè)重點(diǎn)會有所不同,因此需要針對精細(xì)化的具體場景進(jìn)行AIOps異常檢測算法的適當(dāng)調(diào)整或適配。
為了避免AIOps場景多樣化和精細(xì)化導(dǎo)致的落地工作量增加,我們必須把各類場景用到的AIOps算法共性部分抽象提煉出來作為公用模塊,為多個場景服務(wù)。如下圖所示,從日志數(shù)據(jù)測量出的指標(biāo)數(shù)據(jù)的異常檢測,就可以復(fù)用單指標(biāo)異常檢測這一算法模塊,并且這一算法模塊已經(jīng)服務(wù)化,即可以通過API直接調(diào)用。所以我們說的第六個趨勢就是AIOps算法服務(wù)化,提升了效率,讓整體服務(wù)得更好。
在AIOps場景多樣化、場景精細(xì)化、算法服務(wù)化的前提下,第七個趨勢,即AIOps技術(shù)平臺化也就水到渠成了。AIOps技術(shù)平臺化打穿多個場景、多個數(shù)據(jù)源、多個算法。如下圖所示,上面輸入的是各種運(yùn)維監(jiān)控?cái)?shù)據(jù),輸出的就是我們所需要的各種運(yùn)維智能,中間是各種服務(wù)化的AIOps算法。不管具體的某個運(yùn)維場景有什么樣的特點(diǎn),我們都可以通過整體平臺進(jìn)行自由組合和編排,從而高效落地該運(yùn)維場景,避免傳統(tǒng)方法的重復(fù)低效落地。
這也就引出了第八個趨勢:AIOps新算法落地加速化。
以往一個新算法研制出來后,需要大量的工程工作配合才能讓新算法產(chǎn)生實(shí)際效果。有了平臺化之后,只需要通過編排把該新算法、新算法所需數(shù)據(jù)、已有工程工作“串”在一起,就能夠快速落地。比如做了一個0day攻擊檢測算法ZeroWall,我們在一家具體機(jī)構(gòu)進(jìn)行嘗試的時候,一周內(nèi)捕獲28種0day攻擊,每天捕獲上萬條0day攻擊,每天誤報數(shù)0到6個。如果按照以往方法,我們要花大量的時間去做ZeroWall的落地工作,而有了AIOps平臺化, ZeroWall的落地工作就快了很多。
在過去半年期間,各個行業(yè)的合作伙伴都提出了AIOps成熟度評估標(biāo)準(zhǔn)化的需求,而銀保監(jiān)會、證監(jiān)會、人行、工信部相關(guān)領(lǐng)導(dǎo)也都表示會支持。這個事情我也已經(jīng)著手聯(lián)合各方開始做,預(yù)計(jì)一兩年的時間才能做出一個切實(shí)可行的標(biāo)準(zhǔn)。
AIOps發(fā)展趨勢如何通過上述介紹,相信大家已經(jīng)知曉,想了解更多關(guān)于AIOps的信息,請繼續(xù)關(guān)注中培偉業(yè)。