隨著最近AI崩潰的消息成為新聞,AI模型缺乏透明度和偏見(jiàn)日益增加的問(wèn)題已經(jīng)暴露出來(lái)。在最近的例子中,人工智能系統(tǒng)指出高污染的空氣可以安全呼吸,而實(shí)際上,這是非常危險(xiǎn)的,或者人工智能系統(tǒng)指出某名患者沒(méi)有癌癥,而實(shí)際上該患者確實(shí)患有癌癥。癌癥和死亡,或者AI系統(tǒng)將某筆交易認(rèn)定為欺詐,而這是完全合法的交易,給客戶造成不必要的麻煩,這顯然是有問(wèn)題的。那么如何構(gòu)建可以信賴的機(jī)器學(xué)習(xí)算法?
隨著AI的廣泛使用,這些崩潰每天都在增加,這完全是由于我們對(duì)這些AI系統(tǒng)的盲目信任所致,但是現(xiàn)在該采取行動(dòng)了。
在實(shí)現(xiàn)和信任這些AI系統(tǒng)時(shí),當(dāng)前的業(yè)務(wù)前景仍然非常懷疑。許多公司已經(jīng)啟動(dòng)了該過(guò)程,但尚未實(shí)現(xiàn)其價(jià)值。這主要是由于數(shù)據(jù)科學(xué)團(tuán)隊(duì)與業(yè)務(wù)利益相關(guān)者之間的理解差距。
在過(guò)去的幾個(gè)月中,我們與許多業(yè)務(wù)利益相關(guān)者進(jìn)行了交談,這些利益相關(guān)者正處于這些預(yù)測(cè)的接受端,并發(fā)現(xiàn)數(shù)據(jù)科學(xué)家無(wú)法解釋AI系統(tǒng)預(yù)測(cè)的原因和背后的原因,以及為什么AI系統(tǒng)預(yù)測(cè)是對(duì)預(yù)測(cè)的不信任和懷疑的最大因素?cái)?shù)據(jù)科學(xué)計(jì)劃。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)中的人員技術(shù)含量高,并且對(duì)復(fù)雜性有所了解,以表明其技能水平。但是,業(yè)務(wù)利益相關(guān)者則完全相反:他們不在乎所使用的技術(shù),而是在乎模型產(chǎn)生的結(jié)果如何與他們的業(yè)務(wù)目標(biāo)和KPI相聯(lián)系。
除非數(shù)據(jù)科學(xué)家能夠回答以下重要問(wèn)題,否則這是不可能實(shí)現(xiàn)的:
1.為什么我應(yīng)該相信模型生成的結(jié)果?
2.該模型用于產(chǎn)生結(jié)果的基本原理是什么?
3.在生產(chǎn)中使用模型的好處和缺點(diǎn)是什么?
4.結(jié)果是否符合業(yè)務(wù)邏輯?
僅在回答了這些問(wèn)題之后,數(shù)據(jù)科學(xué)家才能向業(yè)務(wù)用戶提出建議,并有望取得進(jìn)展。
為了解決這個(gè)問(wèn)題,數(shù)據(jù)科學(xué)家有兩種選擇:
1.通過(guò)在黑盒模型的頂部構(gòu)建一個(gè)可解釋的模型來(lái)對(duì)其進(jìn)行解釋。這是LIME&SHAP背后的邏輯。SHAP被廣泛使用,因?yàn)樗梢源_保每個(gè)變量的貢獻(xiàn)的公平分配,并具有各種各樣的圖形。可悲的是,這種方法需要大量的迭代,缺乏交互性并且無(wú)法擴(kuò)展,尤其是在處理敏感的數(shù)據(jù)集和決策時(shí)。不僅如此,可視化還沒(méi)有吸引力和互動(dòng)性。它們的靜態(tài)性質(zhì)在數(shù)據(jù)科學(xué)家和業(yè)務(wù)涉眾之間造成了更大的鴻溝。缺少動(dòng)態(tài)和交互圖使得從SHAP或LIME生成價(jià)值變得極為困難,因此需要一種更好的方法來(lái)使用這些技術(shù)。
2.使用可解釋的模型:數(shù)據(jù)科學(xué)家可以嘗試優(yōu)化邏輯回歸或決策樹(shù)之類的簡(jiǎn)單模型,以進(jìn)行預(yù)測(cè),而不是使用諸如深層神經(jīng)網(wǎng)絡(luò)之類的黑盒模型。在準(zhǔn)確性和可解釋性之間會(huì)有一個(gè)權(quán)衡,但是數(shù)據(jù)科學(xué)家將需要決定什么才是創(chuàng)造價(jià)值的基礎(chǔ),并且需要關(guān)注兩種模型之間的邊際收益。如果準(zhǔn)確度之間的邊際增長(zhǎng)不顯著,則更理想的是實(shí)施更簡(jiǎn)單的模型并將預(yù)測(cè)直接與業(yè)務(wù)KPI關(guān)聯(lián)。令人遺憾的是,隨著數(shù)據(jù)復(fù)雜性的提高,我們今天正在收集的數(shù)據(jù)中,簡(jiǎn)單的模型表現(xiàn)不佳。
因此出現(xiàn)了問(wèn)題:
有沒(méi)有更好的方法來(lái)建立對(duì)我們的機(jī)器學(xué)習(xí)模型的信任?
就在這里!在mltrons,我們的愿景是增加AI的采用并加速實(shí)現(xiàn)奇點(diǎn)。為了實(shí)現(xiàn)這一目標(biāo),我們開(kāi)始執(zhí)行任務(wù),以幫助數(shù)據(jù)科學(xué)家構(gòu)建可理解,可解釋且無(wú)偏見(jiàn)的AI算法。
這將確保受AI影響的每個(gè)人都能夠理解為什么做出決策,并確保AI結(jié)果無(wú)偏見(jiàn),準(zhǔn)確且沒(méi)有任何邏輯上的不一致。
為了實(shí)現(xiàn)我們的任務(wù),我們正在為數(shù)據(jù)科學(xué)家創(chuàng)建一個(gè)即插即用的可解釋AI系統(tǒng),該系統(tǒng)將以完全沉浸式和交互的方式專門研究,解釋,可視化和驗(yàn)證機(jī)器學(xué)習(xí)預(yù)測(cè)的原因和方式。
該系統(tǒng)旨在幫助數(shù)據(jù)科學(xué)家和業(yè)務(wù)利益相關(guān)者建立對(duì)AI系統(tǒng)的信任,并做出充分知情的決策。
mltrons xAI引擎與當(dāng)前市場(chǎng)上其他替代品的不同之處在于,我們的系統(tǒng)能夠跨多個(gè)數(shù)據(jù)集和定制模型運(yùn)行。
我們的目標(biāo)不是使科學(xué)家切換到新的獨(dú)立系統(tǒng),而是希望在當(dāng)前數(shù)據(jù)科學(xué)家的工作流程中實(shí)施我們的系統(tǒng)。
這意味著數(shù)據(jù)科學(xué)家現(xiàn)在可以將XGBoost,CatBoost,PyTorch,TensorFlow,SageMaker的Jupiter筆記本,數(shù)據(jù)源(Amazon,MySQL,HDFS和定制模型)引入mltrons引擎,mltrons引擎將吸收他們的輸入并將用作附加層,以提供有關(guān)這些算法如何工作,思考和輸出結(jié)果的解釋性。
然后,數(shù)據(jù)科學(xué)家將能夠通過(guò)我們的交互式可視化,報(bào)告和可共享的儀表板,以簡(jiǎn)單的商業(yè)友好語(yǔ)言解釋結(jié)果,任何人都可以理想地理解該結(jié)果。
以上就是關(guān)于如何構(gòu)建可以信賴的機(jī)器學(xué)習(xí)算法的全部?jī)?nèi)容,想了解更多關(guān)于機(jī)器學(xué)習(xí)算法的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。