我經常聽到人們談論神經網絡,就像黑盒子一樣,您不了解它的作用或含義。實際上,許多人無法理解其含義。如果您了解反向傳播的工作原理,那么黑匣子又如何呢?我在人工神經網絡的研究工作中遇到了黑匣子問題。無論最終輸出的準確性如何,人工神經網絡盡管具有優勢,但在相關領域仍缺乏模型的可解釋性。首先,讓我解釋一下黑匣子問題。
人工神經網絡中的黑匣子問題是什么?
從某種意義上說,神經網絡雖然可以近似任何功能,但從其意義上講,它是一個黑匣子。研究其結構不會對近似函數的結構產生任何見解。
例如,神經網絡在癌癥預測中的一種常見用途是將人們分為“病患者”和“非病患者”。您具有輸入特征C(性別,年齡,身高等)的矩陣和結果R(“乳腺癌”,“肺癌”等)的向量。當使用神經網絡對此建模時,您假設在數學函數的正確意義上存在函數f(C)= R。該函數f可以是任意復雜的,并且可能會隨著業務的發展而變化,因此您無法手動獲得它。
然后,使用神經網絡構建函數f的近似值,該函數的錯誤率對于您的應用程序是可接受的。這行得通,精度可以任意降低-您可以擴展網絡,微調其訓練參數并獲取更多數據,直到精度達到您的目標。
黑匣子問題是:神經網絡給出的逼近值不會讓您深入了解函數f的形式。權重與要近似的函數之間沒有簡單的聯系。甚至分析哪個輸入特性都不相關也是一個未解決的問題。
另外,從傳統的統計角度來看,神經網絡是不可識別的模型:給定一個數據集和網絡拓撲,可以存在兩個權重不同且結果相同的神經網絡。這使得分析非常困難。
作為“非黑匣子模型”或“可解釋模型”的示例,您具有回歸方程式和決策樹。第一個為您提供函數f的閉式近似值,其中每個元素的重要性都明確,第二個為一些相對風險/幾率的圖形描述。
黑匣子里面
人工智能算法在人們的生活中越來越具有影響力,但其內部運作通常是不透明的。我們研究了原因,并探討了該措施。但是,沒有關于模型可解釋性的標準。
黑匣子之謎如何解決?
一個叫做“ 信息瓶頸 ”的新想法正在幫助解釋當今的人工智能算法令人費解的成功-也許還可以解釋人腦如何學習。
像大腦一樣,深層的神經網絡具有神經元層-人造的神經元,是計算機內存中的虛構體。當神經元激發時,它將信號發送到上一層中連接的神經元。在深度學習期間,網絡中的連接會根據需要進行增強或減弱,以使系統更好地從輸入數據(例如,狗的照片的像素)通過各層向上到達與正確的高信號相關的神經元發送信號。級別的概念,例如“狗”。深度神經網絡從成千上萬張狗的樣本照片中“學習”之后,它可以像人們一樣準確地識別新照片中的狗。在學習過程中,從特殊情況到一般概念的神奇飛躍賦予了深度神經網絡以強大的力量,正如它是人類推理,創造力和其他統稱為“智能”的基礎一樣。
耶路撒冷來大學的計算機科學家和神經科學家提出了支持新理論的證據,該新理論解釋了深度學習的工作原理??茖W家認為,深度神經網絡是根據稱為“信息瓶頸”的過程進行學習的,他和兩個合作者于1999年首次以純理論術語對其進行了描述。這個想法是,網絡擺脫了多余細節的嘈雜輸入數據,就像通過瓶頸壓縮信息一樣,僅保留了與一般概念最相關的功能。科學家和他的學生進行了令人震驚的新計算機實驗,揭示了這種壓縮過程在深度學習期間如何發生,至少在他們研究的情況下如此。
科學家認為,信息瓶頸是學習背后的基本原理,無論您是算法,家蠅,有意識的生物,還是對緊急行為的物理計算,都期待已久的答案“是最重要的部分。的學習實際上是在忘記?!?/p>
信息瓶頸
科學家在其他研究人員首次研究深度神經網絡時就開始考慮信息瓶頸,盡管至今還沒有一個概念被命名。當時是1980年代,科學家正在思考人類在語音識別方面的表現如何-當時對于AI來說是一項重大挑戰??茖W家意識到問題的癥結在于相關性問題:一個口語單詞最相關的特征是什么?我們如何從伴隨它們的變量中挑出來?通常,當我們面對現實的數據之海時,我們會保留哪些信號?
從某種意義上說,信息理論的創始人從1940年代開始就解放了對信息的研究,方法是抽象地將其視為具有純數學意義的1和0。香農認為,正如科學家所說,“信息與語義無關”。但是,科學家認為這不是事實。他意識到,利用信息理論,“您可以精確地定義'相關'。”
想象X是一個復雜的數據集,如狗照片的像素,而Y是一個由這些數據表示的簡單變量,例如單詞“狗”。您可以通過盡可能多地壓縮X來捕獲X中有關Y的所有“相關”信息,而不會失去預測Y的能力。科學家和他的合著者,在其1999年的論文中將其表述為數學優化問題。這是沒有殺手級應用的基本思想。
信息論的演變
盡管深度神經網絡背后的概念已經使用了數十年,但由于改進了訓練方法和功能更強大的計算機處理器,它們在語音和圖像識別等任務中的性能才在2010年代初才開始發揮作用。在閱讀了物理學家的令人驚訝的論文之后,科學家在2014年意識到了它們與信息瓶頸原理的潛在聯系。
他們二人發現,欣頓發明的一種名為“深層信念網”的深度學習算法在特定情況下的工作原理與重歸一化完全相同,重歸一化是物理學中用于通過粗粒度細化物理系統細節來縮小物理系統的一種技術,計算其總體狀態。物物理學家將深層置信網絡應用于磁體的“臨界點”模型時,在該模型中系統是分形的,或者在各個尺度上都是自相似的,因此他們發現網絡會自動使用類似于歸一化的過程來發現模型的狀態。這是一個令人震驚的跡象,作為生物物理學家當時說,“在統計物理學的背景下提取相關特征,在深度學習的背景下提取相關特征不僅是相似的詞,而且是相同的?!?/p>
唯一的問題是,通常來說,現實世界不是分形的?!白匀唤绮皇嵌渖系亩?,耳朵上的耳朵;物理學家說。“因此,我不會說[重歸一化過程]是對自然圖像進行深度學習如此有效的原因?!? 但是當時正在接受胰腺癌化療的科學家意識到,更廣泛的想法可以涵蓋深度學習和粗粒度過程。他說:“思考科學以及我的舊觀念的作用是我康復和恢復的重要組成部分?!?/p>
在2015年,他和他的學生假設深度學習是一個信息瓶頸程序,該程序盡可能地壓縮嘈雜的數據,同時保留有關數據表示的信息??茖W家用深度神經網絡進行的新實驗揭示了瓶頸程序實際上是如何發揮作用的。在一種情況下,研究人員使用了小型網絡,可以訓練這些網絡使用1或0標記輸入數據(認為“狗”或“沒有狗”),并為其282個神經連接提供隨機的初始強度。然后,他們使用3,000個樣本輸入數據集跟蹤了網絡參與深度學習時發生的情況。
大多數深度學習程序中用于調整神經連接以響應數據的基本算法稱為“隨機梯度下降”:每次將訓練數據輸入網絡時,一連串的觸發活動會向上掃過各個層次人工神經元。當信號到達頂層時,可以將最終的發射模式與圖像的正確標簽進行比較-1或0,“狗”或“無狗”。觸發模式和正確模式之間的任何差異都會在各層之間“反向傳播”,這意味著,就像老師對考試進行校正一樣,該算法會增強或削弱每個連接,從而使網絡層更好地產生正確的輸出信號。在培訓過程中,培訓數據中的常見模式會體現在聯系的優勢上,
在他們的實驗中,科學家跟蹤了深度神經網絡的每一層保留了多少關于輸入數據的信息以及每一層保留了關于輸出標簽的多少信息??茖W家發現,網絡層層地收斂到了信息瓶頸的理論界限:原始論文得出的理論極限代表了系統在提取相關信息方面可以做到的絕對最佳。在極限時,網絡已盡可能地壓縮了輸入,而不會犧牲準確預測其標簽的能力。
科學家還做出了一個有趣的發現,即深度學習分兩個階段進行:短暫的“擬合”階段和更長的“壓縮”階段概括而言,由其在標記新測試數據時的性能來衡量。
隨著深度神經網絡通過隨機梯度下降來調整其連接,起初,它為輸入數據存儲的位數大致保持恒定或略有增加,因為連接會進行調整以對輸入中的模式進行編碼,并且網絡會很好地適應標簽它。一些專家將這一階段與記憶進行了比較。
然后學習切換到壓縮階段。網絡開始散布有關輸入數據的信息,僅跟蹤最強的功能-與輸出標簽最相關的那些關聯。發生這種情況的原因是,在隨機梯度下降的每次迭代中,訓練數據中或多或少的偶然相關性告訴網絡要做不同的事情,在隨機行走中上下撥動其神經連接的強度。。這種隨機有效地與壓縮輸入數據的系統表示相同。例如,有些狗的照片可能在背景中有房子,而另一些則沒有。當網絡循環瀏覽這些訓練照片時,它可能“忘記”某些照片中房屋和狗之間的相關性,而其他照片則抵消了它們。科學家認為,正是這些細節的遺忘使系統能夠形成一般概念。確實,他們的實驗表明,深度神經網絡在壓縮階段提高了其泛化性能,在標記測試數據方面變得更好。
信息瓶頸是否支配著所有的深度學習機制還有待觀察,或者除了壓縮之外,是否還有其他推廣途徑還有待觀察。一些AI專家認為科學家的想法是最近出現的許多有關深度學習的重要理論見解之一。哈佛大學的AI研究人員和理論神經科學家指出,某些非常大的深度神經網絡似乎不需要抽出壓縮階段就能很好地概括。取而代之的是,研究人員采用稱為“提前停止”的程序進行編程,這可以縮短培訓時間,以防止網絡首先對過多的相關性進行編碼。
科學家認為,同事分析的網絡模型與標準的深度神經網絡體系結構有所不同,但盡管如此,信息瓶頸的理論界限比其他方法更好地定義了這些網絡的泛化性能??茖W家的最新實驗部分解決了有關瓶頸是否支持更大的神經網絡的問題,在該實驗中,他們訓練了更大的,330,000個連接深的神經網絡來識別手寫體中的數字。擁有60,000幅圖像的美國國家標準技術研究院數據庫,這是衡量深度學習算法性能的著名基準??茖W家們看到了網絡到信息瓶頸理論界限的相同收斂。他們還觀察到了深度學習的兩個截然不同的階段,相較于較小的網絡,它們之間的過渡更加尖銳。提什比說:“我現在已經完全確信這是普遍現象。”
人與機器
大腦如何從感官中篩選信號并將其提升到意識意識水平的奧秘,促使AI先驅者開始對深度神經網絡產生了很多早期興趣,他們希望逆向工程大腦的學習規則。從那以后,人工智能從業者已經在瘋狂的發展中為技術進步而放棄了這條道路,而不是像敲響鐘聲那樣鼓吹而沒有考慮生物學上的合理性。盡管如此,隨著他們的思維機器取得更大的成就-甚至引發人們對AI可能在某天構成生存威脅的恐懼?-許多研究人員希望這些探索能夠發現關于學習和智力的一般見解。
紐約大學心理學和數據科學的助理教授研究了人與機器學習方式的異同,他表示,提斯比的發現代表“邁向打開神經網絡黑匣子的重要一步,”但他強調說大腦代表了更大,更黑的黑匣子。我們的成年大腦在860億個神經元之間擁有數百萬億個連接,很可能會使用一整套技巧來增強泛化能力,這超出了嬰兒期發生的基本圖像和聲音識別學習過程,并且在許多方面可能類似于深度學習。
萊克說,例如,蒂什比確定的擬合和壓縮階段似乎與孩子學習手寫字符的方式沒有類似之處,他研究了這一階段。孩子們無需看成千上萬個角色的例子,并在很長一段時間內壓縮他們的思維方式,便可以識別該字母的其他實例并自己編寫。實際上,他們可以從一個示例中學習。萊克和他的同事們的模型暗示大腦可能將新字母分解為一系列筆畫-以前存在的心理構造-允許將字母的概念添加到先驗知識的體系中。教授解釋說:“與標準機器學習算法一樣,教授解釋說,“與其將字母的圖像視為像素的圖案,而沒有將其視為映射這些特征的概念,”而是解釋道,“相反,我旨在建立一個簡單的字母因果模型,”概括的更短路徑。
這種機智的想法可能會為AI社區提供經驗教訓,促進這兩個領域之間的來回交流??茖W家相信,他的信息瓶頸理論最終將在這兩個領域中都被證明是有用的,即使它在人類學習中比在AI中更普遍??梢詮脑摾碚撝蝎@得的直接見解是,可以更好地了解可以通過實際和人工神經網絡解決哪些類型的問題。提什比說:“它完全描述了可以學習的問題?!? 這些是“我可以消除輸入中的噪聲而又不影響分類能力的問題。這是自然視覺問題,語音識別。這些正是我們的大腦可以應付的問題?!?/p>
同時,無論是真實的還是人工的神經網絡,都碰到了每個細節都很重要的問題,而微小的差異可能會抵消整個結果。例如,大多數人無法快速將兩個大數相乘。蒂什比說:“我們遇到了這類問題,這些邏輯問題對一個變量的變化非常敏感?!? “可分類性,離散問題,密碼問題。我認為深度學習永遠不會幫助我破解密碼?!?/p>
泛化意味著留下一些細節。這對于快速進行代數運算不是很好,但是這不是大腦的主要業務。我們正在尋找人群中熟悉的面孔,嘈雜世界中混亂的秩序,明顯的信號。
以上即是關于深度學習和人工神經網絡如何解決黑盒子問題的全部內容,想了解更多關于人工智能的信息,請繼續關注中培偉業。