1993年春天,知名大學統(tǒng)計學教授發(fā)表了一篇論文。他的論文將改變人工智能的方式,該教授的既定目標更為謙虛:分析來自1990年美國人口普查的數(shù)據(jù),同時保留受訪者的匿名性。僅對數(shù)據(jù)進行匿名化是不可行的,仍然可以通過其家庭住址,電話號碼或社會保險號來識別個人,所有這些對于該教授的同事想要進行的分析都是至關重要的。為了解決該問題,該教授生成了一組匿名的人口普查響應,其人口統(tǒng)計反映了原始數(shù)據(jù)集的人口統(tǒng)計。這樣,該教授的同事們可以得出關于美國膚色的有效統(tǒng)計推斷,而不會損害其公民的身份。那么合成數(shù)據(jù)如何促進計算機視覺的?
該教授的解決方案是原始的。他已經(jīng)產(chǎn)生了綜合數(shù)據(jù),并以此為我們的學術詞匯量做出了貢獻。他的方法受到統(tǒng)計學家,經(jīng)濟學家和醫(yī)學研究人員的歡迎。
機器學習中的合成數(shù)據(jù)
數(shù)十年后,合成數(shù)據(jù)被發(fā)現(xiàn)可以促進機器學習。機器學習系統(tǒng)是可預測的,并且大多數(shù)都需要數(shù)據(jù)-越多越好。
例如,預測更多選舉結果的監(jiān)督式機器學習模型的準確性將提高。但是選舉是很少發(fā)生的事件,這意味著這種模型的數(shù)據(jù)派生預測能力有限(對模型體系結構的更改可能會產(chǎn)生較小的性能改進,但與將其訓練數(shù)據(jù)集加倍的影響相形見)。
為了獲得更大的預測能力,該模型需要更多數(shù)據(jù)。它還必須能夠解釋決定選舉結果的機制的變化,以便可以對兩者之間的關系做出有效的推斷。
生成其屬性可以進行有效推斷的合成數(shù)據(jù)是魯賓工作的初衷。受此啟發(fā),加州理工學院和加州大學歐文分校的研究人員創(chuàng)建了綜合選舉數(shù)據(jù),該數(shù)據(jù)可能已記錄在投票箱中,但沒有。
在該研究中,使用合成數(shù)據(jù)來克服數(shù)據(jù)稀缺性,但是數(shù)據(jù)隱私是另一個嚴重的問題。諸如醫(yī)療保健等處理高度敏感的個人信息的行業(yè)積極倡導合成數(shù)據(jù),因為法規(guī)通常會阻止其數(shù)據(jù)科學家處理真實的患者記錄。
隱私和稀缺性是重要的數(shù)據(jù)訪問問題,解決這些問題使模型的性能更高。但是在機器學習社區(qū)的另一個角落,合成數(shù)據(jù)被用于賦予模型新的功能-能夠查看原本不會看到的東西并做出新穎的預測。
合成影像
處理圖像的機器學習子集稱為計算機視覺。像預測選舉的模型一樣,大多數(shù)計算機視覺模型都隨數(shù)據(jù)而改進。
在計算機視覺中,數(shù)據(jù)獲取的主要方法依賴于坐在房間里的人類,并根據(jù)其內容對圖像進行標記。這是一個關鍵但勞動密集的過程(現(xiàn)在著名的名為ImageNet的照片集被手工標注了近1400萬次)。
標簽之所以重要,是因為標簽是我們將對世界的語義理解編碼到計算機中的方法。例如,坐在那個房間里的人們在貼上圖像的標簽時,可能會將照片注釋為“貓”或“狗”,以向計算機展示如何識別差異。但是標簽不必局限于人眼可以識別的事物。
由計算機創(chuàng)建的合成圖像可能包含標簽,這些標簽的尺寸甚至不能被人類可靠地量化-諸如深度或透明度之類的參數(shù)。
想象一下如何嘗試測量圖像中成千上萬個單個塑料瓶的相對深度。現(xiàn)在測量它們的透明度,以及它們反射光的角度。對于人類而言,這項任務是不可能的,但是具有這些屬性的照片擴大了計算機視覺模型的推斷可能性。
例如,在零售和廢物管理行業(yè)中,當機器人在包括深度和透明度標簽的合成數(shù)據(jù)集上接受訓練時,機器人可以揀選存貨并回收具有更大靈活性的塑料瓶(研究人員在今年早些時候證明了這一點)。使用合成數(shù)據(jù),機器人變得更加智能。
逆勢下注
的確,計算機已經(jīng)產(chǎn)生了數(shù)十年的圖像,但是要做到逼真的,具有美學多樣性并大規(guī)模地進行圖像生成是非常困難的。生成對抗網(wǎng)絡(GAN)是一種復雜的解決方案。它們以程序方式創(chuàng)建信息,這意味著它們可以提供圖像的無限變化,但與其他深度學習模型相比,不需要更多的人工指導。對于那些知道如何使用它們的人,GAN啟用了一條有利的數(shù)據(jù)供應鏈。
到目前為止,合成數(shù)據(jù)仍然是一個逆勢賭注,因為傳統(tǒng)觀點認為,使用人工標記圖像訓練的模型比使用合成圖像訓練的模型具有更高的性能。
但是來自學術界的證據(jù)表明,傳統(tǒng)觀念是錯誤的。在許多情況下,在合成數(shù)據(jù)上訓練或增強的模型比在實際數(shù)據(jù)上訓練的模型更有效,并且它們可以感知其他模型無法做到的事情。
這在自動駕駛汽車行業(yè)已經(jīng)很明顯,因為現(xiàn)實世界中的不確定性和動態(tài)性對合成數(shù)據(jù)產(chǎn)生了前所未有的需求。除非安全,否則Uber,Tesla,Waymo和Zoox不會在道路上行駛汽車,但是它們如何預測可能發(fā)生的每種駕駛情況?
在真正的汽車中讓真正的駕駛員捕捉數(shù)百萬小時的下雨,夜間和山區(qū)駕駛場景是不切實際的。這將花費太長時間,并使人們處于不必要的危險中。更好的解決方案是可以提供無限風景多樣性的圖像生成管道。所有主要的自動駕駛汽車公司都有可能將合成數(shù)據(jù)納入其計算機視覺系統(tǒng)。
合成圖像的另一個說法是經(jīng)濟。像其他數(shù)字商品一樣,其邊際生產(chǎn)成本幾乎為零。只要替代方案是人類為圖像加標簽,合成數(shù)據(jù)將更便宜,或者這樣的說法就可以了。
實際上,單位經(jīng)濟學更加復雜。許多高價值的用例需要自定義3D資產(chǎn),必須購買這些資產(chǎn)或由CGI藝術家使用動畫軟件繪制。在第一批合成數(shù)據(jù)初創(chuàng)企業(yè)中,競爭優(yōu)勢可能在于其攤派此類藝術家固定成本的能力。這樣做的回報是巨大的,但還需要在客戶之間有一個一致的,重復出現(xiàn)的用例,而在所有合成圖像市場中尚不存在這種用例。
隨著戲劇性的發(fā)展,綜合數(shù)據(jù)的性能優(yōu)勢將在學術界和初創(chuàng)企業(yè)界之外得到認可。
盡管如此,能夠識別差異化和高價值用例并圍繞它們建立可預測的收入流的初創(chuàng)公司將享有令人羨慕的市場地位。
對于初創(chuàng)企業(yè)和老牌企業(yè)而言,一件事很清楚:社會對機器學習系統(tǒng)的性能期望正在提高,并且使用合成數(shù)據(jù)來滿足它們。
綜上所述,合成數(shù)據(jù)如何促進計算機視覺的相信大家已經(jīng)清楚了吧,想了解更多關于人工智能的信息,請繼續(xù)關注中培偉業(yè)。