2003年,DARPA啟動PAL計劃,將機器學習的重要性上升到美國國家安全的高度來考慮,眾所周知,美國最尖端科技的研究通常是由NASA和DARPA推進的,而這兩大機構不約而同地強調機器學習的重要性,其意義不言而喻.2006年,卡耐基梅隆大學宣告成立世界上第一個“機器學習系”,機器學習領域奠基人之-T.Mitchell教授出任首任系主任.2012年3月,美國奧巴馬政府啟動“大數據研究與發展計劃”,美國國家科學基金會旋即在加州大學伯克利分校啟動加強計劃,強調要深入研究和整合大數據時代的三大關鍵技術:
機器學習、云計算、眾包(crowdsourcing).顯然,機器學習在大數據時代是必不可少的核心技術,道理很簡單:收集、存儲、傳輸、管理大數據的目的,是為了“利用”大數據,而如果沒有機器學習技術分析數據,則“利用”無從談起.談到對數據進行分析利用,很多人會想到“數據挖掘”(data mining),這里簡單探討一下數據挖掘與機器學習的聯系.數據挖掘領域在二十世紀九十年代形成,它受到很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大[Zhou,2003].數據挖掘是從海量數據中發掘知識,這就必然涉及對“海量數據”的管理和分析.大體來說,數據庫領域的研究為數據挖掘提供數據管理技術,而機器學習和統計學的研究為數據挖掘提供數據分析技術.由于統計學界的研究成果通常需要經由機器學習研究來形成有效的學習算法,之后再進入數據挖掘領域,因此從這個意義上說,統計學主要是通過機器學習對數據挖掘發揮影響,而機器學習領域和數據庫領域則是數據挖掘的兩大支撐.今天,機器學習已經與普通人的生活密切相關,例如在天氣預報、能源勘探、環境監測等方面,有效地利用機器學習技術對衛星和傳感器發回的數據進行分析,是提高預報和檢測準確性的重要途徑;在商業營銷中,有效地利用機器學習技術對銷售數據、客戶信息進行分析,不僅可幫助商家優化庫存降低成本,還有助于針對用戶群設計特殊營銷策略:……下面再舉幾例: