大數據可視化技術可以說是大數據分析和應用的一個非常關鍵的技術,中培偉業《大數據分析與可視化技術》謝老師在這里向大家分享了在大數據可視化分析方面的經典案例。
下圖是美國執行的臨床藥物試驗收集到的結果資料視覺化成圖表。藥物試驗通常非常復雜且牽涉了在長時間累積的資料。
試驗通常涉入不止一人,病人會被分成許多隊伍。每一隊會有不同的特性,比如特別的用藥順序。結果會有大量的資料包含不同的試驗藥物以及觀察到的結果。我們將資料視覺化來尋找試驗藥物及負面副作用之間的關連性。
圖表上的四個星星呈現出同一個藥物試驗資料利用不同視覺化方式所得的結果。每五個形成星星的點都表示一種藥物或藥物變種在試驗中施用在隊伍中每個病人。在中間的點代表病人體驗到的一種不希望有的副作用。不同藥物及副作用間的連結用線條來表示。
我們現在可以輕易的觀察到在星星外圍的每一種藥物與在中間的副作用之間的連結。這里也呈現四種不同的視覺化變形。每一個在不同物件的過濾器都標記了一個特別的發現。舉例來說,某種負面副作用及一種藥物之間的連結或在五種藥物試驗及副作用之間使用顏色來強調連結的強度。
分析方法
這份資料較復雜且在使用圖表工具軟體之前涉入需多處理步驟。首先,利用網站clinicaltrials.gov 的工具下載其上的報告。下載的檔案格式為XML,在分析之前這些XML 檔案需要經過Teradata Aster MapReduce 函數作前處理。根據文字探勘(Text Mining) 函數從報告中擷取關于特別藥物的副作用名字,使得點跟線的資訊可以在關聯式表格中建立。從表格中儲存的資訊就可以畫出圖表以及計算出不同的量測資訊。在處理資料遇到的挑戰有異常值(outlier) 及遺漏值(missing value)
有這四種呈現方式使得我們可以在資料中看到不同的重要的模式。線的顏色跟藥物及副作用之間的連結強度有關。這些資料發布在公開網域并且可以從clinicaltrial.gov FDA.gov 取得。
大數據可視化技術在大數據時代發揮著不可替代的重要作用,有著非常廣闊的市場前景。中培偉業作為國內IT培訓領導品牌,下一期的《大數據分析及可視化技術應用實戰》培訓將于9月22日—25日在 上海 舉行,歡迎廣大行業人才積極報名參加!