4.5 非結構化數據模型
大多數的信息是非結構化的,包括紙質的文件、報告、視頻和音頻文件、照片、傳真件、信件等。在信息化銀行建設過程中,所處理的數據除了常見的結構化數據外,還有大量的非結構化數據。
非結構化數據包含復雜的內容,并具有不同的結構特點,傳統關系數據庫無論從描述能力上還是從管理數據的規模上,都無法應對非結構化數據管理的要求。因此,需要專門針對非結構化數據特點,研究建立一種新的管理技術。
數據模型是數據管理的核心。數據模型定義了數據描述結構、數據操作方法以及數據完整性約束條件。基于數據模型,可以建立可擴展的數據存儲模型,使數據能夠以某種結構和方式進行存儲與讀取;可以建立面向上層應用的靈活多樣的數據操作模型,支持用戶對數據的高效訪問。非結構化數據管理與傳統結構化數據管理的目標是相同的,即支持數據的永久保存、快速有效的數據讀取操作,從而有效地支持上層應用和用戶的數據處理邏輯。因此,在非結構化數據管理中,建立有效的數據模型,仍然是達到數據管理目標的核心和關鍵。現有的非結構化數據模型主要有關系模型、擴展關系模型、面向對象模型、E-R模型以及分層式數據模型等。這些模型存在擴展性與復雜性方面的問題,而在面向大數據時這些問題更加突出,因此無法勝任大數據的管理。
非結構化數據例如文本、圖形、圖像、音頻和視頻等,從內容上沒有統一的結構,數據是以原生態形式保存的,因此計算機無法直接理解和處理。為了對不同類型的非結構化數據進行處理,所采用的基本思路是對這些非結構化數據進行描述,基于描述性信息實現對非結構化數據內容的管理和操作。對于非結構化數據的描述,目前有三類:基于關鍵字的語義描述;基于底層特征的描述;基于概念的語義描述。因此,一個非結構化數據可以由基本屬性、語義特征、底層特征以及原始數據四個部分構成,而且四個部分的數據之間存在各種聯系。
基于上述對非結構化數據的分析,可以使用學術界提出的四面體模型。四面體模型由一個頂點,四個刻面和刻面之間的交線組成,如圖4-12所示。