2.非結構化數據的采集和存儲
(1)非結構化數據的采集商業銀行的非結構化數據主要來源于行內和行外兩類途徑。
其采集方法主要有以下幾種:
1)行內文檔信息的采集。對于行內業務系統信息的采集,商業銀行一般會有統一的工具或系統從各類業務系統中獲取信息。對于被采集業務系統會提供數據庫、文件存儲等模塊的只讀用戶,提供統一的工具或數據采集模塊來獲取數據,而且采集工具或系統一般僅存儲索引信息,而不存儲業務系統信息實體。
2)行內系統日志的采集。很多商業銀行都有自己的海量數據采集工具,多用于系統日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具一般都采用分布式架構,能滿足每秒數百兆字節的日志數據采集和傳輸需求。