3)網(wǎng)絡(luò)數(shù)據(jù)的采集。隨著網(wǎng)絡(luò)信息的爆炸式增長(zhǎng),網(wǎng)絡(luò)已成為全球最大的、最重要的信息資源共享平臺(tái),在網(wǎng)絡(luò)上每時(shí)每刻都在動(dòng)態(tài)刷新的頁(yè)面中,蘊(yùn)藏著大量的可用的數(shù)據(jù)。
未來(lái),數(shù)據(jù)將被認(rèn)為是與自然資源、人力資源一樣重要的戰(zhàn)略資源,隱含著巨大的經(jīng)濟(jì)價(jià)值。目前,從網(wǎng)絡(luò)上采集到的數(shù)據(jù)多是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),如何快速、準(zhǔn)確地從中找到并提取商業(yè)銀行所需要的信息,是當(dāng)前最熱門(mén)的研究課題之一。
無(wú)論是通用搜索引擎,還是主題搜索引擎,“網(wǎng)絡(luò)爬蟲(chóng)”在其中都扮演著重要的角色。
網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎獲取網(wǎng)頁(yè)的主要工具,即使在企業(yè)內(nèi)部,也是獲取企業(yè)中各類(lèi)網(wǎng)頁(yè)中信息的重要手段。網(wǎng)絡(luò)爬蟲(chóng)的搜索策略是網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)關(guān)鍵,是其核心技術(shù)。另外,還有部分網(wǎng)站會(huì)公開(kāi)API,通過(guò)這種方式也可以從網(wǎng)站上獲取數(shù)據(jù)信息。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或者API方式可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。除了網(wǎng)絡(luò)中包含的內(nèi)容之外,對(duì)于網(wǎng)絡(luò)流量的采集還可以使用DPI或DFI等帶寬管理技術(shù)進(jìn)行處理。
4)其他數(shù)據(jù)采集方法。對(duì)于銀行生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或科學(xué)研究數(shù)據(jù)等保密性要求比較高的數(shù)據(jù),可以通過(guò)與企業(yè)或研究機(jī)構(gòu)進(jìn)行合作,使用特定系統(tǒng)接口等相關(guān)方式來(lái)采集數(shù)據(jù)。例如,商業(yè)銀行與中國(guó)人民銀行征信中心關(guān)于個(gè)人征信相關(guān)數(shù)據(jù)的采集。