(2)輿情分析在大數據時代的背景下,網絡上存在大量以文本為代表的非結構化數據,特別是互聯網上的新聞、社交媒體數據,其中更不乏與商業銀行有關的輿情信息。對這些信息進行有效的挖掘和利用,將為商業銀行及時掌握在互聯網上傳播的潛在風險事件提供一個全新的視角。
實現輿情風險管理的文本挖掘技術過程一般分為文本獲取、預處理、分析挖掘、可視化展現等步驟。
1)文本獲取:商業銀行獲取文本的方式包括已采購的財經新聞、行業動態、研究報告等外部資訊信息,還可以通過開發采集工具來進一步擴大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進行采集。采集方式包括搜索引擎(通過搜索引擎進行關鍵詞搜索,之后將所有結果通過爬網程序進行采集)、新聞網站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結構中解析出正文和評論數據)、微博頁面適配(通過模擬實際用戶登錄后對微博信息進行采集)。
2)預處理:包括中文分詞和文本去重等步驟,從而實現文本的預處理。前者是在獲取到文本數據之后,將文本切分成詞匯的集合,使得機器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進行計算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據特征詞的編碼以及在文檔中的權重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進制編碼);文檔指紋完全相同的文檔,則認定為內容相同;指紋間不同的位數越少,則說明文檔內容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發現。