您現(xiàn)在的位置：首頁(yè) > 企業(yè)內(nèi)訓(xùn) > 大數(shù)據(jù) > 社交網(wǎng)絡(luò)數(shù)據(jù)及文本挖掘?qū)I(yè)技術(shù)

社交網(wǎng)絡(luò)數(shù)據(jù)及文本挖掘?qū)I(yè)技術(shù)

2020-07-03 09:38:43　|　來(lái)源：中培企業(yè)IT培訓(xùn)網(wǎng)

培訓(xùn)背景

隨著社交網(wǎng)絡(luò)日益發(fā)展，人們樂于在社交網(wǎng)絡(luò)上分享自己的生活，拓展自己的人脈。這一系列活動(dòng)背后，是基于社交網(wǎng)絡(luò)的巨大數(shù)據(jù)。然而，人們對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的挖掘和分析都還處于相對(duì)初級(jí)的階段，大規(guī)模、高維度數(shù)據(jù)的挖掘方法還在不斷地演化。隨著信息技術(shù)的迅猛發(fā)展，參與到社交網(wǎng)絡(luò)的人越來(lái)越多，人們樂于在網(wǎng)絡(luò)中去分享自己的相關(guān)信息，拓展自己的人脈。文本挖掘?yàn)楹稳绱酥匾兀繐?jù)普遍估計(jì)，在所有與業(yè)務(wù)有關(guān)的信息中，有80%的信息是非結(jié)構(gòu)化文本數(shù)據(jù)和半結(jié)構(gòu)化文本數(shù)據(jù)。換言之，如果不對(duì)這80%的信息所代表的大量數(shù)據(jù)應(yīng)用文本分析，所有嵌入的業(yè)務(wù)信息和消費(fèi)者行為數(shù)據(jù)都會(huì)被浪費(fèi)。術(shù)語(yǔ)文本挖掘常常被稱為文本分析具有很多的實(shí)際意義，比如垃圾過(guò)濾、從電子商務(wù)網(wǎng)站上的意見和建議中提取信息、在博客和評(píng)論網(wǎng)站中進(jìn)行社交收聽和意見挖掘、增強(qiáng)客戶服務(wù)和電子郵件支持、業(yè)務(wù)文檔的自動(dòng)化處理、法律領(lǐng)域的電子發(fā)現(xiàn)、衡量消費(fèi)者的偏好、索賠分析和欺詐檢測(cè)，企業(yè)甚至能通過(guò)社交平臺(tái)去直接影響客戶，一切都似乎因?yàn)樯缃痪W(wǎng)絡(luò)的出現(xiàn)而變的美好。

培訓(xùn)收益

1.本課程盡量避開數(shù)學(xué)公式，按照“講清思想方法原理—結(jié)合具體案例—R語(yǔ)言實(shí)現(xiàn)細(xì)節(jié)”思路，讓即使是幾乎沒有什么基礎(chǔ)的學(xué)員，掌握R語(yǔ)言數(shù)據(jù)挖掘的基本思路和模式，打下未來(lái)深入的良好基礎(chǔ)，能在工作和學(xué)習(xí)中結(jié)合具體問(wèn)題立馬上手操作解決；

2.課程注重學(xué)練結(jié)合的方法，會(huì)采取小組討論的方法，充分調(diào)動(dòng)大家思考的積極性，在做中掌握相關(guān)知識(shí)和技能；

3.課程緊緊抓住R語(yǔ)言和數(shù)據(jù)挖掘的重點(diǎn)和難點(diǎn)，詳細(xì)的分析和講解，在理解難、容易出錯(cuò)的地方反復(fù)提醒，以便學(xué)員在課后容易的進(jìn)行自己復(fù)習(xí)和相關(guān)拓展；

4.本課程讓學(xué)員領(lǐng)略大數(shù)據(jù)技術(shù)的魅力和廣闊前景，使學(xué)員掌握主流的大數(shù)據(jù)（包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)）的表示、建模、存儲(chǔ)、管理、分析處理、挖掘、推薦技術(shù)、匹配技術(shù)與關(guān)聯(lián)分析技術(shù)，以及機(jī)器學(xué)習(xí)平臺(tái)的原理與應(yīng)用實(shí)戰(zhàn)；

5.課程緊密結(jié)合行業(yè)市場(chǎng)需求和國(guó)際國(guó)內(nèi)最新技術(shù)發(fā)展潮流，讓學(xué)員掌握大數(shù)據(jù)分析挖掘平臺(tái)架構(gòu)和應(yīng)用部署，分享成功的大數(shù)據(jù)應(yīng)用項(xiàng)目實(shí)施經(jīng)驗(yàn)，學(xué)習(xí)大數(shù)據(jù)分析應(yīng)用項(xiàng)目解決方案咨詢服務(wù)；

6.讓學(xué)員掌握常見的大數(shù)據(jù)分析方法和數(shù)據(jù)挖掘算法使用方法，以及大數(shù)據(jù)開發(fā)與運(yùn)維技術(shù)。讓學(xué)員掌握基于Hadoop大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘平臺(tái)Mahout、MLbase機(jī)器學(xué)習(xí)算法庫(kù)應(yīng)用、數(shù)據(jù)倉(cāng)庫(kù)HIVE、實(shí)時(shí)分析平臺(tái)Spark、實(shí)時(shí)挖掘平臺(tái)Shark、分布式機(jī)器學(xué)習(xí)與推薦系統(tǒng)平臺(tái)Oryx的入門、中級(jí)以及高級(jí)應(yīng)用，并對(duì)主流的大數(shù)據(jù)分析建模與挖掘推薦平臺(tái)產(chǎn)品剖析。

培訓(xùn)特色

本課程讓學(xué)員領(lǐng)略大數(shù)據(jù)技術(shù)的魅力和廣闊前景，使學(xué)員掌握社交網(wǎng)絡(luò)與文本挖掘技術(shù)的分析能力增強(qiáng)對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)和文本的分析能力。

課程大綱

日程	培訓(xùn)模塊	內(nèi)容
第一天上午	大數(shù)據(jù)概述	1.大數(shù)據(jù)基本概念、技術(shù)梗概、技術(shù)沿革，以及大數(shù)據(jù)技術(shù)是如何改變?nèi)斯ぶ悄芗夹g(shù)、語(yǔ)音識(shí)別技術(shù)、圖像識(shí)別/視頻理解、自然語(yǔ)言處理技術(shù)等，以及大數(shù)據(jù)技術(shù)在政府、金融、石油、教育、交通、醫(yī)療衛(wèi)生等行業(yè)的成功案例； 2.大數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)模型、半結(jié)構(gòu)化模型和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模型，邏輯模型，以及分析建模工具的常用方法。
第一天上午	數(shù)據(jù)挖掘及Mahout	1.十大常用的并行數(shù)據(jù)挖掘算法、原理、應(yīng)用場(chǎng)景，以及技術(shù)實(shí)戰(zhàn)； 2.并行數(shù)據(jù)挖掘平臺(tái)Mahout的技術(shù)架構(gòu)、核心組件的工作原理以及技術(shù)； 3.Mahout應(yīng)用開發(fā)技術(shù)； 4.Mahout項(xiàng)目實(shí)戰(zhàn)。
第一天下午	R語(yǔ)言精要	本著循序漸進(jìn)而又覆蓋R語(yǔ)言重要而有用的基本內(nèi)容原則，本講從R語(yǔ)言入門開始，以前期的數(shù)據(jù)處理為核心，以實(shí)際案例為載體，內(nèi)容包括R語(yǔ)言的向量、數(shù)據(jù)框、矩陣運(yùn)算、缺失值和零值的處理、特別注重用R語(yǔ)言構(gòu)造函數(shù)編程解決實(shí)際問(wèn)題，詳細(xì)介紹強(qiáng)大的數(shù)據(jù)清洗整理plyr、zoo、car等常用包和強(qiáng)大的作圖ggplot2包，為使用R語(yǔ)言進(jìn)行數(shù)據(jù)挖掘打下扎實(shí)的工具基礎(chǔ)。主要案例：案例1：如何用R語(yǔ)言plyr等包合并、排序、分析數(shù)據(jù)并編制香農(nóng)-威納指數(shù)；案例2：如何用R語(yǔ)言編程同時(shí)實(shí)現(xiàn)幾十個(gè)高難度數(shù)據(jù)分析可視化圖片的jpeg格式輸出；案例3：如何使用R語(yǔ)言進(jìn)行分層或者整群抽樣構(gòu)建訓(xùn)練集與測(cè)試集；案例4：使用ggplot2畫出各種復(fù)雜的圖形。
第二天上午	神經(jīng)網(wǎng)絡(luò)和 R語(yǔ)言的實(shí)現(xiàn)	神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(diǎn)和輸出函數(shù)構(gòu)成邏輯策略，本講介紹其原理，主要通過(guò)案例的方式講解R語(yǔ)言實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)算法的過(guò)程和注意的事項(xiàng)。主要案例：案例1：酒的品質(zhì)和種類的神經(jīng)網(wǎng)絡(luò)的分析和預(yù)測(cè)；案例2：公司財(cái)務(wù)預(yù)警建模。
第二天上午	企業(yè)基于社交網(wǎng)絡(luò)數(shù)據(jù)的收獲	1.潛在商機(jī)的發(fā)現(xiàn)，通過(guò)數(shù)據(jù)挖掘與分析能夠得到什么？ 2.危機(jī)預(yù)警，通過(guò)數(shù)據(jù)挖掘與分析，可以對(duì)一些網(wǎng)絡(luò)中突然發(fā)布的一條可能對(duì)企業(yè)產(chǎn)生危機(jī)的信息即時(shí)的監(jiān)控； 3.效果預(yù)測(cè)，通過(guò)數(shù)據(jù)挖掘與分析讓企業(yè)能花最少的錢得到最大的產(chǎn)出。
第二天下午	交叉驗(yàn)證比較各個(gè)模型	對(duì)于同一個(gè)數(shù)據(jù)，可能有很多模型來(lái)擬合，如何衡量和比較模型的精度呢？本講將介紹交叉驗(yàn)證訓(xùn)練集和測(cè)試集的方法來(lái)幫助大家在實(shí)際中選取最佳模型進(jìn)行擬合和預(yù)測(cè)。
第三天上午	決策樹（回歸樹）分析和R語(yǔ)言實(shí)現(xiàn)	決策樹是數(shù)據(jù)挖掘的經(jīng)典方法，其原理容易被理解。本講主要講授兩種最為普遍的決策樹算法：CART和C4.5算法，使用rpart和J48函數(shù)進(jìn)行R語(yǔ)言分析。主要案例：案例1：對(duì)汽車耗油量進(jìn)行決策樹分析并完成相關(guān)目標(biāo)變量的預(yù)測(cè)；案例2：使用決策樹幫助電信局判斷和預(yù)測(cè)客戶辦理寬帶業(yè)務(wù)。
第三天下午	使用R語(yǔ)言結(jié)合KNN 算法進(jìn)行文本挖掘	文本挖掘，特別是對(duì)中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法，幫助大家使用R語(yǔ)言在大量的非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息，抽取潛在有用的數(shù)據(jù)，發(fā)現(xiàn)適合模式，實(shí)現(xiàn)可視化結(jié)果展示。主要案例：案例：使用R語(yǔ)言結(jié)合KNN算法對(duì)網(wǎng)頁(yè)（Web）進(jìn)行文本挖掘（含分詞、分類、可視化等）。