數(shù)據(jù)采集工程師崗位職責(zé):應(yīng)負(fù)責(zé)數(shù)據(jù)調(diào)研、采集、歸類、預(yù)處理、歸類存儲(chǔ)等工作。
數(shù)據(jù)采集工程師初級(jí)能力要求具體如下:
a) 專業(yè)知識(shí):
1) 網(wǎng)絡(luò)爬蟲知識(shí),
2) 離線數(shù)據(jù)采集知識(shí),
3) 實(shí)時(shí)數(shù)據(jù)采集知識(shí),
4) 作業(yè)調(diào)度知識(shí),
5) 文件系統(tǒng)數(shù)據(jù)存儲(chǔ)知識(shí),
6) 關(guān)系型數(shù)據(jù)庫(kù)知識(shí),
7) 非關(guān)系型數(shù)據(jù)庫(kù)知識(shí),
8) 數(shù)據(jù)清洗知識(shí),
9) 數(shù)據(jù) ETL 知識(shí),
10) 數(shù)據(jù)庫(kù)基礎(chǔ)操作知識(shí),
11) SQL 函數(shù)知識(shí),
12) 結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化知識(shí),
13) 分布式計(jì)算知識(shí),
14) 內(nèi)存計(jì)算知識(shí),
15) 數(shù)據(jù)結(jié)構(gòu)封裝知識(shí),
16) 關(guān)鍵業(yè)務(wù)指標(biāo)知識(shí),
17) OLAP 系統(tǒng)應(yīng)用知識(shí),
18) 數(shù)據(jù)檢索知識(shí),
19) 交互式計(jì)算知識(shí),
20) 報(bào)表制作知識(shí)。
b) 專業(yè)技能:
1) 能根據(jù)業(yè)務(wù)需求進(jìn)行網(wǎng)絡(luò)、離線、實(shí)時(shí)數(shù)據(jù)采集;
2) 能根據(jù)調(diào)度策略使用框架設(shè)置調(diào)度作業(yè);
3) 能根據(jù)存儲(chǔ)策略進(jìn)行數(shù)據(jù)存儲(chǔ);
4) 能根據(jù)業(yè)務(wù)需求對(duì)遺漏數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)等進(jìn)行清洗;
5) 能根據(jù)業(yè)務(wù)需求對(duì)不同數(shù)據(jù)源數(shù)據(jù)進(jìn)行整合;
6) 能根據(jù)業(yè)務(wù)規(guī)則對(duì)數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換;
7) 能根據(jù)數(shù)據(jù)歸一性原則對(duì)數(shù)據(jù)進(jìn)行單位、數(shù)值規(guī)約;
8) 能根據(jù)業(yè)務(wù)需求編寫批量、實(shí)時(shí)數(shù)據(jù)計(jì)算作業(yè);
9) 能根據(jù)數(shù)據(jù)特征計(jì)算數(shù)據(jù)標(biāo)簽并進(jìn)行匯總;
10) 能根據(jù)數(shù)據(jù)指標(biāo)規(guī)則計(jì)算關(guān)鍵業(yè)務(wù)指標(biāo);
11) 能根據(jù)數(shù)據(jù)平臺(tái)構(gòu)建聯(lián)機(jī)事務(wù)分析系統(tǒng)并進(jìn)行即席查詢;
12) 能根據(jù)檢索引擎創(chuàng)建索引庫(kù)并進(jìn)行數(shù)據(jù)檢索;
13) 能使用交互式查詢工具創(chuàng)建數(shù)據(jù)接口并提供對(duì)外服務(wù)接口;
14) 能使用交互式查詢平臺(tái)制作報(bào)表及展示圖表。
c) 經(jīng)驗(yàn):
1) 累計(jì)從事本崗位工作 1 年以上。
數(shù)據(jù)采集工程師中級(jí)能力要求具體如下:
a) 專業(yè)知識(shí):
1) 信息系統(tǒng)配置知識(shí),
2) 數(shù)據(jù)監(jiān)測(cè)與遷移知識(shí),
3) 數(shù)據(jù)存儲(chǔ)策略知識(shí),
4) 常用算法與數(shù)據(jù)結(jié)構(gòu)知識(shí),
5) 數(shù)據(jù)畫像知識(shí),
6) 數(shù)據(jù)傾斜知識(shí),
7) 大規(guī)模并行分析數(shù)據(jù)庫(kù)知識(shí),
8) 數(shù)據(jù)立方知識(shí),
9) 查詢引擎知識(shí),
10) 數(shù)據(jù)分詞知識(shí)。
b) 專業(yè)技能:
1) 能根據(jù)業(yè)務(wù)需求進(jìn)行網(wǎng)絡(luò)、離線、實(shí)時(shí)數(shù)據(jù)采集,并配置數(shù)據(jù)緩存及消息隊(duì)列;
2) 能根據(jù)業(yè)務(wù)需求參與制定數(shù)據(jù)遷移方案;
3) 能制定調(diào)度策略;
4) 能制定存儲(chǔ)策略并指導(dǎo)初級(jí)工程師存儲(chǔ)數(shù)據(jù);
5) 能根據(jù)業(yè)務(wù)需求編寫批量、實(shí)時(shí)數(shù)據(jù)計(jì)算作業(yè)并優(yōu)化作業(yè)參數(shù);
6) 能根據(jù)業(yè)務(wù)規(guī)則設(shè)計(jì)相應(yīng)標(biāo)簽庫(kù)并進(jìn)行標(biāo)簽管理;
7) 能根據(jù)業(yè)務(wù)規(guī)則設(shè)計(jì)相應(yīng)數(shù)據(jù)指標(biāo)計(jì)算算法;
8) 能根據(jù)業(yè)務(wù)規(guī)則對(duì)關(guān)系對(duì)象進(jìn)行圖計(jì)算;
9) 能使用大規(guī)模并行分析數(shù)據(jù)庫(kù)優(yōu)化聯(lián)機(jī)事務(wù)分析系統(tǒng)性能;
10) 能使用計(jì)算引擎優(yōu)化數(shù)據(jù)查詢效率;
11) 能通過(guò)計(jì)算平臺(tái)構(gòu)建檢索分析系統(tǒng)。
c) 經(jīng)驗(yàn):
1) 具備一定的采集相關(guān)項(xiàng)目經(jīng)驗(yàn);
2) 累計(jì)從事本崗位工作 3 年以上。
數(shù)據(jù)采集工程師高級(jí)能力要求具體如下:
a) 專業(yè)知識(shí):
1) 數(shù)據(jù)采集與遷移策略,
2) 依賴調(diào)度原理知識(shí),
3) 存儲(chǔ)架構(gòu)知識(shí),
4) 數(shù)據(jù)算法設(shè)計(jì),
5) 數(shù)據(jù)分區(qū)及緩存知識(shí),
6) 外部程序管道知識(shí),
7) 計(jì)算引擎優(yōu)化知識(shí),
8) 索引優(yōu)化知識(shí),
9) 數(shù)據(jù)加鹽知識(shí),
10) 驅(qū)動(dòng)器與執(zhí)行器知識(shí)。
b) 專業(yè)技能:
1) 能根據(jù)業(yè)務(wù)場(chǎng)景制定數(shù)據(jù)采集策略并監(jiān)控采集情況;
2) 能根據(jù)業(yè)務(wù)場(chǎng)景制定數(shù)據(jù)遷移策略并監(jiān)測(cè)遷移情況;
3) 能根據(jù)業(yè)務(wù)及性能需求設(shè)計(jì)消息傳輸及推送方案;
4) 能根據(jù)業(yè)務(wù)需求及依賴關(guān)系設(shè)計(jì)調(diào)度方案;
5) 能根據(jù)業(yè)務(wù)需求及存儲(chǔ)應(yīng)用設(shè)計(jì)存儲(chǔ)策略;
6) 能根據(jù)業(yè)務(wù)需求設(shè)計(jì)離線或?qū)崟r(shí)數(shù)據(jù)計(jì)算算法;
7) 能制定數(shù)據(jù)標(biāo)簽庫(kù)管理及規(guī)范;
8) 能制定數(shù)據(jù)計(jì)算開(kāi)發(fā)流程及規(guī)范;
9) 能制定數(shù)據(jù)查詢操作流程及規(guī)范;
10) 能深入計(jì)算引擎對(duì)底層代碼進(jìn)行優(yōu)化以提升查詢性能;
11) 能制定對(duì)外數(shù)據(jù)接口規(guī)范及權(quán)限。
c) 經(jīng)驗(yàn):
1) 具備數(shù)據(jù)采集相關(guān)項(xiàng)目經(jīng)驗(yàn);
2) 累計(jì)從事本崗位工作 5 年以上。