數(shù)據(jù)科學(xué)是一個新興且日趨成熟的領(lǐng)域,從數(shù)據(jù)工程和數(shù)據(jù)分析到機器學(xué)習和深度學(xué)習,各種工作職能不斷涌現(xiàn)。數(shù)據(jù)科學(xué)家必須結(jié)合科學(xué),創(chuàng)造性和調(diào)查性思維來從一系列數(shù)據(jù)集中提取含義,并應(yīng)對客戶面臨的潛在挑戰(zhàn)。從零售,運輸和金融,到醫(yī)療保健和醫(yī)學(xué)研究,生活各個領(lǐng)域的數(shù)據(jù)量都在不斷增長。可用計算能力的提高和人工智能的最新發(fā)展推動了數(shù)據(jù)科學(xué)家的關(guān),像數(shù)據(jù)科學(xué)家一樣思考。那么成為一名數(shù)據(jù)科學(xué)家又需要什么呢?高級數(shù)據(jù)科學(xué)家給了關(guān)于成功技巧的一些建議 。
高級數(shù)據(jù)科學(xué)家Chu具有人工智能方面的背景知識,尤其是在語言學(xué),語義學(xué)和圖形學(xué)領(lǐng)域,并在新加坡的知名企業(yè)工作了兩年。
保持好奇心
Chu在接受我們的采訪時說,數(shù)據(jù)科學(xué)家應(yīng)該像調(diào)查員一樣思考。
您需要通過問“為什么?”感到好奇和興奮。“這有點像是一個偵探,將他們混在一起,尋找新的線索。”
在金融領(lǐng)域,數(shù)據(jù)科學(xué)家從一系列數(shù)據(jù)集中提取含義,以告知客戶并指導(dǎo)其關(guān)鍵決策。
數(shù)據(jù)科學(xué)家必須著眼于客戶想要解決的挑戰(zhàn),并從他們正在使用的數(shù)據(jù)中獲取線索。
通過與Chu交談,我了解了能夠轉(zhuǎn)移重點并考慮調(diào)查背景的重要性。
如果無法解決根本問題,那么完美的分析將無濟于事。有時,您需要回頭,嘗試一種新方法并重新構(gòu)造您要回答的問題。好奇心在于它。您需要愛問題!
要科學(xué)
數(shù)據(jù)科學(xué)家使用各種工具來管理其工作流程,數(shù)據(jù),注釋和代碼。
“我必須非常勤奮。我需要衡量和跟蹤進度,以便可以備份并嘗試新的方向,重用以前的工作并比較結(jié)果。
“重要的是要科學(xué),在進行過程中進行觀察,實驗和記錄,以便您可以復(fù)制發(fā)現(xiàn)。我需要整理我的觀察結(jié)果,因此我將Noion用作主要工具,將所有筆記,論文和可視化文件都放在一個位置。”
Chu強調(diào)需要保持記錄不僅要追溯到他目前的研究,而且還要涵蓋所有以前的發(fā)現(xiàn)。
“這就像數(shù)據(jù)科學(xué)日記。每當遇到類似情況時,我都會保留良好的參考點,并請他們參考以指導(dǎo)下一步。”
有創(chuàng)造力
數(shù)據(jù)科學(xué)不僅涉及科學(xué)方法。職位可能會誤導(dǎo)他人;您不必具有科學(xué)背景,但是您確實需要能夠創(chuàng)造性地思考。通常,替代思維是您應(yīng)對挑戰(zhàn)的關(guān)鍵。
“我必須在解決問題的科學(xué)思維和創(chuàng)造性思維之間切換,以引導(dǎo)我探索新的不同探索途徑。
“邏輯,科學(xué)的思維對于幫助我得出結(jié)論至關(guān)重要,但戴上創(chuàng)意帽同樣重要:我使用好的和失敗的例子作為觀察新模式的線索。這全都與“編碼情報”有關(guān)。”
學(xué)習編碼
您需要扎實的編碼能力,才能使用各種數(shù)據(jù)處理技術(shù)來預(yù)處理不同的數(shù)據(jù)源,以解決嘈雜或不完整的數(shù)據(jù)。
您還需要能夠創(chuàng)建機器學(xué)習管道,這將需要您知道如何構(gòu)建模型,并使用工具和框架來評估和分析其性能。
像大多數(shù)數(shù)據(jù)科學(xué)家一樣,Chu使用Python,因為可以使用許多出色的軟件包來處理和建模數(shù)據(jù)。
實際上,Glassdoor在2017年上半年為放置在其站點上的數(shù)據(jù)科學(xué)家抽取了10000個工作清單,并發(fā)現(xiàn)Python,R和SQL這三種特殊技能構(gòu)成了數(shù)據(jù)科學(xué)中大多數(shù)職位空缺的基礎(chǔ)。Ben Chu的團隊依賴于開源機器學(xué)習包。
“我們主要將Confluence用作文檔工具;機器學(xué)習的MLFlow,Amazon Sagemaker,Scikit-Learn,Tensorflow,PyTorch和BERT; Apache Spark在大型數(shù)據(jù)集上構(gòu)建快速的數(shù)據(jù)管道;和Athena作為我們的數(shù)據(jù)庫來存儲處理后的數(shù)據(jù)。
“我們還使用Superset來連接數(shù)據(jù)并更輕松地構(gòu)建儀表板以輸出圖表,從而使其更加直觀。”
不用擔心“冒名頂替綜合癥”
Chu現(xiàn)在是某企業(yè)的一名高級數(shù)據(jù)科學(xué)家,但是他長大后想成為一名音樂家,并且對語言著迷。“對于我在自然語言處理方面的工作領(lǐng)域,我需要對語言學(xué),尤其是語義學(xué)和語言細微差別有很好的理解。”
他解釋說,數(shù)據(jù)科學(xué)團隊需要一系列技能-他和他的同事具有不同背景的重疊技能。
“您所需的技能將取決于您所從事的領(lǐng)域。例如,我需要對財務(wù)有很好的了解。
“例如,數(shù)據(jù)分析通過構(gòu)建異常檢測方法來檢測欺詐行為,將其作為交易數(shù)據(jù)中的不規(guī)則模式來減輕欺詐行為。
“像我這樣的數(shù)據(jù)科學(xué)家需要精通如何處理各種孤立的財務(wù)數(shù)據(jù)。知道要結(jié)合什么是至關(guān)重要的,因為沒有這種理解,我就無法建立成功的模型。”
成為計算機科學(xué)家或數(shù)學(xué)家進入數(shù)據(jù)科學(xué)并不是必需的。沒有人在每個領(lǐng)域都擁有全部專業(yè)知識。您可能來自法律,經(jīng)濟學(xué)或科學(xué)領(lǐng)域。這完全取決于您的想法。
如果您可以靈活,系統(tǒng)地進行操作,則可以在使用工具,框架和數(shù)據(jù)集的過程中熟悉它們。
如何開始
對于那些渴望發(fā)展其數(shù)據(jù)科學(xué)技能的人,Chu提供了一些實用的技巧,盡管COVID-19造成了干擾,您仍可以輕松地采用這些技巧。
您可以查找研究社區(qū),參加網(wǎng)絡(luò)研討會并在線查找培訓(xùn)課程。一旦面對面的聯(lián)網(wǎng)再次可行,Chu建議您積極參與數(shù)據(jù)科學(xué)界。
“參加聚會和黑客馬拉松,這將幫助您建立一個強大的網(wǎng)絡(luò)來討論您的想法,激發(fā)您的研究并回答您的問題”。
另外,請記住,數(shù)據(jù)科學(xué)領(lǐng)域是新的并且仍在日趨成熟。
出現(xiàn)了各種不同的職位,例如數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師和數(shù)據(jù)分析師,以及機器學(xué)習和深度學(xué)習工程師。您可能會發(fā)現(xiàn)一個角色比另一個角色更適合您的興趣和技能。
以上即是關(guān)于如何像數(shù)據(jù)科學(xué)家或數(shù)據(jù)分析師一樣思考的全部內(nèi)容,想了解更多關(guān)于數(shù)據(jù)科學(xué)的知識,請繼續(xù)關(guān)注中培偉業(yè)。