“數(shù)據(jù)科學(xué)家”在2009年由Natahn Yau首次提出,其概念是采用科學(xué)方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。數(shù)據(jù)科學(xué)家集技術(shù)專家與數(shù)量分析師的角色于一身,與傳統(tǒng)數(shù)量分析師相比:后者通常利用企業(yè)的內(nèi)部數(shù)據(jù)進行分析,以支持領(lǐng)導(dǎo)層的決策;而前者更多的是通過關(guān)注面向用戶的數(shù)據(jù)來創(chuàng)造不同特性的產(chǎn)品和流程,為客戶提供有意義的增值服務(wù)。
面向客戶的性質(zhì)決定了大部分數(shù)據(jù)科學(xué)家擔(dān)任公司產(chǎn)品開發(fā)或營銷部門的職位,或是效力于首席技術(shù)官。那么數(shù)據(jù)科學(xué)家需要具備哪些核心能力呢?科技記者Derrick Harris在其文章中介紹了數(shù)據(jù)科學(xué)家應(yīng)具備的一些技能。
他表示,在你詢問別人什么是數(shù)據(jù)科學(xué)家,或者數(shù)據(jù)科學(xué)家是做什么的時候,很容易發(fā)現(xiàn):“數(shù)據(jù)科學(xué)家”其實是從“大數(shù)據(jù)”引發(fā)的術(shù)語混亂中形成的。數(shù)據(jù)科學(xué)的核心能力被定義為:SQL、統(tǒng)計、預(yù)測建模和編程、Python等,這些聽起來很合理。但是很快就有更多名詞添加到其中:Hadoop/MapReduce、機器學(xué)習(xí)、可視化,甚至還有傳統(tǒng)的數(shù)學(xué)、物理、計算機科學(xué)等類似能力。
許多人呼吁專業(yè)領(lǐng)域、商業(yè)智慧、創(chuàng)造力及表達能力也是同樣重要的。一個數(shù)據(jù)科學(xué)家不能只擅長數(shù)字(這種人被稱為統(tǒng)計學(xué)家或分析師),也要能夠理解業(yè)務(wù):什么樣的數(shù)據(jù)或結(jié)果才是有參考性的;能夠找到新的數(shù)據(jù)集并為其創(chuàng)造新產(chǎn)品;然后能夠讓CEO們理解這一切。這是一個艱巨的任務(wù),這個世界上這類人是很少的。作為頂尖的數(shù)據(jù)科學(xué)家,不要求他們對環(huán)境做出什么積極的改變,但是需要他們嘗試做一些真正先進的東西,幫助大家更好的解決業(yè)務(wù)上的問題。
數(shù)據(jù)科學(xué)家的六種能力:
1.對數(shù)據(jù)的提取與綜合能力;
2.統(tǒng)計分析能力;
3.數(shù)據(jù)洞察與信息挖掘能力;
4.開發(fā)軟件能力;
5.網(wǎng)絡(luò)編程能力;
6.數(shù)據(jù)的可視化表示能力。
數(shù)據(jù)科學(xué)家涉及學(xué)科:
1.計算機科學(xué):數(shù)據(jù)獲取、數(shù)據(jù)解析、數(shù)據(jù)存放、和數(shù)據(jù)安全
2.數(shù)理統(tǒng)計學(xué):數(shù)據(jù)分析、數(shù)據(jù)過濾、數(shù)據(jù)挖掘、和數(shù)據(jù)優(yōu)化
3.圖形設(shè)計學(xué):顯示數(shù)據(jù)結(jié)果,比如將數(shù)據(jù)表達成三維圖形,以便更好地理解和利用
4.人機交互學(xué):在用戶和數(shù)據(jù)之間建立有機聯(lián)系,使得人對數(shù)據(jù)的使用更方便