近兩年大家慣常聽到一個詞“大數(shù)據(jù)”,什么是大數(shù)據(jù)?顧名思義,大數(shù)據(jù)指數(shù)據(jù)總量巨大,其中包含各個類型的數(shù)據(jù)庫體系。IBM曾經(jīng)做過一個統(tǒng)計,世界上90%的可用數(shù)據(jù),是在過去兩年內(nèi)所產(chǎn)生的。數(shù)據(jù)之所以龐大主要來自于機器的介入,從流水線上某一臺中控設(shè)備的每一個傳感信息到智能終端上每一次用戶點擊,時時刻刻都在產(chǎn)生數(shù)據(jù)。
對于數(shù)據(jù)的有效利用已經(jīng)成為各個公司首要關(guān)心的事情,他們借助于整合公司多樣化的數(shù)據(jù)子集來幫助企業(yè)實現(xiàn)項目推進與業(yè)務(wù)開展。珍島電商將與各位分享如何有效利用大數(shù)據(jù)。
企業(yè)要修煉成大數(shù)據(jù)企業(yè),要從兩大方向著手:內(nèi)部的構(gòu)建和外部的互動。那么如何實現(xiàn)內(nèi)部的數(shù)據(jù)構(gòu)建:
如何實現(xiàn)企業(yè)數(shù)據(jù)化?
不同的企業(yè)對數(shù)據(jù)的關(guān)注點不一樣,要首先明確我們需要什么樣的數(shù)據(jù),以人為中心還是以產(chǎn)品為中心。明確了這一點后,在經(jīng)營過程中把數(shù)據(jù)采集下來,哪怕是當前沒什么用的數(shù)據(jù)也要保存,說不定某一天會有價值。以產(chǎn)品為中心主要靠技術(shù)手段采集,以人為中心有時還要靠人來采集。例如,某餐廳的客人來就餐時,發(fā)生的一切行為都要記錄。比如來了幾個人,性別,年齡,有老人或小孩嗎?排隊用了多久?是慕名而來還是偶然路過?點了什么菜,看了什么菜,點菜時長?用餐時長,對菜品的滿意度。大數(shù)據(jù)的步就是企業(yè)數(shù)據(jù)化。
企業(yè)要如何建立自己的數(shù)據(jù)管理平臺?
對于中小型企業(yè),數(shù)據(jù)的存儲可以考慮使用外部的云端數(shù)據(jù)中心,目前外部數(shù)據(jù)中心的成本已經(jīng)非常低了。在企業(yè)內(nèi)部還是要建立自己的數(shù)據(jù)分析架構(gòu),其中要用到一些常用的數(shù)據(jù)工具。很多中小公司對數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用只是簡單地輸入日報表,周報表,然后是月報表。然后根據(jù)這些報表由公司領(lǐng)導給出下一階段的決策。這些報表通常都是固定格式,只是數(shù)據(jù)不同。決策層長期以往,思維將會被禁錮在這些一成不變的表格中。很多決策層已經(jīng)認識到這一點,于是他們說“給我新的東西看”甚至明確要求我要什么形式,什么維度的報表。于是我們的DBA們開始敲代碼,跑數(shù)據(jù),后面是領(lǐng)導不停的催,折騰個一兩天是很正常的事,終于跑出一張報表了。有時剛交上去,報表需求又變了,我還要XX的報表,于是又是一次循環(huán),又是一兩天。好了,一周就這么過去了。市場在這一周里又發(fā)生了很多變化。這就是傳統(tǒng)的數(shù)據(jù)分析,甚至還談不上數(shù)據(jù)挖掘,感覺永遠是慢一拍。類似這種公司的數(shù)據(jù)量不大不小,來源固定,比如百貨行業(yè),自建的網(wǎng)上商場,垂直類電商。對于這種首先要改善的是速度和敏捷。在明確了那些固定報表,和常用分析維度后,通過大數(shù)據(jù)技術(shù)手段我們完全可以把報表分析做到,實時查詢,主動提醒,對于臨時提出的分析要求也可以做到快速輸出報表。
那么如何實現(xiàn),我們大致介紹下所要用到的實現(xiàn)方案。目前流行的大數(shù)據(jù)的解決方案大部分都是以Hadoop為基礎(chǔ)架構(gòu)。什么是Hadoop?簡單來說Hadoop是一個分布式計算的解決方案,分布式通俗來說就是把一件事分布到幾臺計算機上運行。由多臺計算機同時運行和存儲數(shù)據(jù),比一臺計算機運行速度快,而且如果數(shù)據(jù)量大了,或者報表復雜導致運算速度慢,只要再加計算機就解決了。當每臺計算機運算完畢后,會把中間結(jié)果集中到一臺計算機上,再把這些中間結(jié)果匯總起來得出終結(jié)果。這就是經(jīng)典map/reduce模式。一句話總結(jié)就是:拆分任務(wù),分布運算,匯總出結(jié)果。
每次的報表分析工作只要能按這套模式拆分成能分布運算的任務(wù),并且任務(wù)結(jié)果可以合并成一個結(jié)果,就可以支持Hadoop的分布式運算,從而解決了分析速度的問題。
中小企業(yè)是否需要有一支具有大數(shù)據(jù)理念的“小數(shù)據(jù)”挖掘團隊?
目前中小企業(yè)對于大數(shù)據(jù)普遍存在的觀點:
我的數(shù)據(jù)量每月就那么多,或者網(wǎng)站的流量不多。從“量”上來說不多,從“樣”上來說也不廣,來源也很單一。所以我們沒有搞大數(shù)據(jù)的必要,離我們太遙遠了。
在大數(shù)據(jù)的浪潮下,做為中小公司對大數(shù)據(jù)的認識要有所求有所舍。中小公司關(guān)鍵要形成大數(shù)據(jù)的理念。作為一個合格的“數(shù)據(jù)科學家”不是一定要非常擅長互聯(lián)網(wǎng),營銷之類,只要是熟悉就可以,重要是要有武器,什么樣的問題來了,我用什么武器應(yīng)對,解決方案是什么,可行性是多少?! 〕私Y(jié)構(gòu)化數(shù)據(jù)以外還有文本,音頻,圖像,網(wǎng)絡(luò),行為軌跡,時間維等非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)如果處理?解決方案是什么?
要懂預測,大數(shù)據(jù)終就是用于預測,預測中會用到很多方法是基于機器學習的,其中比較熱門的是集群學習。
懂分布式計算,前面提到了一點分布式計算的皮毛,如Hadoop,但不是說知道這點術(shù)語和概念就可以了,關(guān)鍵是要會靈活使用這些工具和技術(shù)。面對一堆數(shù)據(jù),要用什么算法來實現(xiàn)map/reduce,哪些分析我只要hive就可以解決。要用開放的眼光,要知道公司里哪些數(shù)據(jù)對外部有重大價值,外部有什么數(shù)據(jù)能對公司產(chǎn)生重大價值,借他山之石以攻玉,實現(xiàn)內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)的整合。
隨著互聯(lián)網(wǎng)進程的深入推進,數(shù)據(jù)產(chǎn)生的時速和規(guī)模要遠遠超過現(xiàn)在,對于中小企業(yè)來說,越早培育起數(shù)據(jù)意識,才能應(yīng)對這場互聯(lián)網(wǎng)的浪潮。