什么是大數據?一般所理解的大數據,指的是所涉及的資料量規模巨大到無(wú)法通過(guò)目前主流軟件工具在合理時(shí)間內達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。而大數據的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)也被人們所認可。就目前來(lái)看,我們所看到的大數據包含最多的也只是大量這個(gè)特性,像價(jià)值等并未得到充分的體現。
大數據時(shí)代的到來(lái),讓很多企業(yè)對獲取數據的欲望到了異常熾熱的程度,雖然數據存儲的成本越來(lái)越低,但它并不是免費的。然而,對于許多大公司來(lái)說(shuō),它們對于數據欲望的增長(cháng)速度要比數據存儲成本降低的速度快得多。
許多企業(yè)往往在收集完數據之后,并不迅速處理這些數據,造成數據存儲成本增加。而他們也并沒(méi)有從這些數據中獲取任何價(jià)值。在另一個(gè)層面上,企業(yè)中的一些數據集已經(jīng)開(kāi)始造成了企業(yè)的收益遞減。因為數據樣本數量超過(guò)一個(gè)臨界點(diǎn)之后,無(wú)論增加多少數據,對于預測結果不會(huì )有任何太大的影響。也就是說(shuō),樣本數量過(guò)多,所花費的成本也就越多,但對于目標沒(méi)有任何實(shí)質(zhì)性的價(jià)值。同時(shí),數據冗余的,企業(yè)支出的不僅僅是存儲成本,還會(huì )面臨許多其他的問(wèn)題。假如一旦發(fā)生數據泄露的話(huà),尤其是業(yè)務(wù)數據,那么公司將會(huì )承擔巨大的損失。
數據越多,整理分析數據所需要的時(shí)間也就越多。當數據倉庫的規模達到數十億條記錄時(shí),那么光是檢索數據就需要花上幾個(gè)小時(shí),甚至是幾個(gè)星期。這時(shí)候,這些信息非但不會(huì )給企業(yè)帶來(lái)任何商業(yè)價(jià)值,反而會(huì )阻礙企業(yè)系統的運轉,因為這些系統根本不能處理這么大信息量。
因此,企業(yè)不能盲目追求大數據,而應當結合企業(yè)的具體情況,對有效的商業(yè)信息進(jìn)行收集、篩選、分析,決策,從而讓數據為企業(yè)所用,為企業(yè)帶來(lái)價(jià)值??偠灾?,數據能不能帶來(lái)商業(yè)價(jià)值,不在于數據本身,而在于如何運用數據。其最大的價(jià)值也不在于大數據本身,而在于加強了企業(yè)和個(gè)人對數據的重視和利用。