有關大數據的誤區：數據統計≠大數據

中關村老李

2014年04月02日09:00 來源：鈦媒體手機看新聞

原標題：有關大數據的誤區：數據統計≠大數據

　　大數據太火了，被廣泛應用到各行各業，而近階段又有著明顯的過熱跡象。大數據到底是一個營銷詞匯，還是一個方法論？本文作者老李正是一家大數據服務提供商的資深員工，他所做的項目就是針對不同行業進行大數據分析。他認為，關於大數據你首先必須有一個基本認識，那就是“大量的數據並非一定具有價值”。另外，數據統計並不等同於大數據，數據統計和大數據的區別就在於人工智能。長文慎入：

　　近兩年來，“大數據”被廣泛應用到各行各業，而近階段又有著明顯的過熱跡象。從央視的春運遷徙圖到姚晨看到微博數據的驚呼﹔從兩會期間的兩會大數據，到《星星》都叫獸的高低領毛衣，“大數據”被人們推到了一個前所未有的高度，同時也從一個高精尖的科研方向變成了一個世人皆知的營銷詞匯。

　　我既沒有資格代表學術界，更沒有資格來判定誰是誰非。我隻能就自己的工作經歷，來談一下我眼中的大數據：

　　什麼是大數據？

　　百度百科對大數據的定義是這樣的：大數據（big data）或稱巨量資料，指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具，在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

　　Gartner給出了這樣的定義：“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

　　個人認為Gartner的定義更為貼切。“新處理模式”是一個很關鍵的詞匯，這也是我所理解的“大數據”區別於傳統統計分析等最關鍵的特征之一。這個所謂的“新處理模式”有兩層含義：

　　1、由於海量的數據，需要更高效的存儲和處理技術，Hadoop成為了大數據時代的標志﹔

　　2、如果你認為大數據就等於Hadoop，那就大錯特錯了。Hadoop只是大數據時代的一個必要條件，大數據還有一個明顯的標志是數據挖掘和人工智能的緊密結合。這也是我理解的“大數據”與現在很多所謂“大數據”項目最明顯的區別之一。我會在后面的案例中給大家展開。

　　除了上面的“新處理模式”上的區別，個人認為還有一個最主要的區別是：數據統計分析是基於已有數據的縱向歸類，而大數據是基於對已有海量數據的處理，對還未產生的數據作出預測和推薦。數據統計是已經發生的事情，而大數據往往被用於還沒有發生的事情預測或者推薦中。

　　預測和推薦，是如何實現的？

　　目前主要的推薦算法大致可以分為兩類。一個是基於行為，一個是基於內容。當然，針對不同的領域，不同的預測和推薦的對象，又會有十余種算法。這就不是本文展開的內容了。

　　基於行為的分析，顧名思義，即對用戶在互聯網、移動互聯網留下的“痕跡”，即瀏覽、點擊、收藏、購買、二次購買的分析，得出未來會選擇購買的預測和推薦結果。基於行為的分析，屬於群體智慧，綜合利用群體用戶的行為偏好。用戶之間會相互影響，更加符合現實世界中的用戶行為。