人民網>>人民網通信頻道>>滾動新聞

有關大數據的誤區:數據統計≠大數據

中關村老李

2014年04月02日09:00    來源:鈦媒體    手機看新聞
原標題:有關大數據的誤區:數據統計≠大數據

  大數據太火了,被廣泛應用到各行各業,而近階段又有著明顯的過熱跡象。大數據到底是一個營銷詞匯,還是一個方法論?本文作者老李正是一家大數據服務提供商的資深員工,他所做的項目就是針對不同行業進行大數據分析。他認為,關於大數據你首先必須有一個基本認識,那就是“大量的數據並非一定具有價值”。另外,數據統計並不等同於大數據,數據統計和大數據的區別就在於人工智能。長文慎入:

  近兩年來,“大數據”被廣泛應用到各行各業,而近階段又有著明顯的過熱跡象。從央視的春運遷徙圖到姚晨看到微博數據的驚呼﹔從兩會期間的兩會大數據,到《星星》都叫獸的高低領毛衣,“大數據”被人們推到了一個前所未有的高度,同時也從一個高精尖的科研方向變成了一個世人皆知的營銷詞匯。

  我既沒有資格代表學術界,更沒有資格來判定誰是誰非。我隻能就自己的工作經歷,來談一下我眼中的大數據:

  什麼是大數據?

  百度百科對大數據的定義是這樣的:大數據(big data)或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

  Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

  個人認為Gartner的定義更為貼切。“新處理模式”是一個很關鍵的詞匯,這也是我所理解的“大數據”區別於傳統統計分析等最關鍵的特征之一。這個所謂的“新處理模式”有兩層含義:

  1、由於海量的數據,需要更高效的存儲和處理技術,Hadoop成為了大數據時代的標志﹔

  2、如果你認為大數據就等於Hadoop,那就大錯特錯了。Hadoop只是大數據時代的一個必要條件,大數據還有一個明顯的標志是數據挖掘和人工智能的緊密結合。這也是我理解的“大數據”與現在很多所謂“大數據”項目最明顯的區別之一。我會在后面的案例中給大家展開。

  除了上面的“新處理模式”上的區別,個人認為還有一個最主要的區別是:數據統計分析是基於已有數據的縱向歸類,而大數據是基於對已有海量數據的處理,對還未產生的數據作出預測和推薦。數據統計是已經發生的事情,而大數據往往被用於還沒有發生的事情預測或者推薦中。

  預測和推薦,是如何實現的?

  目前主要的推薦算法大致可以分為兩類。一個是基於行為,一個是基於內容。當然,針對不同的領域,不同的預測和推薦的對象,又會有十余種算法。這就不是本文展開的內容了。

  基於行為的分析,顧名思義,即對用戶在互聯網、移動互聯網留下的“痕跡”,即瀏覽、點擊、收藏、購買、二次購買的分析,得出未來會選擇購買的預測和推薦結果。基於行為的分析,屬於群體智慧,綜合利用群體用戶的行為偏好。用戶之間會相互影響,更加符合現實世界中的用戶行為。

  

  圖1、電商基於行為的推薦漏斗算法

  基於內容的分析, 包括對文字、圖片、音頻、視頻等信息的分析,得出預測和推薦的結論。內容的“基因”和用戶的偏好相匹配,最有代表的是潘多拉的音樂推薦項目,其將曲庫中所有歌曲都由400多位專家打上標簽,然后建立個人與音樂的聯系,從而完成音樂的推薦。內容的分析隻針對個人,與用戶之間關系無關。

下一頁
(責編:張歌、楊波)


注冊/登錄
發言請遵守新聞跟帖服務協議   

使用其他賬號登錄: 新浪微博帳號登錄 QQ帳號登錄 人人帳號登錄 百度帳號登錄 豆瓣帳號登錄 天涯帳號登錄 淘寶帳號登錄 MSN帳號登錄 同步:分享到人民微博  

社區登錄
用戶名: 立即注冊
密  碼: 找回密碼
  
  • 最新評論
  • 熱門評論
查看全部留言

24小時排行 | 新聞頻道留言熱帖