人民網>>人民網通信頻道>>滾動新聞

盡信書不如無書 大數據分析要去偽存真

趙為民

2014年03月14日08:34    來源:中關村在線    手機看新聞
原標題:盡信書不如無書 大數據分析要去偽存真

  大數據行業發展速度令人瞠目結舌,大數據分析為企業帶來巨大價值,已經成為企業決策新助手。但中國有句古話“盡信書不如無書”,其實大數據分析沒有你想象的那麼完美。這主要是由於大數據中並不是所有的數據對用戶都有價值,一些垃圾信息甚至對數據價值帶來深深的傷害,如何對收集的數據進行篩選、去偽存真,才是大數據真正實現價值的關鍵。

盡信書不如無書 大數據分析要去偽存真

  何為垃圾信息?

  什麼是垃圾信息,簡單的說,就是那些混在大量有用的信息中的無用信息,有害信息,以及對大數據分析結果帶來影響的信息。

  但垃圾信息並不是絕對的,可能這種信息對於用戶甲是無用的,對無分析結果是有害的,但是對於用戶乙來說,可能就是有用的信息。所以不同行業的用戶要學會區分自己數據中的信息哪些是垃圾信息,是無用的。

  常見的垃圾信息:

  在我們的日常生活中,各種垃圾信息可以說是無處不在。例如,當下網絡上擁有一大批的網絡水軍,這些人產生了大量的垃圾信息,對大數據分析結果造成惡劣的影響。在去年上映的《X的盛宴》,宣傳方雇佣了大批水軍進行刷分,造成了評分很高,但是觀后的口碑很差,最后主辦方不得不出面道歉息事寧人。這些網絡水軍的數據就是垃圾信息。

盡信書不如無書 大數據分析要去偽存真


網絡水軍(圖片來自xinmin)

  當然類似的例子還很多,在前幾年淘寶開店火爆的時候,有專門為賣家刷鑽的工具,這樣的結果造成了很多店家雖然鑽的級別很高,但是產品以及售后服務名不副實。微博用戶刷粉盛行一時,很多網絡大V的真實粉絲很少﹔論壇刷回復貼,營造論壇很火的局面﹔電商網站促銷期間刷交易單數。等等,這些垃圾信息都深深傷害了數據的價值。

  大數據市場當前情況:

  不可否認的是大數據擁有巨大的價值,但是就目前情況看來,大數據更像是鏡中花水中月,看似美好,實則言過其實。在浩如煙海的數據中心去發掘對用戶有價值的數據,就好比在垃圾場撿拾寶貝一樣,就好比在沙漠中尋找寶石一樣。

  那麼,如何從大量數據中心獲得對用戶有價值的信息呢?下面讓我們看一下當前人們是如何剔除垃圾信息,尋找數據價值。

下一頁
(責編:張歌、趙超)


注冊/登錄
發言請遵守新聞跟帖服務協議   

使用其他賬號登錄: 新浪微博帳號登錄 QQ帳號登錄 人人帳號登錄 百度帳號登錄 豆瓣帳號登錄 天涯帳號登錄 淘寶帳號登錄 MSN帳號登錄 同步:分享到人民微博  

社區登錄
用戶名: 立即注冊
密  碼: 找回密碼
  
  • 最新評論
  • 熱門評論
查看全部留言

24小時排行 | 新聞頻道留言熱帖