大數據行業發展速度令人瞠目結舌,大數據分析為企業帶來巨大價值,已經成為企業決策新助手。但中國有句古話“盡信書不如無書”,其實大數據分析沒有你想象的那麼完美。這主要是由於大數據中並不是所有的數據對用戶都有價值,一些垃圾信息甚至對數據價值帶來深深的傷害,如何對收集的數據進行篩選、去偽存真,才是大數據真正實現價值的關鍵。
何為垃圾信息?
什麼是垃圾信息,簡單的說,就是那些混在大量有用的信息中的無用信息,有害信息,以及對大數據分析結果帶來影響的信息。
但垃圾信息並不是絕對的,可能這種信息對於用戶甲是無用的,對無分析結果是有害的,但是對於用戶乙來說,可能就是有用的信息。所以不同行業的用戶要學會區分自己數據中的信息哪些是垃圾信息,是無用的。
常見的垃圾信息:
在我們的日常生活中,各種垃圾信息可以說是無處不在。例如,當下網絡上擁有一大批的網絡水軍,這些人產生了大量的垃圾信息,對大數據分析結果造成惡劣的影響。在去年上映的《X的盛宴》,宣傳方雇佣了大批水軍進行刷分,造成了評分很高,但是觀后的口碑很差,最后主辦方不得不出面道歉息事寧人。這些網絡水軍的數據就是垃圾信息。
網絡水軍(圖片來自xinmin)
當然類似的例子還很多,在前幾年淘寶開店火爆的時候,有專門為賣家刷鑽的工具,這樣的結果造成了很多店家雖然鑽的級別很高,但是產品以及售后服務名不副實。微博用戶刷粉盛行一時,很多網絡大V的真實粉絲很少﹔論壇刷回復貼,營造論壇很火的局面﹔電商網站促銷期間刷交易單數。等等,這些垃圾信息都深深傷害了數據的價值。
大數據市場當前情況:
不可否認的是大數據擁有巨大的價值,但是就目前情況看來,大數據更像是鏡中花水中月,看似美好,實則言過其實。在浩如煙海的數據中心去發掘對用戶有價值的數據,就好比在垃圾場撿拾寶貝一樣,就好比在沙漠中尋找寶石一樣。
那麼,如何從大量數據中心獲得對用戶有價值的信息呢?下面讓我們看一下當前人們是如何剔除垃圾信息,尋找數據價值。
下一頁 |