人民網>>人民網通信頻道>>滾動新聞

有關大數據的誤區:數據統計≠大數據【2】

中關村老李

2014年04月02日09:00    來源:鈦媒體    手機看新聞
原標題:有關大數據的誤區:數據統計≠大數據

  大數據到底能做什麼

  現在談這個問題可能會讓大家笑話,似乎所有人都知道大數據能干這個,能干那個,最后連我們自己都覺得可笑。大數據已經都不是被“妖魔化”了,是“娛樂化”。大數據似乎是個離我們忽遠又忽近的事物了,變得不真實起來。

  好吧,我還是結合從業經歷來說說大數據“解決過什麼問題”吧:簡單地來說,大數據可以幫我們解決決策和選擇的問題。

  天氣預報就是一個最古老而且眾所周知的預測。你可以根據預報來決定明天穿什麼衣服,是否要帶雨傘,等等﹔

  近兩年來,大數據被應用到影視制片行業,基於對觀眾偏好的分析,去預測、設計觀眾喜歡的劇情,找觀眾喜愛的演員出演相關的角色,甚至可以去預測票房。這些所有的預測都是基於數據的基礎上,經過一定的模型處理,得到接近真實的結論。從某種程度上給決策者決策的依據,比如《紙牌屋》和《星星》。

  大數據還有一個重要的作用,就是解決人們的“選擇”問題。別笑,無論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問題。講的學術一些,這是由於“長尾效應”導致的問題﹔講得通俗一些,就是由於日益增多的可選擇的對象和我們自身的處理能力之間的矛盾。

  科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁復雜的商品(電商),到海量曲庫中的樂曲﹔從婚戀網站的男女朋友,到交通管理的信號燈。

  基於人工智能下的大數據,就是可以使人們“變懶”的一個手段。基於你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結果,推薦給你。這就是大數據,她是你的貼心管家,或者說是最懂你的朋友。

  一個最經典的案例是沃爾瑪曾經做過的“啤酒”和“尿布”調研:沃爾瑪在研究中發現,一類顧客經常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關聯的兩個品類的商品,從個人經驗上來看,根本想不到二者的聯系。后來發現,這是一類社會現象所導致的。美國有很多年輕夫婦,尿布用完后,女主人在家帶孩子,而男主人就去超市買尿布。買完尿布之后,男主人通常會順帶著買些啤酒。

  上述例子說明,數據經常可以讓你發現看似不合理不合邏輯但卻存在,並且經常發生的現象。

  再舉個例子,北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰,這已經不需要預測了。但如果根據歷史交通數據,再經過數學模型,計算出一個全北京最佳的交通信號燈管理系統,這就屬於大數據的范疇了。

  

  圖2、出租車每天的分布圖

  這也是我眼中大數據主要與普通的數據統計分析最大的不同:數據統計可以幫助你發現疾病,但大數據可以不但幫助你發現,且幫助你治療疾病。

  大數據絕不是“噱頭“,我們在幫助某運營商閱讀基地的閱讀推薦項目中,各項指標均得到大幅提升。而這個提升不是百分之幾十,而是數倍的提升!(用戶人均流量提升了4倍,沉默用戶激活能力提升了6.5倍)這才是大數據的魅力。

  大數據不是萬能的

  大數據顯然不是萬能的。正因為如此,她才真實。大數據在有些領域由於種種原因,所帶來的價值並不如預期的那麼高。導致這種現象最主要的問題有兩個,一個是由於數據本身的質量或者數量不夠﹔另一個是算法不合適。

  不要以為是海量數據就一定會有價值,在過往的工作中,我們經常發現來自甲方的數據源有80-90%的數據都是無用的。隻有10%-20%的數據才會產生一定的價值。這就又讓我想到Marry Meeker打的那個比喻,“大數據的工作就像在一堆稻草中尋找一根針”。

  何況,大多數領域本身業務屬於早期,所擁有的數據非常貧乏。冷啟動、稀疏性是大數據在諸多領域面臨的挑戰。

  另一方面,對於不同領域,不同項目,沒有放之四海而皆准的算法,必須要根據具體問題具體分析解決。在實際的工作中發現,不只是不同的領域(如文章推薦與商品推薦),甚至同一領域的不同單元(同屬電商但不同類電商,如母嬰類和服裝類或者奢侈品類)也有所不同。

上一頁下一頁
(責編:張歌、楊波)


注冊/登錄
發言請遵守新聞跟帖服務協議   

使用其他賬號登錄: 新浪微博帳號登錄 QQ帳號登錄 人人帳號登錄 百度帳號登錄 豆瓣帳號登錄 天涯帳號登錄 淘寶帳號登錄 MSN帳號登錄 同步:分享到人民微博  

社區登錄
用戶名: 立即注冊
密  碼: 找回密碼
  
  • 最新評論
  • 熱門評論
查看全部留言

24小時排行 | 新聞頻道留言熱帖