
大數據時代要轉變的思維:
- 要分析所有數據,而不是少量的數據樣本
- 要追求數據的紛繁復雜,而不是精確性
- 要關注事物的相關關系,而不是因果關系

1. 分析所有數據,而非少量數據
至今為止,人們搜集數據的能力有限,因此采用的是“隨機采樣分析”。
例如,要想知道中國顧客都聯想筆記本的滿意度,不可能對所有買了聯想筆記本的人做問卷調查。通常的做法是隨機找1000個人,用這1000個人的滿意度來代表所有人的。
為了使結果盡可能準確,我們會設計盡可能精確的問卷,并使樣本足夠隨機。
這就是“小數據時代”的做法,在不可能搜集全部數據的情況下,隨機采樣分析在各領域取得了巨大的成功。
但是,隨機采樣有三個問題:
- 依賴隨機性,而隨機性很難做到。例如,使用固定電話隨機打給1000戶人家,這樣也是缺乏隨機性的,因為沒有考慮到年輕人都使用手機的情況。
- 遠看不錯,一旦聚焦到某一點,就模糊了。例如,我們用1000個人來代表全國,這1000個人是隨機從全國選取的。但是,如果用此結果來判斷西藏的滿意度,卻是缺乏精確的。也就是說,分析結果不能適用于局部。
- 采樣的結果只能回答你事先設計好的問題,不能回答你突然意識到的問題。
在”大數據時代“,樣本=總體
如今,我們已經有能力搜集到全面而完整的數據。大數據是建立在掌握所有數據、至少是盡可能多的數據的基礎上的。
2. 追求混雜性,而非精確性
在 “小數據”時代,最重要的就是減少測量的錯誤,因為收集的信息較少,所以必須保證記錄盡可能精確,否則細微的錯誤會被放大。為了精確,科學家必須優化測量 的工具。現代科學就是這么發展過來的,物理學家開爾文(溫度的國際單位)說:“測量就是認知”。很多優秀的科學工作者必須要能準確收集和管理數據。
在“大數據”時代,使用所有數據變為可能,且通常是上萬億個數據,要保證每一個數據的精確性是不可想象的,混雜性不可避免。但是,當數據量足夠大時,混亂不一定會帶來不好的結果。并且,由于放松了容錯的標準,所能搜集的數據多了起來,還可以利用這些數據來做更多的事。舉一個例子:
要測一個葡萄園的溫度,如果只有一個溫度計,那必須保證這個測量儀精確且能一直工作。但是如果每100棵葡萄樹就有一個測量儀,則雖然有些測量數據是錯誤的,但是所有數據合起來卻能得到一個更準確的結果。
因此,“大數據"通常用概率說話,而不是板著”確鑿無疑“的面孔。”大數據“時代要求我們重新審視精確性的優劣。由于數據量太大,我們不再期待精確經,也無法實現精確性。
在 圖書館我們可以看到,所有的書都被分類,例如,要找一本C語言的書籍,必須先找到”工科“分類,然后再找到”計算機“分類,再根據編號(類似于 803.53x)找到需要的書籍,這是傳統的方法。如果圖書館的書少,可以這么檢索,如果有1億本呢?10億本呢?網絡上的數據可遠非圖書館的藏書量可 比,動則數十億,如果使用清晰的分類,那么不僅分類的人會瘋,查詢的人也會瘋。因此,現在互聯網上廣泛使用”標簽“,通過標簽來檢索圖片、視頻、音樂等。 當然,有時人們會錯標標簽,這讓習慣精確性的人很痛苦,但是,接受”混亂“給我們帶來了兩個好處:
- 由于擁有了遠比”分類"數量多得多的標簽,我們能夠獲得更多的內容。
- 可以通過標簽組合來過濾內容。
例 如,如果我們要檢索“徐長卿”。“徐長卿”至少有三種身份:是一種中草藥,是命名草藥的人的名字,是仙劍3的主人公之一。如果按照傳統分類法,可能“徐長 卿”會被分到“中草藥”類里,這還取決于分類的人。那么查詢的人就不會知道它還有另外兩重身份,或者只想查“徐長卿"這個人的人根本就不會到”中草藥“類 里查詢。但是,如果使用”標簽“,那么輸入”徐長卿“+”草藥“,即可查到草藥;輸入”徐長卿“+”仙劍3“即可查到游戲的主人公。
因此,使用”標簽“代替”分類“,雖然有很多不精確的數據,但是卻得到了大量標簽,使得檢索更方便,得到的結果更好了。
3. 關注相關關系,而非因果關系
知道”是什么“就夠了,沒有必要知道”為什么“,要讓數據自己”發聲“。來看一個例子:
沃爾瑪是世界上最大的零售商,掌握了大量的零售數據。通過分析,沃爾瑪發現,每當季節性颶風來臨之前,不僅手電筒銷售量增加了,而且蛋撻的銷量也增加了。因此,當季節性暴風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便顧客。
看到這里,一個馬上有人問”為什么颶風一來,人們都要買蛋撻“?
你問”為什么“,說明你注重的是因果關系。而這個“因”,可能是極難分析、且復雜的,而且即便研究出來,意義真的很大嗎?對沃爾瑪來說,只要知道“颶風來了,快擺蛋撻,準備大賺一筆”就行了,這就是注重的相關關系。
颶風與蛋撻有關,OK,行了,還能賺錢,太好了。為什么?不管,反正有關。
這也是大數據時代需要轉變的思維,即關注相關關系,而非因果關系。
通過探求”是什么“,而非”為什么“,能夠幫助我們更好地理解世界。但是,由于因果關系在我們的思維中根深蒂固,而且有時會臆想出一些因果關系,反而帶來了錯誤的認知。例如:
父母經常告訴孩子,天冷時不帶帽子和手套就會感冒。然而,研究表明,感冒和穿戴之間沒有直接的聯系。在某餐館吃飯后,晚上肚子疼,我們會想到原因是餐館的食物有問題。實際上很可能是和某人握手,或飯前沒有洗手的關系。
相關關系能給我們分析問題提供新的視角,我們不需要事事去探究為什么,并且,它使我們相信,不探究”為什么“也是合理的。
但是,并不是說因果關系就應該完全摒棄,而是要靈活地以相關關系的立場來思考問題。
本文總結自《大數據時代》,作者Viktor Mayer-Schonberger。本文發表于 OUR D3.JS ,轉載請注明出處,謝謝

