為什么颶風一來，人們都要買蛋撻？大數據時代要轉變思維--樂思集成系統信息中心

大數據時代要轉變的思維：

要分析所有數據，而不是少量的數據樣本
要追求數據的紛繁復雜，而不是精確性
要關注事物的相關關系，而不是因果關系

bigdata

　　1. 分析所有數據，而非少量數據

　　至今為止，人們搜集數據的能力有限，因此采用的是“隨機采樣分析”。

　　例如，要想知道中國顧客都聯想筆記本的滿意度，不可能對所有買了聯想筆記本的人做問卷調查。通常的做法是隨機找1000個人，用這1000個人的滿意度來代表所有人的。

　　為了使結果盡可能準確，我們會設計盡可能精確的問卷，并使樣本足夠隨機。

　　這就是“小數據時代”的做法，在不可能搜集全部數據的情況下，隨機采樣分析在各領域取得了巨大的成功。

但是，隨機采樣有三個問題：

依賴隨機性，而隨機性很難做到。例如，使用固定電話隨機打給1000戶人家，這樣也是缺乏隨機性的，因為沒有考慮到年輕人都使用手機的情況。
遠看不錯，一旦聚焦到某一點，就模糊了。例如，我們用1000個人來代表全國，這1000個人是隨機從全國選取的。但是，如果用此結果來判斷西藏的滿意度，卻是缺乏精確的。也就是說，分析結果不能適用于局部。
采樣的結果只能回答你事先設計好的問題，不能回答你突然意識到的問題。

在”大數據時代“，樣本=總體

如今，我們已經有能力搜集到全面而完整的數據。大數據是建立在掌握所有數據、至少是盡可能多的數據的基礎上的。

2. 追求混雜性，而非精確性

在 “小數據”時代，最重要的就是減少測量的錯誤，因為收集的信息較少，所以必須保證記錄盡可能精確，否則細微的錯誤會被放大。為了精確，科學家必須優化測量的工具。現代科學就是這么發展過來的，物理學家開爾文（溫度的國際單位）說：“測量就是認知”。很多優秀的科學工作者必須要能準確收集和管理數據。

在“大數據”時代，使用所有數據變為可能，且通常是上萬億個數據，要保證每一個數據的精確性是不可想象的，混雜性不可避免。但是，當數據量足夠大時，混亂不一定會帶來不好的結果。并且，由于放松了容錯的標準，所能搜集的數據多了起來，還可以利用這些數據來做更多的事。舉一個例子：

要測一個葡萄園的溫度，如果只有一個溫度計，那必須保證這個測量儀精確且能一直工作。但是如果每100棵葡萄樹就有一個測量儀，則雖然有些測量數據是錯誤的，但是所有數據合起來卻能得到一個更準確的結果。

因此，“大數據"通常用概率說話，而不是板著”確鑿無疑“的面孔。”大數據“時代要求我們重新審視精確性的優劣。由于數據量太大，我們不再期待精確經，也無法實現精確性。

在圖書館我們可以看到，所有的書都被分類，例如，要找一本C語言的書籍，必須先找到”工科“分類，然后再找到”計算機“分類，再根據編號（類似于 803.53x）找到需要的書籍，這是傳統的方法。如果圖書館的書少，可以這么檢索，如果有1億本呢？10億本呢？網絡上的數據可遠非圖書館的藏書量可比，動則數十億，如果使用清晰的分類，那么不僅分類的人會瘋，查詢的人也會瘋。因此，現在互聯網上廣泛使用”標簽“，通過標簽來檢索圖片、視頻、音樂等。當然，有時人們會錯標標簽，這讓習慣精確性的人很痛苦，但是，接受”混亂“給我們帶來了兩個好處：

由于擁有了遠比”分類"數量多得多的標簽，我們能夠獲得更多的內容。
可以通過標簽組合來過濾內容。

例如，如果我們要檢索“徐長卿”。“徐長卿”至少有三種身份：是一種中草藥，是命名草藥的人的名字，是仙劍3的主人公之一。如果按照傳統分類法，可能“徐長卿”會被分到“中草藥”類里，這還取決于分類的人。那么查詢的人就不會知道它還有另外兩重身份，或者只想查“徐長卿"這個人的人根本就不會到”中草藥“類里查詢。但是，如果使用”標簽“，那么輸入”徐長卿“+”草藥“，即可查到草藥；輸入”徐長卿“+”仙劍3“即可查到游戲的主人公。

因此，使用”標簽“代替”分類“，雖然有很多不精確的數據，但是卻得到了大量標簽，使得檢索更方便，得到的結果更好了。

3. 關注相關關系，而非因果關系

知道”是什么“就夠了，沒有必要知道”為什么“，要讓數據自己”發聲“。來看一個例子：

沃爾瑪是世界上最大的零售商，掌握了大量的零售數據。通過分析，沃爾瑪發現，每當季節性颶風來臨之前，不僅手電筒銷售量增加了，而且蛋撻的銷量也增加了。因此，當季節性暴風來臨時，沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置，以方便顧客。

看到這里，一個馬上有人問”為什么颶風一來，人們都要買蛋撻“？

你問”為什么“，說明你注重的是因果關系。而這個“因”，可能是極難分析、且復雜的，而且即便研究出來，意義真的很大嗎？對沃爾瑪來說，只要知道“颶風來了，快擺蛋撻，準備大賺一筆”就行了，這就是注重的相關關系。

颶風與蛋撻有關，OK，行了，還能賺錢，太好了。為什么？不管，反正有關。

這也是大數據時代需要轉變的思維，即關注相關關系，而非因果關系。

通過探求”是什么“，而非”為什么“，能夠幫助我們更好地理解世界。但是，由于因果關系在我們的思維中根深蒂固，而且有時會臆想出一些因果關系，反而帶來了錯誤的認知。例如：

父母經常告訴孩子，天冷時不帶帽子和手套就會感冒。然而，研究表明，感冒和穿戴之間沒有直接的聯系。在某餐館吃飯后，晚上肚子疼，我們會想到原因是餐館的食物有問題。實際上很可能是和某人握手，或飯前沒有洗手的關系。

相關關系能給我們分析問題提供新的視角，我們不需要事事去探究為什么，并且，它使我們相信，不探究”為什么“也是合理的。

但是，并不是說因果關系就應該完全摒棄，而是要靈活地以相關關系的立場來思考問題。

本文總結自《大數據時代》，作者Viktor Mayer-Schonberger。本文發表于 OUR D3.JS ，轉載請注明出處，謝謝

高清免费视频|成都冻货格|我可以再往深处一点吗视频|舌头伸进去添的我好爽高潮欧美|性都花花世家|无人区卡一卡二卡三乱码网站|草莓看视频在线观看免费

樂思軟件

信息中心

為什么颶風一來，人們都要買蛋撻？大數據時代要轉變思維

2. 追求混雜性，而非精確性

3. 關注相關關系，而非因果關系

說明：本文內容編輯整理自互聯網公開渠道，轉載僅作對信息共享之用，本站對本信息之真實性和可靠性以及文章本身的觀點不持有認同態度。

集成系統網絡情報信息數據庫

輿情監測

信息采集

信息中心

技術支持

公司資訊

關于樂思