最近廣為流傳的一個(gè)詞是大數(shù)據(jù)。人人都在講大數(shù)據(jù),專家講,老師講,身邊的同學(xué)也不乏談?wù)摰摹4髷?shù)據(jù)到底是什么?它真的有那么好嗎?它好在什么地方?它真的能引領(lǐng)我們來(lái)到一個(gè)新的時(shí)代——大數(shù)據(jù)時(shí)代嗎?懷著一探究竟的心情,我捧起了維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時(shí)代》一書(shū)。
關(guān)于大數(shù)據(jù),不同的書(shū)和不同的作者可能會(huì)有不太完全相同的定義。比如,有的學(xué)者認(rèn)為:所涉及的資料量規(guī)模巨大,無(wú)法通過(guò)目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。而維克托認(rèn)為大數(shù)據(jù)是人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法完成的。但他們關(guān)于大數(shù)據(jù)的內(nèi)涵都是一致的。
讀《大數(shù)據(jù)時(shí)代》給我印象最深的就是大數(shù)據(jù)時(shí)代的思維變革,它要求我們作出三個(gè)重大的思維轉(zhuǎn)變:第一,不是隨機(jī)樣本,而是全體數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),追求的是樣本等于總體,而不再依賴于隨機(jī)采樣。不可否認(rèn),隨機(jī)采樣曾給我們帶來(lái)莫大的幫助。因?yàn)樵谶^(guò)去記錄、存儲(chǔ)和分析數(shù)據(jù)的工具不夠好,我們只能收集少量的數(shù)據(jù)進(jìn)行分析,而隨機(jī)采樣方法能讓我們用最少的數(shù)據(jù)獲得最多的信息,既能減少人力、物力、財(cái)力的耗費(fèi),也能節(jié)約時(shí)間。但隨機(jī)采樣也有許多固有的缺陷,它的成功依賴于采樣的絕對(duì)隨機(jī)性,而絕對(duì)隨機(jī)性的實(shí)現(xiàn)非常困難,一旦采樣過(guò)程中存在任何偏見(jiàn),分析結(jié)果可能就會(huì)相去甚遠(yuǎn);并且不適合考察子類別的情況。大數(shù)據(jù)得益于突飛猛進(jìn)的數(shù)據(jù)收集、存儲(chǔ)、處理和分析技術(shù),能夠避開(kāi)采樣的缺陷對(duì)數(shù)據(jù)進(jìn)行深度探討。谷歌就曾在流感蔓延的時(shí)代,通過(guò)分析整個(gè)美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄推測(cè)出某個(gè)城市特定的流感狀況。
第二,研究的數(shù)據(jù)量巨大,我們不再追求精確度,取而代之的是包容混雜性。這是一個(gè)信息爆炸的時(shí)代,各種各樣的數(shù)據(jù)浩如煙海、樣式繁多,只有少量數(shù)據(jù)是結(jié)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫(kù),而更多的數(shù)據(jù)是非結(jié)構(gòu)化的,只有接受不精確性包容混雜,我們才能利用這更多的數(shù)據(jù),才能打開(kāi)通往大數(shù)據(jù)時(shí)代的窗戶。至此,我們也不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響,也不再需要以高昂的代價(jià)消除所有的不確定性,只需接受它們并好好利用它們。還以谷歌公司為例,谷歌翻譯系統(tǒng)很強(qiáng)大、翻譯質(zhì)量很高并且很靈活,就是因?yàn)樗鼡碛幸粋€(gè)更大更繁雜的數(shù)據(jù)庫(kù),它曾把它所能找到的所有翻譯都放到了數(shù)據(jù)庫(kù),作為一個(gè)翻譯的“訓(xùn)練集”。
第三,我們不再熱衷于尋找因果關(guān)系,轉(zhuǎn)而更加關(guān)注相關(guān)關(guān)系。這是這本書(shū)里要求我們作出的一個(gè)一時(shí)半會(huì)兒難以習(xí)慣的思維轉(zhuǎn)變。在大數(shù)據(jù)時(shí)代,我們更多的是知道“是什么”就夠了,沒(méi)必要知道“為什么”,因?yàn)橛行〇|西不好解釋也解釋不清,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“說(shuō)話”。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快速,而且不易受偏見(jiàn)的影響,更容易讓們得到事實(shí)上的結(jié)果,甚至?xí)悬c(diǎn)出乎我們自己的預(yù)料,因?yàn)槲覀兊念A(yù)料大多是建立在經(jīng)驗(yàn)和因果基礎(chǔ)上的。
談大數(shù)據(jù),大數(shù)據(jù)要求我們分析的數(shù)據(jù)樣本等于總體,那這么多的數(shù)據(jù)從何而來(lái)?遠(yuǎn)在信息數(shù)字化之前,我們就已經(jīng)開(kāi)始了收集數(shù)據(jù)和運(yùn)用數(shù)據(jù),數(shù)據(jù)的產(chǎn)生有兩個(gè)必要條件,那就是計(jì)量和記錄。只不過(guò)現(xiàn)在我們收集數(shù)據(jù)的方式更加多樣化了,收集數(shù)據(jù)的范圍更加廣泛了。僅僅是通過(guò)傳感器,各種壓力、振動(dòng)、溫度、速度、方位等等都能成為數(shù)據(jù)。現(xiàn)代的社會(huì),我們已經(jīng)不在像以前一樣受限于數(shù)據(jù)了,文字、圖像、聲音、視頻都能成為數(shù)據(jù),坐標(biāo)、高度、方向、速度都能成為數(shù)據(jù),就連互聯(lián)網(wǎng)上的聊天記錄和搜索記錄也都能成為數(shù)據(jù)。這一切的一切只是等待著被分析、被挖掘、被利用。
那大數(shù)據(jù)是怎樣對(duì)我們社會(huì)和個(gè)人產(chǎn)生影響的呢?數(shù)據(jù)就像一座礦山,它的價(jià)值都埋在地下,需要我們?nèi)ネ诰颉MǔG闆r下,一旦數(shù)據(jù)利用完了,我們就會(huì)將其刪除,而現(xiàn)在我們要保留它、積累它對(duì)其再利用,F(xiàn)arecast的機(jī)票價(jià)格走勢(shì)預(yù)測(cè)系統(tǒng)就是這樣產(chǎn)生的。我們也可以重組數(shù)據(jù),通過(guò)把一些數(shù)據(jù)集和另外一些數(shù)據(jù)集結(jié)合起來(lái),或許能夠創(chuàng)造新的價(jià)值,數(shù)據(jù)的總和比部分更有價(jià)值,就像我們相信團(tuán)隊(duì)的作用一樣。我們還可以關(guān)注數(shù)據(jù)的可擴(kuò)展性,以此形成再利用,比如商店里安裝的監(jiān)控,不僅能認(rèn)出商店扒手,還能跟蹤在商店里購(gòu)物的客戶流和他們停留的位置,這樣有助于設(shè)計(jì)店面的最佳布局進(jìn)而促進(jìn)銷售。還有典型的“數(shù)據(jù)廢氣”,它是指用戶在線交互的副產(chǎn)品,包括瀏覽了哪些頁(yè)面、停留了多久、鼠標(biāo)光標(biāo)停留的位置以及輸入了什么信息等。現(xiàn)在已經(jīng)有許多公司改進(jìn)系統(tǒng),使自己能夠收集數(shù)據(jù)廢氣并循環(huán)利用,以改善現(xiàn)有的服務(wù)或開(kāi)發(fā)新服務(wù),最典型的莫過(guò)于現(xiàn)在流行的網(wǎng)上推送服務(wù)了。……,數(shù)據(jù)的利用方式還有很多。
金無(wú)足赤,人無(wú)完人,大數(shù)據(jù)勢(shì)必也會(huì)存在自己的不足。首當(dāng)其沖的就是我們的隱私問(wèn)題,比如說(shuō)“數(shù)據(jù)廢氣”使數(shù)據(jù)發(fā)揮了新的價(jià)值,能夠針對(duì)我們的瀏覽記錄推送個(gè)性化服務(wù),但我們時(shí)刻都暴露在“第三只眼”之下——我們的購(gòu)物習(xí)慣、網(wǎng)頁(yè)瀏覽習(xí)慣、社會(huì)關(guān)系網(wǎng)被它們監(jiān)視了,一旦泄露了怎么辦。還有,大數(shù)據(jù)是不是過(guò)于依賴數(shù)據(jù)了,如果數(shù)據(jù)遠(yuǎn)遠(yuǎn)沒(méi)有我們想像中的那么可靠怎么辦。等等這些問(wèn)題都有待于進(jìn)一步解決。
通讀《大數(shù)據(jù)時(shí)代》,神秘的大數(shù)據(jù)已不再那么神秘,心中的疑惑也一一散去,想著書(shū)中的種種案例以及身邊發(fā)生的種種應(yīng)用,似乎大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。不可否認(rèn)的是大數(shù)據(jù)還有進(jìn)一步完善和發(fā)展的地方,但更為重要的是,大數(shù)據(jù)向我們宣揚(yáng)了一些新的分析數(shù)據(jù)、利用數(shù)據(jù)的思維方式,大數(shù)據(jù)正在變革著我們的生活、工作與思維,并且讓我們獲得了小數(shù)據(jù)時(shí)代不曾或無(wú)法獲得的信息。
參考書(shū)籍:《大數(shù)據(jù)時(shí)代》 維克托·邁爾-舍恩伯格 著

