現(xiàn)在社會(huì)已經(jīng)步入了大數(shù)據(jù)的處理時(shí)代了,很多人也對(duì)大數(shù)據(jù)處理產(chǎn)生了非常濃厚的興趣,但是大數(shù)據(jù)僅僅只是一個(gè)新生的概念,很多認(rèn)識(shí)都是錯(cuò)誤的。

由于整個(gè)社會(huì)現(xiàn)在逐步走向了數(shù)據(jù)化,在這種時(shí)代的背景下產(chǎn)生了大數(shù)據(jù),特別是在現(xiàn)在社交網(wǎng)絡(luò)和傳感器設(shè)備這么迅速的發(fā)展,大數(shù)據(jù)處理分析是有著自身的特點(diǎn),跟計(jì)量經(jīng)濟(jì)學(xué)有著明顯的聯(lián)系以及差異化的區(qū)別。當(dāng)前對(duì)于大數(shù)據(jù)處理分析有很多流行的觀點(diǎn),但是其中不乏一些觀點(diǎn)確實(shí)要值得商榷。
大數(shù)據(jù)產(chǎn)生的背景是整個(gè)社會(huì)走向數(shù)字化,特別是社交網(wǎng)絡(luò)和各種傳感設(shè)備的發(fā)展。云計(jì)算和搜索引擎的發(fā)展,使得對(duì)大數(shù)據(jù)的高效分析成為可能,核心問題是如何在種類繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價(jià)值信息。大數(shù)據(jù)在社會(huì)分析、科學(xué)發(fā)現(xiàn)和商業(yè)決策中的作用越來越大,金融只是其中的一個(gè)應(yīng)用領(lǐng)域。
什么是大數(shù)據(jù)
大數(shù)據(jù)是一個(gè)新概念,英文中至少有三個(gè)名稱:大數(shù)據(jù)(big data)、大尺度數(shù)據(jù)(big scale data)和大規(guī)模數(shù)據(jù)(massive data),至今未形成統(tǒng)一定義。但一般認(rèn)為大數(shù)據(jù)具有四個(gè)基本特征(即所謂4V特征):數(shù)據(jù)體量龐大(volume)、價(jià)值密度低(value, 也有人理解成應(yīng)用價(jià)值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。
從學(xué)術(shù)角度,對(duì)大數(shù)據(jù)的討論基本屬于數(shù)據(jù)科學(xué)(Data Science)和數(shù)據(jù)挖掘(Data Mining)的范疇。
對(duì)大數(shù)據(jù)處理分析的主流誤解

舍恩伯格與合作者的《大數(shù)據(jù)時(shí)代》非常流行,但里面的很多核心觀點(diǎn)都值得商榷。
第一,大數(shù)據(jù)處理分析也不是萬能的。基于大數(shù)據(jù)的預(yù)測(cè)可以抽象表述為:用 表示已知信息,用 表示未知信息,尋找關(guān)于的函數(shù)作為 的預(yù)測(cè)。預(yù)測(cè)誤差是 ,用 (類似于均方誤差)來衡量預(yù)測(cè)效果。概率論有一個(gè)基本結(jié)論:對(duì)任意,總有 ,其中等號(hào)僅當(dāng)時(shí)才成立,所以 也被稱為最佳預(yù)測(cè)(best predictor)。
第二,他們還認(rèn)為,大數(shù)據(jù)處理分析不是因果關(guān)系,而是相關(guān)關(guān)系。這個(gè)說法在統(tǒng)計(jì)學(xué)中是老生常談,不是什么新觀點(diǎn)。統(tǒng)計(jì)學(xué)基于相關(guān)關(guān)系,只能被用來證偽因果關(guān)系,而不能被用來證實(shí)因果關(guān)系。大數(shù)據(jù)處理分析的基礎(chǔ)理論也是概率論和數(shù)理統(tǒng)計(jì),從根本上就屬于相關(guān)關(guān)系的范疇。
第三,他們認(rèn)為,大數(shù)據(jù)處理分析不是針對(duì)隨機(jī)樣本,而是全體數(shù)據(jù)。盡管數(shù)據(jù)收集和分析手段足夠發(fā)達(dá)后,對(duì)全部數(shù)據(jù)的收集和分析成為可能,但從成本收益上衡量,這樣做不是總有必要。根據(jù)中心極限定理,統(tǒng)計(jì)分析質(zhì)量與樣本數(shù)量之間存在平方根關(guān)系。比如,樣本數(shù)量提高100倍,分析質(zhì)量提高10倍。而統(tǒng)計(jì)分析工作量與樣本數(shù)量之間存在線性關(guān)系。比如,樣本數(shù)量提高100倍,存儲(chǔ)和計(jì)算量一般增加100倍。這樣,樣本數(shù)量增長到一定程度后,新增工作量對(duì)應(yīng)的成本就會(huì)超過質(zhì)量提高產(chǎn)生的好處。因此,通過科學(xué)設(shè)計(jì)的抽樣調(diào)查獲得有代表性的樣本,在大數(shù)據(jù)分析中仍有價(jià)值。
可以看出兩點(diǎn)結(jié)論:首先,大數(shù)據(jù)處理分析中,各種算法的核心任務(wù)是使 盡可能接近理論上的最優(yōu)預(yù)測(cè) ;其次,即使在最優(yōu)預(yù)測(cè)上, 代表的預(yù)測(cè)誤差仍不能被消除,是內(nèi)生于信息結(jié)構(gòu)的。比如,即使信息技術(shù)非常發(fā)達(dá),如果現(xiàn)實(shí)世界中仍有部分信息不能被數(shù)字化(從而不能用在大數(shù)據(jù)處理分析中),這部分被“塵封”的信息就決定了大數(shù)據(jù)處理分析的有效邊界。
第四,大數(shù)據(jù)處理能降低信息不對(duì)稱的程度,但不能消除隨機(jī)性(不確定性);有助于評(píng)估風(fēng)險(xiǎn)(未來遭受損失的可能性,其中損失分布可計(jì)量),但不能消除奈特式不確定性(其中損失分布不可計(jì)量)。
D1Net評(píng)論:
大數(shù)據(jù)畢竟是一個(gè)新生兒,人們對(duì)它的認(rèn)識(shí)會(huì)經(jīng)歷一個(gè)由誤解到正確認(rèn)識(shí)的過程,對(duì)于舍恩伯格而言,他關(guān)于大數(shù)據(jù)處理的一些觀點(diǎn),也有很多值得商榷的地方,畢竟理論需要實(shí)踐來檢驗(yàn)。

