高清免费视频|成都冻货格|我可以再往深处一点吗视频|舌头伸进去添的我好爽高潮欧美|性都花花世家|无人区卡一卡二卡三乱码网站|草莓看视频在线观看免费

信息中心

舍恩伯格你知道大數(shù)據(jù)處理有這么多錯(cuò)誤嗎？

　　現(xiàn)在社會(huì)已經(jīng)步入了大數(shù)據(jù)的處理時(shí)代了，很多人也對(duì)大數(shù)據(jù)處理產(chǎn)生了非常濃厚的興趣，但是大數(shù)據(jù)僅僅只是一個(gè)新生的概念，很多認(rèn)識(shí)都是錯(cuò)誤的。

大數(shù)據(jù)處理,數(shù)據(jù),大數(shù)據(jù)

　　由于整個(gè)社會(huì)現(xiàn)在逐步走向了數(shù)據(jù)化，在這種時(shí)代的背景下產(chǎn)生了大數(shù)據(jù)，特別是在現(xiàn)在社交網(wǎng)絡(luò)和傳感器設(shè)備這么迅速的發(fā)展，大數(shù)據(jù)處理分析是有著自身的特點(diǎn)，跟計(jì)量經(jīng)濟(jì)學(xué)有著明顯的聯(lián)系以及差異化的區(qū)別。當(dāng)前對(duì)于大數(shù)據(jù)處理分析有很多流行的觀點(diǎn)，但是其中不乏一些觀點(diǎn)確實(shí)要值得商榷。

　　大數(shù)據(jù)產(chǎn)生的背景是整個(gè)社會(huì)走向數(shù)字化，特別是社交網(wǎng)絡(luò)和各種傳感設(shè)備的發(fā)展。云計(jì)算和搜索引擎的發(fā)展，使得對(duì)大數(shù)據(jù)的高效分析成為可能，核心問題是如何在種類繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價(jià)值信息。大數(shù)據(jù)在社會(huì)分析、科學(xué)發(fā)現(xiàn)和商業(yè)決策中的作用越來越大，金融只是其中的一個(gè)應(yīng)用領(lǐng)域。

　　什么是大數(shù)據(jù)

　　大數(shù)據(jù)是一個(gè)新概念，英文中至少有三個(gè)名稱：大數(shù)據(jù)(big data)、大尺度數(shù)據(jù)(big scale data)和大規(guī)模數(shù)據(jù)(massive data)，至今未形成統(tǒng)一定義。但一般認(rèn)為大數(shù)據(jù)具有四個(gè)基本特征(即所謂4V特征)：數(shù)據(jù)體量龐大(volume)、價(jià)值密度低(value, 也有人理解成應(yīng)用價(jià)值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。

　　從學(xué)術(shù)角度，對(duì)大數(shù)據(jù)的討論基本屬于數(shù)據(jù)科學(xué)(Data Science)和數(shù)據(jù)挖掘(Data Mining)的范疇。

　　對(duì)大數(shù)據(jù)處理分析的主流誤解

大數(shù)據(jù)處理,數(shù)據(jù),大數(shù)據(jù)

　　舍恩伯格與合作者的《大數(shù)據(jù)時(shí)代》非常流行，但里面的很多核心觀點(diǎn)都值得商榷。

　　第一，大數(shù)據(jù)處理分析也不是萬能的。基于大數(shù)據(jù)的預(yù)測(cè)可以抽象表述為：用表示已知信息，用表示未知信息，尋找關(guān)于的函數(shù)作為的預(yù)測(cè)。預(yù)測(cè)誤差是，用 (類似于均方誤差)來衡量預(yù)測(cè)效果。概率論有一個(gè)基本結(jié)論：對(duì)任意，總有，其中等號(hào)僅當(dāng)時(shí)才成立，所以也被稱為最佳預(yù)測(cè)(best predictor)。

　　第二，他們還認(rèn)為，大數(shù)據(jù)處理分析不是因果關(guān)系，而是相關(guān)關(guān)系。這個(gè)說法在統(tǒng)計(jì)學(xué)中是老生常談，不是什么新觀點(diǎn)。統(tǒng)計(jì)學(xué)基于相關(guān)關(guān)系，只能被用來證偽因果關(guān)系，而不能被用來證實(shí)因果關(guān)系。大數(shù)據(jù)處理分析的基礎(chǔ)理論也是概率論和數(shù)理統(tǒng)計(jì)，從根本上就屬于相關(guān)關(guān)系的范疇。

　　第三，他們認(rèn)為，大數(shù)據(jù)處理分析不是針對(duì)隨機(jī)樣本，而是全體數(shù)據(jù)。盡管數(shù)據(jù)收集和分析手段足夠發(fā)達(dá)后，對(duì)全部數(shù)據(jù)的收集和分析成為可能，但從成本收益上衡量，這樣做不是總有必要。根據(jù)中心極限定理，統(tǒng)計(jì)分析質(zhì)量與樣本數(shù)量之間存在平方根關(guān)系。比如，樣本數(shù)量提高100倍，分析質(zhì)量提高10倍。而統(tǒng)計(jì)分析工作量與樣本數(shù)量之間存在線性關(guān)系。比如，樣本數(shù)量提高100倍，存儲(chǔ)和計(jì)算量一般增加100倍。這樣，樣本數(shù)量增長到一定程度后，新增工作量對(duì)應(yīng)的成本就會(huì)超過質(zhì)量提高產(chǎn)生的好處。因此，通過科學(xué)設(shè)計(jì)的抽樣調(diào)查獲得有代表性的樣本，在大數(shù)據(jù)分析中仍有價(jià)值。

　　可以看出兩點(diǎn)結(jié)論：首先，大數(shù)據(jù)處理分析中，各種算法的核心任務(wù)是使盡可能接近理論上的最優(yōu)預(yù)測(cè) ;其次，即使在最優(yōu)預(yù)測(cè)上，代表的預(yù)測(cè)誤差仍不能被消除，是內(nèi)生于信息結(jié)構(gòu)的。比如，即使信息技術(shù)非常發(fā)達(dá)，如果現(xiàn)實(shí)世界中仍有部分信息不能被數(shù)字化(從而不能用在大數(shù)據(jù)處理分析中)，這部分被“塵封”的信息就決定了大數(shù)據(jù)處理分析的有效邊界。

　　第四，大數(shù)據(jù)處理能降低信息不對(duì)稱的程度，但不能消除隨機(jī)性(不確定性);有助于評(píng)估風(fēng)險(xiǎn)(未來遭受損失的可能性，其中損失分布可計(jì)量)，但不能消除奈特式不確定性(其中損失分布不可計(jì)量)。

　　D1Net評(píng)論：

　　大數(shù)據(jù)畢竟是一個(gè)新生兒，人們對(duì)它的認(rèn)識(shí)會(huì)經(jīng)歷一個(gè)由誤解到正確認(rèn)識(shí)的過程，對(duì)于舍恩伯格而言，他關(guān)于大數(shù)據(jù)處理的一些觀點(diǎn)，也有很多值得商榷的地方，畢竟理論需要實(shí)踐來檢驗(yàn)。

說明：本文內(nèi)容編輯整理自互聯(lián)網(wǎng)公開渠道，轉(zhuǎn)載僅作對(duì)信息共享之用，本站對(duì)本信息之真實(shí)性和可靠性以及文章本身的觀點(diǎn)不持有認(rèn)同態(tài)度。

集成系統(tǒng)網(wǎng)絡(luò)情報(bào)信息數(shù)據(jù)庫

CIO頻道人物視窗
 CIO頻道方案案例庫
 大數(shù)據(jù)建設(shè)方案案例庫
 電子政務(wù)建設(shè)方案案例庫
 互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫
 商務(wù)智能建設(shè)方案案例庫
 系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄

<style id="qcx3v"></style>

<style id="qcx3v"><tbody id="qcx3v"><noframes id="qcx3v"></noframes></tbody></style>