高清免费视频|成都冻货格|我可以再往深处一点吗视频|舌头伸进去添的我好爽高潮欧美|性都花花世家|无人区卡一卡二卡三乱码网站|草莓看视频在线观看免费

樂思軟件

提交需求|聯(lián)系我們|請(qǐng)電400-603-8000

舍恩伯格你知道大數(shù)據(jù)處理有這么多錯(cuò)誤嗎?

  現(xiàn)在社會(huì)已經(jīng)步入了大數(shù)據(jù)的處理時(shí)代了,很多人也對(duì)大數(shù)據(jù)處理產(chǎn)生了非常濃厚的興趣,但是大數(shù)據(jù)僅僅只是一個(gè)新生的概念,很多認(rèn)識(shí)都是錯(cuò)誤的。

大數(shù)據(jù)處理,數(shù)據(jù),大數(shù)據(jù)

  由于整個(gè)社會(huì)現(xiàn)在逐步走向了數(shù)據(jù)化,在這種時(shí)代的背景下產(chǎn)生了大數(shù)據(jù),特別是在現(xiàn)在社交網(wǎng)絡(luò)和傳感器設(shè)備這么迅速的發(fā)展,大數(shù)據(jù)處理分析是有著自身的特點(diǎn),跟計(jì)量經(jīng)濟(jì)學(xué)有著明顯的聯(lián)系以及差異化的區(qū)別。當(dāng)前對(duì)于大數(shù)據(jù)處理分析有很多流行的觀點(diǎn),但是其中不乏一些觀點(diǎn)確實(shí)要值得商榷。

  大數(shù)據(jù)產(chǎn)生的背景是整個(gè)社會(huì)走向數(shù)字化,特別是社交網(wǎng)絡(luò)和各種傳感設(shè)備的發(fā)展。云計(jì)算和搜索引擎的發(fā)展,使得對(duì)大數(shù)據(jù)的高效分析成為可能,核心問題是如何在種類繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價(jià)值信息。大數(shù)據(jù)在社會(huì)分析、科學(xué)發(fā)現(xiàn)和商業(yè)決策中的作用越來越大,金融只是其中的一個(gè)應(yīng)用領(lǐng)域。

  什么是大數(shù)據(jù)

  大數(shù)據(jù)是一個(gè)新概念,英文中至少有三個(gè)名稱:大數(shù)據(jù)(big data)、大尺度數(shù)據(jù)(big scale data)和大規(guī)模數(shù)據(jù)(massive data),至今未形成統(tǒng)一定義。但一般認(rèn)為大數(shù)據(jù)具有四個(gè)基本特征(即所謂4V特征):數(shù)據(jù)體量龐大(volume)、價(jià)值密度低(value, 也有人理解成應(yīng)用價(jià)值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。

  從學(xué)術(shù)角度,對(duì)大數(shù)據(jù)的討論基本屬于數(shù)據(jù)科學(xué)(Data Science)和數(shù)據(jù)挖掘(Data Mining)的范疇。

  對(duì)大數(shù)據(jù)處理分析的主流誤解

大數(shù)據(jù)處理,數(shù)據(jù),大數(shù)據(jù)

  舍恩伯格與合作者的《大數(shù)據(jù)時(shí)代》非常流行,但里面的很多核心觀點(diǎn)都值得商榷。

  第一,大數(shù)據(jù)處理分析也不是萬能的。基于大數(shù)據(jù)的預(yù)測(cè)可以抽象表述為:用 表示已知信息,用 表示未知信息,尋找關(guān)于的函數(shù)作為 的預(yù)測(cè)。預(yù)測(cè)誤差是 ,用 (類似于均方誤差)來衡量預(yù)測(cè)效果。概率論有一個(gè)基本結(jié)論:對(duì)任意,總有 ,其中等號(hào)僅當(dāng)時(shí)才成立,所以 也被稱為最佳預(yù)測(cè)(best predictor)。

  第二,他們還認(rèn)為,大數(shù)據(jù)處理分析不是因果關(guān)系,而是相關(guān)關(guān)系。這個(gè)說法在統(tǒng)計(jì)學(xué)中是老生常談,不是什么新觀點(diǎn)。統(tǒng)計(jì)學(xué)基于相關(guān)關(guān)系,只能被用來證偽因果關(guān)系,而不能被用來證實(shí)因果關(guān)系。大數(shù)據(jù)處理分析的基礎(chǔ)理論也是概率論和數(shù)理統(tǒng)計(jì),從根本上就屬于相關(guān)關(guān)系的范疇。

  第三,他們認(rèn)為,大數(shù)據(jù)處理分析不是針對(duì)隨機(jī)樣本,而是全體數(shù)據(jù)。盡管數(shù)據(jù)收集和分析手段足夠發(fā)達(dá)后,對(duì)全部數(shù)據(jù)的收集和分析成為可能,但從成本收益上衡量,這樣做不是總有必要。根據(jù)中心極限定理,統(tǒng)計(jì)分析質(zhì)量與樣本數(shù)量之間存在平方根關(guān)系。比如,樣本數(shù)量提高100倍,分析質(zhì)量提高10倍。而統(tǒng)計(jì)分析工作量與樣本數(shù)量之間存在線性關(guān)系。比如,樣本數(shù)量提高100倍,存儲(chǔ)和計(jì)算量一般增加100倍。這樣,樣本數(shù)量增長到一定程度后,新增工作量對(duì)應(yīng)的成本就會(huì)超過質(zhì)量提高產(chǎn)生的好處。因此,通過科學(xué)設(shè)計(jì)的抽樣調(diào)查獲得有代表性的樣本,在大數(shù)據(jù)分析中仍有價(jià)值。

  可以看出兩點(diǎn)結(jié)論:首先,大數(shù)據(jù)處理分析中,各種算法的核心任務(wù)是使 盡可能接近理論上的最優(yōu)預(yù)測(cè) ;其次,即使在最優(yōu)預(yù)測(cè)上, 代表的預(yù)測(cè)誤差仍不能被消除,是內(nèi)生于信息結(jié)構(gòu)的。比如,即使信息技術(shù)非常發(fā)達(dá),如果現(xiàn)實(shí)世界中仍有部分信息不能被數(shù)字化(從而不能用在大數(shù)據(jù)處理分析中),這部分被“塵封”的信息就決定了大數(shù)據(jù)處理分析的有效邊界。

  第四,大數(shù)據(jù)處理能降低信息不對(duì)稱的程度,但不能消除隨機(jī)性(不確定性);有助于評(píng)估風(fēng)險(xiǎn)(未來遭受損失的可能性,其中損失分布可計(jì)量),但不能消除奈特式不確定性(其中損失分布不可計(jì)量)。

  D1Net評(píng)論:

  大數(shù)據(jù)畢竟是一個(gè)新生兒,人們對(duì)它的認(rèn)識(shí)會(huì)經(jīng)歷一個(gè)由誤解到正確認(rèn)識(shí)的過程,對(duì)于舍恩伯格而言,他關(guān)于大數(shù)據(jù)處理的一些觀點(diǎn),也有很多值得商榷的地方,畢竟理論需要實(shí)踐來檢驗(yàn)。

  • 說明:本文內(nèi)容編輯整理自互聯(lián)網(wǎng)公開渠道,轉(zhuǎn)載僅作對(duì)信息共享之用,本站對(duì)本信息之真實(shí)性和可靠性以及文章本身的觀點(diǎn)不持有認(rèn)同態(tài)度。


  • 集成系統(tǒng)網(wǎng)絡(luò)情報(bào)信息數(shù)據(jù)庫

    CIO頻道人物視窗
    CIO頻道方案案例庫
    大數(shù)據(jù)建設(shè)方案案例庫
    電子政務(wù)建設(shè)方案案例庫
    互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫
    商務(wù)智能建設(shè)方案案例庫
    系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄