高清免费视频|成都冻货格|我可以再往深处一点吗视频|舌头伸进去添的我好爽高潮欧美|性都花花世家|无人区卡一卡二卡三乱码网站|草莓看视频在线观看免费

樂(lè)思軟件

提交需求|聯(lián)系我們|請(qǐng)電400-603-8000

從谷歌流感趨勢(shì)(GFT)出錯(cuò)看大數(shù)據(jù)發(fā)展之路

如 今,包括電視在內(nèi)的許多媒體,都有“大數(shù)據(jù)分析”相關(guān)的一些欄目,大數(shù)據(jù)的概念也正在悄悄進(jìn)入普通老百姓的意識(shí)中。我最早接觸大數(shù)據(jù)應(yīng)用的時(shí)候,被其中的 一個(gè)重要案例所吸引,那就是谷歌與甲型H1N1流感的傳奇故事。我們不得不佩服谷歌公司的眼光,從其誕生之日,谷歌就保存了用戶所有的搜索記錄,其他許多 公司是不是將這些數(shù)據(jù)都當(dāng)做垃圾扔掉了?你以為你在用谷歌搜索呀,其實(shí)谷歌也在搜索你!谷歌知道了我們?cè)谑裁吹胤健⑹裁磿r(shí)間,對(duì)什么東西感興趣。如果將大量用戶的這些東西結(jié)合在一起,是不是有巨大的商業(yè)價(jià)值?現(xiàn)在,谷歌每天都會(huì)收到來(lái)自全球超過(guò)30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它完成各種有趣的工作,關(guān)鍵在于你的想象力。

谷 歌的工程師們很早就發(fā)現(xiàn),某些搜索字詞非常有助于了解流感疫情:在流感季節(jié),與流感有關(guān)的搜索會(huì)明顯增多;到了過(guò)敏季節(jié),與過(guò)敏有關(guān)的搜索會(huì)顯著上升;而 到了夏季,與曬傷有關(guān)的搜索又會(huì)大幅增加。這是很容易理解的,一般的人沒(méi)有什么生病的癥狀,是不會(huì)去主動(dòng)查那些與疾病相關(guān)的內(nèi)容的。于是,2008年谷歌 推出了“谷歌流感趨勢(shì)”(GFT),這個(gè)工具根據(jù)匯總的谷歌搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè),但當(dāng)時(shí)并沒(méi)有引起太多人的關(guān)注。2009 年在H1N1爆發(fā)幾周前,谷歌公司的工程師們?cè)?EM>Nature上發(fā)表了一篇論文,介紹了GFT,成功預(yù)測(cè)了H1N1在全美范圍的傳播,甚至具體到特定的地區(qū)和州,而且判斷非常及時(shí)令公共衛(wèi)生官員們和計(jì)算機(jī)科學(xué)家們倍感震驚。與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成為了一個(gè)更有效、更及時(shí)的指示標(biāo),不會(huì)像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。這個(gè)工具最初運(yùn)行表現(xiàn)很好,許多國(guó)家的研究人員已經(jīng)證實(shí),其流感樣疾病(influenza-like illness,  ILI)的估計(jì)是準(zhǔn)確的。

2013 年2月,GFT再次上了頭條,但這次不是因?yàn)楣雀枇鞲懈櫹到y(tǒng)又有了什么新的成就。2013年1月,美國(guó)流感發(fā)生率達(dá)到峰值,谷歌流感趨勢(shì)的估計(jì)比實(shí)際數(shù) 據(jù)高兩倍,就是這個(gè)不精確性再次引起了媒體的關(guān)注。事實(shí)上,在2013年的報(bào)道之前,GFT就多次在很長(zhǎng)一段時(shí)間內(nèi)過(guò)高地估計(jì)了流感的流行情況。 從2011年8月到2013年9月108周中,谷歌開發(fā)工具超估流感流行高達(dá)100個(gè)周。2012 - 2013與2011 - 2012的季節(jié)相比,它高估了流感流行趨勢(shì)超過(guò)50%。在去年冬天的流感季節(jié)高峰,谷歌追蹤是疾病控制和預(yù)防中心(CDC)實(shí)際搜集數(shù)據(jù)的兩倍。這些錯(cuò)誤 不是隨機(jī)分布的。例如,前一周的錯(cuò)誤會(huì)影響預(yù)測(cè)下一周的錯(cuò)誤(時(shí)間自相關(guān)),錯(cuò)誤的方向和大小隨季節(jié)而變化,這些模式使得GFT高估了相當(dāng)多的信息,而這 些信息原本是可以通過(guò)傳統(tǒng)統(tǒng)計(jì)方法提取而避免的。

在上周Science上發(fā)表的一篇文章“谷歌流感的寓言:大數(shù)據(jù)分析的陷阱”,就是以這個(gè)故事為案例,解釋了大數(shù)據(jù)分析為何會(huì)背離事實(shí),并提出了大數(shù)據(jù)時(shí)代背景下一些值得思考的事。作者認(rèn)為造成這種結(jié)果有兩個(gè)重要原因,分別是大數(shù)據(jù)浮夸(Big Data Hubris)和算法變化。(1)我 們經(jīng)常隱含的假設(shè)是,大數(shù)據(jù)是傳統(tǒng)的數(shù)據(jù)收集和分析的替代品,而不是補(bǔ)充。在其他地方,我們斷言大數(shù)據(jù)有巨大的科學(xué)可能性,但是,數(shù)據(jù)的量并不意味著人們 可以忽略測(cè)量的基本問(wèn)題,構(gòu)造效度和信度以及數(shù)據(jù)間的依賴關(guān)系。其核心挑戰(zhàn)是大多數(shù)大數(shù)據(jù)得到了大眾的關(guān)注,但并沒(méi)有產(chǎn)生對(duì)科學(xué)分析來(lái)說(shuō)有效和可靠的數(shù) 據(jù)。(2)在谷歌為改善其服務(wù)中,也改變了數(shù)據(jù)生成過(guò)程。這些調(diào)整有可能人為推高了一些搜索,并導(dǎo)致谷歌的高估。例如,2011年,作為常規(guī)搜索算法調(diào)整的一部分,谷歌對(duì) 于許多查詢開始采用推薦相關(guān)搜索詞(包括列出與許多流感相關(guān)術(shù)語(yǔ)的尋找流感治療的清單)的方式,在2012年,為了響應(yīng)對(duì)癥狀的搜索,谷歌開始提供診斷術(shù) 語(yǔ)(當(dāng)用“喉嚨痛”搜索時(shí),會(huì)列出許多相關(guān)的搜索詞,見(jiàn)下圖;當(dāng)然不同的語(yǔ)言差別也是很大的)。研究人員認(rèn)為,如果是這樣,那么谷歌流感趨勢(shì)不準(zhǔn)確性就不 是必然的,這并不是谷歌的方法或大數(shù)據(jù)分析本身存在什么缺陷,可以通過(guò)改變搜索引擎的一些策略。

 

大數(shù)據(jù)

大數(shù)據(jù)

另 外,當(dāng)研究人員對(duì)在過(guò)去幾年各種流感相關(guān)的查詢進(jìn)行研究時(shí),他們發(fā)現(xiàn)兩個(gè)關(guān)鍵搜索詞(流感治療,以及如何區(qū)分流感、受涼或感冒)與谷歌流感趨勢(shì)結(jié)合更密 切,而不是實(shí)際的流感,看來(lái)這些特殊的搜索似乎是導(dǎo)致不準(zhǔn)確問(wèn)題的大部分原因。從大數(shù)據(jù)追蹤流感是一個(gè)特別困難的問(wèn)題。事實(shí)證明,很大一部分與CDC流感 發(fā)生率數(shù)據(jù)相關(guān)的搜索詞,并非是得流感的人引起的,而是由影響搜索模式和流感傳播的第三個(gè)因素(季節(jié))產(chǎn)生的。事實(shí)上,谷歌流感趨勢(shì)的開發(fā)人員發(fā)現(xiàn)那些特定的搜索詞是隨時(shí)間而發(fā)生變化的,但這些搜索顯然與病毒無(wú)關(guān)。

這些問(wèn)題并不限于GFT。研究搜索或社會(huì)媒體能否預(yù)測(cè)某個(gè)未知的參數(shù)已經(jīng)成為一種普遍現(xiàn)象,與傳統(tǒng)方法和假設(shè)形成了鮮明的對(duì)比。盡管這些研究顯示了這些數(shù)據(jù)的價(jià)值,但是還遠(yuǎn)未達(dá)到要取代傳統(tǒng)的方法或理論的地步。大數(shù)據(jù)在幫助公共衛(wèi)生事業(yè)方面具有巨大的潛力,但如果沒(méi)有足夠的背景信息,僅僅靠數(shù)字可能是會(huì)誤導(dǎo)人的。谷 歌是一個(gè)業(yè)務(wù),但也保留著人們的愿望、想法和聯(lián)系的數(shù)據(jù)。確定谷歌流感趨勢(shì)出現(xiàn)問(wèn)題的確切位置并不容易,因?yàn)樵摴镜乃阉魉惴ê蛿?shù)據(jù)收集過(guò)程是其專有技 術(shù)。誠(chéng)然,對(duì)局外人來(lái)說(shuō)很難分析谷歌流感趨勢(shì),因?yàn)樵摴静⒉辉腹_特定搜索詞的原始數(shù)據(jù),以及將這些搜索詞出現(xiàn)頻率轉(zhuǎn)化為流感評(píng)估的特定算法。上周Science文章的作者也仍然認(rèn)為,問(wèn)題是可以解決的。他們推薦應(yīng)該將大數(shù)據(jù)與小數(shù)據(jù)(即傳統(tǒng)的控制數(shù)據(jù)集)結(jié)合起來(lái),創(chuàng)建對(duì)人類行為更深入、更準(zhǔn)確的表達(dá)。

科 學(xué)是一個(gè)是站在巨人肩膀上逐漸累積的過(guò)程,需要科學(xué)家能夠不斷地評(píng)估他們建立的工作,而知識(shí)的積累需要數(shù)據(jù)形式的燃料。相關(guān)研究者網(wǎng)絡(luò)總是想提高大數(shù)據(jù)項(xiàng) 目的價(jià)值,并從這些類型的數(shù)據(jù)中擠出更多的可操作性的信息。最初GFT是希望產(chǎn)生一個(gè)能準(zhǔn)確反映當(dāng)前流行傳染病可能,這樣可早日采取措施進(jìn)行生命救治的干 預(yù)。從根本上講這是正確的,所有的分析表明,這確實(shí)是有價(jià)值的信息提取。另一個(gè)值得重視的問(wèn)題是數(shù)據(jù)的源頭,不管是私營(yíng)企業(yè)還是社交媒體都可能存在有意無(wú) 意地操縱數(shù)據(jù)的問(wèn)題,因?yàn)樗麄兛偸且_保與其產(chǎn)品的相關(guān)性或贏得廣告收入。對(duì)各個(gè)流感的分析表明,最好的結(jié)果來(lái)自兩個(gè)來(lái)源的信息和技術(shù)的結(jié)合。取代談?wù)摗按髷?shù)據(jù)革命”的應(yīng)該是“全數(shù)據(jù)革命”(all data revolution),應(yīng)該用全新的技術(shù)和方法對(duì)各種問(wèn)題進(jìn)行更多更好的分析。


原文鏈接:http://blog.sciencenet.cn/blog-502444-776900.html

  • 說(shuō)明:本文內(nèi)容編輯整理自互聯(lián)網(wǎng)公開渠道,轉(zhuǎn)載僅作對(duì)信息共享之用,本站對(duì)本信息之真實(shí)性和可靠性以及文章本身的觀點(diǎn)不持有認(rèn)同態(tài)度。


  • 集成系統(tǒng)網(wǎng)絡(luò)情報(bào)信息數(shù)據(jù)庫(kù)

    CIO頻道人物視窗
    CIO頻道方案案例庫(kù)
    大數(shù)據(jù)建設(shè)方案案例庫(kù)
    電子政務(wù)建設(shè)方案案例庫(kù)
    互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫(kù)
    商務(wù)智能建設(shè)方案案例庫(kù)
    系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄