盡管大數據已經離我們如此之近,肯定還會有人問,“大數據”到底是什么意思?套用Gartner的定義,大數據指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據集。

也許這樣說,你還是不明白大數據到底是什么,它對我們到底有什么用。下面我用個最貼近我們生活的例子來告訴你什么是大數據,以及大數據到底能為我們做些什么。

中國是一個人口大國,每天因為疾病進出醫院的不計其數。隨著醫院門診量和住院人數的不斷增多,醫療數據量也變得無比龐大。大家都清楚醫療數據被安全地存儲有多關鍵。誰也不希望自己的診療病例轉眼就不見,明天要做手術的患者,今天忽然所有病例都不見了,可見是多么恐怖的一件事情。

同時因為患者的數據是不能重復再現的。不僅是數據量得到有效保存,而且還要確保數據不能丟失。這是大數據的根所在——有數據,還得是有質量、真實的數據。這就解釋了大數據在醫療行業的由來。
最直觀的大數據案例
近些年,一些大規模的傳播疾病一直沒有間斷,從非典到H7N9,病毒性流感一波又一波襲擾人類,流感病毒不斷變異并傳播開來,令藥物和疫苗要么準備不及,要么無法預防。但是如果能提早發現流感的發病趨勢,不僅能為抗病毒藥物的準備爭取寶貴的時間,而且還有助于疫苗研發機構能盡早采取措施。

作為全球最大的搜索引擎,每時每刻都有上百萬用戶在使用谷歌提供的搜索服務,其中搜索健康信息的人亦不在少數。這些用戶行為提供了海量的有寶貴價值的分析數據。
可以想見,流感流行季,搜索流感癥狀的人會飆升,而在流感高發地帶,這一比例會相應提高。這意味著流感相關關鍵詞的搜索趨勢與流感的流行趨勢及嚴重程度存在某種程度的相關性。盡管并不是每個搜索這類關鍵詞的人都有流感癥狀或患有流感,但把這些搜索結果匯總到一起時,或許可以從中建立起一個準確可靠的模型,實時監控時下的流感疫情,并對未來疫情狀況進行估測。

谷歌的工程師們想到了從大數據的篩選過渡到流感的防治問題上。但是他們首先面臨的任務是選擇流感相關的關鍵詞。工程師將關鍵詞的選擇權交給機器。他們挑出谷歌搜索量最大 5000 萬個關鍵詞,分別代入到事先建好的一個模型中,而后將這一模型產生的曲線與美國疾病預防與控制中心(以下簡稱美國 CDC)的流感流行曲線進行擬合,進而篩選到擬合度最高 100 個關鍵詞。
再從這 100 個預測性最好的關鍵詞中,優選出與流感有關的部分,并將其綜合起來完成預測模型的建立。最終有 45 個關鍵詞篩出。

實踐是檢驗真理的唯一標準,預測模型好壞的最佳評價標準一定是在實戰中觀察其能否通過考驗。在回溯驗證中,谷歌工程師將美國紐約市 2003 年至 2007 年的季節性流感數據與模型計算出的數據進行了比較,發現相關系數達 0.90。對于這一模型,更有用的是“未來”驗證的結果。在回溯結果的鼓勵之下,谷歌工程師從 2008 年初開始,將模型導出的結果與兩周后美國 CDC 公布的數據進行對照。結果依然令人振奮,相關性同樣達到了 0.90。最終,工程師們還將這一模型的建立過程撰寫成論文發表在《自然》雜志上。
大數據衍生出“流感指數”
很快,谷歌根據這一結果推出了名為“流感指數(Google Flu Trends)”的產品,據稱能夠提前兩周提供精確度不低于疾控中心的結果。目前這一指數已推廣到全球 29 個國家,并由檢測流感拓展到另一種感染性疾病登革熱。谷歌工程師對這一產品如此自豪,以至于在產品推介視頻中,CDC 的結果完全淪為陪襯,但事實果真如此么?

由于“流感指數”的高低在很大程度上取決于用戶的搜索行為,有觀察家認為,如果一些事件會影響到用戶的搜索,那么指數就有可能出現假陽性或假陰性。果不其然,在谷歌流感指數運行期間,人們逐漸觀察到原有模型的缺陷。
時至 2013 年,流感再一次引起了世人的廣泛關注。在中國,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人傳人的跡象。而在美國,流感流行狀況也十分嚴峻。紐約州在 2013 年 1 月還特地發布“公共健康緊急狀態”的通告,以警示民眾。這些消息獲得大眾媒體的廣泛報道。然而,谷歌流感指數的表現再次讓人大跌眼鏡:指數估值出現了假陽性,即遠高于 CDC 的統計數量。盡管谷歌方面對此并未置評,但大部分關注這一指數的研究者認為,流感疫情獲得媒體連篇累牘的報道,影響了谷歌用戶的搜索行為,導致指數估值出現偏差。

在谷歌流感指數啟發之下,很多研究者試圖利用其他渠道(比如社交網站)的數據來預測流感。紐約羅切斯特大學的一個數據挖掘團隊就曾利用 Twitter 的數據進行了嘗試。利用團隊開發的文本分析工具,研究者在一個月內收集了 60 余萬人的 440 萬條 Twitter 信息,挖掘其中的身體狀態信息。最終的分析結果表明,研究人員可以提前 8 天預報流感對個體的侵襲狀況,而且準確率高達 90%。
不過研究者也承認,這一算法并非完美,比如 Twitter 的使用者大部分是年輕人,而季節性流感的襲擾對象多為抵抗力較弱的老年人和兒童。
大數據的醫療應用
臨床診斷
通過全面分析病人特征數據和療效數據,然后比較多種干預措施的有效性,可以找到針對特定病人的最佳治療途徑。
其次體現在臨床決策系統。通過將醫生處方和醫療專家庫醫學指導比較,系統可提醒醫生避免出錯,如藥品不良反應、過度使用抗生素等,幫助醫生降低醫療風險。

最后是可以讓臨床醫療數據更加透明。鄔賀銓表示,美國疾控中心公布了醫療數據,幫助病人作出更明智的決定,從而選擇性價比更高的治療方案。通過告訴病人多種不同的醫療方案,病人可以自己選擇治療方案。
遠程監護
首先,通過收集數據,醫生可以更好地判斷病人病情。例如充血性心臟衰竭的治療檢查費用非常高。但是通過大數據分析發現,凡是充血性心臟衰竭的病人,他的頸靜脈會擴張。所以根據頸靜脈擴張的檢查,就能判斷他是不是充血性心臟衰竭。而頸靜脈的檢查,根本就不要成本,摸一下就夠了。而這也是通過大量數據的搜集而總結出來的。
其次,通過對數據的收集和分析,可實現計算機遠程監護,對慢性病進行管理。比如,充血性心臟的標志之一是由于保水而增加體重,因此通過遠程監控體重可發現相關疾病,提醒醫生及時采取治療措施,防止急性狀況發生。
計算機遠程監護還可以減少病人住院時間、減少急診量,提高家庭護理比例和門診醫生預約量。
醫療研究
首先體現在預測建模。通過收集臨床實驗前期和結果的數據,可以評價新藥的安全性、有效性以及潛在的副作用,提高研發效率。
其次是臨床實驗設計的統計工具和算法。通過挖掘病人數據,可以評估和招募患者是否符合試驗條件,并進一步找出最合適的臨床實驗基地,從而加快臨床試驗進程。
其實善用起來,我們樂觀的想,大數據的使用可以改善公眾健康監控。公共衛生部門可以通過覆蓋全國的患者電子病歷數據庫,快速檢測傳染病,進行全面的疫情監測,并通過集成疾病監測和響應程序,快速進行響應。這將帶來很多好處,包括醫療索賠支出減少、傳染病感染率降低,衛生部門可以更快地檢測出新的傳染病和疫情。真正的用在實處,相信會給我們今后的醫療環境帶來非常大的改善。

