
2014年8月3日,云南魯甸發生6.5級地震,造成617人死亡、112人失蹤、3143人受傷的重點傷害,這是繼2008年汶川地震、2010年玉樹地震之后的又一次有重大人員傷亡的地震災害,其給社會生命財產造成的巨大損害讓人們記憶猶新。面對地震、洪澇、暴雨等災害的襲擾,我們是否應該坐以待斃? 發生重特大自然災害時,及時有效地采取救災措施至關重要,這其中獲取的災情數據和分析是決定救災措施是否有效的關鍵。然而現實是,災區現場實時信息紛繁復雜且高度動態變化,人工災情數據統計在客觀上存在極大困難,并且人工災情數據統計存在著數據量小、時效性弱的缺點,這種災情數據對達到救災預期有第一定的局限性。在數據成為信息時代的基礎背景下,如何利用災情數據促進防災減災工作值得政府部門思考。
網絡大數據如何運用于防災減災?
互聯網技術的創新和發展實現了網絡信息分享的便捷性和數據傳播的海量化,僅依靠這兩種特性就促進了自媒體的空前繁榮,使網絡大數據變得更加受重視。一方面,信息實時交互便捷、及時和低成本充分調動了網民參與的積極性,網民們不再滿足于只做社會事務的旁觀者,而是借助網絡枳極分享及參與各項社會事務。他們在微博、微信、博客、播客、維基、在線論壇等自媒體平臺,通常以文本、圖像、音樂和視頻等形式來分享自己意見、見解、經驗和觀點,或者只是單純的事實反饋。這些傳播于網絡的信息數據成了網絡大數據重要部分,在某些環境中對于事件情報分析有無可比擬的作用。
拿地震災害來說,地震發生后,身在災區的每個人都有可能成為一名災情預報員,這時關于地震事實、震感強度、現場情況、地震時間、破壞程度、危機預警、傷亡情況,避難場所、請求救援、尋找親人、需求物質、救災效果評估、救災進度看法、救災意見等反映災區災情的信息數據隨處可見,這些信息數據以一種沒有提前規劃卻及時有效的方式在網絡上分享和傳播,這些海量文本、數據、視頻、音頻、圖片信息內容之間上下呼應,相互關聯,由此產生了地震災情大數據。作為救災指揮部門,則可以通過收集這些海量數據進行分類聚類分析,將災情大數據化繁為簡,從海量、分散、實時變化的災情數據中挖掘出有價值的信息,如研判出震級、區域災情等級、救災物質需求區域分布狀況、人員傷亡情況、救災效果評估等情報,為救災防災減災工作的有效推進提供指導,減少因災情不準造成的救災人員、物質分配浪費的現象。
例如2008年汶川地震時,網絡上便迅速匯集了來自全國各個角落的描述震感的帖子(含時間、空間和震感描述的信息),據樂思網絡輿情監測系統的采集數據顯示,當時有關地震描述的帖子和博文超過100萬條,地震10分鐘后網友關于震感強度描述的貼文大量出現。通過網民群體的自查,迅速將震中鎖定到四川綿陽附近,從地震感知、信息辨識、信息分類到確定震中和災情,均在很短時間內同步完成,比中國地震局和政府公布信息要快速和有效得多。而在救災過程中,有一名女大學生在網絡上發布了一條非常有價值的空降坐標信息——這個位置原本是打算修建大禹祭壇的地方,非常適合直升機空降,為使這條信息不被淹沒,大量網民持續不斷地自愿投入時間和精力來“頂”這份帖子,終使其為大眾所關注,引導了相關救災行動。
這一不自覺應用在2010年青海玉樹地震和2013年四川蘆山強烈地震災難中,表現得更為充分。當時新浪、騰訊等微博客上每天都涌現出海量災情、救助需求、捐款等信息,有些網友甚至專門制作可視化地圖來展示災情現狀。百度、谷歌、360、搜狐、人人網等在蘆山地震發生后第二天,便相繼推出了尋親與報平安的尋人平臺,網友通過這些平臺發布尋親信息,這很好幫助了救災部門統計災區人員傷亡情、失蹤情況。而在防災層面上,發生在2011年美國弗吉尼亞州的地震就是一個很好的例證。據報道,當時地震發生后,距離幾百公里外的紐約州居民首先在推特上看到弗吉尼亞地震的消息,紛紛跑出屋外,幾秒鐘之后才感受到震感——信息傳播的速度比地震波還快。
網絡災情數據挖掘存在哪些瓶頸?
網絡大數據的多源、量大、內容復雜、實時性等特征能幫助政府部門預測災害的發生發展,決定救災的輕重緩急,在防災減災救災中,網絡大數據技術應用發揮著作用越來越大。然而,面對“多源、量大、內容復雜、實時性”的網絡災情數據,擺在政府救災部門面前的的關鍵問題是難以獲取大數據。同時,受動態社會群體與自然災害特有的復雜性演變方式、快速蔓延、廣泛影響和可能的爆炸性影響力等特征影響,傳統的數據獲取和處理技術難以滿足現實需求,這些問題已成為災情精準研判的瓶頸。網絡災情數據挖掘的瓶頸主要表現在兩個方面:看得見大數據,抓不到大數據;抓得到大數據,又無從處理大數據。
首先,看得見大數據,抓不到大數據,其主要反映的是災情數據的獲取和收集問題。在線下,災情發生后,特別是地震、洪澇等災害其破壞力極強,災后帶來的往往是人員傷亡、道路阻塞、通信中斷、物質匱乏、次生災害不斷,這時人們還處在悲傷的心理陰影期,一些行政組織完整性遭到破壞,人們把更多的精力重心放在搶救和自救上,其結果造成政府組織指揮效力被削弱,很多指令難以及時快速下達和落實。因此,如此極端環境下不僅難以快速收集到大量有效數據,甚至有時還夾雜著很多不準確數據。在線上,災后網上災情數據通常具有瞬時爆發、快速傳播、大范圍擴散與海量數據積聚等特點,而傳統的人工數據收集方式顯然很難做到及時反應、快速跟蹤,全量采集,其收集的數據量一般只是整個災情數據量的冰山一角。這種人工數據采集造成的數據量缺失對于災情的精準研判會有很大的局限性,對有效救災工作的推進很難發揮科學指導作用。因此,面對海量的網絡災情數據,我們只能“望網興嘆”。
其次,抓得到大數據,又無從處理大數據,其主要反映的是災情數據的研判處理能力問題。災情大數據具有多源性、混雜性、個體傾向性、數據分散、語義模糊和非結構化等特點,同時海量數據還存在噪音多、混雜、質量差和可信度低的問題,這都增加了災情大數據的分析和處理難度。災害發生后,尤其是在救助生命、抑制次生災害時,對救災時效性要求非常高,干預越及時,效果越顯著,災區現場數據的使用價值隨著時間流逝會急劇降低。而面對問題多多的百萬甚至千萬災情數據,僅僅依靠人工形式來實現數據的分類聚類、數據提取、語義分析、報告展現等,顯然不切實際,第一點就很難滿足信息的時效問題。如果如此數量的災情數據,通過人工一條一條的去刪選分類,大概救災結束了信息處理還不見得完成。
自動數據處理在災情數據獲取上的應用
災情發生,救助生命、抑制次生災害成為第一要務,這時候救災投入的時效性、資源數量等影響著救災的效果,而如何快速從網絡上獲取災情大數據,迅速分析研判出災情動態,是科學指導救災指揮的重要一環。只有解決了“抓不到大數據,無從處理大數據”的問題,我們才能發揮災情大數據的最大潛能,真正實現大數據促進防災救災減災工作。而從上文我們不難看出,破解災情數據挖掘瓶頸的核心是怎么解決數據抓取和數據分析的時效性,這一點基于自動化的信息采集數據處理系統可以實現,下面以深圳樂思的信息采集系統和輿情監測系統為例。
在網絡數據采集方面。成立2003年的深圳樂思軟件,依托其互聯網海量信息精確監測與垂直挖掘領域豐富的實踐經驗與領先優勢,研發出了網絡信息采集系統產品。該網絡信息采集系統根據用戶自定義的任務配置,批量而精確地抽取因特網目標網頁中的半結構化與非結構化數據,轉化為結構化的記錄,保存在本地數據庫中,用于內部使用或外網發布,快速實現外部信息的獲取。它可以實現固定網站、頁面的信息實時自動化采集,對目標網站上可見的文本信息、URL、數字、日期、圖片、視頻、音頻信息實時抓取入庫,采集平臺覆蓋微博、微信、論壇、博客、新聞、視頻、社交等多種平臺,并支持多種語言信息數據抓取,其抓取速度高達每秒上萬條數據,同時實現抓取過程中的無關內容去除。如在災情發生后,可以通過樂思網絡信息采集系統,在極短時間內采集到微博、微信、論壇、新聞評論等平臺上的網友貼文和跟帖,并根據不同需求要素對數據進行入庫,解決人工采集難以實現的信息量、覆蓋面和收集速度問題,為下一步的數據分析研判提供足量及時的數據。
在數據處理分析方面,樂思輿情監測系統則具有很好的數據處理和分析能力。該系統可以通過系統的分析瀏覽子系統把采集到的數據按照需求設置進行自動分類、聚類,自動提取信息數據摘要,實現人名識別、地名識別和機構識別聚集,對數據信息實施一定語義情感判別,最終實現對數據背后反映的問題的研判,形成各種豐富數據列表和數據走勢圖表,為指揮中心提供最直觀的數據報告。最主要的是系統可以再30分鐘內同時分析幾十萬條甚至幾百萬條數據,很好提高數據處理的效率,保證數據分析的時效性。比如想要掌握災區各地物質需求情況,救災部門可以抓取微博或者論壇上跟“災情描述”相關的海量數據信息,利用系統的聚類功能以地名、物資名等要素來對數據進行分類,然后通過處理后的數據量來研判哪些地方救災物質緊缺,那種救災物質缺口最大,最終依此實現救災資源的配送,減少對災情不了解造成的資源分配浪費問題。
政府輿情監測如何實現預警負面、危機公關和反饋民意?
互聯網時代 企業如何從網絡大數據中挖掘市場新需求
網絡輿情監測系統在打擊網絡色情上的應用
如何實現網絡輿情信息的快速準確抓取
如何推進消防負面輿情監測工作化解消防輿情危機