
對用戶而言,他也是想知道流量到底什么時候發生的,如果手機的問題,他也知道怎么進行防范,這樣就不會發生類似問題,根據客戶部門提供的數據,可能因為無法提供商網流量詳單造成退費和賠付,會影響到運營商流量計費商務模式,所以我們建立這種系統意義非常大,第一,我們的系統供聯通客服人員使用,提供快速查詢服務,解決流量投訴的問題,另外,我們也準備向最終用戶提供異常的大流量查詢服務。再一個問題,上網記錄數據本身是數據的金礦,我們可以通過獲取上網數據記錄對流量進行統計。
海量數據的應對之策
對于以上這些問題該如何應對呢?聯通研究院處長王志軍分析處理問題的難點:上網記錄數據是海量數據,經過我們的系統可以分析到,用戶每個用上網記錄基本幾萬到幾十萬,有的用戶五六十萬,我們現在采用的方案是在網關所有用戶流量必經地方采集,分析流量數據,然后上成上網記錄話單,話單量非常大。
聯通研究院處長王志軍表示,例如用移動手機訪問新浪網首頁,對流量采集設備基本能生成20條左右上網記錄話單,如果點iPad新聞鏈接,恐怕會產生180條上網記錄,如果訪問淘寶網首頁,會產生60條請求和回應,在手機上網記錄當中有大量DNS查詢和推送服務。以中國聯通某一個中等省份公司為例,日均上網記錄達到10億條,每個月的數據接近9T,整個移動互聯網也在快速發展。
根據中國聯通統計,每隔6個月中國聯通用戶整體上網流量會翻一番,去年平均3G每用戶的流量一年之內翻一番,整個流量增長非常迅速,也帶來了上網記錄的量非常非常大。
傳統IOE方式,IBM小型機,思科數據庫存儲,EMC存儲,思科數據庫存儲這么大上網記錄時候已經不可能了,所以,聯想采用開源的Hadoop解決,Hadoop本身是系統架構,也是開源項目,由Apache基金會開發,Hadoop本身最底層是分布式文件系統,這個分布式文件系統叫HDFL,在它之上有分布式處理框架,基于Hadoop整個開源項目,上面構建了結構化的訪問數據庫,在這之上又提供了類似的數據挖掘工具,另外也提供了一些分布式同步,以及遠程調用和序列化工具。
Hadoop伴隨大數據一同火爆起來。現如今,Hadoop已經無人不知無人不曉。Hadoop從它一誕生的那天開始就與大數據深深地關聯到了一起。眾所周知,大數據多是出現在這些領域,包括金融、電信、保險以及一些大型互聯網企業等。以電信行業為例,Hadoop在這些領域的應用情況是怎么樣的呢?
Hadoop+HBase+ MapReduce
對于Hadoop分布式文件系統本身來說,重要的出發點在于硬件故障是常態,不是非異常的狀態,我們可以摒棄采用IBM小型機方案,Hadoop中數據可以自動復制,一份數據可以復制成三份,第一份在一臺服務器上,第二份數據在另外一臺機架的另外一臺服務器上,第三份數據可能在另外一臺機架的另外一臺服務器上,作為分布式文件系統,每次請求寫入的磁盤和服務器物理地點可能不一樣,可以帶來高并發的讀寫請求。
MapReduce框架分成很多數據級,最后再合并處理。HBase分布式數據庫是分布式存儲系統,主要特點在正它是四維存儲系統,傳統的數據庫是二維表的結構,有行、有列,對它來說,除了有行之外,有列的概念,在列和行之間又可以存放多個版本,在這種情況下相當于四維表結構,好處在于可以靈活的表格結構,每個列組里面的列后來都可以隨機應變,我們的采集系統現在在采集一些字段,未來的發展過程中,為了數據挖掘的需要,會采集更多的字段,方便我們在一個結構之下進行更多信息的存儲以及后續的處理工作。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄