高清免费视频|成都冻货格|我可以再往深处一点吗视频|舌头伸进去添的我好爽高潮欧美|性都花花世家|无人区卡一卡二卡三乱码网站|草莓看视频在线观看免费

樂思軟件

提交需求|聯系我們|請電400-603-8000

大數據分析最佳實踐案例

  Web智能提供商ComScore對其“大數據”分析系統做了一次巨大的改變。
  位于美國弗吉尼亞州的ComScore公司將“大數據”環(huán)境從ClouderaApacheHadoop轉到了MapR公司提供的平臺上。ComScore自稱有超過1000臺服務器并繼續(xù)將Cloudera用作培訓目的,更換的決策大部分是基于成本的考慮,另外還有MapR支持NFS協議。
  ComScore的CTOMikeBrown說:“我們要投資購買的MapR,每年還按節(jié)點支付一定百分比的維護費用。NFS可以讓我們的企業(yè)系統很容易訪問集群中的數據。”
  日益增長的數據存儲促使ComScore采取行動
  ComScore監(jiān)控并度量在線購買者的行為。公司跟蹤了超過200萬消費者,這些消費者允許ComScore監(jiān)控和分析他們在網上的購買和點擊行為。通過分析消費者的行為,ComScore能用有價值的智能方式為廣告商提供關于如何確定目標市場的方案,并按他們的要求做出統計。
  “大部分網絡廣告都是通過我們的工具來做規(guī)劃,購買和銷售,”Brown說:“我們?yōu)閺V告商建議最適合投放廣告的站點。
  跟蹤200萬消費者,分析他們的行為,意味著ComScore每天必須要處理巨大的數據量。據Brown說,公司當前管理了超過PB級別的數據。
  由于數據持續(xù)大量地增長,公司于2009年開始使用Hadoop,并于去年七月實現了從Cloudera到MapR的切換。
  隨著全球經濟出現滑坡,許多IT專家說為數據管理項目采購、審批、申請資金都比較困難。據公司的核心業(yè)務的副總裁WillDuckworth說,如果實施MapR這就不成問題了。
  Duckworth說,ComScore在經過相對輕松的實施過程后,于去年七月正式上線MapR。當時,公司有還運行著Cloudera產品,要求不停機或少停機完成到MapR的遷移。ComScore的IT團隊通過拷貝Cloudera數據再將數據重新加載進MapR就很容易地實現了這一目標。
  “如果要再做一遍,我們可能就不會重新裝載數據了,因為數據量現在更大了,”Duchworth說:“我們可能會采用滾動的方式,先處理25%的機器,先將他們轉為MapR,然后拷貝數據,然后再做另外25%的機器,就這樣完成所有的。”
  Duckworth和Brown特別喜歡MapR的直接訪問NFS功能,它將Hadoop分布式文件系統數據顯示為NFS文件,可以很容易地匯總,修改或覆蓋。
  “HDFS是內部的,但為了從Hadoop存取數據,你必須要做一些類似HDFS導出的操作,”Brown說:“使用MapR,可以先將HDFS裝載為NFS,然后再使用本地的工具,無論是Windows還是Linux,UNIX都行。”
  排序軟件增加數據準備的速度
  MapRHadoop分布式計算極大地加快ComScore大數據管理操作,但這不是公司所采取的唯一的高性能計算解決方案。
  ComScore也使用了業(yè)務應用巨頭SAP的高速分析數據庫SybaseIQ來增強其客戶知識平臺(CKP),這是給用戶提供用戶網上行為分析的數據倉庫。
  據ComScore透露,CKP服務監(jiān)視了100萬客戶的行為,SybaseIQ數據倉庫目前存有40T的壓縮信息。
  此外,ComScore正在運行Syncsort的數據集成和排序軟件以加速Hadoop處理。公司于2009年上線了Syncsort,最近已升級到SyncsortDMExpress6.5,軟件的最新版本新增了對Hadoop的支持。
  在將數據裝載進MapR做進一步處理和分析之前,DMExpress聚集重復的字符串,幫助ComScore壓縮進來的數據流。他們將ComScore直接嵌入到Syncsort的25~30個業(yè)務應用中以增加數據準備過程的效率。
  Brown說:“我們購買了Syncsort來幫助解決排序的問題,因為數據量增長得很快,Syncsort的壓縮算法通過尋找重復字符串并排序數據,把這些重復數據放在一起,從而增加了壓縮比。”
  大數據分析最佳實踐
  Brown說,正在考慮大數據分析可行性的組織應該記住,要規(guī)劃潛在的數據增長——因為大數據爆炸沒有跡象會減慢下來。
  對數據排序軟件感興趣的公司應該尋找易于實施并完全能與現有的硬件兼容的產品。
  “這種技術可以讓很多系跑得更快,”Brown解釋說:“但是有個問題沒有考慮:是否能很容易地將這個軟件與現有的應用集成。”
  • 說明:本文內容編輯整理自互聯網公開渠道,轉載僅作對信息共享之用,本站對本信息之真實性和可靠性以及文章本身的觀點不持有認同態(tài)度。


  • 集成系統網絡情報信息數據庫

    CIO頻道人物視窗
    CIO頻道方案案例庫
    大數據建設方案案例庫
    電子政務建設方案案例庫
    互聯集成系統構建方案案例庫
    商務智能建設方案案例庫
    系統集成類軟件信息研發(fā)企業(yè)名錄