
這個時代學習能力是最重要的能力,而能夠在周末的時間進行學習的人就更有競爭力。同時選擇大數據這一方向來學習的人則是當今大數據時代最具有競爭力的人。
今天之所以選擇用大數據解讀爸爸去哪兒第二季這個話題是因為娛樂性的話題比較容易理解。大數據的概念起碼要包含數據、技術和應用三 個方面。因為有了越來越多的數據才有了大數據這一概念,才能夠運用數據能夠做很多的事情。這其中,最重要的就是互聯網的發展。因為數量非常大而且有很多非 結構化數據(文本、視音頻等),這樣的數據就必須用智能化的分析方法才能解決,因此這方面的大數據技術也更加復雜。而所謂應用是大數據分析的目的和核心, 大數據分析都是從應用中導出來的,根據應用分析相應數據得出相應結論。
目前來看,大數據技術有很多像海量一樣的公司都在做,而怎樣把大數據應用到實際工作中去輔助你實際工作的人才是缺失的。

現在很多人才分析報告中就說過,大數據分析師這樣的人才是有價值的,而所謂大數據分析師其實是在應用這方面的。大數據時代企業的競 爭情報已經發生了變化。比如說小米,每周去更新它的軟件其實就是根據用戶的反饋來做的。包括海爾這樣的傳統家電企業,也在去年發布了全新的“網絡化戰 略”,張瑞敏就在該戰略中這樣說道,“ 原來用戶只是購買者,現在可以成為設計者,與生產者融合在一起,變成利益共同體。 ”“ 通過互聯網掌握競爭態勢,洞察客戶雪球,獲得互聯網的信息競爭力至關重要。 ”

關于大數據解讀爸爸去哪兒第二季, 首先是對節目的互聯網討論聲量檢測 ,因為在第一季的時候,通過對互聯網討論聲量檢測,節目組就發現了一個規律, 綜藝節目主要考慮的是收視率,如果在節目播出前網絡上討論度越高那么在節目播出之時的收視率就越高 。由于這樣的一個原因,所以在第二季的時候,節目組也就根據這樣的規律提高節目收視率。比如說在節目播出之前就有過關于爸爸去哪兒第二季討論的高潮,這其中不乏節目組的炒作,也是由于這樣的一個高熱度的討論,使得節目一播出就獲得了很高的收視率。 現在衡量一個品牌資產的一個簡單的方法就是在互聯網的信息空間中,根據跟品牌有關的數據的量進行評定,量大你未來在互聯網的世界里你品牌的影響力就高。

第二是關于嘉賓的聲量變化 ,節目開播前,陸毅黃磊等大陸知名明星在互聯網上的討論聲量比較大,而節目開播后,楊陽洋吳鎮宇的討論聲量明顯上升,成為節目黑馬。

這種變化,通過即時的互聯網大數據的分析,就能夠被節目組制作方所把握到,那么到后續的動作就可以基于這個進行快速調整。還有就是 嘉賓特色形象的轉變,比如說陸毅,在節目播出前大眾對他形象的認知可能只是停留在帥、男神上,而在第一集播出之后,逗比、黑暗料理這樣的形象標簽使得他的 形象也更加豐滿。

這也使廣告商在選擇代言人上有更多關注的點。這些都是因為有了互聯網有了大數據我們能夠每天及時的看到相應數據的變化。
第三是基于用戶關注的營銷策略調整 ,在最開始節目播出宣傳的時候,節目組對各個大人小孩在宣傳廣告中的比例是沒有太大差別的,如下圖。

而在節目播出之后,有了嘉賓討論聲量的變化后,節目組也就基于用戶的關注度改變了相應策略,在廣告所占比例上吳鎮宇就比較靠前。
第四是關于節目討論的焦點分析 ,這是在節目的每一集播出之后都要進行分析的,主要部分還是對節目嘉賓的討論,還有節目播出時的節目小情節、相關炒作、植入品牌以及爸爸和孩子們去過的地點的討論,都可以作為焦點進行大數據分析。

第五是關于網絡討論者的分析 ,基于微博用戶信息的性別分布,可以看出的是女性討論者占大約 77% ,而男性用戶只占其中的 23% 。

從年齡段分布來看, 80 后 90 后分布較多,尤其以 90 后最為突出。

從討論者地域分布來看,東南沿海以及北方大城市活躍度較高,從這些信息就可以為一些線下活動提供參考依據。

對于網絡討論者來說可以對其進行交叉分析,從而得出更全面而具體的結論。
如何實現?
通過對新聞資訊網站、電子報、論壇、博客、貼吧、問答、百科、 SNS 網站、政府網站、微博、電商以及微信公眾號等進行數據采集,然后通過技術對其進行基于知識網絡的精準數據分析。

通過數據的專業分析工具——判定圖,支持復雜的邏輯分析。爸爸去哪兒第二季的判定圖中就有 2300 個標簽, 3500 個節點。根據這些標簽和節點而進行判定邏輯分析,數據標引分析,和量化數據分析從而得出準確而有效的數據報告。



對于新聞來說,貼標簽的同時就要做分詞,這樣標簽才會有相應的準確性。


分詞之后變成結構化就可以由技術人員進行分析了,分析之后得出報告之后再做一個可視化的結構呈現。因為英文有空格不需要分詞,而中 文必須要進行分詞才能更精確。比如說技術服務就要分為技術和服務兩個詞來進行標簽,河南開封這其中與南開大學就沒有什么關系。所以分詞在分析中很重要。
關于拿到數據后先要干什么然后要干什么對于大多數學員來說都會感到迷茫,演講嘉賓陳凱也給大家作出了回答。拿到數據首先要把數據內容分析清楚(數字類、文本類等),搞清楚這些數據之后要考慮自己是否還需要增加一些數據。



在分析時第一步要定空間,也可以稱是數據勘察,主要是準確定位該數據在哪里,在企業內部或是互聯網當中。第二步就是用一些比較粗淺 的準確率較低的數據進行分析篩選,然后進行調優,調優之后形成模型分析維度。最后一步是不限于,也就是跟你提要求的客戶可能在表達時沒有把最后一句話表達 出來,而他說的最后一句話可能就是“不限于……”,現在所有想做大數據的人都是想知道他以前不知道的新的東西,所以分析師就要更進一步地對大數據進行深入 分析。另外一個不限于就是所說的,數據是一個動態變化的,不是說模型做完就不變的,要根據他的使用情況、互聯網的發展變化和數據內容進行修正。
公開課:在北京理工大學大數據公開課(第2期)
主題之一:大數據解讀爸爸去哪兒2
時間:2014-10-25
地點:北京理工大學
演講嘉賓:海量信息技術有限公司產品副總裁,陳凱

