監測 – 樂思網絡輿情監測,快全準! http://www.galou.cn/wp Fri, 11 May 2018 11:24:44 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.5.18 網絡輿情是怎么監測的?主要通過什么途徑? http://www.galou.cn/wp/article/15022 Fri, 11 May 2018 18:58:14 +0000 http://www.galou.cn/wp/?p=15022

 

網絡輿情的監測:

 

一、人工監測

 

人工,是進行全網的搜索,通過關鍵詞的信息量,人為判斷輿情產生,這種方式需要在全網鋪開來做,比如新聞網站、論壇、貼吧、微博、微信都是屬于輿情滋生之地,皆有可能產生輿情。但人工搜索工作量大而且容易遺漏存在巨大風險,最關鍵的是你所遺漏的可能正是關鍵事件。

 

二、專業的輿情監測平臺。

 

專業輿情平臺,是借助專業機構的輿情相關軟件,利用技術獲取海量信息,再利用中文分詞技術、自然語言處理技術、中文信息處理技術,對信息進行垃圾過濾、去重、相似性聚類、情感分析、提取摘要、自動聚類等處理,及時發現輿情。

 

網絡輿情監測的途徑:

 

一、使用搜索入口作為捷徑

 

搜索入口有兩類:一類是搜索引擎的入口, 一類是網站的站內搜索。

做輿情監測往往是有主題、有定向的去做, 所以很容易就可以找到監測對象相關的關鍵字,然后利用這些關鍵字去各類搜索入口爬取數據。

當然也會遇到反扒的問題,例如你長時間、高頻次的爬取搜索引擎的結果頁面,網站的反扒策略就會被觸發,讓你輸入驗證碼來核實是否是人類行為。

使用搜索入口作為捷徑也會帶來一些好處,除了爬取門檻低,不需要自己收錄各類網站信息外,另一個特別明顯的好處是可驗證性非常好,程序搜索跟人搜索的結果會是一致的, 所以人很難驗證出你獲取的數據有偏頗。

 

二、爬蟲根據網站入口遍歷爬取網站內容

 

第一步要規劃好待爬取的網站有哪些? 根據不同的業務場景梳理不同的網站列表, 例如主題中談到的只要監測熱門的話題,這部分最容易的就是找門戶類、熱門類網站,爬取他們的首頁推薦,做文章的聚合,這樣就知道哪類是最熱門的了。思路很簡單,大家都關注的就是熱門。至于內容網站怎么判斷熱門,這個是可以有反饋機制的:一類是編輯推薦;一類是用戶行為點擊收集,然后反饋排序到首頁。

第二步是使用爬蟲獲取數據。爬蟲怎么寫是個非常大的話題,在這里不展開說明,需要提一嘴的是, 爬蟲是個門檻很低但是上升曲線極高的技術。難度在于:網站五花八門;反扒策略各有不同;數據獲取后怎么提取到想要的內容。

 

三、數據檢索與聚合

 

數據獲取下來后哪些是你關心的、 哪些是垃圾噪聲,需要用一些NLP處理算法來解決這些問題。這方面門檻高、難度大。首先大規模的數據如何被有效的檢索使用就是個難題。 比如一天收錄一百萬個頁面(真實環境往往比這個數量級高很多),上百G的數據如何存儲、如何檢索都是難題。值得高興的是業內已經有一些成熟的方案,比如使用solr或者es來做存儲檢索, 但隨著數據量的增多、增大,這些也會面臨著各種問題。

通常對熱門的判斷邏輯是被各家網站轉載、報道的多, 所以使用NLP的手段來做相似性計算是必須的,業內常用的方法有Simhash或者計算相似性余弦夾角。有些場景不單單是文章相似,還需要把類似談及的文章都做聚合,這時就需要用到一些聚類算法,例如LDA算法。從我們的實踐經驗來看,聚類算法的效果良莠不齊, 需要根據文本特征的情況來測試。

(知乎:國雙商業市場、西窗捕輿)

 

 

樂思網絡輿情監測系統

 

如何做好輿論應對與疏導

 

 

 

]]>
運行之美 http://www.galou.cn/wp/article/158 Mon, 12 Dec 2011 17:12:30 +0000 http://www.galou.cn/wp/?p=158 如下圖,這是我們系統后臺的眾多系統自我運行監測圖表中的一個,它反映出了當前及歷史各時間段各個服務器的運行負載。
除了一臺專門用于監測國外網站的Server4外,其它服務器都運行正常,具有非常一致的負載曲線。這個圖是在3:35PM左右截的,所以4:00PM以后數據都為零。

當前正在運行的任務執行器個數

當前正在運行的任務執行器個數

最理想的情況是,所有服務器的負載曲線都是比較平坦的,也就是采集任務是均勻分布在每一個時間段上,這點可以通過設置每個采集任務的屬性來達到。

]]>
美國中情局自曝監控全球網絡 http://www.galou.cn/wp/article/128 Mon, 07 Nov 2011 17:03:29 +0000 http://www.galou.cn/wp/?p=128 飛機上看到的中情局總部,看到密密麻麻的汽車,就知道有多少人在為這世界上最龐大的情報機構工作

飛機上看到的中情局總部,看到密密麻麻的汽車,就知道有多少人在為這世界上最龐大的情報機構工作


環球網記者朱盈庫報道,據美國僑報網11月6日報道,美國弗吉尼亞州一處沒有名稱的工業園里有一處不起眼的磚砌建筑,那里是中央情報局監控海外網絡輿情的大本營“開放源中心”。

該中心主管道格·納坎近期接受美聯社專訪時介紹了中情局網絡監控的相關情況。美聯社4日說,這是這支從未正式對外公開的情報團隊首次公開面對一名媒體記者。

有價值語言都被監控 整合觀點遞交白宮

這一網絡監控中心2001年后設立,起初由當時一個調查“9·11”事件的委員會提議籌建。設立之初,該中心的主要目標是專注于收集美國以外地區互聯網上的恐怖主義情報和武器擴散情報。

隨著時間推移,這支人數保密的團隊現已拓展了監控范圍,微博、社交網站、報紙網站、電視媒體網站、社區電臺網站和互聯網聊天室都已成為這座磚砌小樓的挖掘對象。他們監控多種語言言論,除英語外,阿拉伯語、漢語、烏爾都語等等幾乎所有中情局認為有價值的語言都被列入監控清單。

在程式上,例如針對某起國際或地區事件,監控員截取網絡留言、甚至直接錄制網絡聊天語音片段,而后比對這個國家在同一事件上的媒體觀點,最終整合成這個國家對這起事件的輿論反應,遞交白宮作為參考。

比如,美軍今年5月在巴基斯坦擊斃“基地”組織頭目本·拉登后,該中心截取大量巴基斯坦網民的言論,最終遞交給白宮一份結論:“絕大多數烏爾都語言論不認同美國的做法”。

人員分散全球使領館 能找到人們以為不存在的東西

該中心主管納坎告訴美聯社記者,大多數網絡監控員在弗吉尼亞州總部,但也有人廣泛分散于美國遍及全球的使領館內,以便“近距離把握脈搏”。

納坎介紹,這些網絡監控員知道如何深度檢索所需信息,就像懸疑破案小說《龍紋身的女孩》里的主人公一樣,詭詐且善于破解互聯網秘密,他們“知道如何找到別人以為不存在的東西”。《龍紋身的女孩》是一部瑞典暢銷小說,講述的是一名黑客女孩與一名男記者聯手破案的懸疑故事。

納坎說,網絡監控員大多為外語或圖書館科學碩士畢業,外號“復仇的圖書管理員”。

美聯社報道,這一中心2009年密集監控伊朗社交媒體網站,用以評估當年總統選舉結果產生后發生的大范圍示威活動,而后遞交白宮,作為總統奧巴馬發表對伊朗講話立場的參考資料。

事實上,伊朗政府在當年爆發的示威活動期間屢次指責美國情報部門插手、煽動伊朗人的情緒。不久,伊朗政府關閉了網民接入幾家美國主要社交和微博網站鏈接。

主管常常便衣行動 潛伏“第一現場”甄別信息真偽

在回答美聯社記者有關社交網站和微博是否代表輿論的問題時,納坎說,越來越普及的手機端交友軟件使這些公開的網民言論更具參考價值。

該中心副主管向美聯社記者介紹一樁案例。近兩年泰國“黃衫軍”、“紅衫軍”在街頭鬧事期間,這名副主管與其他19名相同職責的人員“潛伏”在美國駐曼谷大使館內。他們經由微博和社交網站了解集會現場情況,特別是軍警“武力清場”期間。

集會和清場最膠著時,泰國和外國媒體記者被拒在集會現場外,大多數媒體失去第一現場和第一時間的情況報道,但一些集會者、甚至是警察本人借助手機對外發布消息和現場圖片。

這名副主管說,“(清場開始后)一小時內,(現場)情況全出現在”微博和社交網站上。網絡監控員交叉評估消息發布者的前后消息和圖片,在這些消息中確認出哪些是可信信息。

美聯社報道,最終,美國駐曼谷大使館將一批報告傳回華盛頓,其中三分之二成為各部傳閱的開放分析報告。

分析稱,中情局此刻向美聯社記者介紹“開放源中心”的用意不詳,“開放源中心”的海外作業模式是否會招惹一些國家的反感也不清楚。但中心主管納坎請求美聯社記者不要公開中心的確切地址卻是事實,理由是“擔心遭受物理或電子攻擊”。

–轉載來源: 環球時報

]]>