樂(lè)思網(wǎng)絡(luò)輿情監(jiān)測(cè)，始于2003 » 網(wǎng)絡(luò)輿情是怎么監(jiān)測(cè)的?主要通過(guò)什么途徑？

網(wǎng)絡(luò)輿情是怎么監(jiān)測(cè)的?主要通過(guò)什么途徑？

發(fā)布時(shí)間：2018-05-11 KnowlesysOp

網(wǎng)絡(luò)輿情的監(jiān)測(cè)：

一、人工監(jiān)測(cè)

人工，是進(jìn)行全網(wǎng)的搜索，通過(guò)關(guān)鍵詞的信息量，人為判斷輿情產(chǎn)生，這種方式需要在全網(wǎng)鋪開(kāi)來(lái)做，比如新聞網(wǎng)站、論壇、貼吧、微博、微信都是屬于輿情滋生之地，皆有可能產(chǎn)生輿情。但人工搜索工作量大而且容易遺漏存在巨大風(fēng)險(xiǎn)，最關(guān)鍵的是你所遺漏的可能正是關(guān)鍵事件。

二、專業(yè)的輿情監(jiān)測(cè)平臺(tái)。

專業(yè)輿情平臺(tái)，是借助專業(yè)機(jī)構(gòu)的輿情相關(guān)軟件，利用技術(shù)獲取海量信息，再利用中文分詞技術(shù)、自然語(yǔ)言處理技術(shù)、中文信息處理技術(shù)，對(duì)信息進(jìn)行垃圾過(guò)濾、去重、相似性聚類、情感分析、提取摘要、自動(dòng)聚類等處理，及時(shí)發(fā)現(xiàn)輿情。

網(wǎng)絡(luò)輿情監(jiān)測(cè)的途徑：

一、使用搜索入口作為捷徑

搜索入口有兩類：一類是搜索引擎的入口，一類是網(wǎng)站的站內(nèi)搜索。

做輿情監(jiān)測(cè)往往是有主題、有定向的去做，所以很容易就可以找到監(jiān)測(cè)對(duì)象相關(guān)的關(guān)鍵字，然后利用這些關(guān)鍵字去各類搜索入口爬取數(shù)據(jù)。

當(dāng)然也會(huì)遇到反扒的問(wèn)題，例如你長(zhǎng)時(shí)間、高頻次的爬取搜索引擎的結(jié)果頁(yè)面，網(wǎng)站的反扒策略就會(huì)被觸發(fā)，讓你輸入驗(yàn)證碼來(lái)核實(shí)是否是人類行為。

使用搜索入口作為捷徑也會(huì)帶來(lái)一些好處，除了爬取門(mén)檻低，不需要自己收錄各類網(wǎng)站信息外，另一個(gè)特別明顯的好處是可驗(yàn)證性非常好，程序搜索跟人搜索的結(jié)果會(huì)是一致的，所以人很難驗(yàn)證出你獲取的數(shù)據(jù)有偏頗。

二、爬蟲(chóng)根據(jù)網(wǎng)站入口遍歷爬取網(wǎng)站內(nèi)容

第一步要規(guī)劃好待爬取的網(wǎng)站有哪些？根據(jù)不同的業(yè)務(wù)場(chǎng)景梳理不同的網(wǎng)站列表，例如主題中談到的只要監(jiān)測(cè)熱門(mén)的話題，這部分最容易的就是找門(mén)戶類、熱門(mén)類網(wǎng)站，爬取他們的首頁(yè)推薦，做文章的聚合，這樣就知道哪類是最熱門(mén)的了。思路很簡(jiǎn)單，大家都關(guān)注的就是熱門(mén)。至于內(nèi)容網(wǎng)站怎么判斷熱門(mén)，這個(gè)是可以有反饋機(jī)制的：一類是編輯推薦；一類是用戶行為點(diǎn)擊收集，然后反饋排序到首頁(yè)。

第二步是使用爬蟲(chóng)獲取數(shù)據(jù)。爬蟲(chóng)怎么寫(xiě)是個(gè)非常大的話題，在這里不展開(kāi)說(shuō)明，需要提一嘴的是，爬蟲(chóng)是個(gè)門(mén)檻很低但是上升曲線極高的技術(shù)。難度在于：網(wǎng)站五花八門(mén)；反扒策略各有不同；數(shù)據(jù)獲取后怎么提取到想要的內(nèi)容。

三、數(shù)據(jù)檢索與聚合

數(shù)據(jù)獲取下來(lái)后哪些是你關(guān)心的、哪些是垃圾噪聲，需要用一些NLP處理算法來(lái)解決這些問(wèn)題。這方面門(mén)檻高、難度大。首先大規(guī)模的數(shù)據(jù)如何被有效的檢索使用就是個(gè)難題。比如一天收錄一百萬(wàn)個(gè)頁(yè)面（真實(shí)環(huán)境往往比這個(gè)數(shù)量級(jí)高很多），上百G的數(shù)據(jù)如何存儲(chǔ)、如何檢索都是難題。值得高興的是業(yè)內(nèi)已經(jīng)有一些成熟的方案，比如使用solr或者es來(lái)做存儲(chǔ)檢索，但隨著數(shù)據(jù)量的增多、增大，這些也會(huì)面臨著各種問(wèn)題。

通常對(duì)熱門(mén)的判斷邏輯是被各家網(wǎng)站轉(zhuǎn)載、報(bào)道的多，所以使用NLP的手段來(lái)做相似性計(jì)算是必須的，業(yè)內(nèi)常用的方法有Simhash或者計(jì)算相似性余弦?jiàn)A角。有些場(chǎng)景不單單是文章相似，還需要把類似談及的文章都做聚合，這時(shí)就需要用到一些聚類算法，例如LDA算法。從我們的實(shí)踐經(jīng)驗(yàn)來(lái)看，聚類算法的效果良莠不齊，需要根據(jù)文本特征的情況來(lái)測(cè)試。

（知乎：國(guó)雙商業(yè)市場(chǎng)、西窗捕輿）

樂(lè)思網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)

如何做好輿論應(yīng)對(duì)與疏導(dǎo)