網(wǎng)絡(luò)輿情的監(jiān)測(cè):
一、人工監(jiān)測(cè)
人工,是進(jìn)行全網(wǎng)的搜索,通過(guò)關(guān)鍵詞的信息量,人為判斷輿情產(chǎn)生,這種方式需要在全網(wǎng)鋪開(kāi)來(lái)做,比如新聞網(wǎng)站、論壇、貼吧、微博、微信都是屬于輿情滋生之地,皆有可能產(chǎn)生輿情。但人工搜索工作量大而且容易遺漏存在巨大風(fēng)險(xiǎn),最關(guān)鍵的是你所遺漏的可能正是關(guān)鍵事件。
二、專業(yè)的輿情監(jiān)測(cè)平臺(tái)。
專業(yè)輿情平臺(tái),是借助專業(yè)機(jī)構(gòu)的輿情相關(guān)軟件,利用技術(shù)獲取海量信息,再利用中文分詞技術(shù)、自然語(yǔ)言處理技術(shù)、中文信息處理技術(shù),對(duì)信息進(jìn)行垃圾過(guò)濾、去重、相似性聚類、情感分析、提取摘要、自動(dòng)聚類等處理,及時(shí)發(fā)現(xiàn)輿情。
網(wǎng)絡(luò)輿情監(jiān)測(cè)的途徑:
一、使用搜索入口作為捷徑
搜索入口有兩類:一類是搜索引擎的入口, 一類是網(wǎng)站的站內(nèi)搜索。
做輿情監(jiān)測(cè)往往是有主題、有定向的去做, 所以很容易就可以找到監(jiān)測(cè)對(duì)象相關(guān)的關(guān)鍵字,然后利用這些關(guān)鍵字去各類搜索入口爬取數(shù)據(jù)。
當(dāng)然也會(huì)遇到反扒的問(wèn)題,例如你長(zhǎng)時(shí)間、高頻次的爬取搜索引擎的結(jié)果頁(yè)面,網(wǎng)站的反扒策略就會(huì)被觸發(fā),讓你輸入驗(yàn)證碼來(lái)核實(shí)是否是人類行為。
使用搜索入口作為捷徑也會(huì)帶來(lái)一些好處,除了爬取門(mén)檻低,不需要自己收錄各類網(wǎng)站信息外,另一個(gè)特別明顯的好處是可驗(yàn)證性非常好,程序搜索跟人搜索的結(jié)果會(huì)是一致的, 所以人很難驗(yàn)證出你獲取的數(shù)據(jù)有偏頗。
二、爬蟲(chóng)根據(jù)網(wǎng)站入口遍歷爬取網(wǎng)站內(nèi)容
第一步要規(guī)劃好待爬取的網(wǎng)站有哪些? 根據(jù)不同的業(yè)務(wù)場(chǎng)景梳理不同的網(wǎng)站列表, 例如主題中談到的只要監(jiān)測(cè)熱門(mén)的話題,這部分最容易的就是找門(mén)戶類、熱門(mén)類網(wǎng)站,爬取他們的首頁(yè)推薦,做文章的聚合,這樣就知道哪類是最熱門(mén)的了。思路很簡(jiǎn)單,大家都關(guān)注的就是熱門(mén)。至于內(nèi)容網(wǎng)站怎么判斷熱門(mén),這個(gè)是可以有反饋機(jī)制的:一類是編輯推薦;一類是用戶行為點(diǎn)擊收集,然后反饋排序到首頁(yè)。
第二步是使用爬蟲(chóng)獲取數(shù)據(jù)。爬蟲(chóng)怎么寫(xiě)是個(gè)非常大的話題,在這里不展開(kāi)說(shuō)明,需要提一嘴的是, 爬蟲(chóng)是個(gè)門(mén)檻很低但是上升曲線極高的技術(shù)。難度在于:網(wǎng)站五花八門(mén);反扒策略各有不同;數(shù)據(jù)獲取后怎么提取到想要的內(nèi)容。
三、數(shù)據(jù)檢索與聚合
數(shù)據(jù)獲取下來(lái)后哪些是你關(guān)心的、 哪些是垃圾噪聲,需要用一些NLP處理算法來(lái)解決這些問(wèn)題。這方面門(mén)檻高、難度大。首先大規(guī)模的數(shù)據(jù)如何被有效的檢索使用就是個(gè)難題。 比如一天收錄一百萬(wàn)個(gè)頁(yè)面(真實(shí)環(huán)境往往比這個(gè)數(shù)量級(jí)高很多),上百G的數(shù)據(jù)如何存儲(chǔ)、如何檢索都是難題。值得高興的是業(yè)內(nèi)已經(jīng)有一些成熟的方案,比如使用solr或者es來(lái)做存儲(chǔ)檢索, 但隨著數(shù)據(jù)量的增多、增大,這些也會(huì)面臨著各種問(wèn)題。
通常對(duì)熱門(mén)的判斷邏輯是被各家網(wǎng)站轉(zhuǎn)載、報(bào)道的多, 所以使用NLP的手段來(lái)做相似性計(jì)算是必須的,業(yè)內(nèi)常用的方法有Simhash或者計(jì)算相似性余弦?jiàn)A角。有些場(chǎng)景不單單是文章相似,還需要把類似談及的文章都做聚合,這時(shí)就需要用到一些聚類算法,例如LDA算法。從我們的實(shí)踐經(jīng)驗(yàn)來(lái)看,聚類算法的效果良莠不齊, 需要根據(jù)文本特征的情況來(lái)測(cè)試。
(知乎:國(guó)雙商業(yè)市場(chǎng)、西窗捕輿)
樂(lè)思網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)