信息采集 – 樂思網(wǎng)絡輿情監(jiān)測,快全準! http://www.galou.cn/wp Wed, 11 Mar 2015 08:44:05 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.5.18 穹頂之下,大數(shù)據(jù)如何助力環(huán)境污染治理 http://www.galou.cn/wp/article/8377 Wed, 11 Mar 2015 16:43:34 +0000 http://www.galou.cn/wp/?p=8377  

2015年2月28日,前央視調(diào)查記者柴靜攜帶《穹頂之下:中國霧霾調(diào)查》回歸公眾視野,該片一經(jīng)播出迅速成為輿論暴風眼,而“霧霾是什么、它從哪里來、我們該怎么辦”三連問引發(fā)了公眾對大氣污染嚴重的同情和焦慮。正如柴靜所說,面對我國日益嚴重的污染現(xiàn)狀,我們該整么辦?在大數(shù)據(jù)被炒得熱火朝天的當前,我們不妨從《穹頂之下》作為切入點來聊聊如何利用大數(shù)據(jù)助力污染治理。

 

21世紀以來,隨著互聯(lián)網(wǎng)應用技術(shù)的快速發(fā)展,網(wǎng)絡數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,以大數(shù)據(jù)戰(zhàn)略為導向的數(shù)據(jù)應用走進公眾視野,成為當下最熱應用領域。因此,數(shù)據(jù)如貨幣黃金,正成為一種新型經(jīng)濟資產(chǎn),大數(shù)據(jù)已成為差異化競爭力研究的新領域,成為企業(yè)創(chuàng)新的機遇。技術(shù)研究機構(gòu)IDC曾預計,大量新數(shù)據(jù)無時無刻不在涌現(xiàn),并以每年50%的速度遞增。從通信到測定方位、溫度甚至大氣化學變化,大數(shù)據(jù)應用無處不在。那么,作為公眾最為關注的污染治理領域,該如何發(fā)揮大數(shù)據(jù)的作用呢?

 

?穹頂之下,大數(shù)據(jù)如何助力環(huán)境污染治理

 

大數(shù)據(jù)的存在形式及產(chǎn)生方式

 

(一)web社會媒體的發(fā)展推動交互數(shù)據(jù)的空前繁榮。以微博、微信、博客、播客、維基、在線論壇等為傳播介質(zhì)的web社會媒體為人們提供了分享意見、見解、經(jīng)驗、心情、態(tài)度和觀點的平臺,如傳播于Facebook、Myspace、YouTbue、Twitter、新浪微博、騰訊微博、微信、人人網(wǎng)等平臺的文字、圖片、視頻、音頻、轉(zhuǎn)發(fā)、評論、點贊等各種信息數(shù)據(jù),都是web社會媒體時代的交互數(shù)據(jù),其構(gòu)成了大數(shù)據(jù)的很重要一部分。

 

(二)互聯(lián)網(wǎng)生活方式衍生社會傳感網(wǎng)絡。在新的社會生活方式下,每個漫游于互聯(lián)網(wǎng)和移動網(wǎng)絡的網(wǎng)民都是一個潛在的具備高度智能的傳感器終端。他們在社會和自然環(huán)境中自主移動,參與各種活動,并通過感覺器官對周圍環(huán)境中發(fā)生的一切進行全面的感知與信息收集,利用自主只能進行分析與解讀,最后通過網(wǎng)絡信息平臺以文本、圖像、視頻、音頻等形式表現(xiàn)出來,同時與其他傳感器(網(wǎng)民)進行實時互動,并在互動過程中使信息更趨準確化。由此,億萬網(wǎng)民群體則可構(gòu)成一個極其龐大的社會傳感網(wǎng)絡,而其信息在智能化、廣度、深度、準確性方面都是傳統(tǒng)監(jiān)測手段或傳感器產(chǎn)品無法企及的。

 

(三)網(wǎng)絡信息背后暗藏污染治理情報數(shù)據(jù)。隨著中國網(wǎng)民數(shù)量的增長,公眾文化素養(yǎng)及個體意識的強化,網(wǎng)民通過輿論參與社會管理的積極日益增強,特別是對與民有害的環(huán)境問題容忍度不斷降低。于是一旦出現(xiàn)環(huán)境污染問題,網(wǎng)絡空間會涌現(xiàn)如發(fā)現(xiàn)、曝光、觀點、評論、主張、情緒等信息內(nèi)容,雖然這些信息來源分散、表達隨意、語義模糊,但背后蘊含著環(huán)境污染問題構(gòu)成要素的時空分布、污染源、污染強度、污染原因、處置結(jié)果、治理方法等情報數(shù)據(jù),這些處于動態(tài)實時交互的海量網(wǎng)絡信息內(nèi)容,構(gòu)成了網(wǎng)絡上污染問題的大數(shù)據(jù)。

 

大數(shù)據(jù)助力污染治理的可能性

 

全面參與度越來越高,社會傳感網(wǎng)絡下的污染源、污染狀況等情報探測、傳播與反饋非常及時,網(wǎng)絡虛擬空間中的污染態(tài)勢呈現(xiàn)與現(xiàn)實中的污染態(tài)勢幾乎同步。

 

社會媒體能夠營造出一種前所未有的社會化全民動員情勢,不僅深入民心,而且會得到積極踐行。廣大網(wǎng)友成為分布各地的智能污染監(jiān)測傳感器和監(jiān)督員,各行各業(yè)以行業(yè)專長來幫助治理污染。如網(wǎng)友可以通過手機拍照、拍視頻、投訴、曝光等方式公布污染源、污染狀況等詳細信息,環(huán)保部門出面制止、處罰、關停污染源,環(huán)境治理機構(gòu)提供治理方案等。

 

社會媒體的作用已深入到災害應急管理的各個環(huán)節(jié)。如在媒體報道、微博、微信、論壇、博客等平臺上傳播的各種污染時空分布、污染源、污染強度、污染原因、處置結(jié)果、治理方法等信息數(shù)據(jù),有些污染預警甚至通過網(wǎng)民微博或微信曝光的信息來向民眾傳遞污染實情,發(fā)揮著超預期效果。

 

網(wǎng)絡虛擬空間中的污染反饋信息在網(wǎng)民之間頻繁互動過程中,可信度越來越高,地理定位越來越準和普及,結(jié)構(gòu)化程度及可辨識性越來越好,數(shù)據(jù)質(zhì)量不斷增強,可利用價值大幅提升。

 

全文閱讀:穹頂之下,柴靜霧霾調(diào)查帶來的大數(shù)據(jù)治污思考

 

]]>
樂思網(wǎng)絡信息采集系統(tǒng)與開源爬蟲軟件相比的優(yōu)點 http://www.galou.cn/wp/article/8186 Mon, 02 Mar 2015 17:25:54 +0000 http://www.galou.cn/wp/?p=8186  

開源爬蟲軟件

 

Nutch

 

優(yōu)點:Nutch支持分布式抓取,并有Hadoop支持,可以進行多機分布抓取,存儲和索引。另外很吸引人的一點在于,它提供了一種插件框架,使得其對各種網(wǎng)頁內(nèi)容的解析、各種數(shù)據(jù)的采集、查詢、集群、過濾等功能能夠方便的進行擴展,正是由于有此框架,使得 Nutch 的插件開發(fā)非常容易,第三方的插件也層出不窮,極大的增強了 Nutch 的功能和聲譽。

缺點:Nutch的爬蟲定制能力比較弱

 

Scrapy

 

優(yōu)點:為抓取單一網(wǎng)站上固定格式的內(nèi)容而設計的,比如抓取一個小說網(wǎng)站上的小說或者抓取一個電子商務網(wǎng)站上的商品。結(jié)構(gòu)清晰,可以很方便得修改它來實現(xiàn)更復雜的需求。

缺點:要進行大規(guī)模的抓取,可能要修改scrapy以處理如下問題。快速的link extractor。python的SGMLParser實在是太慢了,使用SgmlLinkExtractor會讓爬蟲把大部分的時間都浪費在解析網(wǎng)頁上,最好自己寫一個link extractor。也可以用正則表達式來寫link extractor,速度快,問題是不理解html語義,會把注釋里的鏈接也包含進來。另外基于javascript重定向url也要在這里提取出來。

爬蟲陷阱。 爬蟲可能陷入鏈接引用死循環(huán)。

增量抓取。一個針對多個網(wǎng)站的爬蟲很難一次性把所有網(wǎng)頁爬取下來,并且網(wǎng)頁也處于不斷更新的狀態(tài)中,爬取是一個動態(tài)的過程,爬蟲支持增量的抓取是很必要的。

高效數(shù)據(jù)存儲。抓取的頁面多了之后如何存儲就成了一個問題,按我們的統(tǒng)計純html頁面的平均大小大概在20~30k之間,百萬的頁面抓下來之后占用的硬盤空間大概是幾十G。ntfs和ext3這些文件系統(tǒng)在小文件過多之后效率都會比較低,需要優(yōu)化存儲效率。

 

Heritrix

 

優(yōu)點:Heritrix的爬蟲定制參數(shù)多。

缺點:單實例的爬蟲,之間不能進行合作。在有限的機器資源的情況下,卻要復雜的操作。只有官方支持,僅僅在Linux上進行了測試。每個爬蟲是單獨進行工作的,沒有對更新進行修訂。在硬件和系統(tǒng)失敗時,恢復能力很差。很少的時間用來優(yōu)化性能。相對于Nutch,Heritrix僅僅只是一個爬蟲工具,沒有提供搜索引擎。如果要對抓取的站點排序必須要實現(xiàn)類似于Pagerank的復雜算法。

 

WebMagic

 

優(yōu)點:簡單,適合小網(wǎng)站抓取。

缺點:用戶太少,后續(xù)升級能力不強。

 

SpiderMan

 

優(yōu)點:簡單,適合小網(wǎng)站抓取。

缺點:用戶太少,后續(xù)升級能力不強。Nutch, Scrapy, WebMagic, SpiderMan, Heritrix 都是開發(fā)源代碼的網(wǎng)頁數(shù)據(jù)爬取工具,最大的優(yōu)勢是免費,源代碼可以自由修改。但是使用這類爬蟲中間件有幾個問題:

 

1.他們對于現(xiàn)在流行的AJAX風格的頁面都抓去不到或需要很復雜的配置,因為爬蟲中間件都是向網(wǎng)站發(fā)送一個請求,通過分析其響應的源代碼來獲取信息,而AJAX網(wǎng)站一般其內(nèi)容很可能不在首次直接響應的HTML源代碼中,而在其后續(xù)的HTTP請求響應中。

2.他們對于信息的精確采集一般通過XPath與正則表達式來提取,而這兩種技術(shù)比較復雜,難于維護,一般程序員都不會。

3.這類爬蟲需要進行較大的修改以適應輿情監(jiān)測的周期性定向主題聚焦采集的需求,短期內(nèi)無法保證其完全適合輿情監(jiān)測的需要,且修改時間成本也較高。

 

樂思軟件的優(yōu)勢

 

樂思網(wǎng)絡信息采集系統(tǒng)是由國內(nèi)一家專門做信息采集的公司提供的專業(yè)采集系統(tǒng),不是開源的,屬于收費的商業(yè)軟件,主要是針對任意網(wǎng)站的快速信息采集,除了爬蟲技術(shù)之外,可以支持各種AJAX技術(shù)開發(fā)的網(wǎng)站,如新聞,論壇,微博等,還可以用其利用新浪API進行數(shù)據(jù)采集。

 

樂思軟件對于網(wǎng)頁的精確采集可以自動進行分析或者只要很少的基于可視化的人為指導—框住需要的數(shù)據(jù)即可。

 

樂思軟件適用面廣,且在國內(nèi)已有一定用戶群,有大量采集目標網(wǎng)站的經(jīng)驗,屬于成熟軟件,雖然收費,但整體上在本輿情系統(tǒng)中應用的成功率大大高于其它開源的爬蟲中間件。

 

具體對比表格如下:

 

樂思網(wǎng)絡信息采集系統(tǒng)與開源爬蟲軟件對比圖

 

]]>