數據挖掘 – 樂思網絡輿情監測，快全準！

數據挖掘與數據建模的9大定律

KnowlesysOp — Thu, 13 Aug 2015 11:21:39 +0000

數據挖掘是利用業務知識從數據中發現和解釋知識（或稱為模式）的過程，這種知識是以自然或者人工形式創造的新知識。

當前的數據挖掘形式，是在20世紀90年代實踐領域誕生的，是在集成數據挖掘算法平臺發展的支撐下適合商業分析的一種形式。也許是因為數據挖掘源于實踐而非理論，在其過程的理解上不太引人注意。20世紀90年代晚期發展的CRISP-DM，逐漸成為數據挖掘過程的一種標準化過程，被越來越多的數據挖掘實踐者成功運用和遵循。

雖然CRISP-DM能夠指導如何實施數據挖掘，但是它不能解釋數據挖掘是什么或者為什么適合這樣做。在本文中我將闡述我提出數據挖掘的九種準則或“定律”（其中大多數為實踐者所熟知）以及另外其它一些熟知的解釋。開始從理論上（不僅僅是描述上）來解釋數據挖掘過程。

我的目的不是評論CRISP-DM，但CRISP-DM的許多概念對于理解數據挖掘是至關重要的，本文也將依賴于CRISP-DM的常見術語。CRISP-DM僅僅是論述這個過程的開始。

1.?目標律：業務目標是所有數據解決方案的源頭。

它定義了數據挖掘的主題：數據挖掘關注解決業務業問題和實現業務目標。數據挖掘主要不是一種技術，而是一個過程，業務目標是它的的核心。沒有業務目標，沒有數據挖掘（不管這種表述是否清楚）。因此這個準則也可以說成：數據挖掘是業務過程。

2.?知識律：業務知識是數據挖掘過程每一步的核心。

這里定義了數據挖掘過程的一個關鍵特征。CRISP-DM的一種樸素的解讀是業務知識僅僅作用于數據挖掘過程開始的目標的定義與最后的結果的實施，這將錯過數據挖掘過程的一個關鍵屬性，即業務知識是每一步的核心。

為了方便理解，我使用CRISP-DM階段來說明：

商業理解必須基于業務知識，所以數據挖掘目標必須是業務目標的映射（這種映射也基于數據知識和數據挖掘知識）；

數據理解使用業務知識理解與業務問題相關的數據，以及它們是如何相關的；

數據預處理就是利用業務知識來塑造數據，使得業務問題可以被提出和解答（更詳盡的第三條—準備律）；

建模是使用數據挖掘算法創建預測模型，同時解釋模型和業務目標的特點，也就是說理解它們之間的業務相關性；

評估是模型對理解業務的影響；

實施是將數據挖掘結果作用于業務過程；

總之，沒有業務知識，數據挖掘過程的每一步都是無效的，也沒有“純粹的技術”步驟。業務知識指導過程產生有益的結果，并使得那些有益的結果得到認可。數據挖掘是一個反復的過程，業務知識是它的核心，驅動著結果的持續改善。

這背后的原因可以用“鴻溝的表現”（chasmofrepresentation）來解釋（AlanMontgomery在20世紀90年代對數據挖掘提出的一個觀點）。Montgomery指出數據挖掘目標涉及到現實的業務，然而數據僅能表示現實的一部分；數據和現實世界是有差距（或“鴻溝”）的。在數據挖掘過程中，業務知識來彌補這一差距，在數據中無論發現什么，只有使用業務知識解釋才能顯示其重要性，數據中的任何遺漏必須通過業務知識彌補。只有業務知識才能彌補這種缺失，這是業務知識為什么是數據挖掘過程每一步驟的核心的原因。

3.?準備律：數據預處理比數據挖掘其他任何一個過程都重要。

這是數據挖掘著名的格言，數據挖掘項目中最費力的事是數據獲取和預處理。非正式估計，其占用項目的時間為50%-80%。最簡單的解釋可以概括為“數據是困難的”，經常采用自動化減輕這個“問題”的數據獲取、數據清理、數據轉換等數據預處理各部分的工作量。雖然自動化技術是有益的，支持者相信這項技術可以減少數據預處理過程中的大量的工作量，但這也是誤解數據預處理在數據挖掘過程中是必須的原因。

數據預處理的目的是把數據挖掘問題轉化為格式化的數據，使得分析技術（如數據挖掘算法）更容易利用它。數據任何形式的變化（包括清理、最大最小值轉換、增長等）意味著問題空間的變化，因此這種分析必須是探索性的。這是數據預處理重要的原因，并且在數據挖掘過程中占有如此大的工作量，這樣數據挖掘者可以從容地操縱問題空間，使得容易找到適合分析他們的方法。

有兩種方法“塑造”這個問題空間。第一種方法是將數據轉化為可以分析的完全格式化的數據，比如，大多數數據挖掘算法需要單一表格形式的數據，一個記錄就是一個樣例。數據挖掘者都知道什么樣的算法需要什么樣的數據形式，因此可以將數據轉化為一個合適的格式。第二種方法是使得數據能夠含有業務問題的更多的信息，例如，某些領域的一些數據挖掘問題，數據挖掘者可以通過業務知識和數據知識知道這些。通過這些領域的知識，數據挖掘者通過操縱問題空間可能更容易找到一個合適的技術解決方案。

因此，通過業務知識、數據知識、數據挖掘知識從根本上使得數據預處理更加得心應手。數據預處理的這些方面并不能通過簡單的自動化實現。

這個定律也解釋了一個有疑義的現象，也就是雖然經過數據獲取、清理、融合等方式創建一個數據倉庫，但是數據預處理仍然是必不可少的，仍然占有數據挖掘過程一半以上的工作量。此外，就像CRISP-DM展示的那樣，即使經過了主要的數據預處理階段，在創建一個有用的模型的反復過程中，進一步的數據預處理的必要的。

4.?試驗律（NFL律：NoFreeLunch）

對于數據挖掘者來說，天下沒有免費的午餐，一個正確的模型只有通過試驗（experiment）才能被發現。

機器學習有一個原則：如果我們充分了解一個問題空間（problemspace），我們可以選擇或設計一個找到最優方案的最有效的算法。一個卓越算法的參數依賴于數據挖掘問題空間一組特定的屬性集，這些屬性可以通過分析發現或者算法創建。但是，這種觀點來自于一個錯誤的思想，在數據挖掘過程中數據挖掘者將問題公式化，然后利用算法找到解決方法。事實上，數據挖掘者將問題公式化和尋找解決方法是同時進行的—–算法僅僅是幫助數據挖掘者的一個工具。

有五種因素說明試驗對于尋找數據挖掘解決方案是必要的：

數據挖掘項目的業務目標定義了興趣范圍（定義域），數據挖掘目標反映了這一點；

與業務目標相關的數據及其相應的數據挖掘目標是在這個定義域上的數據挖掘過程產生的；

這些過程受規則限制，而這些過程產生的數據反映了這些規則；

在這些過程中，數據挖掘的目的是通過模式發現技術（數據挖掘算法）和可以解釋這個算法結果的業務知識相結合的方法來揭示這個定義域上的規則；

數據挖掘需要在這個域上生成相關數據，這些數據含有的模式不可避免地受到這些規則的限制。

在這里強調一下最后一點，在數據挖掘中改變業務目標，CRISP-DM有所暗示，但經常不易被覺察到。廣為所知的CRISP-DM過程不是下一個步驟僅接著上一個步驟的“瀑布”式的過程。事實上，在項目中的任何地方都可以進行任何CRISP-DM步驟，同樣商業理解也可以存在于任何一個步驟。業務目標不是簡單地在開始就給定，它貫穿于整個過程。這也許可以解釋一些數據挖掘者在沒有清晰的業務目標的情況下開始項目，他們知道業務目標也是數據挖掘的一個結果，不是靜態地給定。

Wolpert的“沒有免費的午餐”理論已經應用于機器學習領域，無偏的狀態好于（如一個具體的算法）任何其他可能的問題（數據集）出現的平均狀態。這是因為，如果我們考慮所有可能的問題，他們的解決方法是均勻分布的，以至于一個算法（或偏倚）對一個子集是有利的，而對另一個子集是不利的。這與數據挖掘者所知的具有驚人的相似性，沒有一個算法適合每一個問題。但是經過數據挖掘處理的問題或數據集絕不是隨機的，也不是所有可能問題的均勻分布，他們代表的是一個有偏差的樣本，那么為什么要應用NFL的結論？答案涉及到上面提到的因素：問題空間初始是未知的，多重問題空間可能和每一個數據挖掘目標相關，問題空間可能被數據預處理所操縱，模型不能通過技術手段評估，業務問題本身可能會變化。由于這些原因，數據挖掘問題空間在數據挖掘過程中展開，并且在這個過程中是不斷變化的，以至于在有條件的約束下，用算法模擬一個隨機選擇的數據集是有效的。對于數據挖掘者來說：沒有免費的午餐。

這大體上描述了數據挖掘過程。但是，在有條件限制某些情況下，比如業務目標是穩定的，數據和其預處理是穩定的，一個可接受的算法或算法組合可以解決這個問題。在這些情況下，一般的數據挖掘過程中的步驟將會減少。但是，如果這種情況穩定是持續的，數據挖掘者的午餐是免費的，或者至少相對便宜的。像這樣的穩定性是臨時的，因為對數據的業務理解（第二律）和對問題的理解（第九律）都會變化的。

5.?模式律（大衛律）：數據中總含有模式。

這條規律最早由DavidWatkins提出。我們可能預料到一些數據挖掘項目會失敗，因為解決業務問題的模式并不存在于數據中，但是這與數據挖掘者的實踐經驗并不相關。

前文的闡述已經提到，這是因為：在一個與業務相關的數據集中總會發現一些有趣的東西，以至于即使一些期望的模式不能被發現，但其他的一些有用的東西可能會被發現（這與數據挖掘者的實踐經驗是相關的）；除非業務專家期望的模式存在，否則數據挖掘項目不會進行，這不應感到奇怪，因為業務專家通常是對的。

然而，Watkins提出一個更簡單更直接的觀點：“數據中總含有模式。”這與數據挖掘者的經驗比前面的闡述更一致。這個觀點后來經過Watkins修正，基于客戶關系的數據挖掘項目，總是存在著這樣的模式即客戶未來的行為總是和先前的行為相關，顯然這些模式是有利可圖的（Watkins的客戶關系管理定律）。但是，數據挖掘者的經驗不僅僅局限于客戶關系管理問題，任何數據挖掘問題都會存在模式（Watkins的通用律）。

Watkins的通用律解釋如下：

數據挖掘項目的業務目標定義了興趣范圍（定義域），數據挖掘目標反映了這一點；

與業務目標相關的數據及其相應的數據挖掘目標是在這個定義域上的數據挖掘過程產生的；

這些過程受規則限制，而這些過程產生的數據反映了這些規則；

在這些過程中，數據挖掘的目的是通過模式發現技術（數據挖掘算法）和可以解釋這個算法結果的業務知識相結合的方法來揭示這個定義域上的規則；

數據挖掘需要在這個域上生成相關數據，這些數據含有的模式不可避免地受到這些規則的限制。

總結這一觀點：數據中總存在模式，因為在這過程中不可避免產生數據這樣的副產品。為了發掘模式，過程從（你已經知道它）—–業務知識開始。

利用業務知識發現模式也是一個反復的過程；這些模式也對業務知識有貢獻，同時業務知識是解釋模式的主要因素。在這種反復的過程中，數據挖掘算法簡單地連接了業務知識和隱藏的模式。

如果這個解釋是正確的，那么大衛律是完全通用的。除非沒有相關的數據的保證，否則在每個定義域的每一個數據挖掘問題總是存在模式的。

6.?洞察律：數據挖掘增大對業務的認知。

數據挖掘是如何產生洞察力的？這個定律接近了數據挖掘的核心：為什么數據挖掘必須是一個業務過程而不是一個技術過程。業務問題是由人而非算法解決的。數據挖掘者和業務專家從問題中找到解決方案，即從問題的定義域上達到業務目標需要的模式。數據挖掘完全或部分有助于這個認知過程。數據挖掘算法揭示的模式通常不是人類以正常的方式所能認識到的。綜合這些算法和人類正常的感知的數據挖掘過程在本質上是敏捷的。在數據挖掘過程中，問題解決者解釋數據挖掘算法產生的結果，并統一到業務理解上，因此這是一個業務過程。

這類似于“智能放大器”的概念，在早期的人工智能的領域，AI的第一個實際成果不是智能機器，而是被稱為“智能放大器”的工具，它能夠協助人類使用者提高獲取有效信息的能力。數據挖掘提供一個類似的“智能放大器”，幫助業務專家解決他們不能單獨完成的業務問題。

總之，數據挖掘算法提供一種超越人類以正常方式探索模式的能力，數據挖掘過程允許數據挖掘者和業務專家將這種能力融合在他們的各自的問題的中和業務過程中。

7.?預測律：預測提高了信息泛化能力。

“預測”已經成為數據挖掘模型可以做什么的可接受的描述，即我們常說的“預測模型”和“預測分析”。這是因為許多流行的數據挖掘模型經常使用“預測最可能的結果”（或者解釋可能的結果如何有可能）。這種方法是分類和回歸模型的典型應用。

但是，其他類型的數據挖掘模型，比如聚類和關聯模型也有“預測”的特征。這是一個含義比較模糊的術語。一個聚類模型被描述為“預測”一個個體屬于哪個群體，一個關聯模型可能被描述為基于已知基本屬性“預測”一個或更多屬性。

同樣我們也可以分析“預測”這個術語在不同的主題中的應用：一個分類模型可能被說成可以預測客戶行為—–更加確切的說它可以預測以某種確定行為的目標客戶，即使不是所有的目標個體的行為都符合“預測”的結果。一個詐騙檢測模型可能被說成可以預測個別交易是否具有高風險性，即使不是所有的預測的交易都有欺詐行為。

“預測”這個術語廣泛的使用導致了所謂的“預測分析”被作為數據挖掘的總稱，并且在業務解決方案中得到了廣泛的應用。但是我們應該意識到這不是日常所說的“預測”，我們不能期望預測一個特殊個體的行為或者一個特別的欺詐調查結果。

那么，在這個意義下的“預測”是什么？分類、回歸、聚類和關聯算法以及他們集成模型有什么共性呢？答案在于“評分”，這是預測模型應用到一個新樣例的方式。模型產生一個預估值或評分，這是這個樣例的新信息的一部分；在概括和歸納的基礎上，這個樣例的可利用信息得到了提高，模式被算法發現和模型具體化。值得注意的是這個新信息不是在“給定”意義上的“數據”，它僅有統計學意義。

8.?價值律

數據挖掘的結果的價值不取決于模型的穩定性或預測的準確性。

準確性和穩定性是預測模型常用的兩個度量。準確性是指正確的預測結果所占的比例；穩定性是指當創建模型的數據改變時，用于同一口徑的預測數據，其預測結果變化有多大（或多小）。鑒于數據挖掘中預測概念的核心角色，一個預測模型的準確性和穩定性常被認為決定了其結果的價值的大小，實際上并非如此。

體現預測模型價值的有兩種方式：一種是用模型的預測結果來改善或影響行為，另一種是模型能夠傳遞導致改變策略的見解（或新知識）。

對于后者，傳遞出的任何新知識的價值和準確性的聯系并不那么緊密；一些模型的預測能力可能有必要使我們相信發現的模式是真實的。然而，一個難以理解的復雜的或者完全不透明的模型的預測結果具有高準確性，但傳遞的知識也不是那么有見地；然而，一個簡單的低準確度的模型可能傳遞出更有用的見解。

準確性和價值之間的分離在改善行為的情況下并不明顯，然而一個突出問題是“預測模型是為了正確的事，還是為了正確的原因？”換句話說，一個模型的價值和它的預測準確度一樣，都源自它的業務問題。例如，客戶流失模型可能需要高的預測準確度，否則對于業務上的指導不會那么有效。相反的是一個準確度高的客戶流失模型可能提供有效的指導，保留住老客戶，但也僅僅是最少利潤客戶群體的一部分。如果不適合業務問題，高準確度并不能提高模型的價值。

模型穩定性同樣如此，雖然穩定性是預測模型的有趣的度量，穩定性不能代替模型提供業務理解的能力或解決業務問題，其它技術手段也是如此。

總之，預測模型的價值不是由技術指標決定的。數據挖掘者應該在模型不損害業務理解和適應業務問題的情況下關注預測準確度、模型穩定性以及其它的技術度量。

9.?變化律：所有的模式因業務變化而變化。

數據挖掘發現的模式不是永遠不變的。數據挖掘的許多應用是眾所周知的，但是這個性質的普遍性沒有得到廣泛的重視。

數據挖掘在市場營銷和CRM方面的應用很容易理解，客戶行為模式隨著時間的變化而變化。行為的變化、市場的變化、競爭的變化以及整個經濟形勢的變化，預測模型會因這些變化而過時，當他們不能準確預測時，應當定期更新。

數據挖掘在欺詐模型和風險模型的應用中同樣如此，隨著環境的變化欺詐行為也在變化，因為罪犯要改變行為以保持領先于反欺詐。欺詐檢測的應用必須設計為就像處理舊的、熟悉的欺詐行為一樣能夠處理新的、未知類型的欺詐行為。

某些種類的數據挖掘可能被認為發現的模式不會隨時間而變化，比如數據挖掘在科學上的應用，我們有沒有發現不變的普遍的規律？也許令人驚奇的是，答案是即使是這些模式也期望得到改變。理由是這些模式并不是簡單的存在于這個世界上的規則，而是數據的反應—–這些規則可能在某些領域確實是靜態的。

然而，數據挖掘發現的模式是認知過程的一部分，是數據挖掘在數據描述的世界與觀測者或業務專家的認知之間建立的一個動態過程。因為我們的認知在持續發展和增長，所以我們也期望模式也會變化。明天的數據表面上看起來相似，但是它可能已經集合了不同的模式、（可能巧妙地）不同的目的、不同的語義；分析過程因受業務知識驅動，所以會隨著業務知識的變化而變化。基于這些原因，模式會有所不同。

總之，所有的模式都會變化，因為他們不僅反映了一個變化的世界，也反映了我們變化的認知。

后記：

這九條定律是關于數據挖掘的簡單的真知。這九條定律的大部分已為數據挖掘者熟知，但仍有一些不熟悉（例如，第五、第六、第七）。大多數新觀點的解釋都和這九條定律有關，它試圖解釋眾所周知的數據挖掘過程中的背后的原因。

我們為什么何必在意數據挖掘過程所采用的形式呢？除了知識和理解這些簡單的訴求，有實實在在的理由去探討這些問題。

數據挖掘過程以現在的形式存在是因為技術的發展—–機器學習算法的普及以及綜合其它技術集成這些算法的平臺的發展，使得商業用戶易于接受。我們是否應該期望因技術的改變而改變數據挖掘過程？最終它會改變，但是如果我們理解數據挖掘過程形成的原因，然后我們可以辨別技術可以改變的和不能改變的。

一些技術的發展在預測分析領域具有革命性的作用，例如數據預處理的自動化、模型的重建以及在部署的框架里通過預測模型集成業務規則。數據挖掘的九條定律及其解釋說明：技術的發展不會改變數據挖掘過程的本質。這九條定律以及這些思想的進一步發展，除了有對數據挖掘者的教育價值之外，應該被用來判別未來任何數據挖掘過程革命性變化的訴求。（網絡分享）

營銷者需要數據挖掘技術來做好內容營銷

KnowlesysOp — Wed, 12 Aug 2015 17:25:39 +0000

隨著內容營銷市場份額的持續擴大，我們聽到了很多關于內容營銷的話題，說內容營銷與傳統廣告多么不同。隨著這些年廣告的發展，企業和品牌依舊面臨著“如何接觸到目標客戶”的困擾。消費者知道他們每天都被各種傳統廣告包圍著，這些廣告有些會被客戶關注，有些則被忽視。在廣告的發展歷史中，沒有消費者打開他們的數字設備是為了尋找廣告，通過廣告來接觸一個品牌的。他們所尋找的，永遠是精彩的內容。這就是內容營銷的核心；企業和品牌可以在目標消費者已經習慣接觸的內容中與消費者溝通。

這里有一個案例可以說明內容營銷與傳統廣告的不同，盡管，通常來說，在廣告及時性上來說，內容營銷的廣告要遠遠落后于傳統展示廣告。通過內容營銷平臺的幫助，創造營銷內容已經不再是挑戰。事實上，在內容營銷工具的幫助下我們已經可以簡單快捷的創造內容營銷的軟文，我們不再為了探尋適合消費者的營銷內容而被壓得喘不過氣來。現在，我們可以很方便的區分出內容營銷和傳統廣告。在傳統廣告的時代，在盡可能多的頁面展示盡可能多的Banner廣告似乎就是很好的方法了。（提醒：這其實不是一個好主意）

通過更多展示來促進效果的傳統廣告也開始意識到，要取得更好的廣告效果，并不是更多的展示廣告，而是更多能接觸到目標客戶的廣告。在當今數字生活環境中，內容營銷者拓寬他們的思維比創造內容更重要。他們需要用獨特的策略來營造易于受眾接受的氛圍，以及收集所有受眾的反應到分析漏斗中。

總之，品牌需要采取更多的數據挖掘的方法來開展內容營銷。內容營銷也許看上去和數字廣告很不同，但是他的后臺卻需要像當今的智能廣告投放（programmatic?ad，也稱程序化購買，一種新興廣告技術，由電腦根據大數據來智能的為客戶選擇網絡廣告投放）一樣，才能使品牌在數字時代取得成功。這意味著需要獲取智能廣告技術所需要的海量消費者數據，從而來理解和預測消費者行為，再利用智能廣告技術，就可以用更相關的、有意義的方式來瞄準目標客戶。

數據挖掘方法的使用，是更好的接觸消費者，帶動整個內容營銷行業到達下一個時代的關鍵。我們有內容，而且數據就在我們的指尖。那么，對于內容營銷者來說下一步就是像顯示廣告那樣利用數據。智能廣告投放平臺快速的篩選數據，深入洞察消費者行為，從而實時鎖定目標客戶。如果內容營銷者能夠充分利用智能廣告投放平臺，那么其精準營銷的能力和實時傳遞內容的能力都將得到很大提升。這樣就能確保目標客戶，在正確的時間，正確的地點看到和他們最相關、最有趣和最具沖擊力的營銷內容。數字廣告界熟知這種方式，也從中獲取了大量回報。現在，想想智能廣告投放技術所能達到的效率，你就會感到興奮。

智能廣告投放技術，應用好時，能夠提供有效的解決方案，幫助營銷者在顧客購買過程中的每一步提供給消費者相關和有用的信息。這種技術在內容營銷中是非常有價值的。這同時需要智能廣告投放平臺自身也更完善，從而更好的利用數據在任何給定的時間鎖定客戶的位置。內容營銷者通常從客戶是否第一次瀏覽軟文，是否表現出對品牌的興趣，是否最近購買過商品來發現用戶需求。現在，打破內容營銷者這種靜態的思維方式至關重要，不是從內容營銷者的既有角度出發，而是從顧客的角度出發，通過顧客的全方位數據分析，去發現顧客需求和顧客感興趣的內容。

內容營銷從數字廣告中學習如何利用智能廣告投放技術是一件事，內容營銷的內容到底如何呈現則是另外一件事。智能廣告投放技術能夠有效幫助數字廣告發現展示地點是因為網絡上存在大量可利用的廣告位置。對于定制的營銷內容，每一條我們都想盡辦法使其與消費者相關，對消費者有用，如何能讓內容更有影響力，然后我們還要思考用何種技術方案才能讓智能廣告投放技術將營銷內容有效投遞。

為了內容營銷的成功與繁榮，我們需要翻越內容營銷的高山，以及使用數據挖掘技術更好的傳遞內容到那些希望看到該內容的用戶，而且還要在正確的時間傳遞給他們。為了使之發生，我們必須利用智能廣告投放技術。

作者：OneSpot首席執行官?Steve?Sachs

譯者：?William?梁璞

客戶智能（CI）和商業銀行數據挖掘

KnowlesysOp — Tue, 04 Aug 2015 10:41:20 +0000

一、銀行中數據挖掘包含哪些類型？

客戶智能（CI）是商業銀行數據挖掘常常會提到的一個概念。

一般來說，商業銀行里面的數據挖掘主要包括三大類。即客戶智能（CI，Customer?Intelligence）、風險智能（RI，Risk?Intelligence）、運營智能（OI，Operational?Intelligence）。三者各自分工和定位并不太相同。

（一）客戶智能

客戶智能更多定位于前臺的客戶關系管理。例如，客戶畫像、客戶細分、客戶提升、客戶流失、客戶響應、客戶推薦、客戶關系網絡等。

（二）運營智能

運營智能比較側重后臺管理。例如，業務流程優化、IT效率提升、最優的線性規劃、運營過程中異常識別和監控、戰略和績效管理、現金管理和優化、人力資源管理建模等。

（三）風險智能

銀行本身就是經營風險的，因此風險智能一直都是最為核心和關鍵的。常見的風險智能模型主要是ABC評分卡（例如信用評分、行為評分、催收評分模型）、反欺詐模型、操作風險、市場風險等。

因為工作的關系，平時接觸較多的都是客戶相關的分析和建模。這篇文章，想大概地勾勒一下客戶智能的范圍、框架和研究內容。

二、客戶智能的本質是什么？

什么是“客戶智能”？一般來說，客戶智能包含兩個元素，即顧客關系管理（CRM）、數據挖掘（DM）。

本質上，客戶智能，就是以客戶為中心，基于數據挖掘技術的客戶關系管理。換言之，就是把數據挖掘技術應用到傳統的客戶關系管理領域，借助于統計和機器學習的技術，對客戶進行精細化管理。

三、客戶智能包括哪些模塊和內容？

依經驗，一般來說，客戶智能可以包括以下模塊。例如客戶畫像、客戶細分、客戶提升、客戶流失、客戶響應、推薦引擎、客戶價值、客戶生命周期、客戶關系網絡、客戶行為軌跡、客戶情緒、事件營銷等。

（一）客戶畫像

很多對數據挖掘接觸比較少的人一提到“客戶畫像”這個名詞，就特別容易激動和興奮。

但是，說的樸實些，客戶畫像就是一個有關客戶各種屬性、特征、標簽的大寬表而已，多則上千個字段，是搭建任何分析模型的基礎。還是需要保持冷靜，保持冷靜。

一般來說，客戶畫像可能會包含這樣一些字段。例如，人口統計特征、資產相關特征（不同類型金融資產的余額、資產偏好、持有量、持有時間等）、負債相關特征（貸款類型、頻次、時長、擔保等）、結算相關特征（不同交易渠道的流水量、頻次、占比、偏好等）、社交特征（人脈圖譜、關系網絡等）、行為軌跡特征（基于地理位置識別客戶的生活圈、工作圈、消費圈、活動圈）等。

（二）客戶細分

客戶細分屬于一種探索性建模。通過聚類算法，基于業務關心的特征和變量，把所有客戶進行劃分。例如，渠道偏好型客戶、資產偏好型客戶、社交型客戶、高價值型客戶、活躍創新型客戶、穩定成長型客戶等。

進一步地，基于客戶細分，一方面勾勒不同群體的特征，另一方面，指定針對不同群體的開發特定的營銷策略和產品包。

（三）客戶提升

提升模型主要針對存量客戶。例如，提升現有客戶的金融資產、產品交叉持有數等。通過模型尋找到提升概率最大的存量客戶。

（四）客戶流失

既有存量客戶的降級或資產流失等。例如無貸戶金融資產等級的下降，有貸戶貸款到期后的休眠。通過模型預測客戶流失的概率，從而提前進行干預。

（五）客戶響應

通過模型計算客戶對特定產品的響應情況。例如客戶是否會對理財產品感興趣，是否會產生購買意向。

（六）客戶產品推薦引擎

NBO，Next?Best?Offer，即應該給客戶推薦的下一個產品是什么。如果隨機給客戶推薦三款產品，應該推薦哪三款？

典型的推薦算法包括三類，即社會化推薦（social?recommendation）、基于內容的推薦（content-based?filtering）、基于協同過濾的推薦（collaborative?filtering）。以推薦電影為例。

具體而言，社會化推薦，即找幾個經常看電影的朋友，問他們有沒有什么電影推薦。即讓好友給自己推薦產品。

基于內容的推薦。通過分析用戶曾經看過的電影，找出用戶喜歡的演員和導演，讓后推薦這些演員和導演的其他電影。

基于協同過濾的推薦。搭建產品相似性矩陣、用戶相似性矩陣，基于相似性進行產品的推薦。

（七）客戶價值和分層

以業務需求為出發點，建立基于一定邏輯的、全面綜合的客戶價值衡量指標體系。可能會包括以下一些維度，例如經濟價值、成長價值、潛力價值、風險價值、忠誠價值、網絡價值、活躍價值、創新價值、穩定價值等。

（八）客戶關系網絡

構建客戶的關系網絡圈。例如，客戶交易圈（資金往來關系）、擔保圈（交叉擔保關系）、股東圈（小微工商信息）、商圈、同事圈、供應鏈圈、家族圈等。

基于關系網絡，一方面識別核心關鍵客戶，基于核心客戶進行產品的擴散。另一方面，判斷客戶風險，防范風險在圈子內擴散。此外，還可以基于圈子識別潛在營銷機會，向圈子向客戶進行產品推薦、以及基于圈子進行客戶管理。

（九）客戶行為軌跡

基于地址信息，例如POS刷卡地址、ATM取款地址、支行交互地址、手機銀行移動地址，刻畫和勾勒客戶的行為軌跡。

基于客戶行為軌跡，可以了解客戶的生活圈、工作圈、消費圈、社交圈等信息。在此基礎上，一方面，建立客戶的標簽體系（興趣、消費容量、品牌偏好等）。另外一方面，識別潛在高價值客戶。

（十）客戶情緒和文本分析

客戶的情緒更多的來自文本分析和自然語言處理技術，通過分析詞性，來判斷客戶的情感偏向。

很多創業型公司都是通過爬蟲抓取互聯網數據，進行分析和挖掘。例如，通過爬取微博文本，判斷用戶對金融產品的需求。例如，通過抓取全國法院的判決文書，判斷企業是否涉訴、是否存在法律風險、涉案金額多寡，是否屬于黑名單等。例如，通過抓取即時通訊的聊天記錄，判斷客戶是否是“羊毛黨”。例如，通過客戶的投訴文本記錄，判斷客戶滿意度的影響要素等。

（十一）客戶事件營銷

事件營銷，更像是一個規則觸發引擎，需要建立一個規則庫。一旦用戶的某個行為觸發了某個規則，銀行系統就會發出標準的動作，進行客戶的提示和挽回。

常見的一些觸發規則，例如，客戶的理財產品到期、客戶賬戶存在大額資產變動、客戶異地刷卡、客戶異常時間段刷卡等。

——來源：比格堆塔??作者：周學春

企業如何挖掘大數據價值

KnowlesysOp — Fri, 31 Jul 2015 15:21:55 +0000

一家中等規模的百貨商場，通過視頻監控記錄下商場各個區域的客流人數，從而評估每天各個時段客流的在店時長，進而結合銷售記錄數據估算出客流中帶有明確購買目標的“搜索型”顧客和無明確購買目標的“瀏覽型”顧客的比例，從而為之設計針對性的營銷手段和服務措施。

這一實踐中所涉及的數據量，從技術視角上看并不算龐大，但該商場對多源數據的整合和開發，不失為基于大數據管理的一種典型體現。

從理論上來說，每個企業都可能擁有大數據，但是并非每個企業都能夠成為大數據企業。

大數據因其體量之“大”而得名，然而體量并非大數據的唯一特征，甚至也不是大數據最為重要的特征。巨大的體量凸顯的是技術需求。而對于管理者而言，刻意追求巨大體量的數據并不具有多少現實意義，大數據更重要的特征在于其多樣化的來源和形態、持續快速的產生和演變，以及對深度分析能力的高度依賴。因此，企業對大數據的駕馭和掌控，其核心并不在于擁有多大規模的數據，而在于是否能夠對來自于企業內外部多樣化信息源的涌流數據進行敏捷持續的捕捉和整合，并通過深度分析開發其商務價值。

在管理視角上，大數據既不是一種技術，也不是一種應用系統，而更應該是一種立足于企業內外部數據融合以提升管理效率、開拓價值創造模式的管理思維。

駕馭企業內部大數據

企業內部數據有兩個主要維度：

一是與業務功能及流程緊密相關的數據，如庫存信息、物料需求信息、生產計劃信息、采購信息等，可統稱為業務流程信息；

二是企業內員工及各種管理系統在其日常工作及活動中所創造、記錄、交換和積累的信息，例如員工間的交流記錄、工作心得、經驗分享、活動新聞等，可統稱為知識及溝通信息。

這兩個數據維度的發展和融合，催生出了企業內部大數據。如圖1所示。

在集成化企業系統、內部社交媒體以及深度數據分析技術的共同支撐下，杰克·韋爾奇所暢想的“無邊界組織”在新興環境下成為可能，并被賦予了新的內涵。部門邊界、層級邊界被緊密的業務聯系和廣泛的社交聯系所弱化，結構化的業務流程信息與非結構化的知識及管理活動信息被多維度融合的深度數據分析能力連接在一起，從而使企業真正具有駕馭內部大數據的能力。

駕馭企業外部大數據

在企業外部的視角上，數據資源也包括兩個維度：

一是與上下游交易直接相關的供應鏈信息，如交易報價信息、訂單信息、上下游企業庫存及生產能力信息等；

二是市場及社會環境信息，如原材料價格走勢、市場需求及消費者偏好信息、顧客服務及滿意度信息等。

企業外部大數據的基本特征，也正是在這兩個維度的發展之中呈現出來的。如圖3所示。

供應鏈信息集成與社會化商務信息的融合，構成企業外部大數據的核心特征。來自于社交媒體信息源的市場環境信息與來自于組織間信息系統的供應鏈信息相結合，借助于深度數據分析技術實現面向企業商務網絡的預測與優化，并支撐起實時化、精確化、個性化的消費者洞察與敏捷響應，在此基礎上為基于網絡協同及社會化商務的模式創新提供了豐富的可能性。從而，對外部大數據的管理和駕馭，也將成為現代企業在網絡化的商務生態系統中占據主導地位并獲取經營優勢的關鍵途徑。

成為“大數據企業”

基于以上分析，企業內部大數據的焦點，在于業務流程信息與知識及溝通信息的融合；企業外部大數據的焦點，在于供應鏈信息與市場及社會環境信息的融合。進而，大數據時代企業組織的基本內涵，在于內部大數據與外部大數據的全方位融合。如圖4所示，大數據企業立足于內外部業務與社交媒體數據的集成交匯。

在這四大類型的數據之間，致力于大數據管理的企業可以有兩種不同的發展策略。其一是以社交媒體與業務數據的融合為主導，以期通過敏捷響應快速發現并應對內外部環境中的變化和機遇。在這種策略下，面向高速數據流的實時數據采集和分析方法，將成為大數據管理的主要支撐手段。

第二種策略是以內外部數據融合為主導，以期通過全面匯集內外部信息，對中長期發展趨勢作出準確的預判，從而實現高度優化的業務決策，并通過對信息環境的掌控，獲取企業網絡生態系統中的領導地位。在這種策略下，大規模多源異構數據的采集、清洗和整合方法，將成為大數據管理的核心支撐。

如何挖掘企業大數據的價值

企業大數據的價值開發高度依賴于深度數據分析能力。從內外部融合的視角上看來，企業大數據分析包括三個基本維度，即內容、關系和時空。

內容維度指的是數據本身所承載的信息內容。例如，G公司是一家大型電信服務商，其內部建設實施了一套“班組博客”系統。在這個內部社交媒體平臺上，公司中的3000多個工作團隊都開設了自己的博客，用于發布和交流工作經驗、生活體驗等方面的內容。經過數年的發展，整個博客系統中積累了博文700多萬篇，評論超過1500萬條，并保持著每月15萬篇以上的博文發表數量，年閱讀量超過1000萬篇次。對于這一平臺所積累的大量數據的價值開發，首先體現在對其信息內容的提煉上。平臺上與工作相關的博文內容，如客服案例、經驗分享等，經自動篩選分類、主題識別、關鍵詞索引之后，被構建成企業知識庫，為業務及管理工作提供快速有效的知識支撐，同時成為員工培訓和自學的有力工具。而大量與工作無關的博文和評論內容，包括生活常識、娛樂信息、心情表達、心靈雞湯等，在智能化的分類整理之后，也成為了該公司的一個獨特的文化情景，支撐著企業中活躍的氛圍，強化了員工的文化認同。

關系維度指的是數據及其所指代的對象之間的聯系。在G公司的班組博客中，員工的發表、閱讀、評論、回復、關注等行為詳盡地反映了其相互之間密集而持續的聯系，而這些聯系毫無遺漏地被記錄在平臺的數據庫之中。通過對這些關系結構的深度分析和挖掘，G公司獲得了對員工及團隊的影響力、凝聚力、創造力的更為準確而深入的評估手段。進一步而言，博客平臺的行為記錄數據與業務系統中的事務處理記錄數據，以及員工及團隊的績效表現數據，也能夠被有效地關聯起來，從而使得管理者擁有強有力的工具，幫助其發現和理解員工的行為特質、工作表現、業務能力之間的潛在關聯，進而實現良性優化的人員配置和人才培養。

時空維度指的是數據生成及傳播的位置以及數據隨時間演變的模式。對G公司而言，其數以千計的業務場所分散在眾多城市的不同地點，因此，數據中的位置信息對于虛擬化的團隊協同而言具有直接的意義。此外，位置信息也包括了數據在組織功能結構和層級結構中所處的位置。同時，在G公司的班組博客中，對特點話題時間演變規律的分析，也為管理者提供了有效的參考。其中對企業重要活動、運營理念相關信息在班組博客中的傳播演變模式的跟蹤，有效地揭示了員工對管理理念的認知、態度和接受過程。

更深入的價值開發來自于上述三個維度的交叉綜合。例如，內容維度與關系維度的結合，使得G公司能夠識別員工的興趣偏好、社交特質、工作性質以及工作表現之間的匹配關系，也能夠更為準確地發現那些分散在不同的員工手中、但具有重要潛在影響力的經驗、創意以及機遇信號。內容維度、關系維度與時空維度的結合，使得企業能夠更為深入地理解不同的員工特質、知識技能、團隊特性、熱點偏好在整個組織中的分布，以及這些結構隨時間演變的過程和趨勢，從而更為有效地調度和配置這些資源。

這些維度上的分析需求，主要需要三方面的數據分析技術予以支撐。第一類是全局視圖技術。對于管理者而言，對大數據內容全局狀況的把握，往往是開發大數據價值的一個基本需求。然而大數據的體量和結構復雜性往往遠遠超出人類認知的信息承載能力。因此，有效的技術應當能夠在大量數據中提取出一個足夠小的集合以呈現給管理者，并使得這個小集合能夠充分地代表數據全局。例如，在G公司的博客平臺上，一種“代表性博文提取”技術能夠在每天所出現的數以千計的博文中自動選擇出10篇。這10篇博文在很大程度上全面代表了當天所出現的數千篇文章，既充分反映熱點，也不能忽略冷門信號，從而使得管理者能夠通過閱讀這些文章來了解全局。第二類支撐技術是關聯發現技術，其目標在于敏銳識別數據間的聯系。例如，當G公司試圖整合博客平臺、業務系統、人力資源系統中的數據以全方位分析員工、團隊特質以及績效信息時，大量的數據屬性之間所構成的復雜潛在關聯網絡，就需要強有力的關聯發現技術來加以處理。第三類支撐技術是動態跟蹤技術，即實時化的流數據分析處理、快速增量數據分析。三方面技術都處于快速發展之中，但尚未全面成熟，有待于學界和業界的持續努力和探索。

結束語

從一定意義上說來，業務資源集成與社交媒體相融合的過程，是一個“信息去中心化”的過程。信息資源的創造和管理，從以往以經營和運作為核心的中心化模式，轉化為以分散創造、自由傳播、靈活匯聚為特征的眾創模式。另一方面，內外部數據融合的過程，是一個“信息去邊界化”的過程。企業部門之間的信息交換、企業之間的信息交換以及企業與市場環境的信息，以日益多樣化、實時化的方式實現。

這樣的轉變對于企業組織及其員工而言，其影響將會是多方面的。正面的影響可能包括創新意識與創新行為的出現、員工能力和技能的發展、溝通滿意度的提升、員工關系資本的建立和積累、員工對組織的認同和歸屬感的增加；而負面的影響則可能包括員工注意力分散、過度爭論，以及負面情緒的傳播等。所以，建設“大數據企業”的過程，也將會是一個伴隨著困難與風險的過程。在此過程中，需要管理者有效地把握創新發展的長期收益與短期業績之間的平衡，在推進大數據融合的同時防范和控制其中的組織風險，并審慎地思考和重新定義組織內外部邊界。

換言之，對企業而言，大數據實質上是一種管理思維，其支點在于業務信息資源與社交媒體的融合，以及內外部數據的融合，在這樣的支點上反思企業的組織形態、運作范式和價值創造模式，是“大數據企業”的真正內涵所在。（來源：軟件定義世界）

數據挖掘、提取、分析如何滿足情報信息處理需求

KnowlesysOp — Tue, 21 Jul 2015 10:37:42 +0000

隨著斯諾登在俄“安居樂業”，“棱鏡門”事件逐漸淡出人們視線。但是，由此引發的數據隱憂卻引人深思。信息技術的飛速發展，使“大數據”與情報緊緊掛靠在一起。2013年3月，美國總統奧巴馬宣布啟動“大數據研究與開發計劃”，旨在提高從“大數據”中提取情報的能力。美國國防部亦宣布投資2.5億美元啟動“大數據”研發計劃，輿論稱此舉為“重新定義軍事情報與贏得戰爭而進行的一場豪賭”。

一般而言，數據集合的容量要超過萬億字節（TB）甚至千萬億字節（PB）級別才被視為是“大數據”。在當前，一個不容忽視的事實是，現有的數據處理技術已經明顯落后于數據本身的發展速度，而這種矛盾必然給情報工作帶來巨大挑戰。

先進的情報、監視和偵察系統的大規模部署和應用，使得部隊能夠獲得前所未有的態勢感知能力。但是，“大數據”的出現卻加劇了信息過載問題，前端部署的先進傳感器數量越多，最終涌入后端分析部門的數據洪流就越難以應對。美軍將這種困境形象地描述為：情報分析人員處理軍事情報信息就像從打開的高壓水管中喝水一樣困難。曾任美軍參聯會副主席的詹姆斯?卡特賴特曾表示，美軍一架“捕食者”無人機一天所搜集的視頻數據就需要19名情報分析人員來處理，足見數據分析的難度要遠遠超過數據獲取。如今，美軍在阿富汗部署的情報、監視和偵察系統每天獲取的數據量就超過了53TB，而其中真正被有效分析的數據比率卻不高。

情報工作領域的“大數據”往往來源多樣，連續不斷產生，而且處理時間不易同步，這些因素必然導致情報數據的價值含量變低，提取難度加大。比如，部署于邊境地區24小時不間斷運轉的監控設備，其攝錄的視頻數據中可能只有幾分鐘甚至幾秒鐘真正具有價值，而單純依靠人工挑選這些信息無疑事倍功半。美國國防部高級項目研究局執行主管凱哈姆?加布里爾認為，使用現有技術處理“大數據”猶如“大海撈針”，他說：“假如1加侖的水代表1比特的信息，那么整個大西洋只能存儲全球2010年生產出來的信息，而使用現有技術系統從其中提取特定信息的難度相當于在浩瀚的大西洋中找到1只容積為55加侖容量的木桶。”因此，現有數據挖掘、檢索、篩選、提取、分析的技術實際上已無法滿足“大數據”時代的信息處理需求，主要情報強國已經開始研發高度智能化、自動化、能夠實現人機交互的新型技術系統，以提高處理情報數據的效率。

與作戰行動支援密切相關的情報數據往往關乎部隊的生死存亡，如果不能在合理時限內將其生產為情報，那么，隨著情勢不斷變化，原始數據就可能失去應有的價值。因此，情報的價值轉化效率是衡量信息化條件下軍隊戰斗力的重要標準之一。如今，情報與作戰一體化已經取得快速進展，在某些作戰行動中，無人機已經可以對實時偵察捕獲的重要目標進行“發現即摧毀”式的精確打擊。但是，全方位構建信息化條件下遂行聯合作戰的“偵打一體”體系，必須以各類原始數據能夠被及時、快速、準確地生產為情報，并提供給所需用戶為前提。如果現有情報能力無法應對“大數據”洶涌而來的負擔，必然會造成情報價值轉換效率降低，直接影響到作戰部隊的戰場態勢感知、信息攻防以及應急反應能力。針對這種挑戰，美國國防部在其“大數據”研發計劃中提出了“從數據到決策”的理念，核心思想就是對情報工作流程進行革新，使情報的前端和后端合為一體，與作戰流程無縫鏈接并相互驅動，從而實現體系化的“從傳感器到射手”的革新。

?原標題—— 情報生產如何應對“大數據”挑戰

文章來源：中國軍網

超八成高管：忽視行為數據企業將前途堪憂

KnowlesysOp — Sun, 01 Mar 2015 10:35:44 +0000

如今的消費者對于廠商各種營銷手段已經有了很強的戒備心理，傳統形式的廣告手段越來越難打動用戶。在這樣的背景下，企業主該如何打動用戶來點擊自己的廣告呢？

近些年，企業不斷收集和購買用戶的各種原始的行為數據，通過分析這些數據，可以創建比如親和力、興趣愛好、用戶滿意度等等數據模型。對于企業而言，這些可用數據模型和以用戶為中心的信息對于企業做營銷有著非常重大的積極影響。據福克斯商業報道：“超過80%的企業高管認為公司如果不能接受和利用大數據將很快失去競爭優勢并且可能面臨滅絕。”

用戶行為數據是有待深挖的金礦

毫無疑問，社交平臺的興起讓企業有了更多用戶行為數據的來源。這些數據源包括許多私人的愛好，比如關于體育，書籍和電影甚至生活偏好，這為企業做營銷提供了很大的幫助。因為用戶會把這些喜歡的內容分享給有選擇性的朋友，企業通過對已知用戶行為數據的進一步挖掘，可能更加精準的做到用戶分析并找到和用戶有連接關系的用戶，然后做出有針對性的營銷投放。

所以在數據時代，新的營銷環境和手段都發生了變化，通過這樣的數據挖掘可以讓企業更方便的查找和分析用戶的行為模式。雖然會有人質疑這樣的行為數據的精準性，但今天通過這樣的分析會更容易獲得用戶的屬性畫像，事實上這些行為數據能夠讓企業在制定廣告或者線下活動的時候更加具有相關性和有效性。

行為數據分析和預測備受營銷人歡迎

如今許多網站和品牌主已經明白，提高用戶體驗和參與度會提升轉化率，對此它們需要更加個性化的方式來吸引用戶。據不完全統計，多達94%的營銷人員同意個性化服務是當前和未來營銷成功的關鍵點。

正是因為企業利用行為數據分析可以做到具有針對性的個性化服務，為企業營銷帶來價值，這使得眾多企業越發關注行為數據帶來的價值。此外，這些行為數據還有益于企業改進服務和提升產品及營銷質量，這些都是行為數據給企業帶來的價值。

例如，一些電子商務網站會通過給注冊會員發帶有產品折扣的郵件，看用戶對什么樣的信息產生興趣，通過對每位會員行為數據分析來觀察會員對所發信息的感興趣程度，然后根據用戶產生的行為數據進行精準個性化的產品推薦。

在這個數據信息爆炸的時代，企業在做出任何重點決策之前，都應該去分析和洞察數據帶來的價值。最近，Infosys?study的調查發現，86%的消費者在購買的行為方式中都會受到個性化服務的影響進而產生消費行為，而能夠影響消費者這些行為都離不開對數據的分析。（文章轉自SOCIAL?TOUCH?作者：壯壯）

大數據時代的輿情監測如何實現數據深挖？

KnowlesysOp — Fri, 18 Jul 2014 15:26:46 +0000

輿情服務在進行行業規范和整合的同時，正面臨著大數據挑戰。本文從信息濃縮、數據深挖、關聯輿情構建與跟蹤、大輿情等層面，深入分析并提出大數據時代輿情服務的應對建議。

濃縮海量信息抵抗“數據爆炸”

“信息超載”“數據爆炸”將人們變為機械的信息查詢者。在過剩的信息海洋里，閱讀由享受變為負擔。美國、日本近年來的信息吸收率僅為10%左右。曾經公務繁忙的美國前總統克林頓說，就理解和領會能力而言，頭腦中塞滿東西和頭腦中空空如也同樣糟糕。也因此，能夠在短時間內消費最大信息量的“淺閱讀”成了大數據時代最大的閱讀變革。從輿情產品服務的角度看，濃縮海量信息，抵抗“數據爆炸”已成基本要求。可從兩方面著手：一方面在信息廣度上作文章，最大可能去抓取數據信息。同時掌握數據抓取能力與輿情解讀能力將是未來輿情分析的必備技能。另一方面，輿情分析人員需要對一些非常重要的事件，給予一種更加平易的解讀方式。

強化數據深挖實現“信息增值”

提高輿情產品質量的關鍵，在于對數據的“加工能力”，通過“加工”實現數據的“增值”。這就要求分析人員提高對信息的鑒別力、萃取力、掌控力，對數據進行生產、分析和解讀，探索一條為用戶提供分眾化服務的信息增值之路。

目前，已有美國大學專門開設了研究大數據技術的課程，培養下一代的“數據科學家”。在國內，情況更不容樂觀，很多輿情服務機構甚至沒有專門的數據管理、分析部門和專業分析團隊。未來需要一批有較高學習能力、分析能力、知識水平的數據從業人員占據輿情服務重鎮。

構建關聯輿情消除“信息孤島”

目前我國信息化應用水平參差不齊，政府和企業不同的部門之間都存在“信息孤島”問題：有多少個部門就有多少個信息系統，每個系統都有自己的數據庫、應用軟件和用戶界面，完全是獨立的體系，阻礙了數據的互通互聯。輿情機構提供的個案分析已不能滿足政府和企業的資訊需求，協助對方消除“信息孤島”越來越緊迫。

作為政府和企業的資訊提供者，輿情服務機構需把握未來幾年大數據在公共及企業管理領域發展的重要方向，充分整合政府和企業的數據資產，進而完善對方的決策流程。通過搭建關聯領域的數據庫、輿情基礎數據庫等，在輿情預警、研判、應對、決策等環節，豐富和完善決策參考體系。屆時，輿情和數據服務不再局限于個案分析，同時需要跟蹤關聯輿情，不再局限于危機解決，還要輔之以決策參考。

跟蹤關聯數據提高趨勢研判

大數據的核心和目標就是預測。輿情等數據分析機構從互聯網浩如煙海的數據中挖掘信息、判斷趨勢、提高效益已有實際應用。在美國中央情報局，情報人員通過抓取海量數據來追蹤恐怖分子和監控社會情緒，首席技術官格斯?漢特稱，在“阿拉伯之春”中，大數據分析可以了解多少人和哪些人正在從溫和立場變得更為激進，并“算出”誰可能會采取對某些人有害的行動。

在大數據時代，決策行為將更多地基于數據、分析和事實做出。鑒于此，2012年3月29日美國政府發布的《大數據研究和發展計劃》提出，應當通過對海量和復雜的數字資料進行收集、整理，從中獲得真知灼見，以提升對社會經濟發展的預測能力。具體到輿情服務，分析人員要不斷增強關聯輿情信息的分析和預測，把服務的重點從單純的收集有效數據向對輿情的深入研判拓展，從注重“靜態收集”向注重“動態跟蹤”拓展，從致力“反映問題”向致力“解決問題”拓展，使輿情產品“更快”——預警快、決策快。

樹立大輿情觀念拓展服務邊界

提起輿情監測，人們更多想到網絡輿情，忽略了現實社會生活中的輿論情況。輿情服務與社會調查結合不足，甚至直接把網絡觀點整理后報送給客戶，難免對決策產生誤導。如幾年前，對于假期增減的網絡投票，有機構打著尊重民意的旗號，在網上和其他媒體做調查，而最后的結果卻與很多民眾真實意見相左，破壞了輿情服務的公信力。

輿情服務機構應樹立大輿情觀念，使輿情服務的主體和邊界“更全”。這里的大輿情，強調大數據的關聯性，橫向看，將服務主體延伸至政府、企業和社會的各領域；縱向看，將產品內容延伸至包括輿情預警到決策方案在內的各環節。網絡輿情分析、社會調查和效果研究相整合，不但拓展了輿情服務的邊界，同時使輿情產品更科學、嚴謹，避免誤判。

文章來源：中國記者

大數據應用雖處初級階段，但仍無所不及

admin — Tue, 05 Feb 2013 15:05:48 +0000

　　“大數據”時代已經降臨，在商業、經濟及其他領域中，決策將日益基于數據和分析，而非基于經驗和直覺。很多學者和企業家也似乎達成共識：未來，數據將會像土地、石油和資本一樣，成為經濟運行中的根本性資源。

　　“大數據”正以難以想象的速度帶來新一輪信息化革命。很多專家學者紛紛預測，“大數據”時代，即將帶來新的思維變革、商業變革和管理變革。那么，究竟何為“大數據”?“大數據”時代會對企業發展帶來哪些影響?

　　“大數據”時代來臨了嗎?

　　世界正進入“大數據”時代

　　“大數據”時代特征是三“大”。第一，管理難度大。海量數據的收集、保存、維護、共享及研究等任務，都面臨越來越大的挑戰。第二，研究價值大。海量的精準數據，輔以信息技術，使對忠實記錄現實生產生活的數據進行系統研究以探求背后規律成為可能。第三，對社會影響大。對海量數據的研究，能夠從紛繁復雜的元數據中提取信息，進而提煉出有規律的知識，將這些知識普遍應用于經濟、政治、社會生活的方方面面，將極大地激發社會生產力，產生革命性的影響。

　　現在，如何收集、管理和分析數據正在從網絡信息技術研究領域擴散到社會各個層面，世界正進入“大數據”時代。首先，數據正呈現指數級增長。各種基礎數據的收集、各種傳感器的劇增、高清晰度的圖像和視頻的迅速應用，都導致了數據爆炸。其次，技術在進步。近年來數據倉庫、數據挖掘、數據可視化、商務智能、無線傳感器、云計算、語義網等新技術頻繁出現：商務智能幫助企業對信息進行高度細分、高度定制，數據挖掘技術幫助企業分析客戶過去的行為模式并預測其未來需求，云計算將有形的計算轉化為無形的服務，遍布世界的數據聯網獲取分析成為可能，數據金礦開掘效率提高??

　　互聯網企業是 “大數據”時代的急先鋒和最早最直接的受益者，效果較為明顯。但在 “大數據”時代，將不再存在傳統意義上的傳統企業，對數據的有效利用將是所有企業共同競爭的核心。從這個意義上說，所有的企業都將是一個數據集，即數據化企業，都將深深地受其影響。

　　事實證明已經來臨

　　目前中國的情況已經符合了“大數據”時代的特點。第一，企業數據量的增長速度大大超過從前。據計世資訊統計，近三四年，中國500強企業的數據總量每半年翻一番，這是以前數十年中國企業信息化發展中絕無僅有的。第二，數據多樣化，特別是非結構化數據爆炸式增長。過去三年，非結構化數據復合年增長率超過90%，驅動力主要來自互聯網、移動應用、微博、社區網絡等新應用，以及平安城市、智慧城市等信息化建設。第三，快速化需求。企業更加需要適應快速變化的市場環境，而且信息技術已經使得全球市場無邊界化、無國界化。企業要想在這樣的市場中立足，必須利用信息技術快速從海量信息中獲得對自身最有價值的信息。如快消品行業，以前分析銷售報表可能是按天來計算，但是現在這個速度已經遠遠無法準確把握不同地域的消費者需求的變化。第四，數據價值最大化。如何讓這些有用的信息給企業或個人帶來價值，為企業發展創造一種新的商業模式或者利潤增長點，這是“大數據”時代對于數據的核心要求。如互聯網行業利用大數據分析網民上網習慣，及時推送各種個性化信息;公共服務行業通過分析視頻、音頻等信息，進行輿情監測，保障社會安全等。

　　很難說“大數據”時代真正到來

　　如果從純粹技術的角度來看，“大數據”只是在過去的“信息爆炸”一詞基礎上的延續，“大數據”時代也是“信息時代”的一種延伸。今天，人們不得不更加關注“大數據”主要是 “大數據”給經濟活動乃至全社會的影響力無比增大的緣故。比較典型的例子就是谷歌這樣在“大數據”的應用上獲得了前所未有的巨大商業利潤的企業，開始不斷涌現。

　　信息、情報數據是在現實的生產經營過程中產生的結果，屬于無形資產，跟企業的“人、財、物”等生產經營資源一樣，具有同等價值。當下“大數據”的應用不僅局限于利用高速的硬件、軟件工具，更重要的是通過更快更好地利用數據、情報等信息資產，更好地服務于生產經營活動。從這個意義上講，“大數據”在企業中的應用范圍是全方位的、無所不及的。但是由于對“大數據”時代”所產生的巨大社會和經濟效應還無法全部了解和掌握，因此很難說“大數據”時代真正到來。目前應該還是剛剛開始了解的階段。隨著人們對信息時代的更深了解，人類社會與信息，包括“大數據”的互動也是相互影響、動態變化的。

　　數據應用拖后腿

　　如果從數據結構復雜多樣，數據規模爆炸增長，對社會生活產生巨大影響的角度看，已經進入“大數據”時代。但是從對數據的應用角度看，當下還處于“大數據”時代的早期。“大數據”已經具備了應用的基礎，并且應用潛力巨大，但當下大家對數據應用還不充分，比如智慧城市建設中，通過對大量交通攝像頭采集的數據進行深度分析，可以有效地引導車輛的通行，會對緩解交通壓力帶來積極影響。在其他方面的應用更加廣泛，如在通信領域，通過定位對一個人的位置信息進行分析挖掘，可以與銀行、保險、航空公司等形成深度的合作，實現針對性服務，創造新的利潤增長點。這樣的例子很多，但目前還處于應用的起步階段。

　　挖掘越深，價值越大

　　“大數據”將會對企業帶來革命性的影響。它會改變企業傳統的管理和運營模式，成為企業的神經系統及決策中心，有效降低管理成本，提高對市場的快速反應能力，提高服務水平。通過對“大數據”的分析與挖掘，可以實現管理流程的優化，將粗放式、經驗式的管理變成精細化、數據驅動的管理。比如中小企業貸款問題，如果我們能收集到足夠的中小企業經營管理數據，通過建立模型進行綜合分析，可以有效評估風險，從而指導授信和定價，并實現放貸的批量的自動化審批。這可以大大降低金融機構的經營成本，提高放貸的效率，同時又能很好的確保盈利水平。

　　“大數據”的發展對于在不同行業、不同發展階段、不同規模的國企有不同的影響程度。應用越深，價值越大，而目前企業需要做的就是提升信息化水平，其次需要積極挖掘和思考“大數據”的應用，需要密切關注在該領域的新技術發展趨勢，并結合經營管理模式的創新，為“大數據”的應用尋找契合點和突破點。比如德勤在銀行通過對攝像頭采集的數據進行分析，了解銀行營業廳內顧客和客戶經理活動區域的交織情況，以此優化客戶經理的服務方式。再如通過對顧客信用卡銷卡前行為的分析，挖掘出其共有的許多特征，為客戶挽留制定有效的策略。這些應用在國外有了大量的成功案例，但在國內還剛剛起步。大數據應用雖處初級階段，但以及無所不及，未來潛力巨大。

掘金大數據

admin — Tue, 27 Dec 2011 19:21:25 +0000

我們生活在一個被巨量信息圍繞的世界里，報紙，電視，手機，收音機，電梯屏，書籍，互聯網 — 它們隨時隨地都在提供著巨量的信息。這些媒體里，互聯網是最特殊的，它把全世界連接了起來，你幾乎可以找到除了商業秘密以及隱私以外的任何信息。

當前涌現出許多處理大數據的工具，如Hadoop，但基本上這些工具的前提是你要在本地擁有數據，如處理本地的聯機交易或日志或海量數據庫中的數據。也就是說這些工具并沒有增加有價值的數據，而只是加快了處理現有數據的速度。

大數據

然而真正有價值的數據一般是在企業的外部，在互聯網上。
互聯網最神奇的地方在于：你想要的數據已經在某個地方了，你只需找到他們并提取出來；互聯網是一個虛擬社會，幾乎人人都在上面活動，提供了許多信息也留下了許多蹤跡。

如果一個B2B企業需要它所有競爭對手的客戶的信息；一個世界級的品牌需要對互聯網上用戶的微博評論與博客評論加以系統化的關注，適時做出反應；一個國家需要收集全球范圍內的恐怖主義信息，以輔助應對策略。這些都需要從互聯網的海量信息中進行系統的周期性的數據挖掘，把我們需要結構化的數據從海量非結構化數據中提取出來。

外部大數據數據挖掘

這個進行挖掘的工具就是樂思網絡信息采集系統，可處理任意網站，把您需要的信息自動地周期性地從無結構或半結構的海量互聯網信息中提取出來，為您帶來額外的價值，因為它來自外部，是從信息礦山中的挖掘提取出來的黃金。

樂思網絡信息采集系統已被眾多大中型組織選擇用以應對處理互聯網海量信息，如阿里巴巴，環球資源，神華集團，某國中央政府等。關于該軟件的更多信息，請訪問其供應商網站www.galou.cn。