樂思網絡輿情監測，始于2003 » 當大數據碰撞征信會產生什么？

當大數據碰撞征信會產生什么？

發布時間：2015-11-11 KnowlesysOp

隨著大數據風潮的來臨，在改變數字產業的同時，也讓更多關聯產業產生了顛覆性的變化，例如征信行業以及以征信為基礎的金融行業。?行為數據化，數據信用化，在這一系列流程中，曾經評判個人或者企業的標準和方式已經被深刻地打上時代烙印，帶有更多“大數據特性”以及“互聯網特性”，刻畫個體畫像的方式在變化，打造刻畫不同畫像模型的征信行業也正在變化。

大數據時代讓非金融數據獲得了全新生命。一方面，針對非金融數據的分析和建模在某些領域或主題上，獲得了較針對傳統金融數據分析后更為有價值的結果;另一方面，當前中國社會存在著大量并不擁有金融數據的群體，大數據時代讓這一群體有了可被“評判”的標準，進而享受更多的社會服務。

當大數據碰撞征信會產生什么？那么，《第一財經日報》記者專訪了哈佛大學數據挖掘和風險建模專家Dan?Steinberg以及前海征信CEO邱寒。兩位業內最為權威的專家，就當下流行的獲取數據的方式、獲取數據的類型、分析數據的方式，以及未來如何擁抱這些變化等話題進行討論，以期能幫助廣大讀者理解就這些變化在當下能起何種作用。

日報：在數據獲取方面，當前的數據和過去的數據在獲取渠道以及數據類型存有哪些主要的差別？

Dr.Dan：我這有一個非常有趣的案例。一家英國網站，可以幫助登錄該網站并回答網頁上面問題的用戶預測壽命長短。最有意思的是這些問題的設計，并非如血壓值以及同身體相關的傳統醫學數據，

而是采集，平時走路的速度，睡覺的時長等看似跟醫學并不相關的問題。同時，這些問題的設計者也均來自英國頂級醫學研究者。他們在做預測模型的時候發現，真正醫學數據并未帶來有效價值，反而是看上去不起眼、看似沒有關聯性的數據產生了真正的效用。

大數據時代的到來，讓更多人猜想，類似的事件是否會發生信用風險管理上，一些意想不到的數據可能會跟信用產生一些關聯。對于數據分析模型來說，在最初可能會投入上千個變量，但最終產生實際效用的可能僅有20個，而當前的大數據研究、機器學習所聚焦的也更多在于幫助分析師從那些認為可能存有關聯，或者看似完全不具有關聯性的數據中，提取、聚焦出真正相關的變量。

邱寒：的確，我在實際的分析建模工作中也發現，很多原先并不被認為與借貸風險相關的新型數據在實際分析中顯示出了對于借貸風險的預測能力。比如一些網絡使用習慣的數據。類似的研究在美國的一些創新型互聯網金融公司中也在進行，也發現了許多有趣的新指標。與十幾年前根據美國信用卡數據進行風險建模時不同，目前就我們前海征信來說，我們所使用的維度已經大大超過傳統的金融建模方法，被測試的字段可能高達千計，而最終進入模型的有效字段也往往有幾百個。大數據時代，不管從數據來源還是建模方法上都產生了巨大的變化。

日報：不同的授信額度對應的數據需求有哪些差異？是否微小額度更注重驗真，大額度授信更為復雜？

Dr.Dan：?我曾經在新西蘭做一個項目時產生了非常有趣的結果。人們對于自己身份會提供ID證明，而不同的提供方式代表著信用程度不同。當時人們一般選擇兩種呈現方式，一種是出示護照，另外一種是出示身份證、駕照等。數據顯示，利用護照的用戶群體更容易違約。

雖然這說明呈現ID的方式對違約程度具有指向性，但是如果這種測量方式被意圖違約的人知道了，那么這個騙貸的群體將不會再選擇護照這種方式，同時這種測量方式的效度會短時間內高速下降，因為這種方式一旦被這一群體所了解，他們會選擇反向操作。

我對個人授信不甚了解，但從曾經企業信貸違約模型搭建經驗表明，對于不同放貸額度對數據要求的確不同。當面對大企業、中性企業以及小微企業等不同規模的企業時，所運用的變量數量相差無幾，但是具體的變量維度的確各不相同，不同類型企業運用的數據內容各不相同。

邱寒：正如我一直所說的，風險評估是一個系統工程，并非一個信用分可以解決所有問題。從信用分到負債承受能力等多個維度都會對一個人最終的還款行為產生影響。小額授信和大額授信的確從流程上是存在很大不同的，同時有無抵押品的流程以及不同場景均會存在較大差異。現在一概而論微小貸看重驗證并不合適，因為如果防范得不到位，也會積小成多，造成重大損失。

日報：目前在國際上通行的在判斷個人信用方面，包含哪些信用判斷維度？金融數據占據怎樣的角色和地位？

Dr.Dan：?我覺得，尚無法從全球角度給出一個全局層面的判斷。但在新西蘭的一個信貸項目經驗表明，某些屬性、維度、字段并非屬于金融數據的數據類型對于信審模型起到的作用比原始金融數據更重要。當面對金融數據缺失時，這些數據的價值就會被進一步放大，中國目前擁有大量金融數據缺失的客戶，而放貸機構無法讓客戶現行刷卡五年，五年后擁有金融數據后再行放貸。

如果能夠證明，其他非金融數據在某種程度上能夠代替原始金融數據，甚至有產生比金融數據更好的效果，那么會大幅提升中國信貸領域的效率，同時中國信用體系也會實現跳躍式發展。

邱寒：很多風險預測維度的確存在國際差異，其中有一部分維度是國際通用的，但也有一部分是與不同國家的特定情況相關聯。例如，經驗發現在美國發現開寶馬車的人的信用表現比開通用汽車的人得信用表現要好，但該結論在中國并不適用。實際操作過程中往往會發現很多與別的國家不一樣的一些維度。這樣的差異很多時候同各個國家的文化，習慣有關系。

與此同時，與這些創新型指標不同，金融數據的表現在不同的國家卻往往呈現出比較一致的結果。在最終模型中的權重當然還是有差異的，但效果方向卻往往是一致的。我注意到，經驗數據顯示，在模型中金融數據還是發揮著最重要的角色，至少占據了65%以上的解釋度。

日報：面對相同的數據，在整合和分析方面，相比過去現在是否會由于技術的升級而出現不一樣的結果？變化主要有哪些？對于金融機構來說，意義又在于哪些方面？

Dr.Dan：目前在數據分析方面，相對于評分卡、邏輯回歸等常用方法外，最為先進的數據分析方法是Treenet(隨機梯度提升)。相對于傳統分析方式，Treenet有三方面的好處，第一，擁有數據缺失值處理的能力;第二，不同于傳統非線性建模;第三，具有交互作用，可以同時考量2-3個變量。

同時，treenet可以讓更多的數據維度更充分地利用到模型之中。邏輯回歸等經典模型所利用的數據維度比較少，而treenet能夠讓更多有預測性的維度被包含到模型之中，同時精度也有一定提升。

某機構如果大規模使用這種機器學習方式，同時運行幾百上千個模型，如果每一個模型在使用過程中效率的提升是微小的，但是產生的累計效應是巨量的、驚人的。

此外，許多金融機構在制作模型的過程中，在利用經典模型、經典方法過程中需要大量的人工接入，一旦有人工就受制于人力資源的現實。例如，一共5個分析師，每個人都有很多人工工作，導致每個月只能建構4個模型，但其實很多業務場景都需要模型，進而導致在其他業務上沒有運用模型，或者運用精度不高的模型。新技術的產生讓更多的業務、更多的分析主體被覆蓋，因此生產效率也得到相應的提升。

邱寒：傳統的建模過程，要經過數據準備，數據清洗，建模，驗證，實測等等過程，一整套流程往往需要耗費幾個月，對于風險評分卡而言，由于涉及到的測試更為全面和嚴格，周期甚至更長。這樣的周期肯定不能適應大數據時代得需要。同時，由于在大數據時代數據量與覆蓋的維度與以前不可同日而語，必須使用創新的建模方法。前海征信獨創了多維立體納米建模方法，融合深度神經網絡，機器學習和傳統的邏輯回歸等方法，大量使用自動模型訓練，極大地提高了建模的效率。能做到實時反饋實時優化。

日報：通過數據來判斷一個人的信用是否能夠完全規避風險？如果不能，風險點在哪里？金融機構該如何更加有效地運用這些數據？

Dr.Dan：在某種程度上，金融數據依舊扮演非常重要的角色。例如，一個人信用額度用的使用比例，假設該用戶擁有5張信用卡，總共額度是10萬塊錢，上一個季度用了只有2%的額度還是90%的額度，這樣的信息，比該客戶到星巴克點了什么咖啡，近期看了間諜片還是科幻片更有價值。但目前問題是，中國大量群體金融數據確實，只能尋找其他數據來代替，試圖發現該類數據可能存在有效性。

舉個例子，曾經給紐約某家大型銀行做一個項目，當時這家銀行在做“目錄營銷”，即在給客戶郵寄信用卡賬單的同時附帶一些推銷的廣告，例如電視機、旅游產品，收取傭金，以作為銀行另一個營收渠道。在美國，互聯網真正普及之前，目錄營銷是除了實體店銷售外最大的直銷型商業模式。

因為數據量很大，當時有美國專業賣數據的公司，收集了每一個客戶的地址，將所有主要從事目錄營銷公司做了一個集中調查，了解到某一個具體地址，在當年響應了哪些目錄營銷的活動。這種方式類似于當下某些互聯網利用瀏覽器中的cookies收集瀏覽歷史一樣，通過cookies了解網民訪問了哪些網站。

當時針對獲取的這部分數據以及該銀行自身的金融數據制作做了一些模型，其中一個模型僅僅利用了銀行方面的數據，另外一個模型則相反，只運用了目錄營銷的數據。模型分析結果顯示，錄營銷的數據幾乎沒有產生作用，仍然是銀行自身的數據占據了主導作用。金融自身的數據還是最重要的。傳統金融數據不可取代，部分群體數據缺失的情況下，可以試圖尋找相對次優的方法。

邱寒：目前看來，金融自身的數據還是最重要的，在我們前海征信的模型中占據了大部分的解釋度。當然一些創新數據也在發揮作用。我認為應該充分嘗試，謹慎使用。

風險評分是一項非常專業和嚴肅的工作，除了準確度之外，還非常關注穩定性。因為，有些創新變量可能在某段時間某些情況下有作用，例如也許會發現喜歡穿紅衣服的人信用情況比較好，但是一兩個月后又變成喜歡穿綠衣服的人信用情況比較好了。這一類變量就是有相關性但穩定性很差的。這時候就要平衡好準確性和穩定性的選擇。有一個建模專業術語叫做避免over-fitting(過度擬合)，這在風險建模工作中尤為重要，就是要更多選用有解釋度并且穩定性高的解釋維度。從目前的實踐情況來看，金融自身的數據不僅是解釋度的貢獻度高，穩定性表現也是非常好的。

日報：中國和美國的社會信用環境的區別是什么？觀察國內的數家征信機構中，哪個機構具有一定的領先性？

Dr.Dan：我盡管沒有在中國市場工作，但是比較確信的是不同市場所運用的模型以及授信評分機制存在差別較大，這種區別受制于經濟、文化等多種因素。應該比較欣喜地看到，像前海征信這樣的中國企業開始嶄露頭角，相信如果中國的征信機構把工作做的好，完全可能有一天某家機構成為中國的FICO，成為真正具有競爭力的征信機構。甚至在未來，當積累足夠多的經驗之后，可以走出國門，赴越南、馬來西亞等國家一顯身手。不可否認，這個過程可能是漫長的，從美國的FICO從上個世紀60年代就已經開始從事這個事情，可以看到這條路一定是漫長的。但是千里之行始于足下，類似前海征信這樣具有前瞻性的公司已經走出了第一步。

邱寒：作為在國內的相關行業的從業者，這個問題我是這么看的，其實我們才剛剛起步，還有很多當務之急的事情要去做。作為人民銀行第一批批準進行個人征信準備的征信機構，我們前海征信立足于金融，一方面采用了國際前沿的大數據技術，同時也保存了歷史驗證有效的傳統算法的核心內容。在構建評分卡的過程中，同美國FICO，韓國NICE等都有過深入的交流，獨創的多維立體納米評分技術也得到國際專家的認可。由此不難看出，由于大家都看到了征信的重要性，國際國內的同行之間的互動日益密切和較強，最簡單的例子就是，眾所周知，FICO是這方面的國際權威，但它的評分技術還偏重在傳統技術和金融數據上，他們也希望學習前海征信整合金融與非金融、結構化和非結構化數據的經驗，進一步推動模型的升級;反過來也一樣，我們也在學習國際國內先進同行的經驗。

VIA：《第一財經日報》

樂思輿情監測中心（www.galou.cn）文章，轉載請注明出處，謝謝！

分類: 大數據應用標簽:

上一篇 : How to set VLAN on HP Blade Server?

下一篇 : 【輿情頭條】18歲兒子見父母討論生二孩語出驚人：財產要多分！(151110)

高清免费视频|成都冻货格|我可以再往深处一点吗视频|舌头伸进去添的我好爽高潮欧美|性都花花世家|无人区卡一卡二卡三乱码网站|草莓看视频在线观看免费