
說到eBay的拍賣和購物網(wǎng)站你腦海里會(huì)想到什么?1億用戶、3億活躍商品、5萬種產(chǎn)品分類、平均每秒2100美元的交易額,那就對(duì)了。當(dāng)然,你也可以把eBay看作是一家數(shù)據(jù)管理與業(yè)務(wù)分析企業(yè):每天50TB的數(shù)據(jù)量、7500用戶與分析師的分析團(tuán)隊(duì)支持。
數(shù)據(jù)沙盒(data sandbox)聽上去很小,但它卻是eBay保證數(shù)據(jù)分析流程順利進(jìn)行的關(guān)鍵組成部分。
在今年四月洛杉磯召開的Gartner商務(wù)智能峰會(huì)(Gartner Business Intelligence Summit)上,eBay的分析應(yīng)用技術(shù)高級(jí)主管Chris Rogaski在演講中說到:“如果人人都想要不同的數(shù)據(jù)視圖、報(bào)表或者儀表盤,我們將無法應(yīng)付。所以,我們需要提前做好準(zhǔn)備,只有這樣,我們的業(yè)務(wù)分析師和產(chǎn)品經(jīng)理們才能根據(jù)數(shù)據(jù)做出決策。”
eBay采取了很多措施,使用戶需求得以及時(shí)滿足。公司的數(shù)據(jù)分析平臺(tái)結(jié)合使用了Teradata的企業(yè)數(shù)據(jù)倉庫(enterprise data warehouse,簡(jiǎn)稱EDW)、被eBay稱為“Singularity”的Teradata獨(dú)立深層存儲(chǔ)數(shù)據(jù)庫以及Hadoop系統(tǒng)。EDW用來存儲(chǔ)結(jié)構(gòu)化交易數(shù)據(jù);Singularity用來存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)站用戶行為分析);Hadoop則用來處理非結(jié)構(gòu)化數(shù)據(jù),其中包括原始用戶行為數(shù)據(jù)、其他形式的機(jī)器生成信息和文本數(shù)據(jù)等。Rogaski稱,三部分合起來大概占據(jù)了90PB的存儲(chǔ)空間。
另外,eBay將虛擬數(shù)據(jù)集市在EDW中自由分散,供任何想要開發(fā)、操控、添加特定數(shù)據(jù)集的員工進(jìn)行使用。數(shù)據(jù)集市是公司的分析作為服務(wù)(Analytics as a Service)中的一部分,或者是A3S及其他用戶分析數(shù)據(jù)程序的一部分。業(yè)務(wù)用戶和數(shù)據(jù)分析師使用由eBay的IT部門開發(fā)的工具,可擁有(通常也會(huì)使用)100GB的空間,這就是在商務(wù)智能領(lǐng)域所謂的數(shù)據(jù)沙盒。
數(shù)據(jù)沙盒也被稱為分析沙盒,這些由用戶控制的空間被相互隔開,將數(shù)據(jù)實(shí)驗(yàn)和數(shù)據(jù)倉庫的生產(chǎn)數(shù)據(jù)庫環(huán)境區(qū)別開來。eBay的用戶有權(quán)限獲取EDW中的數(shù)據(jù),還可以將所需信息復(fù)制到數(shù)據(jù)集市中進(jìn)行分析。在eBay開發(fā)工具的幫助下,他們可以上載附加數(shù)據(jù)進(jìn)行分析。Rogaski說:“如果存在一個(gè)我們不知道的新的數(shù)據(jù)源,我們沒辦法將其隔開,對(duì)它不進(jìn)行數(shù)據(jù)分析?!?/P>
企業(yè)部門之間的對(duì)峙阻礙數(shù)據(jù)分析
企業(yè)中IT部門和業(yè)務(wù)部門的長期對(duì)峙屢見不鮮,其中一部分原因可歸咎于優(yōu)先級(jí)別不同。當(dāng)業(yè)務(wù)用戶有業(yè)務(wù)問題急需解決的時(shí)候,IT團(tuán)隊(duì)可能正在進(jìn)行數(shù)據(jù)治理或是維護(hù)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。對(duì)于想要深度分析現(xiàn)有數(shù)據(jù)的分析師來說,工作的中斷會(huì)帶來很強(qiáng)的挫敗感。
TechTarget的BI咨詢師兼研究主管Wayne Eckerson說:“分析師常常需要的是還未放入數(shù)據(jù)倉庫的數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)還未經(jīng)處理和載入。”
有些時(shí)候,數(shù)據(jù)分析師會(huì)認(rèn)為由自己公司部署的BI和分析工具比Excel更加靈活,能夠秘密建立起IT范圍之外的Excel工具。然而,將Excel推行到企業(yè)上下進(jìn)行數(shù)據(jù)分析之用并不是理想的方式。Eckerson補(bǔ)充:“每個(gè)人都知道分析師可以得出有價(jià)值的信息,但是沒有企業(yè)是靠電子表格發(fā)展壯大起來的?!?/P>
Eckerson稱,這時(shí)候數(shù)據(jù)沙盒就起作用了。它可以保證分析用戶獲得所需數(shù)據(jù)、加強(qiáng)對(duì)信息的控制,使企業(yè)的數(shù)據(jù)陰影系統(tǒng)(data shadow systems)逐漸明朗化。
對(duì)于BI和IT經(jīng)理來講,一個(gè)精心管理的數(shù)據(jù)沙盒為用戶提供了一個(gè)安全之地,在公司管理架構(gòu)內(nèi)對(duì)企業(yè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。美國Data Miners咨詢公司的創(chuàng)始人Gordon Linoff說:“這樣一個(gè)環(huán)境存儲(chǔ)的不是數(shù)據(jù)的復(fù)制,而是適合分析形式的信息。”Linoff還是《數(shù)據(jù)挖掘技術(shù):市場(chǎng)營銷、銷售與客戶關(guān)系管理領(lǐng)域應(yīng)用》一書的作者之一。
數(shù)據(jù)沙盒可在數(shù)據(jù)倉庫、分析數(shù)據(jù)庫及其外部作為獨(dú)立的數(shù)據(jù)集市構(gòu)建。在eBay的案例中,Rogaski說,在EDW中采用沙盒作為虛擬數(shù)據(jù)集市降低了數(shù)據(jù)活動(dòng),減少了用戶對(duì)數(shù)據(jù)進(jìn)行復(fù)制并存儲(chǔ)在其他系統(tǒng)的需求。
期限設(shè)定對(duì)分析大有幫助
他承認(rèn),在用戶占據(jù)了沙盒,還是會(huì)出現(xiàn)少量的數(shù)據(jù)復(fù)制?!暗@很正常,算是我們發(fā)展業(yè)務(wù)付出的一點(diǎn)代價(jià)吧。”為了減少復(fù)制,eBay在數(shù)據(jù)系統(tǒng)中使用了期限設(shè)定的方法,由分析師設(shè)定好數(shù)據(jù)集使用的一個(gè)結(jié)束日期。截止日期快到的時(shí)候,Rogaski的團(tuán)隊(duì)會(huì)與分析師協(xié)商,要不要把數(shù)據(jù)從系統(tǒng)中刪除;這一過程被eBay稱為碎片帳集(garbage collection)。
由于沙盒本身的作用就是處理數(shù)據(jù),Linoff相信擁有正確的技能對(duì)成功部署非常重要。數(shù)據(jù)科學(xué)家和其他用戶需要操控?cái)?shù)據(jù)并分析數(shù)據(jù)當(dāng)下的活動(dòng)。他說:“這等于是在學(xué)習(xí)全新的事物,所以你需要可進(jìn)行充分利用的技能組合?!?/P>
這條規(guī)則對(duì)許多企業(yè)來講都十分有用,但并不適用于所用企業(yè)。Rogaski說,eBay的目標(biāo)之一是讓很大一群人都能獲得它的BI和分析數(shù)據(jù)。即便是一個(gè)毫不了解情況的業(yè)務(wù)用戶也能夠使用虛擬數(shù)據(jù)集市。
對(duì)于想要建立數(shù)據(jù)沙盒的企業(yè),Eckerson認(rèn)為其中一個(gè)很大的挑戰(zhàn)是管理。他舉例說到,在用戶將包含獨(dú)有數(shù)據(jù)視圖的報(bào)表分發(fā)出去之前,企業(yè)BI團(tuán)隊(duì)?wèi)?yīng)該核實(shí)一下操控的信息,確保指標(biāo)都正確無誤。
Eckerson說:“你可以讓用戶獲取數(shù)據(jù),但你還需要給他們一些指導(dǎo)。沒有人喜歡受限,但他們用的是公司資源,就不得不在某些方面遵守規(guī)則?!?/P>
CIO頻道人物視窗
CIO頻道方案案例庫
大數(shù)據(jù)建設(shè)方案案例庫
電子政務(wù)建設(shè)方案案例庫
互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫
商務(wù)智能建設(shè)方案案例庫
系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄