擁有一億用戶、營業(yè)規(guī)模達數(shù)百億元的大型網(wǎng)絡(luò)零售企業(yè)京東(JD.com),在大數(shù)據(jù)應(yīng)用領(lǐng)域?qū)崿F(xiàn)了分布式架構(gòu)與傳統(tǒng)BI工具的有機融合。
成立于2004年的京東商城(以下簡稱為京東)在2012年的交易金額突破600億元,相當于每秒就會產(chǎn)生2000元的交易額。在網(wǎng)絡(luò)零售市場深耕近十年之后,京東也正式邁入了PB級數(shù)據(jù)管理的新時代。對企業(yè)而言,PB級(1PB=1024TB)的數(shù)據(jù)管理算得上是衡量其數(shù)據(jù)規(guī)模和管理能力的一個重要標尺。目前,全球PB級數(shù)據(jù)管理俱樂部已經(jīng)擁有Facebook、淘寶等重要成員,能夠躋身其中對京東而言是榮譽,也意味著挑戰(zhàn)。
“針對業(yè)務(wù)數(shù)據(jù)快速增長的情況,我們在2012年正式啟動了大數(shù)據(jù)平臺的搭建。這個自主開發(fā)的平臺基于分布式的技術(shù),支持異構(gòu)數(shù)據(jù)集市,同時也很好地利用了傳統(tǒng)BI的展現(xiàn)層技術(shù)。”京東副總裁李曦說。目前,李曦正帶領(lǐng)著300人的技術(shù)團隊不斷地改進和完善京東從數(shù)據(jù)的獲取、平臺搭建、分析到應(yīng)用的電商全流程業(yè)務(wù)數(shù)據(jù)管理工作。在2012年加入京東之前,李曦在美國硅谷工作多年,相繼服務(wù)于Siebel、甲骨文、谷歌等公司。
全流程大數(shù)據(jù)管理
在數(shù)據(jù)獲取方面,京東對各個購物頻道的交易數(shù)據(jù)、出入貨數(shù)據(jù)、逆向物流、用戶瀏覽日志等數(shù)據(jù)進行了全面的收集,同時也會從互聯(lián)網(wǎng)上抓取一些商品價格等業(yè)務(wù)相關(guān)信息。這些數(shù)據(jù)會被匯總和存儲在京東自主研發(fā)的大數(shù)據(jù)平臺之上。這個平臺支持不同的數(shù)據(jù)集市,例如分布式的數(shù)據(jù)集市,或者是甲骨文、MySQL、微軟SQL Server等關(guān)系型數(shù)據(jù)集市。平臺底層的數(shù)據(jù)存儲和離線批量數(shù)據(jù)運算由Hadoop實現(xiàn),流式計算方面則采用的是開源實時數(shù)據(jù)處理框架Storm。
在承載匯總、存儲和查詢?nèi)蝿?wù)的大數(shù)據(jù)平臺之上是大數(shù)據(jù)分析層,這一層級主要涉及到一些建模的工作。例如針對用戶、商品、商家、促銷、反作弊、風險控制、精準營銷、運營優(yōu)化的數(shù)據(jù)建模等。而這些數(shù)據(jù)模型最終的分析結(jié)果會在應(yīng)用層得以展現(xiàn)。目前,京東已經(jīng)能夠向內(nèi)部和外部用戶提供BI(商業(yè)智能)服務(wù)。
其中,內(nèi)部BI系統(tǒng)向從業(yè)務(wù)員到高級管理者的不同層級數(shù)據(jù)消費者提供各種門類的業(yè)務(wù)報表和歷史報表。而對于在京東售賣貨品的商家,京東數(shù)據(jù)羅盤則可以向他們展現(xiàn)店鋪流量、訂單數(shù)量、實時客流等關(guān)鍵業(yè)務(wù)指標,以及節(jié)日促銷指數(shù)、價格彈性、用戶喜好等分析功能。
談到傳統(tǒng)BI技術(shù)在大數(shù)據(jù)時代所扮演的角色,李曦表示,傳統(tǒng)BI手段在大數(shù)據(jù)應(yīng)用環(huán)境中仍然有其價值,尤其是在呈現(xiàn)能力方面。他說:“京東早期的數(shù)據(jù)分析建立在傳統(tǒng)BI之上,它所采用的中央集中式模式會在主機應(yīng)用層面造成瓶頸,但傳統(tǒng)BI數(shù)據(jù)集中的理念并沒有過時,特別是其功能強大的呈現(xiàn)工具同樣適用于互聯(lián)網(wǎng)行業(yè)。”目前,京東在大數(shù)據(jù)處理的展現(xiàn)層仍在使用甲骨文BIEE等傳統(tǒng)BI工具。
“作為一家電商企業(yè),京東的零售業(yè)務(wù)數(shù)據(jù)基本上是結(jié)構(gòu)化的,而用戶訪問行為數(shù)據(jù)又是非結(jié)構(gòu)化的,因此京東全流程數(shù)據(jù)匯總實際上是把結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)融合起來的過程。”李曦說。他表示,這樣的數(shù)據(jù)組成結(jié)構(gòu)實際影響了京東的大數(shù)據(jù)技術(shù)選擇。在數(shù)據(jù)倉庫層面,京東選擇了可擴展性強的分布式架構(gòu),而在應(yīng)用層將相對發(fā)達的BI工具加以有效利用,實現(xiàn)了傳統(tǒng)與創(chuàng)新的融合。
大數(shù)據(jù)價值就在身邊
京東對大數(shù)據(jù)的利用不僅體現(xiàn)在內(nèi)部管理和服務(wù)商家方面,如果你是一位顧客,只要訪問JD.com就能感受到大數(shù)據(jù)技術(shù)為您營造出的購物體驗。在這里,商品的搜索、推薦都是基于京東大數(shù)據(jù)平臺的實時匯總和結(jié)果推送。比方說搜索的排序就可以基于用戶的點擊習慣、用戶好評度等指標進行個性化定制。站內(nèi)廣告和聯(lián)盟廣告的推送也可以根據(jù)相關(guān)的指標進行定向發(fā)布。
李曦表示,經(jīng)過近三年的探索,大數(shù)據(jù)技術(shù)的價值正在京東業(yè)務(wù)運營的不同領(lǐng)域得到逐步的體現(xiàn)。基于大數(shù)據(jù)的匯總與分析,京東正在不斷完善包含電子郵件、短信、廣告等在內(nèi)的精準營銷體系。站在業(yè)務(wù)運營優(yōu)化角度,大數(shù)據(jù)技術(shù)能夠切實提升工作效率,為京東帶來直接的成本節(jié)約,并營造出更優(yōu)的客戶體驗。

