2014年4月10日-12日,第五屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)(DTCC 2014)在北京五洲皇冠國(guó)際酒店拉開(kāi)序幕。在為期三天的會(huì)議中,大會(huì)將圍繞大數(shù)據(jù)應(yīng)用、數(shù)據(jù)架構(gòu)、數(shù)據(jù)管理(數(shù)據(jù)治理)、傳統(tǒng)數(shù)據(jù)庫(kù)軟件等技術(shù)領(lǐng)域展開(kāi)深入探討,并將邀請(qǐng)一批國(guó)內(nèi)頂尖的技術(shù)專家來(lái)進(jìn)行分享。本屆大會(huì)將在保留數(shù)據(jù)庫(kù)軟件應(yīng)用實(shí)踐這一傳統(tǒng)主題的基礎(chǔ)上,向大數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)治理與分析、商業(yè)智能等領(lǐng)域進(jìn)行拓展,以滿足于廣大從業(yè)人士和行業(yè)用戶的迫切需要。

第五屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)
自2010年以來(lái),國(guó)內(nèi)領(lǐng)先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix兩大技術(shù)社區(qū),已經(jīng)連續(xù)舉辦了四屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),每屆大會(huì)與會(huì)規(guī)模超千人,大會(huì)云集了國(guó)內(nèi)水平最高的數(shù)據(jù)架構(gòu)師、數(shù)據(jù)庫(kù)管理和運(yùn)維工程師、數(shù)據(jù)庫(kù)開(kāi)發(fā)工程師、研發(fā)總監(jiān)和IT經(jīng)理等技術(shù)人群,是目前國(guó)內(nèi)最受歡迎、人氣最高的的數(shù)據(jù)庫(kù)技術(shù)交流盛會(huì)。今年是中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)五周年,大會(huì)將繼續(xù)秉承分享IT最佳應(yīng)用實(shí)踐的宗旨,圍繞傳統(tǒng)數(shù)據(jù)庫(kù)和大數(shù)據(jù)兩條技術(shù)主線,在目前IT技術(shù)和管理快速的大背景下,更加深入地探討數(shù)據(jù)庫(kù)技術(shù)的現(xiàn)狀和未來(lái)的發(fā)展方向,以及我們?cè)谶@個(gè)轉(zhuǎn)型過(guò)程中的實(shí)踐經(jīng)驗(yàn)和教訓(xùn)。
在4月10日下午舉行的《Hadoop技術(shù)實(shí)戰(zhàn)和應(yīng)用》專場(chǎng)演講中,來(lái)自愛(ài)奇藝技術(shù)產(chǎn)品中心的專家孫琦老師為我們分享了關(guān)于《愛(ài)奇藝在Hadoop生態(tài)中大數(shù)據(jù)平臺(tái)架構(gòu)與實(shí)踐》的相關(guān)話題。

愛(ài)奇藝技術(shù)產(chǎn)品中心的專家孫琦老師
根據(jù)孫琦老師介紹,自2014年1月以來(lái),愛(ài)奇藝PPS已經(jīng)連續(xù)2月日均覆蓋、月度覆蓋、月度時(shí)長(zhǎng)和人均月度時(shí)長(zhǎng)均排名第1。在Hadoop生態(tài)建設(shè)方面,愛(ài)奇藝目前的狀況是:
· 與2010年8月開(kāi)始搭建,最初只有50臺(tái)機(jī)器;
· 目前已經(jīng)具有一定規(guī)模,且在迅速擴(kuò)容;
· 多機(jī)房部署,專線互聯(lián);
· 涵蓋Apache Hadoop生態(tài)的所有主要組件;
· 物理機(jī)集群與虛機(jī)集群共存的部署模式;
· 公共集群和專屬集群共存的運(yùn)營(yíng)模式。

據(jù)了解,愛(ài)奇藝Hadoop目前處理的數(shù)據(jù)量為20PB左右,日處理Job數(shù)達(dá)到了100000+,服務(wù)包括搜索、廣告、推薦、日志分析、BI等等。盡管愛(ài)奇藝在應(yīng)用Hadoop方面已經(jīng)取得了一系列的成就,但孫琦老師表示,目前愛(ài)奇藝還沒(méi)完全進(jìn)入Hadoop 2.0時(shí)代。
愛(ài)奇藝Hadoop生態(tài)圖
· 數(shù)據(jù)格式:ProtoBuf、JSON為主,統(tǒng)一數(shù)據(jù)定義,以便數(shù)據(jù)共享
· 批處理以Hive作業(yè)為主
· Storm、Spark實(shí)時(shí)計(jì)算資源托管在Mesos或Openstack虛機(jī)之上
· 大部分HBase應(yīng)用是為離線計(jì)算服務(wù)
· 作業(yè)提交管理:入口機(jī) + 專用提交系統(tǒng)
· 系統(tǒng)監(jiān)控:傳統(tǒng)監(jiān)控 (Nagios, Zabbix) + Metrics數(shù)據(jù)聚合
· 成本審計(jì):貨幣化度量項(xiàng)目組開(kāi)銷

最后,針對(duì)愛(ài)奇藝Hadoop生態(tài)系統(tǒng),孫琦老師也進(jìn)行了功能方面的回顧。包括已經(jīng)跨機(jī)房在多個(gè)HBase集群之間配置;數(shù)據(jù)延遲在毫秒級(jí);為業(yè)務(wù)組提供了跨機(jī)房數(shù)據(jù)共享的條件;幾次的網(wǎng)絡(luò)故障已經(jīng)證明了該機(jī)制的可靠性。
對(duì)于未來(lái)的計(jì)劃,孫琦老師表示,未來(lái)將增加HDFS Erasure Code的支持、支持Kerberos;進(jìn)入Hadoop 2.0,實(shí)現(xiàn)多框架對(duì)資源的共享;統(tǒng)一MR/Spark/Storm作業(yè)提交界面,以及深度整合Openstack、Mesos與Hadoop生態(tài)。

