在自然界中有一種物質叫做“暗物質”,從物理學家的解釋來看,“暗物質”是自然界當中最充滿能量的部分,如何發揮“暗物質”的作用是當代自然科學研究的話題。而在數據科學領域,人們都在討論如何發掘隱藏在企業內部和整個互聯網上巨量的“暗數據”,怎樣發揮“暗數據”的價值。
有一種說法,人類只要利用大腦的?10%,就可以實現長生不老。即便在無數神經學家將其斥為胡編亂造的無稽之談,多年以后,我們還是不會放棄這種念頭,因為我們知道自身還有很多潛力沒有發揮,只是有待發掘。同樣,許多企業也僅利用了數據的一小部分,而把經過巨大的開銷存儲著的關于流程、員工、客戶和產品的寶貴數據放在數據孤島中,無法有效利用。我們對數據的挖掘還處在一個非常初級的階段,可將其稱之為“黎明前的黑暗”階段。
定義“暗數據”
“暗數據”是指企業已付費購買、收集以及存儲在各種系統和數據存儲中,但實際上目前并未使用、分析甚至訪問的所有數據。我們可以將“暗數據”視為大數據的子集,它可以包括存儲在?CRM?數據倉庫的結構化數據、日志文件甚至來自于社交媒體的非結構化數據等所有數據。
當然,有些企業已經實施數據倉庫或者大數據平臺,清楚數據的存在,并正在發掘數據的價值,但他們依然存在暗數據的問題。因為實施數據倉庫常常是站在IT的角度,對于IT來講或許已經是可以利用的明數據,對于其它部門,尤其是業務部門如果沒有充分有效的利用手段和方式,仍然是“暗數據”。如果您實際上無法利用付費購買的數據,那么最終您就無法對企業的整體行為形成一致觀點。這意味著您將無法分析流程、合理配置資源,也無法在系統中找到代表您的專有優勢的數據。
“暗數據”產生
顯而易見,?沒有任何組織主動采取低效、?昂貴和不明智的措施。但一系列新應用程序和大量新數據已使很多公司忽視了他們已經擁有和付費購買的數據。為何會有這么多“暗數據”存在?我們從以下四點來解釋:
1. 企業甚至沒有意識到數據的存在
企業不止有IT部門,還有更多的業務人員、管理決策人員,當他們嘗試解答疑難問題或改進工作方式時,會回避尋找并分析自己不熟悉的數據集的挑戰,這種情況十分常見。不幸的是,往往由于缺乏技能、時間或能力,他們很難將正確的數據公諸于世,這在日常的工作當中是非常典型的一種場景。舉例說明,有些企業表示不清楚到底有多少客戶,這是真的嗎?回答是否定的,因為現在的企業IT已非常完善,每一筆客戶的交易信息都會存在系統當中,或許有些數據質量不是很好,但它們都是存在的,只是企業自己沒有意識到。如果這些數據以整個組織都能訪問的方式存儲,就能為更多業務部門、項目團隊提供支持,進而制定更明智的決策,并對更多假設進行測試。
2.?企業意識到數據的存在,但不知道具體位置,利用的手段和方法也不足
企業已經建設了很多數據管理系統,知道數據是存在的,但如果組織的數據體系結構或復雜的數據流程起到阻礙作用,那就很難訪問數據。如果各個部門都在數據孤島中工作,并且數據保存在遺留數據存儲中,那么即使是求知欲最強的團隊也會徒然碰壁。如果沒有制定關于存儲和管理所有這些數據的整個企業范圍的戰略,那么組織的決策質量仍將受制于內部組織架構和過時的技術。
3.?實際利用數據過于昂貴阻礙了數據使用的效果
即使企業已經發現了所需的“暗數據”,通常也必須面對與在遺留系統上處理這些數據相關的一連串成本問題,如數據利用的環節過長。即便他們通過使用Hadoop此類的新軟件架構,在價格較低廉的硬件上復制這些數據來努力避免這些成本,但與遷移流程和獲取新技能相關聯的初始成本對于單個項目而言,通常仍顯得過高。這也造成了很多的數據其實仍然是未被充分使用的狀態,仍然隱藏在我們的IT系統和日常流程當中。為了充分利用企業已擁有的數據,需要為更現代化的數據體系結構奠定基礎,否則,您仍會繼續為數據支付巨額費用,卻無法承擔對其進行分析產生的成本。
4.?某些數據存在遵守法律的問題
如金融、電信、醫療等行業的數據量非常多,但無法將某些數據提供給任何人分析,最重要的原因之一是害怕違反法律法規的要求。對于企業而言,要使其擁有的數據具有意義,需要部署明確定義的流程和工具,以保證這些數據的安全性。Informatica?有專門的解決方案,叫做數據脫敏(Data?Masking),保證數據隱私不被泄露的情況下充分利用數據。
公開“暗數據”
既然我們面臨著非常多的“暗數據”,那么公開就是它的對立面,叫做數據的透明化,我們期望的結果是企業中所有數據,對企業的任何一個參與者——IT、業務、決策、財務——都是透明的,在他們想分析的時候都能找到所需的數據。
任何企業在發掘數據價值的時候,往往包括三種典型的角色:集成商、IT部門和業務部門。人們常常討論誰才是數據的主人,一般認為是業務部門,但完成實際操作過程的卻是集成商,似乎所有的報表都是集成商來做,所有的分析也是集成商完成。在數據分析數據使用中有一個常常被大家忽略的過程,被稱為數據的探索和探查的過程也是由集成商來完成。這其實是業務模式的一個致命弱點,由集成商完成數據探查工作,再根據業務或者IT提的報表分析需求來使用這些數據,使用數據的主體——業務部門并沒有參與探索數據,并沒有親身體驗分析數據的過程。
業務部門參與數據挖掘對數據價值的實現大小關系密切。如果找集成商來做大數據平臺可能也叫BIG?DATA,但這個“BIG”很小;假如IT部門能充分參與架構設計和數據的探索過程,這個“BIG”會變得大一點;假如業務部門也參與可能使“BIG”變得更大,數據在企業中的流程也會縮短,業務部門會知道數據的存放位置,“暗數據”問題能夠更快解決。
業務部門如何才能自我分析數據,實現自助服務?他們需要一個有效的IT支撐手段,需要IT把暗數據透明化,變成透明的數據。實現數據透明化的一個基礎是數據標準化,建立標準化平臺。暗?數?據存在于不同系統中,需要重新格式化、解析、篩選、標準化、整合以及細化,?使其為輸入到任何分析工具和應用程序中做好準備。
真正釋放“暗數據”潛能,讓數據見光需要一定的策略變化,除了上述的要啟動業務部門的自助服務的能力,以及啟動IT部門的標準化構建,還有一個關鍵點是啟動可重復利用“暗數據”的流程。大多數公司所犯的最大錯誤是認為他們只需對其“暗數據”進行一次深入探究,這可不止是一個一次性的流程。數據只會不斷增長,無論是規模、多樣性還是價值,提供數據的應用程序的數量和類型也會不斷變化,因此,與其一遍又一遍地解決單個“暗數據”項目,應該考慮建立一個可重復的流程。這意味著采用所需技術,建立現代化的基礎架構,以使您的所有數據隨時可供訪問并保持一致,使其保持潔凈、安全、互聯互通。
“暗數據”并非僅僅表明技術開支效率低下,它還表明企業難以利用其積累起來的豐富知識,“暗數據”是一個有待發掘的潛在金礦。在我國當前新型工業化進程中,提倡大數據的前奏叫數字化,數字化能夠貫通各個環節,把原來可能隱藏在工業流程當中的數據釋放出來,用數據來描述工業流程,這也成為眾多領先企業希望征服“暗數據”的原因所在。
——來源:TechTarget中國
]]>
近年來有幾個趨勢對企業的影響就像大數據那般顯著。各類規模和形態的公司在近幾年都陸陸續續以極大的熱情步入大數據時代,因為他們都意識到了大數據對他們的公司會有怎樣的益處。從開拓創新新的盈利方式到提高企業的生產力,大數據的這些令人印象深刻的優勢很少受到爭議。但是要正確地使用大數據,一個公司必須首先收集和處理它,這意味著可能要從多個數據來源中收集盡可能多的信息。雖然一個企業的確基友可能用上他們所收集的所有數據,但更為常見的情況卻是,一些數據將永遠不會被使用。當談到非結構化數據時,這的確是個問題。隨著時間推移,所有未被使用的數據可能會帶來一個問題——堵塞了數據中心,這很像可以堵住房子里的水管的那些黏糊糊的東西。專家們為這類數據創造了一個術語——暗數據(Dark?data),如果你的公司沒有清理這些暗數據,那它們很可能會增加公司的運營成本和各種安全隱患。
若要以正確的方式處理暗數據,你首先需要對它進行定義。那么暗數據究竟是什么呢?簡而言之,暗數據就是一個企業收集、處理和存儲起來的,最后并沒有投入任何特定用途的信息。通常情況下,暗數據將會閑置多年,在你的公司繼續收集更多數據的同時占用數據中心中的寶貴空間。隨著未使用數據的不斷堆積,一些最開始可能只是小麻煩的問題會越積越嚴重。所有這些額外的數據都會導致增加開支,但更嚴重的是,這些數據通常是不受保護的,這等于打開了數據泄露和其他可能的安全事故的大門。
因此,如果暗數據是如此昂貴和危險,為什么各公司甚至忍受它們保持在身邊?事實是,許多企業寧愿存儲他們手機的所有數據,以確保他們遵守所有的法律法規。與此同時,企業都不情愿清空未使用的數據,因為他們永遠不知道自己是否會在未來的某個時間需要它們。大數據分析能夠產生一些解決問題的方法,而為了找到這些解決方案,企業需要用到相關的數據。就像那種常見的心態一樣,僅僅因為你現在用不上它不代表它在以后也沒有價值。然而這樣的想法并不總會變成現實。如果有的話,這和囤積者的心態也沒什么不同。即使一個企業不采取什么特點的心態,很多公司覺得他們實在是太忙了,以至于無法顧及到清理暗數據這檔子事。
對暗數據的一次徹底清理可能十分耗時,這是事實,但結果也非常值得去努力。主要的挑戰在于要擺脫暗數據,同時仍然持有任何必要的數據。在你的公司中你有幾種方法可以做到這一點。其中最有效的方法是過濾數據。當收集由機器和互聯網產生的數據時,你會發現數據伴隨的很多有價值的信息在很大程度上是無用的。通過識別和隔離你所需要的數據,你能夠把它從所有其他的雜音中分離出來。這有助于放置一開始就發生不必要的數據堆積的情況。在這一努力過程中,某些大數據工具能夠有所幫助,但它取決于每個公司去識別哪些數據是最寶貴從而需要保留的,而哪些數據是最好清理掉的。
各企業還可以積極努力地通過把探索到的暗數據導入其他數據庫來清理他們的數據中心。云計算在這一過程中可謂是特別得心應手。如果你的公司和一個云供應商有一種穩定的合作關系,那么利用它們來存儲不需要的數據將會是一個既明智又經濟劃算的選擇。當在使用此法時,你會從你的數據中心中擺脫暗數據,但是當你需要在一個新的分析項目中用到它時,你仍然可以使用它們。企業也可能會選擇從他們的數據中心中把數據存檔到一個單獨的位置,例如將信息傳送到硬盤驅動器中,這個驅動器比閃存存儲的性能要差,但卻是一個成本更低的替代性方案。
毫無疑問,暗數據可能對你的公司經營產生損害。如果沒有正確的管理和數據保留策略,未使用的數據可以很快地成為一個企業的負擔。最好的策略是盡早采取計劃,并且長期堅持計劃,這樣的話你就永遠不用再面對需要立即清理暗數據負載的挑戰了。一個井井有條的數據中心往往意味著成功使用了大數據和浪費時間與資源之間的區別。
????????????——原文作者:Rick?Delgado???譯文來源:CDA數據分析師
]]>