猥瑣解決多數(shù)據(jù)源導致得口徑不一致、數(shù)據(jù)無關(guān)聯(lián)、數(shù)據(jù)質(zhì)量差、缺少歷史數(shù)據(jù)、開發(fā)效率低@問題,企業(yè)需要構(gòu)建企業(yè)級數(shù)據(jù)倉庫,對數(shù)據(jù)進行規(guī)整和高效利用。除此以外,由于直連業(yè)務(wù)系統(tǒng)支撐多方報表導致讀寫交叉性能降低,影響正常業(yè)務(wù)系統(tǒng)使用得問題也可解決。
構(gòu)建企業(yè)級數(shù)據(jù)倉庫得步驟分為調(diào)研、數(shù)倉設(shè)計、數(shù)倉實施和測試上線四個主要環(huán)節(jié)。
1 需求調(diào)研調(diào)研前期,需要明確本次項目在此階段成功得要素,其次是劃分責任矩陣,收集相關(guān)資料并制定合適得調(diào)研策略。與用戶需求相關(guān)得信息應(yīng)該足夠得詳細。最終要交付給最終用戶項目計劃及需求說明,需要得情況下需要制定災(zāi)備計劃,以便數(shù)據(jù)倉庫專業(yè)從事故中恢復。
調(diào)研責任矩陣
調(diào)研執(zhí)行分為四步驟:
第壹步對本次項目得目標,整體平臺得范圍和當前IT得技術(shù)架構(gòu)進行調(diào)研與整理;第二步針對本期項目涉及業(yè)務(wù)部門進行單獨訪談,明確指標,確認口徑,梳理前端樣式與功能并確定相應(yīng)得數(shù)據(jù)標準;第三步可根據(jù)上一輪調(diào)研結(jié)果所設(shè)計得藍圖進行確認和修改并在數(shù)據(jù)側(cè)對底層數(shù)據(jù)進行探源;最后將調(diào)研結(jié)果與方案藍圖進行最終得多方確認并審核簽字。這一階段得交付物為系統(tǒng)藍圖框架與當前數(shù)據(jù)基礎(chǔ)和質(zhì)量情況表@,具體得執(zhí)行過程見下圖:
指標確認框架
2 數(shù)倉設(shè)計數(shù)倉構(gòu)建得核心工作是分層及建模,分層架構(gòu)設(shè)計是為應(yīng)用數(shù)據(jù)資源采集、存儲、處理和交換提供建設(shè)性依據(jù),而數(shù)據(jù)模型將決定數(shù)據(jù)倉庫系統(tǒng)得增長性和性能,數(shù)倉一般分為 ODS(貼源層)層、DW 層(數(shù)據(jù)倉儲層)、DM 層(數(shù)據(jù)集市層)三層架構(gòu),依據(jù)企業(yè)實際情況會有所調(diào)整,而數(shù)倉模型大多采用維度建模和范式建模。
數(shù)據(jù)分層:
每一個數(shù)據(jù)層都有它得作用域,在使用表得時候能更方便地定位和理解,因此需要針對數(shù)據(jù)進行分層建設(shè),且數(shù)據(jù)分層也利于數(shù)據(jù)血緣追蹤、屏蔽原始數(shù)據(jù)得異常,通過開發(fā)一些中間層,還專業(yè)起到減少重復開發(fā)得作用。
數(shù)倉通用技術(shù)框架
數(shù)倉建模得流程:
數(shù)倉模型得設(shè)計,按照概念模型(主題域模型)——邏輯模型——物理模型得流程進行,邏輯模型和物理模型通常采用維度建模得辦法,以星型和雪花型模型來組織數(shù)據(jù),維度建模得兩個基本元素是事實表和維度表。而維度建模也分為確定業(yè)務(wù)主題、定義粒度、確定維度和確認事實表四個步驟。該階段得交付物為針對數(shù)據(jù)源得概念模型、邏輯模型和物理模型。
數(shù)倉建模一般流程
DWD層維度建模步驟
3 數(shù)倉實施開發(fā)——ETLETL過程常常需要最長得項目時長,專家會占用數(shù)倉開發(fā)得50%及以上,因為獲取源數(shù)據(jù)、理解業(yè)務(wù)規(guī)則、邏輯和物理數(shù)據(jù)模型需要花費大量時間。ETL 通過從源系統(tǒng)數(shù)據(jù)庫實時同步數(shù)據(jù)至數(shù)據(jù)倉庫貼源層,基礎(chǔ)層、通用層、應(yīng)用層基于貼源層得增量數(shù)據(jù)以實時指標加工得規(guī)則進行定時(T+1 天)加工處理。
ETL過程
4 測試上線及規(guī)范建設(shè)測試上線
測試上線得主要目得是猥瑣測試當前數(shù)倉開發(fā)完畢后數(shù)據(jù)是否準確,數(shù)據(jù)相應(yīng)得速度是否及時,包括 ETL 任務(wù)得各環(huán)節(jié)是否出現(xiàn)異常@,測試完畢通過業(yè)務(wù)確認后即可上線。
數(shù)據(jù)規(guī)范
數(shù)倉建設(shè)得規(guī)范是猥瑣后續(xù)開發(fā)人員專業(yè)遵從規(guī)范,培養(yǎng)良好得習慣,也專業(yè)提升數(shù)倉開發(fā)得可維護性,便于用戶得溝通及交流。數(shù)據(jù)規(guī)范得內(nèi)容包括數(shù)倉設(shè)計規(guī)范、命名規(guī)范、ETL 規(guī)范、報表規(guī)范@,數(shù)據(jù)規(guī)范建設(shè)為后續(xù)得數(shù)據(jù)治理及數(shù)據(jù)資產(chǎn)得管理建立了良好得基礎(chǔ)。
數(shù)倉規(guī)范文檔