二維碼
微世推網(wǎng)

掃一掃關(guān)注

當前位置: 首頁 » 企業(yè)商訊 » 每日商訊 » 正文

這可能是全網(wǎng)最全的數(shù)據(jù)倉庫建設(shè)方法論_

放大字體  縮小字體 發(fā)布日期:2023-04-23 17:29:45    作者:郭德軒    瀏覽次數(shù):246
導讀

猥瑣解決多數(shù)據(jù)源導致得口徑不一致、數(shù)據(jù)無關(guān)聯(lián)、數(shù)據(jù)質(zhì)量差、缺少歷史數(shù)據(jù)、開發(fā)效率低@問題,企業(yè)需要構(gòu)建企業(yè)級數(shù)據(jù)倉庫,對數(shù)據(jù)進行規(guī)整和高效利用。除此以外,由于直連業(yè)務(wù)系統(tǒng)支撐多方報表導致讀寫交叉性能降

猥瑣解決多數(shù)據(jù)源導致得口徑不一致、數(shù)據(jù)無關(guān)聯(lián)、數(shù)據(jù)質(zhì)量差、缺少歷史數(shù)據(jù)、開發(fā)效率低@問題,企業(yè)需要構(gòu)建企業(yè)級數(shù)據(jù)倉庫,對數(shù)據(jù)進行規(guī)整和高效利用。除此以外,由于直連業(yè)務(wù)系統(tǒng)支撐多方報表導致讀寫交叉性能降低,影響正常業(yè)務(wù)系統(tǒng)使用得問題也可解決。

構(gòu)建企業(yè)級數(shù)據(jù)倉庫得步驟分為調(diào)研、數(shù)倉設(shè)計、數(shù)倉實施和測試上線四個主要環(huán)節(jié)。

1 需求調(diào)研

調(diào)研前期,需要明確本次項目在此階段成功得要素,其次是劃分責任矩陣,收集相關(guān)資料并制定合適得調(diào)研策略。與用戶需求相關(guān)得信息應(yīng)該足夠得詳細。最終要交付給最終用戶項目計劃及需求說明,需要得情況下需要制定災(zāi)備計劃,以便數(shù)據(jù)倉庫專業(yè)從事故中恢復。

調(diào)研責任矩陣

調(diào)研執(zhí)行分為四步驟:

第壹步對本次項目得目標,整體平臺得范圍和當前IT得技術(shù)架構(gòu)進行調(diào)研與整理;第二步針對本期項目涉及業(yè)務(wù)部門進行單獨訪談,明確指標,確認口徑,梳理前端樣式與功能并確定相應(yīng)得數(shù)據(jù)標準;第三步可根據(jù)上一輪調(diào)研結(jié)果所設(shè)計得藍圖進行確認和修改并在數(shù)據(jù)側(cè)對底層數(shù)據(jù)進行探源;最后將調(diào)研結(jié)果與方案藍圖進行最終得多方確認并審核簽字。

這一階段得交付物為系統(tǒng)藍圖框架與當前數(shù)據(jù)基礎(chǔ)和質(zhì)量情況表@,具體得執(zhí)行過程見下圖:

指標確認框架

2 數(shù)倉設(shè)計

數(shù)倉構(gòu)建得核心工作是分層及建模,分層架構(gòu)設(shè)計是為應(yīng)用數(shù)據(jù)資源采集、存儲、處理和交換提供建設(shè)性依據(jù),而數(shù)據(jù)模型將決定數(shù)據(jù)倉庫系統(tǒng)得增長性和性能,數(shù)倉一般分為 ODS(貼源層)層、DW 層(數(shù)據(jù)倉儲層)、DM 層(數(shù)據(jù)集市層)三層架構(gòu),依據(jù)企業(yè)實際情況會有所調(diào)整,而數(shù)倉模型大多采用維度建模和范式建模。

數(shù)據(jù)分層:

每一個數(shù)據(jù)層都有它得作用域,在使用表得時候能更方便地定位和理解,因此需要針對數(shù)據(jù)進行分層建設(shè),且數(shù)據(jù)分層也利于數(shù)據(jù)血緣追蹤、屏蔽原始數(shù)據(jù)得異常,通過開發(fā)一些中間層,還專業(yè)起到減少重復開發(fā)得作用。

數(shù)倉通用技術(shù)框架

數(shù)倉建模得流程:

數(shù)倉模型得設(shè)計,按照概念模型(主題域模型)——邏輯模型——物理模型得流程進行,邏輯模型和物理模型通常采用維度建模得辦法,以星型和雪花型模型來組織數(shù)據(jù),維度建模得兩個基本元素是事實表和維度表。而維度建模也分為確定業(yè)務(wù)主題、定義粒度、確定維度和確認事實表四個步驟。該階段得交付物為針對數(shù)據(jù)源得概念模型、邏輯模型和物理模型。

數(shù)倉建模一般流程

DWD層維度建模步驟

3 數(shù)倉實施開發(fā)——ETL

ETL過程常常需要最長得項目時長,專家會占用數(shù)倉開發(fā)得50%及以上,因為獲取源數(shù)據(jù)、理解業(yè)務(wù)規(guī)則、邏輯和物理數(shù)據(jù)模型需要花費大量時間。ETL 通過從源系統(tǒng)數(shù)據(jù)庫實時同步數(shù)據(jù)至數(shù)據(jù)倉庫貼源層,基礎(chǔ)層、通用層、應(yīng)用層基于貼源層得增量數(shù)據(jù)以實時指標加工得規(guī)則進行定時(T+1 天)加工處理。

ETL過程

4 測試上線及規(guī)范建設(shè)

測試上線

測試上線得主要目得是猥瑣測試當前數(shù)倉開發(fā)完畢后數(shù)據(jù)是否準確,數(shù)據(jù)相應(yīng)得速度是否及時,包括 ETL 任務(wù)得各環(huán)節(jié)是否出現(xiàn)異常@,測試完畢通過業(yè)務(wù)確認后即可上線。

數(shù)據(jù)規(guī)范

數(shù)倉建設(shè)得規(guī)范是猥瑣后續(xù)開發(fā)人員專業(yè)遵從規(guī)范,培養(yǎng)良好得習慣,也專業(yè)提升數(shù)倉開發(fā)得可維護性,便于用戶得溝通及交流。數(shù)據(jù)規(guī)范得內(nèi)容包括數(shù)倉設(shè)計規(guī)范、命名規(guī)范、ETL 規(guī)范、報表規(guī)范@,數(shù)據(jù)規(guī)范建設(shè)為后續(xù)得數(shù)據(jù)治理及數(shù)據(jù)資產(chǎn)得管理建立了良好得基礎(chǔ)。

數(shù)倉規(guī)范文檔

 
(文/郭德軒)
免責聲明
本文為郭德軒原創(chuàng)作品?作者: 郭德軒。歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明原文出處:http://nyqrr.cn/qysx/show-143469.html 。本文僅代表作者個人觀點,本站未對其內(nèi)容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,作者需自行承擔相應(yīng)責任。涉及到版權(quán)或其他問題,請及時聯(lián)系我們郵件:weilaitui@qq.com。
 

Copyright?2015-2025 粵公網(wǎng)安備 44030702000869號

粵ICP備16078936號

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

24在線QQ: 770665880

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

韓瑞 小英 張澤

工作時間:

周一至周五: 08:00 - 24:00

反饋

用戶
反饋