
? ?數據孤島是指企業內部數據被隔離存儲,無法共享和交流。這會導致決策不準確、運營效率低下、部門協作困難等問題。而數據打通則是解決這些問題的關鍵步驟,它可以提升決策準確性、優化運營效率、促進部門協作,甚至發現潛在商業機會。通過打破數據孤島,企業能夠擁有全面、準確、及時的數據資產,為業務發展提供堅實的基礎。因此,現代企業都在努力打破數據孤島,實現數據的價值最大化。
數據處理-流
? ?企業數據處理的過程中,每個業務人員和數據之間需要有一個強大的工具,將數據規范化,處理數據模型,最后使用分析工具進行可視化的展示。
架構及中間件
數據傳輸離線數據同步
? ?離線數據主要采用DataX ETL工具,以輪詢或解析數據庫log的形式,將不同數據源的全量數據或增量數據同步到目標數據庫。
? ?在線數據采集
? ?在線數據主要通過SDK/API把實時數據發送到采集服務,經過特定的處理后轉存到kafka集群中,后端可以接入不同的消費端,進行實時數據的消費處理。
? ?應用場景
- 數據本地/異地災備
- 不停機遷移數據
- 數據遷移上云
- 數據歸檔存儲
- 搭建BI系統
- 數據實時分析數據倉庫 數據倉庫遵循標準的三層架構,對數據分層的定位主要采取維度模型設計,不會對數據進行抽象打散處理,更多注重業務過程數據整合。現有數倉主要以離線為主
業務數據層:包含 STG(數據緩沖層)與 ODS(操作數據層)兩層,這兩層數據結構與業務數據幾乎一致。
STG:也叫數據準備區,定位是緩存來自 DB 抽取、消息、日志解析落地的臨時數據,結構與業務系統保持一致;
負責對垃圾數據、不規范數據進行清洗轉換;該層只為 ODS 層服務。ODS:操作數據層定位于業務明細數據保留區,負責保留數據接入時點后歷史變更數據,數據原則上全量保留。模型設計依據業務表數據變更特性采取拉鏈、流水表兩種形式。
公共數據層:細分為 DWD(明細數據層)、DWS(匯總數據層)、DIM(公共維度層) 三層,主要用于加工存放整合后的明細業務過程數據,以及經過輕度或重度匯總粒度公共維度指標數據。公共數據層作為倉庫核心層,定位于業務視角,提煉出對數據倉庫具有共性的數據訪問、統計需求,從而構建面向支持應用、提供共享數據訪問服務的公共數據。
DWD:這一層是整合后的業務過程明細數據,負責各業務場景垂直與水平數據整合、常用公共維度冗余加工,以及明細業務標簽信息加工。DWS:匯總數據層按照主題對共性維度指標數據進行輕度、高度聚合。DIM:對維度進行統一標準化定義,實現維度信息共享。應用數據層:DWA 層,主要用于各產品或各業務條線個性化的數據加工,例如商業化產品數據、搜索推薦,風控等。