何謂資料倉儲?
資料倉儲(DW)是一種數位儲存系統,可連接和整合大量不同來源的資料。
default
{}
default
{}
primary
default
{}
secondary
資料倉儲概覽
資料倉儲(DW)是集中式資料庫,可收集、整合和儲存多個來源的大量目前和歷史資料。其提供一致的單一真實資料源,支援商務智慧(BI)、報表製作和進階分析。透過整合及標準化資料,組織可以產生可靠的洞察、符合法規需求,並制定資訊充足且以資料為導向的決策。
資料通常來自作業系統(例如 ERP 和 CRM)、內部資料庫和外部來源,例如夥伴平台、物聯網裝置、天氣摘要和社交媒體。隨著雲端運算發展成熟,資料儲存已從傳統的就地部署環境轉向靈活的多雲端和混合式雲端架構。
現代資料倉儲旨在管理結構化和非結構化資料,例如影片、圖像和感測器串流。許多公司都採用整合的分析和記憶體式處理,實現更快速的查詢、即時資料存取,以及更有效率的報表製作和 BI 工作流程。若缺少資料倉儲,組織便難以合併複雜的資料來源、適當準備資料以供分析,並維護資料集間的可見度。
圖 1:資料倉儲概覽
資料倉儲的優勢
設計完善的資料倉儲是成功商務智慧、報表製作和分析的核心骨幹。透過將資料整合為單一真實資料源,可加速洞察,讓整個企業的決策制定更加完善、更有信心。主要效益包括:
- 更完善的企業分析:資料倉儲會將多個系統的資料整合為單一且一致的企業檢視,讓領導者可更輕鬆分析趨勢,並制定更睿智且以資料為導向的決策。
- 加速查詢和洞察:由於資料倉儲已針對分析(而非交易)最佳化,因此使用者可更快地在大型資料集上執行複雜的查詢,進而加速報表製作週期並降低對 IT 部門的依賴。
- 改善資料品質和一致性:資料會在進入倉儲前清理、驗證和標準化,確保分析是以高品質、可靠的資訊為基礎。高品質的資料可直接導向更完善的決策。
- 深入歷史洞察:資料倉儲保留豐富的歷史資料,更易於找出長期模式、評估績效,並建立更準確的預測,強化策略規劃。
圖 2:顯示資料歷程的資料倉儲擷取畫面
資料倉儲可以儲存哪些資料類型?
資料倉儲首次出現於 1980 年代後期,當時建立資料倉儲是為了儲存結構化資料,例如客戶明細、產品清單和交易記錄等有條理的資訊。隨著業務需求擴大,公司也希望運用非結構化資料,例如文件、圖像、影片、電子郵件、社交媒體發文,以及機器和物聯網裝置的感測器輸出。
現代資料倉儲可同時處理結構化和非結構化資料,將其整合在一起,為企業提供更全面、整合的檢視,取得更深入的洞察。
主要概念和比較
在資料倉儲的領域中有許多值得學習的內容。以下是一些最重要的概念。您也可以在術語表中探索其他定義和常見問題。
資料倉儲與資料庫
資料庫和資料倉儲皆儲存資料,但提供的角色不同。資料庫會管理特定業務範圍的即時資訊,而資料倉儲則結合整個組織的目前和歷史資料,以支援報表製作和分析。雖然資料倉儲的運作基礎是資料庫技術,但其新增了隨時間整合、建模和管理資料的工具。
資料庫會快速處理交易並更新記錄,以維持每日作業執行。資料倉儲支援分析,協助團隊找出趨勢、比較績效,並制定策略性決策。
資料倉儲與資料湖泊
資料倉儲和資料湖泊皆會儲存大量資料,但用途不同。資料倉儲存放可用於報表製作和分析的結構化、準備就緒資料,而資料湖泊則儲存將來可能會使用的原始、未處理資料。兩者經常搭配運作:原始資料位於資料湖泊,在需要分析時經過轉換並移入資料倉儲。
資料湖泊用於彈性且低成本的原始資料儲存。資料倉儲用於快速且可靠的結構式資料分析。多數組織皆受惠於兩者;資料湖泊擷取所有內容,而資料倉儲將其轉換為洞察。
圖 3:資料倉儲和資料湖泊的比較
資料倉儲與資料市集
資料市集是資料倉儲的子區段,針對部門或業務別而區分,例如銷售、行銷或財務。例如,銷售資料市集可能著重於潛在商機、銷售商機階段活動和已完成交易,而財務資料市集則著重於預算、預測和收入指標。
部份資料市集也可能針對獨立的操作而建立。資料倉儲是整個公司的中央資料儲存區,而資料市集則會將相關資料提供給特定的使用者群組。如此可簡化資料存取、加速分析,並允許使用者掌控自己的資料。多個資料市集通常部署在一個資料倉儲中。
圖 4:顯示資料市集運作方式的圖表
資料倉儲的關鍵要素
現代資料倉儲包含四個關鍵元件:中央資料庫、資料整合與擷取工具、中繼資料和存取工具。這些元件相輔相成,大規模提供快速、可靠的分析功能
圖 5:顯示資料倉儲組件的圖表
- 中央資料庫:倉儲的核心儲存引擎,傳統上為關聯式資料庫,但為提高效能,逐漸改為採用記憶體式或雲端原生系統。
- 資料整合和擷取:使用批次處理方法(例如 ETL 和 ELT)從來源系統導入資料,以及變動資料擷取複製和串流管道等即時選項。這些程序也會處理轉型、品質檢查和擴充作業。
- 中繼資料:說明資料的資訊,包括其來源、結構、意義及應用方式 - 同時涵蓋業務和技術內容。
- 存取工具:可讓使用者查詢、分析和與倉儲資料進行互動的工具,包含報表製作工具、儀表板、分析平台和應用程式開發工具。
資料倉儲架構
在歷史上,資料倉儲會組織成與透過系統移動資料的分層對齊。典型的資料倉儲包含三個層,而現代平台可簡化架構,加速資料移動和分析。
圖 6:資料倉儲架構圖
- 資料層:使用擷取方法(例如 ETL)從來源系統提取資料,然後轉換資料並載入至倉儲。此層包含核心資料庫、資料市集和資料湖泊,以及用於標準化與準備資料的中繼資料和整合工具。
- 語意層:此層可整理並模型化資料,方便查詢和分析,並提供策劃的檢視和業務定義,支援快速、一致的分析。
- 分析層:頂層提供使用者互動的工具 - 儀表板、報表、KPI 監控、進階分析和沙箱空間,用於探索資料和建立新模型。
資料倉儲傳統上由 IT 團隊建立並管理,但現代平台逐漸讓商務使用者能夠直接使用資料。推動此轉變的關鍵功能包含:
- 適用於商務的語意層,使用自然語言、釐清關係,並允許使用者使用新內容擴充資料。
- 將資料模型、邏輯和協同合作帶入單一管理環境的虛擬工作區。
- 雲端式工具,讓員工能更輕鬆地連結新資料來源、執行分析,並減少對 IT 的依賴,進而建立洞察。
資料倉儲如何運作?
資料倉儲會組織整個企業的資訊,以便輕鬆探索、信任和分析。此程序通常遵循四個簡單的步驟:
- 萃取 :從應用程式、資料庫和雲端服務等來源系統提取資料。在此階段會按原樣收集資料。
- 轉型:資料經過清理、標準化及塑造,因此資料一致且可供使用。這可能涉及移除錯誤、調整格式或套用商務規則。
- 載入:準備的資料會以結構化格式儲存在倉儲中,以便快速製作報表與分析。
- 分析:載入資料後,團隊便可使用儀表板、報表和進階分析進行探索,制定周全的決策。
ETL vs. ELT:有什麼不同?
ETL(萃取 → 轉換 → 載入):資料會在進入倉儲 前 進行轉換。此方法常見於處理能力有限的傳統資料倉儲。
ELT(萃取 → 載入 → 轉換):先將原始資料載入至倉儲,並在倉儲 內 轉換。現代雲端平台更傾向採用這種方法,因為這些平台可以有效率地處理大規模轉換。
資料倉儲的四大關鍵特性為何?
資料倉儲是以幾個核心原則為基礎,確保提供可靠、一致且可分析的企業資訊。四個關鍵特性如下:
- 主題導向:圍繞核心商業主題(如客戶或銷售)進行組織,以支援分析。
- 已整合:ERP 和 CRM 等不同系統的資料經過清理和標準化,因此資料可一致整合。
- 時間變式:長期儲存歷史資料,啟用趨勢和效能分析。
- 非揮發性:資料經載入即穩定,可讀取,但無法更新或刪除,確保可靠的真實資料源。
雲端資料倉儲效益
由於雲端資料倉儲在傳統就地部署系統上提供顯著優勢,因此逐漸受到歡迎。將資料倉儲移轉至雲端的七大效益如下:
- 快速部署:隨時隨地旋轉資料市集或沙箱等儲存、計算和新環境。
- 降低總擁有成本:僅需支付所使用的資源。避免硬體、設施和維護成本,並透過分隔儲存空間和計算來減少支出。
- 彈性:立即向上或向下調整以因應瞬息萬變的工作負載和大量資料,而無需手動作業。
- 安全性和災難復原:雲端平台通常提供更強大的安全控制、加密和自動備份,以防範資料遺失。
- 即時效能:記憶體式和雲端原生引擎提供快速的處理速度,取得即時洞察。
- 運用新技術:輕鬆整合機器學習、自動化洞察和進階分析等功能。
- 強化商務使用者:讓團隊能夠統一檢視資料,加上直覺式工具來分析資訊並連結新的來源,而不需要繁雜的 IT 人員。
圖 7:資料倉儲支援全面性費用分析
資料倉儲最佳實務
建立新資料倉儲或擴充現有資料倉儲時,遵循經實證的實務可協助您達成目標,同時節省時間和成本。其中一些實務著重於業務需求,而其他實務則屬於更廣泛的 IT 指導內容。您可參考以下清單作為穩健的開端,也可以與技術和服務合作夥伴一起調整改良這些實務。
企業最佳實務
- 定義您需要的資訊。首先識別您要回答的問題和您要支援的決策。從該處決定需要的資料來源。產業群組、客戶和供應商也可提供實用資料的指引。
- 記錄目前資料的狀態。記錄您的資料存在位置、資料結構及其品質,以找出差距、必要轉型以及倉庫將依賴的商業規則。
- 建立合適的團隊。包括執行贊助商、業務經理以及將仰賴洞察的一般使用者。了解他們成功所需的標準報表、KPI 和指標。
- 排列第一個專案的優先順序。從提供清楚商業價值和可管理範圍的一或兩位飛行員開始。早期勝利有助於鍛鍊動力。
- 選擇強大的技術夥伴。選擇具備公認經驗、建置支援以及符合您部署需求的平台。
- 建立實際的專案計劃。與您的團隊協同合作,建立清楚的規劃藍圖和時間表。定期通訊和狀態更新讓所有人保持一致。
IT 最佳實務
- 監控效能、存取和安全性。倉庫必須同時快速且受到保護。追蹤系統使用狀況、安全性事件和存取模式,確保資料安全無虞,同時讓授權使用者更容易到達。
- 維護資料品質、中繼資料、結構和管理。輸入倉庫的新資料必須遵循一致的規則。標準化清除、轉換、中繼資料定義和資料管理,讓使用者信任結果。
- 提供彈性的架構。隨著業務成長,團隊需要新的資料市集、模型和工作負載。可擴展的模組化架構比硬性或緊密結合的系統更符合這些需求。
- 自動化維護和作業。使用自動化和機器學習簡化工作細項,例如索引編排、監控、最佳化和更新。這會改善效能並降低營運成本。
- 策略性使用雲端。不同的團隊有不同的需求。視需要保留特定工作負載,同時使用雲端資料倉儲提升可擴展性、降低成本,並輕鬆存取各種裝置。
總結
現代資料倉儲(特別是雲端式倉儲)透過整合來自內部和外部來源的資料,完整且即時地檢視業務,在數位轉型中扮演核心角色。其支援整個組織的儀表板、KPI、警示和報表,支援快速、複雜的分析,而不影響作業系統。
因為他們可以輕易地從小規模開始,幫助企業團隊和事業單位做出更好的決策並提升績效。
常見問題
- 企業資料倉儲:EDW 是一間集中且公司級的資料倉儲,將所有目前和歷史資料儲存在同一處。提供一致的單一真實資料源,協助整個組織的分析、報表製作和 KPI。大多數現代化的 EDW 是以雲端為基礎,可擴展性且更容易存取。
- 營運資料儲存:ODS 為近乎即時的資料存放區,用於營運報表製作和日常活動。它位於交易系統和 EDW 之間,將多個來源的資料合併成更最新,但不是完全的歷史形式。針對快速營運決策,經常重新整理資料時相當實用。
- 資料市集:資料市集是資料倉儲的較小主體特定切片,專為特定團隊或業務單位(例如財務、銷售或市場)所設計。資料市集可讓您快速存取對該群組最重要的資料,無需公開整個倉儲。
- 中央資料庫:結構化、清除和整合資料的主要儲存層。這通常是關聯式、資料行或雲端原生資料庫,已針對分析進行最佳化。
- 資料整合/擷取工具:工具與程序,例如 ETL(擷取、轉換、載入)、ELT(擷取、載入、轉換)、批次載入和即時複製,將來源系統的資料帶入倉儲並準備使用。
- 中繼資料:說明資料的資訊:來源位置、結構方式、意義及使用方式。中繼資料可協助使用者了解並信任資料。
- 存取工具:可讓使用者查詢、視覺化、探索和分析資料的應用程式和介面,例如報表製作工具、儀表板、分析平台和 SQL 查詢工具。