flex-height
text-black

資料中心內的伺服器空間

何謂資料倉儲?

資料倉儲(DW)是一種數位儲存系統,可連接和整合大量不同來源的資料。

default

{}

default

{}

primary

default

{}

secondary

資料倉儲概覽

資料倉儲(DW)是集中式資料庫,可收集、整合和儲存多個來源的大量目前和歷史資料。其提供一致的單一真實資料源,支援商務智慧(BI)、報表製作和進階分析。透過整合及標準化資料,組織可以產生可靠的洞察、符合法規需求,並制定資訊充足且以資料為導向的決策。

資料通常來自作業系統(例如 ERPCRM)、內部資料庫和外部來源,例如夥伴平台、物聯網裝置、天氣摘要和社交媒體。隨著雲端運算發展成熟,資料儲存已從傳統的就地部署環境轉向靈活的多雲端和混合式雲端架構。

現代資料倉儲旨在管理結構化和非結構化資料,例如影片、圖像和感測器串流。許多公司都採用整合的分析和記憶體式處理,實現更快速的查詢、即時資料存取,以及更有效率的報表製作和 BI 工作流程。若缺少資料倉儲,組織便難以合併複雜的資料來源、適當準備資料以供分析,並維護資料集間的可見度。

資料倉儲的優勢

設計完善的資料倉儲是成功商務智慧、報表製作和分析的核心骨幹。透過將資料整合為單一真實資料源,可加速洞察,讓整個企業的決策制定更加完善、更有信心。主要效益包括:

資料倉儲可以儲存哪些資料類型?

資料倉儲首次出現於 1980 年代後期,當時建立資料倉儲是為了儲存結構化資料,例如客戶明細、產品清單和交易記錄等有條理的資訊。隨著業務需求擴大,公司也希望運用非結構化資料,例如文件、圖像、影片、電子郵件、社交媒體發文,以及機器和物聯網裝置的感測器輸出。

現代資料倉儲可同時處理結構化和非結構化資料,將其整合在一起,為企業提供更全面、整合的檢視,取得更深入的洞察。

主要概念和比較

在資料倉儲的領域中有許多值得學習的內容。以下是一些最重要的概念。您也可以在術語表中探索其他定義和常見問題

資料倉儲與資料庫

資料庫和資料倉儲皆儲存資料,但提供的角色不同。資料庫會管理特定業務範圍的即時資訊,而資料倉儲則結合整個組織的目前和歷史資料,以支援報表製作和分析。雖然資料倉儲的運作基礎是資料庫技術,但其新增了隨時間整合、建模和管理資料的工具。

資料庫會快速處理交易並更新記錄,以維持每日作業執行。資料倉儲支援分析,協助團隊找出趨勢、比較績效,並制定策略性決策。

資料倉儲與資料湖泊

資料倉儲和資料湖泊皆會儲存大量資料,但用途不同。資料倉儲存放可用於報表製作和分析的結構化、準備就緒資料,而資料湖泊則儲存將來可能會使用的原始、未處理資料。兩者經常搭配運作:原始資料位於資料湖泊,在需要分析時經過轉換並移入資料倉儲。

資料湖泊用於彈性且低成本的原始資料儲存。資料倉儲用於快速且可靠的結構式資料分析。多數組織皆受惠於兩者;資料湖泊擷取所有內容,而資料倉儲將其轉換為洞察。

資料倉儲與資料市集

資料市集是資料倉儲的子區段,針對部門或業務別而區分,例如銷售、行銷或財務。例如,銷售資料市集可能著重於潛在商機、銷售商機階段活動和已完成交易,而財務資料市集則著重於預算、預測和收入指標。

部份資料市集也可能針對獨立的操作而建立。資料倉儲是整個公司的中央資料儲存區,而資料市集則會將相關資料提供給特定的使用者群組。如此可簡化資料存取、加速分析,並允許使用者掌控自己的資料。多個資料市集通常部署在一個資料倉儲中。

資料倉儲的關鍵要素

現代資料倉儲包含四個關鍵元件:中央資料庫、資料整合與擷取工具、中繼資料和存取工具。這些元件相輔相成,大規模提供快速、可靠的分析功能

  1. 中央資料庫:倉儲的核心儲存引擎,傳統上為關聯式資料庫,但為提高效能,逐漸改為採用記憶體式或雲端原生系統。
  2. 資料整合和擷取:使用批次處理方法(例如 ETL 和 ELT)從來源系統導入資料,以及變動資料擷取複製和串流管道等即時選項。這些程序也會處理轉型、品質檢查和擴充作業。
  3. 中繼資料:說明資料的資訊,包括其來源、結構、意義及應用方式 - 同時涵蓋業務和技術內容。
  4. 存取工具:可讓使用者查詢、分析和與倉儲資料進行互動的工具,包含報表製作工具、儀表板、分析平台和應用程式開發工具。

資料倉儲架構

在歷史上,資料倉儲會組織成與透過系統移動資料的分層對齊。典型的資料倉儲包含三個層,而現代平台可簡化架構,加速資料移動和分析。

資料倉儲傳統上由 IT 團隊建立並管理,但現代平台逐漸讓商務使用者能夠直接使用資料。推動此轉變的關鍵功能包含:

資料倉儲如何運作?

資料倉儲會組織整個企業的資訊,以便輕鬆探索、信任和分析。此程序通常遵循四個簡單的步驟:

  1. 萃取 :從應用程式、資料庫和雲端服務等來源系統提取資料。在此階段會按原樣收集資料。
  2. 轉型:資料經過清理、標準化及塑造,因此資料一致且可供使用。這可能涉及移除錯誤、調整格式或套用商務規則。
  3. 載入:準備的資料會以結構化格式儲存在倉儲中,以便快速製作報表與分析。
  4. 分析:載入資料後,團隊便可使用儀表板、報表和進階分析進行探索,制定周全的決策。

ETL vs. ELT:有什麼不同?

ETL(萃取 → 轉換 → 載入):資料會在進入倉儲 進行轉換。此方法常見於處理能力有限的傳統資料倉儲。

ELT(萃取 → 載入 → 轉換):先將原始資料載入至倉儲,並在倉儲 轉換。現代雲端平台更傾向採用這種方法,因為這些平台可以有效率地處理大規模轉換。

資料倉儲的四大關鍵特性為何?

資料倉儲是以幾個核心原則為基礎,確保提供可靠、一致且可分析的企業資訊。四個關鍵特性如下:

  1. 主題導向:圍繞核心商業主題(如客戶或銷售)進行組織,以支援分析。
  2. 已整合:ERP 和 CRM 等不同系統的資料經過清理和標準化,因此資料可一致整合。
  3. 時間變式:長期儲存歷史資料,啟用趨勢和效能分析。
  4. 非揮發性:資料經載入即穩定,可讀取,但無法更新或刪除,確保可靠的真實資料源。

雲端資料倉儲效益

由於雲端資料倉儲在傳統就地部署系統上提供顯著優勢,因此逐漸受到歡迎。將資料倉儲移轉至雲端的七大效益如下:

  1. 快速部署:隨時隨地旋轉資料市集或沙箱等儲存、計算和新環境。
  2. 降低總擁有成本:僅需支付所使用的資源。避免硬體、設施和維護成本,並透過分隔儲存空間和計算來減少支出。
  3. 彈性:立即向上或向下調整以因應瞬息萬變的工作負載和大量資料,而無需手動作業。
  4. 安全性和災難復原:雲端平台通常提供更強大的安全控制、加密和自動備份,以防範資料遺失。
  5. 即時效能:記憶體式和雲端原生引擎提供快速的處理速度,取得即時洞察。
  6. 運用新技術:輕鬆整合機器學習、自動化洞察和進階分析等功能。
  7. 強化商務使用者:讓團隊能夠統一檢視資料,加上直覺式工具來分析資訊並連結新的來源,而不需要繁雜的 IT 人員。

資料倉儲最佳實務

建立新資料倉儲或擴充現有資料倉儲時,遵循經實證的實務可協助您達成目標,同時節省時間和成本。其中一些實務著重於業務需求,而其他實務則屬於更廣泛的 IT 指導內容。您可參考以下清單作為穩健的開端,也可以與技術和服務合作夥伴一起調整改良這些實務。

企業最佳實務

IT 最佳實務

總結

現代資料倉儲(特別是雲端式倉儲)透過整合來自內部和外部來源的資料,完整且即時地檢視業務,在數位轉型中扮演核心角色。其支援整個組織的儀表板、KPI、警示和報表,支援快速、複雜的分析,而不影響作業系統。

因為他們可以輕易地從小規模開始,幫助企業團隊和事業單位做出更好的決策並提升績效。

常見問題

何謂資料湖泊?
資料湖泊是儲存各種大數據的地方,無論是企業應用程式的結構化資料,還是來自行動應用程式、社群媒體或物聯網(IoT)設備的非結構化資料。不管是結構化、非結構化、半結構化或二進位形式,由於資料是以其自然的形式儲存,因此可能需要予以轉化、正規化或其他處理,才能進行跨資料類型的分析。多數資料湖泊都是以雲端為基礎,才能因應資料儲存量巨大、需要高速連接至分散來源,以及對可擴展性的需求。儲存大量原始資料的能力使資料湖泊具備彈性和低成本的優點,可作為資料倉儲的輔助。
什麼是 ETL 和 ELT?
ETL 代表「擷取、轉換和載入」。這表示從來源系統取得資料、清除並將資料塑造為可用格式,並將其載入至資料倉儲或其他資料儲存的程序。許多現代系統也使用ELT——“擷取、載入和轉換”——先載入資料並事後轉換。兩種方法可協助將原始資料轉換為可以分析的資料,無論其來自交易系統或更複雜的非結構化來源。
什麼是資料市集?
資料市集是資料倉儲的焦點切片,專為特定業務範圍或團隊(例如財務或行銷)設計。能讓群組快速存取與工作最相關的資料,並可讓群組在較大的倉儲中管理自己策劃的資料集。例如,財務資料市集可能包含根據財務團隊報表製作需求量身打造的預算、預測和收入資料。
何謂資料建模?
資料建模是定義資料如何組織和連線的程序,讓資料可以有效儲存和運用。資料模型概述資料代表的內容,以及不同片段如何相互關聯,為跨系統的一致結構建立藍圖。例如,銷售資料模型可能會顯示客戶、訂單和產品如何相互連結以支援報表製作和分析。
什麼是企業資料倉儲(EDW)?
企業資料倉儲(EDW)是集中式系統,可將公司所有目前和歷史資料儲存在同一個地方。此系統能為分析、報表製作和公司整體的 KPI 提供單一且一致的資訊來源。許多 EDW 皆在雲端中執行,以實現輕鬆存取、擴展和管理。
三種資料倉儲類型為何?
  1. 企業資料倉儲:EDW 是一間集中且公司級的資料倉儲,將所有目前和歷史資料儲存在同一處。提供一致的單一真實資料源,協助整個組織的分析、報表製作和 KPI。大多數現代化的 EDW 是以雲端為基礎,可擴展性且更容易存取。
  2. 營運資料儲存:ODS 為近乎即時的資料存放區,用於營運報表製作和日常活動。它位於交易系統和 EDW 之間,將多個來源的資料合併成更最新,但不是完全的歷史形式。針對快速營運決策,經常重新整理資料時相當實用。
  3. 資料市集:資料市集是資料倉儲的較小主體特定切片,專為特定團隊或業務單位(例如財務、銷售或市場)所設計。資料市集可讓您快速存取對該群組最重要的資料,無需公開整個倉儲。
資料倉儲的四大要素是什麼?
  1. 中央資料庫:結構化、清除和整合資料的主要儲存層。這通常是關聯式、資料行或雲端原生資料庫,已針對分析進行最佳化。
  2. 資料整合/擷取工具:工具與程序,例如 ETL(擷取、轉換、載入)、ELT(擷取、載入、轉換)、批次載入和即時複製,將來源系統的資料帶入倉儲並準備使用。
  3. 中繼資料:說明資料的資訊:來源位置、結構方式、意義及使用方式。中繼資料可協助使用者了解並信任資料。
  4. 存取工具:可讓使用者查詢、視覺化、探索和分析資料的應用程式和介面,例如報表製作工具、儀表板、分析平台和 SQL 查詢工具。
SQL 是資料倉儲嗎?
不是。SQL 是用來查詢和管理資料的語言,而資料倉儲則是儲存、組織和處理大量資料以供分析的系統。SQL 只是資料倉儲內處理資料所用的其中一個主要工具。