何謂資料倉儲?

資料倉儲(DW)是一種數位儲存系統,可連接和整合大量不同來源的資料。

資料倉儲概覽

資料倉儲(DW)是一種數位儲存系統,可連結與統整許多不同來源的大量資料。其目的是匯入商業智慧(BI)、報表系統與分析,並支援法規要求,讓企業能將資料轉化為洞察資訊,以制定明智、資料為本的決策。資料倉儲將目前和歷史資料儲存在單一位置,作為組織的單一事實來源。

 

資料從作業系統(例如 ERPCRM)、資料庫以及外部來源(例如合作夥伴系統、物聯網(IoT)設備、天氣應用程式及社群媒體)流入資料倉儲,且通常有固定的週期。雲端運算改變了原本的樣貌。近年來,資料儲存位置已從傳統的就地部署基礎設施移到各種不同的位置,包括就地部署、私有雲以及公有雲。

 

現代資料倉儲旨在處理結構化和非結構化資料,例如視訊、圖像檔案和感測器資料。有些企業能運用整合式分析和記憶體式資料庫技術(將資料集放在電腦記憶體中,而非磁碟儲存區中),即時存取可靠的資料,進而制定可靠的決策。若沒有資料倉儲,將很難結合不同來源的資料、確保使用正確的分析格式,也不易在一段時間後檢視當前和長期的資料。

什麼是資料倉儲?

何謂資料倉儲?

資料倉儲的優勢

設計完善的資料倉儲是成功 BI 或分析方案的基礎。其主要工作是支援當今企業不可或缺的報告、儀表板和分析工具。資料倉儲提供資訊讓您制定以資料為本的決策,從新產品開發到庫存水平的所有過程都能幫助您作出正確的判斷。資料倉儲有許多優是,且讓我們為您娓娓道來:

  • 改善企業分析:透過資料倉儲,決策者能夠存取多個來源的資料,不用再根據片斷的資訊制定決策。

  • 加速查詢:資料倉儲功能是專為加速資料擷取與分析而打造。透過 DW,您不需要太多 IT 的協助,即可迅速查詢大量的整合資料。

  • 提升資料品質:載入至 DW 前,系統會先建立資料清理案例,並輸入工作清單中供進一步處理,確保將資料轉換為一致的格式,以高品質、正確的資料進行分析和制定決策。

  • 歷史洞察資訊:透過儲存豐富的歷史資料,決策者能掌握過去的趨勢和困難、預測未來,並持續改善業務。

placeholder

顯示資料歷程的資料倉儲擷取畫面。

資料倉儲可以儲存什麼?

資料倉儲在 1980 年代末開始流行時,是設計用來儲存有關人員、產品和交易的資訊。這些資料稱為結構化資料,已經過仔細安排和格式化以利輕鬆存取。不過,很快企業就希望還能儲存、擷取和分析非結構化資料,包括文件、影像、視訊、電子郵件、社交媒體貼文與來自機器感測器的原始資料。

 

現代的資料倉儲能處理結構化與非結構化資料。透過合併不同的資料類型,打破資訊孤島,企業能獲得完整、全面的面貌,掌握最具價值的洞察資訊。

一些關鍵辭彙

DW 的領域中有許多辭彙,這裡是一些最重要的術語。您也可以在術語表中探索其他術語和常見問題。

 

資料倉儲與資料庫

 

資料庫和資料倉儲都是資料儲存系統,但用途不同。資料庫通常儲存特定業務範圍的資料。資料倉儲則儲存整個企業目前和歷史的資料,並提供 BI 和分析。資料倉儲使用資料庫伺服器從組織的資料庫中提取資料,並具有資料建模、資料生命週期管理、資料來源整合等附加功能。

 

資料倉儲與資料湖泊

 

資料倉儲和資料湖泊都用於儲存大數據,但是它們是截然不同的儲存系統。資料倉儲會儲存已針對特定用途格式化的資料,而資料湖泊會以原始、未處理的狀態(尚未定義目的)儲存資料。資料倉儲和資料湖泊往往能互補不足。例如,當需要儲存在湖泊中的原始資料來回答業務問題時,便可於資料倉儲中擷取、清理、轉換這些資料並用來進行分析。資料量、資料庫效能和儲存容量定價扮演著重要的角色,協助您選擇合適的儲存解決方案。

資料倉儲與資料湖泊的比較圖。

資料倉儲與資料市集

 

資料市集是資料倉儲的子區段,針對部門或業務別而區分,例如銷售、行銷或財務。部份資料市集也可能針對獨立的操作而建立。資料倉儲是整個公司的中央資料儲存區,而資料市集則會將相關資料提供給特定的使用者群組。如此可簡化資料存取、加速分析,並允許使用者掌控自己的資料。多個資料市集通常部署在一個資料倉儲中。

資料市集與其運作方式的圖表。

資料倉儲的主要元素有哪些?

典型的資料倉儲有四種主要元素:中央資料庫、ETL(擷取、轉換、載入)工具、中繼資料及存取工具。所有這些元素都以速度為設計理念,旨在讓使用者能快速取得結果並即時分析資料。

顯示資料倉儲元素的圖表。

  1. 中央資料庫:資料庫是資料倉儲的基礎。傳統上,這些是就地部署或在雲端執行的標準關聯式資料庫。但因為大數據,具有即時性、能大幅降低 RAM 成本的記憶體式運算資料庫正迅速竄起,廣受歡迎。
  2. 資料整合:從來源系統抓取資料後,根據資訊進行修改以快速分析消化,採用的資料整合方法包括 ETL(擷取、轉換、載入)、ELT、即時資料複製、大量處理、資料轉換、資料品質以及擴充服務。
  3. 中繼資料:中繼資料是資料的資訊。中繼資料說明資料倉儲中,資料集的來源、使用、價值以及其他特色。業務中繼資料會說明資料的背景。而技術中繼資料則說明如何存取資料,包括資料的所在位置以及組成方式。
  4. 資料倉儲存取工具:存取工具能讓使用者與資料倉儲中的資料互動。存取工具的範例包括:查詢與報表製作工具、應用程式開發工具、資料採集工具以及 OLAP 工具。

資料倉儲架構

過去,資料倉儲需配合業務資料的流程分層運作。

資料倉儲架構圖。典型的資料倉儲包括上述三個不同的階層。今日,現代的資料倉儲將 OLTP 與 OLAP 結合在單一系統中。

  • 資料層:從來源擷取資料,再透過 ETL 工具進行轉換並載入至最底層。底層包含資料庫伺服器、資料市集與資料湖泊。中繼資料亦建立於底層,而像是資料虛擬化的資料整合工具,則用來緊密結合與彙總資料。

  • 語意層:在中間層中,線上分析處理(OLAP)和線上交易處理(OLTP)伺服器會重組資料,以進行快速、複雜的查詢和分析。

  • 分析層:頂層為前端用戶端層。頂層擁有資料倉儲存取工具,可供使用者與資料互動、建立儀表板和報表、監控 KPI、採集與分析資料、建立應用程式等。頂層通常包含用來探索資料及開發新資料模型的工作台或沙盒。

資料倉儲是專為支援決策制定而設計,主要由 IT 團隊建立和維護,但過去幾年來已進化為提升業務使用者的能力,減少業務使用者在資料存取及推演實用的洞察資訊時,對 IT 的依賴。以下是可供業務使用者運用的幾種主要資料倉儲功能:

  1. 語意層或業務層提供自然語言詞組,讓每個人都能立即瞭解資料、定義資料模型中元素間的關係,並利用新的業務資訊充實資料欄位。
  2. 虛擬工作區可讓團隊將資料模型和關聯整合到一個安全且受管理的位置,透過單一的共同空間和單一的共同資料集,與同事更緊密地協作。
  3. 雲端提供豐富的工具與功能組合,全面提升員工能力,讓資料分析工作變得輕鬆自如,進而改善決策的制定。員工無需太多 IT 的協助,即可連結新的應用程式與資料來源。

雲端資料倉儲的七大優勢

雲端資料倉儲日益盛行,這是個好現象。相較於傳統就地部署型的倉儲,這些現代倉儲具有許多優勢。以下是雲端資料倉儲的七大優勢:

  1. 部署快速:透過雲端資料倉儲,只需幾下點擊即可購買幾乎無限量的運算能力和資料儲存容量,並可在短短幾分鐘內不限地點自行建立資料倉儲、資料市集和沙盒。
  2. 總擁有成本(TCO)低:資料倉儲即服務(DWaaS)的定價模型,讓您可以在需要時才購買所需的資源。您不需要預測長期的需求,也不需要購買一整年超過所需的運算力。您也可以避免前期成本,例如昂貴的硬體、伺服器機房和維護人員。區隔儲存容量的價格與運算能力的價格,還能讓您有機會降低成本。
  3. 彈性:透過雲端資料倉儲,您可以視需要動態向上或向下擴充。雲端提供了一個虛擬化、高度分散的環境,可管理可多可少的巨量資料。
  4. 安全性和災難復原:在多數情況下,雲端資料倉儲實際上比就地部署的資料倉儲提供更強大的資料安全性和加密功能。資料也能自動複製並備份,如此即可將遺失資料的風險降到最低。
  5. 即時技術:以記憶體式資料庫技術為基礎的雲端資料倉儲,可以極快的速度處理資料,提供即時情境感知所需的即時資料。
  6. 新技術:雲端資料倉儲可讓您輕鬆整合如機器學習等新技術,以建議詢問的問題等形式,為業務使用者提供引導式體驗與決策支援。
  7. 提升業務使用者能力:雲端資料倉儲能在單一位置檢視來自不同來源的資料,並提供豐富的工具與功能組合,全面性且平均地提升員工能力,讓資料分析工作變得輕鬆自如。員工無需太多 IT 的協助,即可連結新的應用程式與資料來源。
placeholder

資料倉儲支援依據部門、廠商、區域和狀態等,對公司費用進行全面性的分析。

資料倉儲最佳實務

在建立新資料倉儲或將應用程式新增至現有倉儲時,有些步驟已確定能為您達成目標,同時省下時間和金錢。其中一些著重於業務使用,另一些範例則屬於整體 IT 計劃的一部份。以下清單是很好的開端,您也可以與技術和服務合作夥伴一起再挑選更多最佳實務。

業務最佳實務

  • 定義所需資訊。一旦清楚掌握了最初的需求,即可找到支持這些需求的資料來源。通常,貿易團體、客戶和供應商能為您推薦合適的資料。

  • 記錄目前資料的位置、結構和品質。接著,您可以找出資料差距與業務規則,轉化資料以符合您的倉儲需求。

  • 建立團隊。團隊中包括高階主管贊助者、經理與員工,他們將是資訊的使用者和提供者。例如,找出完成工作所需的標準報告和 KPI。

  • 設定資料倉儲應用程式的優先順序。挑選一兩個具有合理要求與適當業務規則的試行專案。

  • 挑選強大的資料倉儲技術夥伴。這些技術夥伴必需擁有足夠的實作服務與經驗,以滿足您的專案需求。他們必須能夠支援您的部署需求,包括雲端服務以及就地部署選項。

  • 開發良好的專案計劃。與您的團隊一起制定能支援溝通與狀態報告的合理藍圖及時間表。

IT 最佳實務

  • 監控效能與安全性。資料倉儲中的資訊非常重要,但又必須便於存取,才能為組織創造價值。小心監控系統使用狀況,才能確保有高度的效能。

  • 維護資料品質標準、中繼資料、結構和管理。新的重要資料越來越容易取得,但將其納入資料倉儲進行一致的管理有其必要性。遵循資料清理、定義中繼資料的流程並符合管理規範。

  • 提供彈性靈活的架構。隨著貴企業和事業單位使用量的增加,資料市集與資料倉儲的需求也亦趨廣泛。相較於侷限性的產品,彈性的平台才能提供充份的支援。

  • 將維護等流程自動化。除了為商業智慧增添價值之外,機器學習還能將資料倉儲技術管理功能自動化,以保持速度並降低操作成本。

  • 策略運用雲端。事業單位與部門的部署需求各不相同。視需要採用就地部署系統,並利用雲端資料倉儲才能獲得更好的延展性、降低成本,並提供手機與平板電腦的存取。

總結

現代資料倉儲,以及日益增加的雲端資料倉儲,將成為母公司及其業務部門數位轉型方案的關鍵環節。這些資料倉儲會以當前的業務系統為主,特別是在需要將來自多個內部系統的資料,與來自外部組織的重要新資訊結合時。

 

儀表板、KPI、警示與報告可以支援高階主管、管理階層和員工的需求,也能支援重要的客戶與供應商需求。資料倉儲也提供快速、複雜的資料採集與分析,且不會干擾其他業務系統的效能。

 

現代資料倉儲技術具備可從小規模開始投資與隨需擴展的特性,有助於企業辦公室與業務單位改善決策制定和營運績效。

資料倉儲常見問題

資料湖泊是儲存各種大數據的地方,無論是企業應用程式的結構化資料,還是來自行動應用程式、社群媒體或物聯網(IoT)設備的非結構化資料。不管是結構化、非結構化、半結構化或二進位形式,由於資料是以其自然的形式儲存,因此可能需要予以轉化、常規化或其他處理,才能進行跨資料類型的分析。多數資料湖泊都是以雲端為基礎,才能因應資料儲存量巨大且需要高速連接分散來源和延展的特性。

ETL 代表「擷取、轉換和載入」。這些活動組成從來源取得資料,再將資料轉換為可用格式的流程,然後將資料移到資料倉儲或其他資料儲存區中。ETL 特別適合交易資料,但較進階的工具也能管理各種非結構化的資料類型。

資料市集是資料倉儲的一個獨立區塊,隸屬特定業務領域或團隊,如財務或行銷。資料市集能讓部門輕鬆地快速存取與其相關的資料和洞察資訊,也能讓部門管控較大資料儲存區內自有的資料集。

資料模型是軟體開發與分析的基本要素。資料模型說明資料的組成方式,以及資料將以何種形式儲存於資料庫中。資料模型提供資料庫內各資料元素間的關係架構,也提供使用資料的說明。

 

資料建模是指建立資料模型的流程。在建立資料庫或資料倉儲結構時,設計師一開始會先建立一個圖表,說明資料流入或流出資料庫或資料倉儲的方式。這個流程圖用來定義資料格式、結構以及資料庫處理功能的特色,以有效地支援資料流程的需求。建模作業提供了標準化的方法,可跨系統一致地定義和格式化資料庫的內容,使不同的應用程式能夠分享相同的資料。

企業資料倉儲(EDW)將所有目前和歷史的業務資料儲存在同一處,實現主檔資料管理、資料倉儲以及以全方位資料管理為基礎的資料策略。EDW 為分析軟體以及準確、全公司的 KPI 和報告維護,提供了一個受歡迎的環境。許多 EDW 都以雲端為基礎,以利於延展、存取和使用。

placeholder

探索現代資料倉儲工具

SAP Datasphere 是下一代的 SAP Data Warehouse Cloud 資料倉儲雲

placeholder

您在其他地方無法找到的想法

立即註冊以取得商務智慧,直接傳送至您的收件匣。

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel