media-blend
text-black

一位商務人士在商務會議中研究互動式螢幕上的圖表

資料湖泊與資料倉儲

資料湖泊會以原生格式儲存原始資料,無論其送達方式為何;資料倉儲會將資料經過清理,並以預先定義方式結構化再儲存。

default

{}

default

{}

primary

default

{}

secondary

資料湖泊和資料倉儲簡介

資料湖泊和資料倉儲是用於儲存、管理和擷取大量數位資料的系統。企業收集資料以協助取得營運、客戶、市場和供應鏈的洞察,從而採取更具策略性的應對方式。

資料倉儲成為打破資料孤島的解決方案,並解決企業資料分散於多個系統、部門且格式各異的挑戰。

這種不一致導致使用者難以存取、整合和分析這些資料以找出模式、預測需求或是評估業務績效。資料倉儲開發用於將這些資料整合至集中式儲藏庫,將資料經過整合、清理及結構化以供分析,此方法可建立「單一事實來源」,有效支援法規遵循、績效監控和商務智慧流程。

另一方面,資料湖泊的出現則是作為資料倉儲限制的解決方案,因為資料倉儲無法妥善處理來自社群媒體、物聯網裝置、感應器、行動應用程式等新來源所大量產生的非結構化和半結構化資料。由於傳統資料倉儲在一開始需要預先或事先清理和處理資料才能儲存,在實務上儲存和處理大量多元資料(例如圖像、影片和文字)過於昂貴且效率低落。

企業需要以更彈性、低成本的方法儲存原始格式的資料,因此建立資料湖泊作為解決方案。

如今,許多現代企業採用混合式方法,結合運用資料倉儲和資料湖泊:即資料湖倉,此架構可同時提供前者迅速的結構化報表製作功能,以及後者的 AI 和機器學習應用程式潛能。

資料湖泊與資料倉儲:關鍵差異

資料湖泊和資料倉儲之間的關鍵差異在於其儲存的資料類型,以及儲存資料的方式,兩者在組織的資料策略中都具有關鍵作用

資料倉儲會儲存已依據預先定義的結構或綱要進行清理和處理的結構化資料,由於是在資料儲存之前套用綱要,因此該方法稱為寫入時套用綱要(schema-on-write)。

例如,綱要可要求客戶 ID 資料必須為整數、訂單日期資料必須為 YYYY-MM-DD 格式,且總銷售金額資料必須為小數格式,由於所有資料皆遵循這些規則,使用者可快速且有把握地提出「尋找每位客戶在 2025 年 4 月的總銷售額」等查詢,這種速度和準確性使得資料倉儲非常適合報表製作、儀表板和商務智慧使用案例。

相較之下,資料湖泊能夠忽略資料結構,一律以原始格式儲存原始資料,無需事前預先定義的綱要。

由於僅在查詢資料時才需要定義綱要,因此這個方法稱為讀取時套用綱要(schema-on-read),原始資料只有在此時才會根據查詢進行剖析、結構化及解譯。

簡而言之,資料倉儲會在儲存資料前套用綱要,確保所有資料已結構化並清理以供使用;資料湖泊會在查詢資料時套用結構描述,且從最初就能儲存不限結構化與否的任何資料。

資料湖泊和資料倉儲之間的差異

資料湖泊
資料倉儲
資料類型
儲存結構化、半結構化和非結構化資料(例如日誌、影片、文字)。
僅儲存結構化資料(例如銷售交易、財務資料)。
綱要
讀取時套用綱要:在查詢資料時才會套用綱要。
寫入時套用綱要 :在儲存資料之前就先套用綱要。
使用者
資料科學家、工程師和分析師探索模式、訓練模型或執行機器學習工作流程。
業務分析師、主管和營運團隊產生報表和 KPI。
目的
適合大量多樣化原始資料的彈性儲存空間,可用於資料探索、AI 和機器學習。
集中式儲藏庫可儲存經過處理的結構化資料,適用於報表、儀表板和商務智慧。
成本估算
較低成本的物件儲存空間
由於預先處理及最佳化,因此儲存和處理成本較高。

在資料湖泊與資料倉儲之間選擇

由於資料湖泊可以任何格式儲存原始資料,因此資料湖泊非常適合需要彈性的企業。例如,零售商會從多個來源(例如網站、行動應用程式、社群媒體、銷售點系統等) 收集大量資料,由於收集的資料不需要清理、轉換或結構化,因此可採用更具成本效益且易於擴充的儲存系統,但相較於資料倉儲的最佳化查詢,其在查詢時處理原始資料的成本可能更高。

作為對比,資料倉儲的成本更高,載入前的清理、轉換和建構流程,以及載入後的索引編排和分割,都需要額外的資源和儲存空間運行,但這個最佳化處理所產生的資料可隨時供商務智慧、報表製作和營運分析使用。透過資料倉儲,分析師和高階主管可以產生報表、監控 KPI,並快速且輕鬆地制定周全的決策。

請特別留意,資料湖泊可開拓 AI 和機器學習應用程式的新機會,其中儲存的多樣化龐大資料集可讓資料科學家找到趨勢、建立預測模型,並執行機器學習應用程式,舉例而言,可讓推薦系統根據過去互動向使用者建議產品,或是透過自然語言處理工具對客戶評論或社群媒體評論進行情緒分析。

如今,許多現代企業執行的資料架構基本上都是兩者的組合,這些資料湖倉的設計目標是擁有資料倉儲的管理和效能,同時提供資料湖泊的彈性,雖然這種架構的採用率增長迅速,但許多企業仍仰賴傳統倉儲來進行重要報表製作。

實際範例和使用案例

以下範例說明不同產業如何使用資料湖泊、資料倉儲,或結合運用兩者的元素來支援其獨特需求。

醫療保健:醫院通常使用資料湖泊架構來儲存、管理和分析其營運所產生類型不同的大量資料。這包含非結構化的穿戴式裝置資料和醫療影像、半結構化的 HL7 病患資料和結構化的實驗室測試結果。透過將其全部整合在中央儲藏庫中,醫院可將進階分析和 AI 套用至原始資料,例如識別有風險的病患,或分析基因圖譜以制定個人化治療計劃。由於患者現在配備「智慧」穿戴式裝置,在生命徵兆上傳遞資料,醫療保健供應商甚至可以偵測早期預警徵象並更快介入治療。

金融:銀行和其他金融機構必須遵守反洗錢(AML)規則和嚴格的財務報告法規(如美國的沙賓·歐克斯法案或國際上的巴塞爾協議 III)。透過使用資料倉儲儲存多個系統的結構化財務資料(包含交易記錄、科目餘額和交易資料),可產生符合管理和安全性需求的法規報表。除了法規遵循之外,金融機構也運用資料倉儲來強化商業智慧、管控風險,並針對歷史及目前資料集執行複雜的查詢來偵測詐欺。

媒體:影片串流服務商使用資料湖倉方法收集、儲存和分析使用者資料,以提供個人化體驗,從多個來源擷取各種類型的資料,例如串流日誌和社群媒體反饋,並儲存在中央儲藏庫。這些資料便可用於建立機器學習模型以推薦最相關內容,相同的資料也可編整並結構化為分析或報表製作所需的子集、支援留存率儀表板,或為內容獲取決策提供資訊。

資料平台的新興趨勢

資料湖倉正迅速成為企業將資料價值最大化的優先選項,在單一平台上支援商務智慧、AI 和機器學習使用案例,但必須注意的是,這項技術仍在不斷演進,而部分企業還在繼續依賴傳統資料倉儲製作關鍵任務報表。

AI 推動生產力和效率的潛力對於資料架構有著顯著影響,一些新興的資料湖泊和資料湖倉平台現在已整合 LLM,這可讓非技術使用者以普通語言提出查詢來探索和分析資料,例如使用者可詢問「顯示 Q2 的銷售趨勢」,而 LLM 便會生成系統可理解的 SQL,這讓所有人員皆享有存取資料驅動洞察的權利。

無伺服器架構也是持續崛起的策略之一,企業會僱用雲端供應商來管理其資料基礎架構,在此協議中,公司會支付存取資料平台費用,而非自行設定和管理,優點是更易於擴充且成本效益更低,雲端供應商在資料量或查詢負載高峰時可提供頻寬彈性,且企業僅支付其使用費用。如此一來,開發人員就可以更快速地部署,無需煩惱基礎設施的問題。

有些企業甚至選擇採用多雲策略,將資料湖泊和倉儲分配給數個雲端服務,其主要效益是冗餘的彈性,若一個雲端離線,業務可由另一個雲端繼續執行,也可最佳化特定雲端上的特定工作流程,例如當某項服務專門用於機器學習時。在部分產業或國家/地區,敏感資料必須儲存在符合當地法規要求的地區或雲端提供者中。

若要連結、管理和治理多個雲端環境的資料,企業可以建置資料結構架構,可讓您即時存取分散於不同系統和應用程式但同步的資料,建立跨架構的統一檢視。

為保護醫療記錄、社會安全號碼和來源程式碼等敏感資料,組織也在資料平台採用零信任存取控制等政策,這些控制政策要求所有使用者驗證其身分,才能存取所需資料。

常見問題

何謂資料湖泊?
資料湖泊這種儲存系統的設計是將大量原始資料以原始格式保存,例如數字、文字、圖像、影片或日誌,可想向成一個巨型的「數位水庫」,廣納各種資訊但不立即整理。

資料湖泊對於要訓練機器學習模型以支援內容建議系統的資料科學家來說相當實用。
何謂資料倉儲?

資料倉儲這種儲存系統主要設計用來保留大量結構化的資料,結構化資料會以特定方式清理、整理和格式化(可想像成試算表定義的資料列和資料行)。更現代化的倉庫也可處理特定半結構化格式,例如 JSON 或 XML。

企業可使用資料倉儲快速解答問題、產生報表,並追蹤關鍵績效指標,這些功能分類為商務智慧。

何謂資料湖倉一體?
資料湖倉是現代的資料平台,結合了資料湖泊和資料倉儲兩者的優點,可以儲存所有類型的資料,例如原始、非結構化或半結構化,而不需要預先整理,可在需要時快速進行結構化分析和報表製作。
什麼是綱要?讀取時套用綱要與寫入時套用綱要有何差異?

綱要是組織資料的規則,例如可儲存的資料類型(數字、日期)、資料的排列方式(表格和資料行),以及資訊與彼此之間的關係。

寫入時套用綱要表示資料必須先符合預先定義的結構(綱要)才能儲存,這是資料倉儲的運作方式,事先確保資料乾淨,且可供預先分析。

讀取時套用綱要表示只有在有人要使用或分析資料時,才會為其套用結構,這是資料湖泊的運作方式,由於您可先將資料儲存在表單中,因此允許更多彈性,無須立即組織。然而,這項方法的代價是查詢時間較慢,且可能產生不一致,因為不同使用者可能會以不同方式解譯相同的原始資料。

相較之下,寫入時套用綱要會事先強制確保一致性,但便會降低彈性。

結構化、非結構化和半結構化資料之間的差異為何?

結構化資料經過高度組織化、易於搜尋,且通常可儲存在表格中,例如客戶名稱、銷售號碼和日期。

非結構化資料沒有固定格式,且難以組織,例如影片、圖像、音訊檔案和社群媒體貼文。

半結構化資料則介於兩者之間,存在一定組織性,但並不像表格那麼嚴格,例如像 JSON 檔案、XML 文件和電子郵件。

SAP 商標

資料價值,淋漓盡致

透過 SAP Business Data Cloud 全面整合。

了解更多