何謂資料湖泊?
資料湖泊是集中的資料儲藏庫,有助於解決資料孤島問題。
default
{}
default
{}
primary
default
{}
secondary
何謂資料湖泊:定義和用途
資料湖泊是集中化的儲藏庫,以原生格式儲存結構化、半結構化和非結構化資料。不同於其他儲存前需要組織資料的儲存系統(例如資料倉儲),資料湖泊可接受原始資料,保留原始結構和格式,直到進階分析、人工智慧(AI)和機器學習(ML)使用案例需要為止。
資料湖泊的核心目的在於消除資料孤島,並為組織的資料資產建立單一來源,包含將多個來源的資料合併至易於存取的單一位置,也就是資料湖泊,以便資料科學家、分析師和機器學習工程師進行探索、實驗和擷取價值,避免在其他儲存方法下資料可能分散在不同系統的窘境。資料湖泊可儲存的資料來源範例包含:
- 資料庫
- 檔案
- 流程
- 應用程式日誌
- 社群媒體摘要
- IoT 感應器日誌
資料湖泊的目標是提供彈性、可擴展的解決方案,用於儲存和分析所有類型的資料,具體是透過讀取時套用綱要方法實現(相較於資料倉儲採用的寫入時套用綱要)。
讀取時套用綱要是什麼意思?
讀取時套用綱要(schema-on-read)表示資料在存取時才會套用結構和意義(即綱要),而非在儲存時套用。這可保留彈性,讓組織直接儲存資料,無需先確定資料未來的使用方式,因此,資料湖泊非常適合探索分析、資料採集、機器學習,以及發掘非預期的資料模式。
資料湖泊架構和元件
資料湖泊為多層架構,由多個關鍵元件組成,相互協作以為一般使用者和應用程式取得、儲存、處理和提供資料。資料湖泊的關鍵元件如下:
儲存層
儲存層是資料湖泊架構的基礎,通常建立在物件儲存系統上,為大量資料提供高成本效益且可擴充的儲存空間。此層級會以原生格式儲存資料,無論是 CSV 檔案、JSON 文件、Parquet 檔案、圖像、影片或其他格式。
資料擷取
資料擷取層可處理從不同來源將資料傳送至湖泊的程序,包含批次擷取以定期載入資料,以及即時資料流串流擷取。資料擷取工具必須處理不同的資料類型和來源,同時確保資料完整性並追蹤資料歷程。
資料目錄和中繼資料管理
目錄和中繼資料管理元件會維護湖泊內組織化的資料存貨,包含其位置、意義和其他資料的關係,可理解為資料庫或封存目錄管理員。強大的資料目錄可作為搜尋索引,讓使用者搜尋相關資料集,而無須手動瀏覽整個儲存庫。
處理層
處理層可支援資料轉換、清除、擴充和分析,此層級包含批次處理、串流處理和互動式查詢的引擎,可讓使用者針對特定使用案例進行前置處理,或是執行特別分析。
存取層
存取層為不同使用者類型提供介面和工具:使用筆記本的資料科學家、執行 SQL 查詢的分析師,或透過 API 使用資料的應用程式。這個層級也會強制執行安全政策,管理各角色可存取資料的範圍和條件。
資料湖泊的類型:雲端、就地部署、混合式、多雲端
資料湖泊有不同的類型,取決於組織部署資料湖泊的設定,每種設定各有優缺點。
雲端資料湖泊
雲端資料湖泊完全由雲端平台主控,可提供近乎無限的可擴展性、隨付即用的定價,並能輕鬆整合雲端原生分析和 AI 服務。雲端資料湖泊可免除前期基礎架構投資的需求,讓組織可獨立擴展儲存空間和計算資源,特別適合成長中的組織以及希望降低營運成本的公司,同時仍可存取尖端分析功能。
內部部署資料湖泊
就地部署資料湖泊部署於組織本身的資料中心內,能夠完全控制基礎架構、安全性和資料主權,並自行承擔全部責任。雖然有特定法規和安全性需求的組織有時會使用,但就地部署資料湖泊通常需要大量資本投資、持續維護,且任何轉型專案都需要龐大投入。這通常是一種權衡取捨:提高控制的細緻程度將會犧牲可擴展性和成本效益。
混合資料湖泊
混合式資料湖泊結合雲端和就地部署儲存空間,協助組織保留部份資料就地部署,同時仍使用雲端資源進行擴充性和進階分析,此方法更具彈性,但會衍生出資料同步化、治理和管理跨環境一致體驗的複雜性。
多雲端資料湖泊
多雲端資料湖泊橫跨多個雲端供應商,協助組織免於受制於特定供應商、使用每個供應商的最佳服務來優化成本,並透過冗餘量能來確保業務持續性。然而,多雲端架構必須仔細規劃資料互通性、確保安全政策一致,並管理雲端提供者之間的資料傳輸成本,這些因素也可能使得導入變革或創新變成更複雜的過程。
資料湖泊 vs. 資料倉儲 vs. 資料湖倉
若要為貴公司目標選擇正確的解決方案,必須了解這些資料儲存方法之間的差異。讓我們根據幾個關鍵標準來比較資料湖泊、資料倉儲和資料湖倉:
實際操作中的樣貌為何?
資料湖泊能以實惠成本儲存大量原始資料,並支援探索分析和機器學習。當您需要彈性來使用各種資料類型,且事先不知道資料的使用方式時,便適合採用此選項。資料湖泊也可儲存資料,之後再提取至資料倉儲。
資料倉儲是為商務智慧和報表所設計,其結構綱要針對查詢效能進行最佳化,這類儲存空間最適合明確定義的報表製作和模型化需求,重視資料品質和一致性,例如用於預測分析。實際上,資料湖泊中累計的資料甚至可經過處理並串流,或定期提取至資料倉儲,視資料管道的設定方式而定。
資料湖倉是較新興的架構,結合資料湖泊的彈性與資料倉儲的管理功能和效能,讓組織可在同一平台上執行探索式分析以及業務報表製作,減少重複資料和複雜度。
資料湖泊的優勢
資料湖泊的優點使其成為眾多組織的熱門選擇,也是現代資料架構的基石,資料湖泊架構的優點包括:
彈性:資料湖泊接受任何格式的資料類型,無需在儲存轉換,或是擔心遺失部份資料,因此您可以立即開始收集資料,而無需大量的預先規劃,或是掌握資料的使用方式。在讀取時才套用綱要的方法可讓不同團隊以各種方式利用和解譯相同資料,促進創新和探索。
可擴展性:透過資料湖泊,儲存空間可以從 GB 成長到 PB 級別,不需要變更或移轉架構,特別是透過雲端建置時,組織可以先小規模建置,並在資料需求成長時擴展。
成本效益: 資料湖泊在儲存方面的優點之一,便是其成本往往遠低於相同儲存量的傳統資料倉儲,讓保留歷史資料和探索新的資料來源的費用更實惠,而不會超出預算限制。
進階分析支援:資料湖泊可讓資料科學家和機器學習工程師存取原始資料,進行建立和訓練模型、資料採集和其他進階工作。不同於倉儲中的已處理資料,原始資料擷取會保留已證明對準確預測和洞察至關重要的細微差異和詳細資料。資料湖泊還可擷取串流資料來支援即時分析,讓公司能根據最新資訊採取行動。
資料民主化:資料湖泊架構的另一個優點在於,當所有組織資料都儲存在單一、可存取的位置時,組織內就有更多人員可探索和使用資料、打破資訊孤島,並在所有層級促進資料導向的決策。
常見資料湖泊挑戰
雖然資料湖泊提供了巨大的效益,但組織也需要解決一些問題才能充分發揮其潛能。常見的資料湖泊挑戰包括:
複雜的資料湖泊管理
儲存大量多樣化資料時,資料治理會變得更為複雜。如果沒有適當的管理架構,資料湖泊可能會發展成「資料沼澤」:資料在未經整理的情況下傾倒至儲藏庫,導致難以尋找、理解或信任。企業必須建立清楚的所有權、記錄資料歷程和管理中繼資料,但也需要持續的投入和紀律管理。
資料安全性考量
安全性和存取控制需要審慎處理。資料湖泊包含整個組織的敏感資訊,若要確保只有授權的使用者才能存取特定資料集,同時維護稽核軌跡,需要強大的安全政策和工具。加密、驗證、精細的存取控制和資料遮罩在保護資料湖泊環境中都扮演著重要角色,並可防止資料湖泊管理問題。
不平均的資料品質
資料湖泊不會自動確保資料品質,由於原始資料會依原樣儲存,因此可能包含錯誤、重複或不一致,組織需要將此資料經過驗證、清理和擴充流程,才能用於分析。若不注意資料品質,在湖泊資料上建立的分析和機器學習模型可能會產生不可靠的結果。
資料湖泊管理問題
複雜性和專業知識需求不容小覷,若想有效管理資料湖泊,將需要分散式系統、資料工程、中繼資料管理和各種處理架構中的技能。組織可能需要投資訓練、僱用專業人才,或與專家服務供應商合作,以建立和維護其資料湖泊基礎架構。
查詢時間過長
效能最佳化可能是一項難題,特別是大型資料集的互動式查詢,不同於具有預先最佳化綱要的倉庫,資料湖泊需要深思熟慮的資料組織、分割策略和檔案格式選擇,才能達到尚可的查詢效能。簡而言之,資料湖泊可包含難以想像的大量資料,因此尋找所需的資料可能需要一些時間。
資料湖泊範例與實際使用案例
資料湖泊用途的實際範例將展示組織如何使用資料湖泊來因應業務挑戰,並取得競爭優勢,讓我們將其拆分為幾個一般資料湖泊的使用案例。
資料湖泊使用案例:預測性維護的 IoT 分析
某家製造公司會收集來自數千台機器在多個設施中的感應器資料,每天產生以 TB 計量的時間序列資料,他們將此資料串流至資料湖泊,以合併其維護記錄、生產排程和供應商資訊,而機器學習模型會分析歷史模式,從而在設備故障發生前進行預測、減少停機時間並節省數百萬的維修成本。實現此使用案例的關鍵,在於資料湖泊可處理多個來源高速度串流資料的能力。
資料湖泊使用案例:用於個人化行銷的 Customer 360
某間零售組織會將客戶資料整合至資料湖泊,涵蓋線上瀏覽行為、購買歷史記錄、行動應用程式互動、客戶服務電話和交談、社交媒體互動以及店面造訪。透過分析每位客戶的全面檢視,該組織可建立詳細區隔,並打造個人化的行銷活動、產品推薦和客戶體驗,協助提升行銷活動成效,並大幅提升客戶滿意度。在此資料湖泊範例中的整體客戶檢視,便是藉助於可儲存結構化交易資料和非結構化互動日誌的彈性和容量。
資料湖泊使用案例:金融服務風險模型化
金融機構利用資料湖泊彙總交易資料、市場動態、新聞文章、社交媒體情緒和監管文件。資料科學家建立複雜的風險模型,同時考量傳統財務指標和其他資料來源,湖泊的讀取時套用綱要方法使其可探索各種資料來源和模型化技術,而不會中斷現有系統,推動更準確的風險評估。
資料湖泊最佳實務
請遵循下列資料湖泊的最佳實務,協助組織發揮資料湖泊的最大價值,同時避免常見的陷阱:
- 從第一天開始注重中繼資料的管理。建立全方位的資料目錄,記錄現有資料、來源位置、意義,以及與其他資料集的相關性。良好的中繼資料會將資料湖泊轉換為可搜尋且容易理解的資源,而不是難以負荷的資料轉儲,這是資料湖泊管理不可或缺的一部份。
- 確保資料湖泊治理。建置強大的資料管理架構,以定義資料所有權、建立品質標準,並建立清楚的資料擷取、分類和生命週期管理流程。治理不應在事後考慮,而是在一開始就將嵌入資料湖泊架構中,從而維護對資料的信任,並確保符合法規需求。
- 保護您的資料。設計安全性和法規遵循措施,包括建立靜態和傳輸的加密程序、精細的存取控制、稽核記錄以及必要的資料遮罩,並定期審查存取模式和權限,確保符合最低權限原則。
- 最佳化效能。依邏輯分割資料(按日期、地區或其他相關維度),選擇有效率的分析工作負載檔案格式,並建置生命週期政策以封存或刪除過期資料,這些選擇將顯著影響成本和查詢效能。
- 促進資料導向文化。提供支援自助服務分析的訓練和工具,推動探索和存取資料。若您的團隊沒有正確的專業知識,請考慮僱用其他人才來彌合業務相關人員的技術落差,並確保最佳的資料湖泊管理。技術基礎設施只有人們實際用於改善決策時,才能發揮價值。
資料湖泊的未來
資料湖泊隨著組織對彈性和治理的需求持續演進,從而促使資料湖倉架構的出現,結合湖泊和倉儲的優點,這種融合反映組織越來越需要支援各種方法的統一平台,而不是繼續針對不同用途採用不同的系統。
AI 和機器學習正逐步成為資料湖泊策略的核心。現代資料湖泊不只是儲存資料庫,更是一個中央平台,以 AI 模型訓練歷史資料、使用串流資料進行預測,並透過反饋迴圈持續改善。整合 AI 平台和自動化機器學習功能已是基準,而非特例。
組織逐漸意識到根據新鮮資料採取行動的價值,以及即時和串流分析日益重要,促使資料湖泊不斷演進,以支援亞秒級的資料處理和查詢,使歷史分析與即時營運之間的界線變得模糊。
最後,隨著資料隱私權法規在全球各地不斷擴充和改變,資料湖泊必須進化,內建支援資料隱私權和保護,具備自動資料分類、同意管理,以及平台內建的簡化法規報表製作等功能,而非額外新增。
常見問題