何謂資料網格?
資料網格為使用分散式架構的資料管理方法。
default
{}
default
{}
primary
default
{}
secondary
資料網格概覽
資料網格代表查看資訊的新方式。資料本身是產品、工具、最終手段,並非只是企業收集並分析後面的概念,以回溯方式了解已經發生的事。
資料網格定義
資料網格為使用分散式架構的資料管理方法,換句話說,就是將整個企業特定資料集的所有權和責任分散給那些擁有專業知識的使用者,以了解該資料的含義,以及如何充分利用這些資料。
資料網格架構會擷取並串聯來自各個來源(例如資料湖泊和資料倉儲)的資料,並將相關資料集分配給企業中合適的人力專家和領域團隊。基本上,中央資料湖泊中大量的資料會加以排序並分配至可管理的區塊,以便最佳了解和運用資料。
資料網格起源
資料網格起源於 2009 年左右,用於因應大型複雜組織的資料架構規模化挑戰。資料網格的核心概念是將資料所有權和架構去中心化、將資料視為產品,並將責任指派給領域導向的團隊。資料網格結合領域驅動設計、產品思維和自助服務基礎架構的原則,讓組織可擴展資料系統,而不會造成單一瓶頸。
大型企業的集中式資料管理模型往往會因為以下原因而失敗:
- 交付瓶頸:單一中央團隊負荷過重,導致資料存取和分析速度降低。
- 擁有權差距:對於跨領域的資料品質缺乏明確的責任,造成標準不一致以及信任問題。
- 可擴展性問題:隨著資料量和複雜性的增加,集中系統難以在不產生大量間接成本的情況下擴大規模。
- 領域知識不足:中央團隊無法深入了解業務領域,導致低品質或不一致的資料產品。
- 有限的靈活度:變更需要透過單一團隊協調,將導致對不斷變化的業務需求回應速度下降。
資料網格效益
舊資料庫和有限的資料管理基礎架構建立了一個觀點:資料應儲存在單一儲存區中,並由幾位資料管理員自行決定。現在,資料是帶動您業務成長的助力,並應自由提供給領域專家,他們最清楚可以如何運用資料,並在競爭中獲利。
資料網格架構的主要優點可概括為三個類別:
可擴展性和靈活度
增加資料可存取性:資料網格確保組織內的所有適當人員皆可存取所需資料,使其在工作中發揮最佳狀態。
可自訂的資料管道和流程:為邁向成功,團隊必須選擇專屬的自訂資料集,這因此帶來了極大的麻煩,也造成許多最優異、最可能獲利的專案都遭到擱置。透過資料網格,團隊可以快速存取和測試新的專案模型,而不需像從前一樣浪費時間或資源。
減少瓶頸:這對 IT 團隊和資料所有人而言是明顯的雙贏。此外,減少挫折和麻煩的來源,可以幫助打破妨礙企業健全發展的資訊孤島。
品質和信任
改善分析功能:當組織將資料視為日常使用的產品時,便表示他們開始採用資料優先方法進行規劃和制定策略,進而減少錯誤,並採取更客觀、不過於主觀的業務開發方法。
跨領域協同合作和重複使用
減少對中央資料管理團隊的壓力:這不僅代表減少待處理項目和挫折感,也意味著為您的優秀 IT 團隊省去無數的時間,致力於更專業、有趣且可獲利的追求。
透過所有權去中心化並將資料視為產品,資料網格可讓組織更加敏捷、建立洞察信任,並在各個領域快速擴展。
資料網格的核心原則
談到資料湖泊、資料網格時,基本上我們指的是大數據。之所以是「大」數據,不僅僅是因為它的資料巨量。在其他準則中,大數據的定義也源自於其複雜、變動、迅速產生、非結構化的特性。
線性資料庫就像是試算表:具有資料列和資料欄,而且所有資料元件都必須符合不可變動的類別。機器、感測器和工業來源產生的部份資料已結構化,並能整合至線性資料庫。無論您必須處理多少資料量,如果結構化程度為 100%,則不符合大數據標準,並可以儲存在線性資料庫中,讓篩選與擷取資料變得相對簡單。
但越來越多的現代大數據未經結構化,且由視覺元件、開放式文字,甚至影片和豐富的媒體所組成。這個關鍵資料可以包含許多公司數千 TB 的資訊,而且無法儲存在標準的線性資料庫中。
接著出現資料湖泊。隨著大數據資料量開始增加,便開發了資料湖泊,可以以原始格式從中央資料庫儲存和存取複雜資料。雖然資料湖泊代表大數據問題的絕佳解決方案,但仍有弱點。資料湖泊缺少特定分析功能,因此需依賴其他擷取、索引編排、轉換、查詢和分析功能的服務。
資料湖泊帶來的挑戰可透過資料網格的四個原則化解:
1. 領域所有權
當太多參與者在產生和存取資料時,資料湖泊的所有權定義就變得非常複雜。在缺乏明確界定的角色和責任的情況下,同一組資料可以由不同方分別管理,這種不一致會導致其難以使用。同樣地,如果最終使用者並未主動管理其他資料,這些資料最終也會遭到忽略。
資料網格架構可透過分散所有權來解決此問題,確保依據領域明確分配資料治理,以便各團隊或領域專家管理其產生和使用的資料。若要備份,資料網格也可使用聯合的治理結構,以便集中控制資料模型化、安全性政策和法規遵循。資料網格所有權可界定責任歸屬,並改善資料可用性。
2. 資料作為產品
當資料量過大,或當中央資料管理員本身不了解資料時,資料湖泊可能會無法確保資料品質。資料網格架構從根本上將資料視為有價值的產品,使資料的品質和完整性處於資料管理最優先的位置。可以預見,每個團隊都知道他們希望從收集的資料中推斷出最重要的標準和問題。透過將這些標準和優先順序整合至架構中,資料網格有助於確保在涉及較大的資料集時,持續且優先提供乾淨、最新和完整的資料。當然,套用機器學習演算法時,這些標準和結果資料集會隨著時間變得越來越準確和實用。
3. 自助式資料平台
由於資料湖泊的集中式架構,和傳統上困難的資料擷取流程和通訊協定,因此可能會產生瓶頸。這通常表示,管理大量已整合資料的工作落在單一 IT 或資料管理團隊身上。隨著資料量(以及擷取資料的需求)增加,這些 IT 團隊便會負擔過重。
此外,資料必須經過審查並適當結構化,以確保資料合規且遵循資料管理原則。當面對過多壓力時,可能會出現草草通過這些法規遵循階段的狀況,從而給公司帶來潛在風險和損失。資料網格原則可支援自助式資料平台以解決此問題,讓經授權,且對資料擁有較大既得利益的專業使用者進行存取和控制,同時採用嚴格且無法避免的安全性通訊協定,如此可降低瓶頸,並加快資料交付。
4. 聯合治理
雖然去中心化是關鍵,但組織不能放棄治理,資料網格採用聯合管理模型來平衡自主性和一致性。這表示各領域管理自己的資料產品,但必須遵循整個組織的安全性、合規和互通性共用標準,這種資料網格管理的混合式方法可確保靈活度,而不會犧牲信任或合規性。
雖然資料網格存在挑戰,但去中心化且大眾化的資料管理架構已使得企業更聰明、更敏捷且更加精確,這是如何辦到的?透過確保正確的資料立即可供適當人員隨時隨地使用,資料網格使得「資料即產品」成為現實,降低障礙並優先考慮資訊的價值,以便團隊更快速、不受阻礙地存取重要資料。
資料網格架構和框架
我們已討論資料網格為何是去中心化的資料架構,將資料視為一項重要的商務管理工具。重要的是,各別團隊負責處理自己工作領域與專業知識範圍內的資料,同時確保遵循中央決定的資料管理實務。這種心態轉變是資料網格的核心。
資料網格架構的鳥瞰圖
在資料網格中,領域是指資料的核心產生者和使用者,各自擁有其資料作為產品,以確保品質和相關性。自助服務平台提供基礎架構來發佈、探索和使用這些資料產品,以及自動化安全性和法規遵循功能。治理以聯合模式營運,將全球標準與當地自主性的互通性和安全性平衡,因此領域可創新,同時維持整個組織的信任與一致性。
為了進一步了解資料網格架構如何搭配,讓我們深入探索其三個主要元件。
資料來源
這些代表輸入主要原始資料的資料庫(如資料湖泊)。無論是從雲端工業物聯網網路、客戶意見回饋表單或廢棄的網站資料收集而來,整個網路的使用者會視需要參考和處理這些原始輸入資料。雖然資料湖泊方法會將這些資料輸送至單一集中位置,但資料網格方法會將這些原始資料的接收、儲存、處理和擷取責任,分配給一系列負責的網域。
資料網格基礎架構
資訊不僅單獨位於個別部門網域內,也可在組織營運網路中任意共用,同時仍符合現行資料管理準則。這是資料網格兩大關鍵支柱帶來的直接結果:自助資料平台和聯合管理。自助資料平台提供每個網域所需的工具和基礎架構,以便在各處擷取、轉換、處理和提供其資料。同時,聯合管理原則確保了整個組織的標準化,讓所有領域團隊之間能輕鬆互通資料。
資料所有人
作為資料網格的最終要件,資料所有人負責套用部門資料的法規遵循、管理和分類通訊協定。例如,人力資源檔案必須使用特定的安全性通訊協定儲存,不得針對其他用途使用,而只能提供給指定人員。當然,每個部門都會有其部門或用途專屬的資料種類和類型。在資料湖泊系統中,IT 團隊必須為所有在資料湖泊中倒入資料的資料所有人,處理這些不同的通訊協定和種類。然而,資料網格架構讓網域所有人擁有完整權限並控制這些事務,因為還有誰比領域專家更適合管理自己的資料並確保其符合品質標準?
資料網格營運模型
資料網格營運模型匯集人員、流程和技術,大規模實現去中心化資料管理。此協同合作可確保整個組織的資料順暢流動,促進信任、靈活度和重複使用,無須仰賴單一的集中式團隊。資料網格會強制執行共通標準並提供通用平台、一致的格式和搜尋條件,以及用於發佈和使用資料產品的管理規則,進而實現互通性和可探索性。資料網格工具(如資料目錄和註冊)可讓團隊快速尋找、安全存取並使用整個組織的資料產品。
將資料網格想像成一個現代化城市:每個鄰里(網域)管理自己的公用事業和服務,例如水、電力和廢棄物,因為他們最了解當地的需求。城市提供道路和公共交通(自助平台)、安全標準(治理)等共用基礎設施,使街區可以相互通連、使用城市資源,有條不紊地合作。如此一來,資源便在城市內自由流動,大家遵循共同規律,創新在當地蓬勃發展,而整個城市的功能也能順利運作。
資料網格的實際運用:範例和使用案例
為了讓資料管理解決方案更進化、更成功,它們必須與各種應用程式和作業具關聯性且能供其運用。隨著資料網格架構和操作方便度的改善,我們發現運用安全且分散的方式將資料作為產品和工具,能讓組織強化越來越多的業務功能。
讓我們來探索一些常見的資料網格業務使用案例。
銷售
對銷售團隊來說,最重要的是客戶開發、客戶育成和獲得潛在商機。您的銷售團隊成員在辦公桌前處理行政工作的時間越長,他們與新客戶建立關係的時間就越短。透過資料網格架構,銷售團隊使用者不需要擔任資料管理和擷取專家,便可隨手取得最強大且相關的資料集和組合。當銷售部門擁有所有適合分析的資料時,便能轉化為更實用的洞察和策略。
銷售資料網格範例:區域或產品特定銷售團隊可擁有其 CRM 和階段資料領域,獲得準確的預測和即時儀表板,而無須等待中央 IT 團隊。
供應鏈與物流
現代供應鏈容易受到各式各樣的中斷影響。當公司可以快速轉向,並以同等的靈活度面對威脅和商機時,便可取得競爭優勢。從客戶的意見回饋,到工業物聯網網路和數位分身,現今的全球供應鏈資料快速地大量流入,經驗豐富且熟練的供應鏈經理若能即時規劃並深入這些資料集,企業將可獲得強大的洞察力和敏銳度。
供應鏈資料網格範例:供應鏈最佳化需要即時掌握存貨量、供應商績效和物流資料。資料網格提供每個領域(採購、倉儲、運輸)資料產品的所有權,實現更快速的決策和成本效益的營運。
製造業
作為供應鏈的一環,公司的製造作業同樣容易受到快速變化的市場和多變的客戶需求影響。過去,設計團隊和研發團隊必須仰賴從其他部門取得的歷史客戶資料。如今,資料網格為製圖者、研發和測試團隊以及到製造現場的所有使用者提供即時資料存取。即時的客戶意見可以立即提供給產品開發團隊,而工業物聯網網路和數位模擬的最新資訊可協助工廠營運更安全、更快速、更有效率。
製造資料網格範例:工廠層級的團隊可擁有感應器和機器效能資料,透過去中心化分析實現預測性維護,並減少停機時間。
行銷
如今,客戶需求與期望正以前所未有的速度塑造未來、改變與成長。單一品牌通常在社群媒體、鎖定特定受眾的數位廣告,以及線上和全通路購物入口網站,擁有無數的消費者接觸點。目前市場上越來越多人期望能夠達到快速自訂、更短的產品生命週期,以及享有大量的選擇和競爭優勢。若要了解並運用這些趨勢,現代行銷人員需要即時並同步存取各種資料集。在過去,這代表必須向其他部門請求(並等待)資料。然而,透過設定資料網格,行銷人員可依自己的條件即時選擇並存取此資料。
行銷資料網格範例:建立客戶全方位檢視需要整合多個管道的資料,例如電子郵件、社群和付費廣告。資料網格可讓每個通路擁有其資料產品,確保準確且即時的洞察,以打造個人化的行銷活動並提升客戶體驗。
人力資源
人力資源團隊必須管理大量極其複雜且敏感的資料。隨著遠端和混合工作場所的趨勢日益增加,資料也越趨複雜且依地區範圍而不同。更別提人力資源團隊必須盡速掌握不斷變化的法規遵循和法律問題。從聘僱到退休,人力資源主管必須能夠驗證、評估和分析任何組織中最不同的資料集。資料網格架構允許適當的安全性通訊協定和嚴格限制的存取權,與此同時,可讓經過授權的人力資源使用者快速存取資料和資訊,而不依賴複雜的內部通訊協定和多個部門間的繁瑣流程。
人力資源資料網格範例:招募、薪資和績效管理團隊可治理自己的資料網域,改善法規遵循並實現即時人力分析,進而制定策略性判斷。
財務
與人力資源團隊一樣,財務和會計團隊也負責極為重要且敏感的資料。現代 ERP 系統為財務帶來變革,運用記憶體式資料庫技術自訂最新的報表、分析和預測。然而,即使財務團隊使用最佳的資料庫和 ERP,由於受到一直以來的制式文化、嚴重的資料孤島、繁瑣程序、不合時宜的流程所困擾,他們往往仍然面臨障礙。資料網格架構徹底翻轉檢視和管理財務資料的方式,當組織支持團隊制定和修改老舊的資料流程時,甚至可能動搖停滯的思維。
財務資料網格範例:財務規劃團隊可以主掌收入、費用和投資資料領域,確保準確的預測和靈活的情境模型化,而不需要仰賴單一的中央團隊。
資料網格顯然不只是另一個熱門概念,而是需要認真考慮的資料策略趨勢。各個大小和產業的公司都在使用資料網格,找尋運用資料來產生洞察和創造價值的方式。
資料網格替代方案
雖然資料網格提供資料管理的去中心化方法,但並非唯一選項,傳統架構(例如資料湖泊和資料湖倉)仍廣泛用於集中和儲存大量資料,通常搭配結合結構化和非結構化資料功能的資料湖倉。其他模型(如資料結構)著重於建立統一層,以便跨不同系統的資料整合和彙整。每個替代方案會以不同的方式處理可擴展性、管理和易存取性,可視組織需求和成熟度進行選擇。
讓我們來看一下資料網格替代方案及其特點比較。
資料網格 vs. 資料湖泊/湖倉
資料網格 vs. 資料倉儲
資料網格與資料結構
建置資料網格
建置資料網格需要策略方法,以共享標準來平衡去中心化,關鍵資料網格步驟如下:
- 確定試點領域:首先選擇兩個或三個具有清晰商業價值和良好資料成熟度的領域,小規模試行。這些團隊將成為早期採用者,驗證資料網格模型效果,然後再擴展至整個組織。
- 建立平台:建立自助式資料平台,提供發佈、探索和使用資料產品的通用工具,其中包含資料目錄、API 和自動化安全性功能,可減少各領域團隊的摩擦。
- 定義聯合治理:建立治理政策,在全域強制執行安全、合規性和互通性標準,同時允許領域自主性。治理應包含清楚的角色、資料產品定義和品質期望。
應避免的反面模式
當資料網格以違反自然組織模式的錯誤方式落實時,可能導致混淆和意見相左。資料網格的反面模式是一種反覆出現的方法或做法,看似有幫助,但最終會破壞架構的核心原則,要避免模式反模式包括:
- 將資料網格視為另一個集中式資料湖泊。
- 忽視文化變革——單靠技術無法解決所有權問題。
- 在證明企業價值之前,對平台進行過度工程。
- 缺乏明確的資料品質責任。
- 擴展過快,而未驗證試行網域中的資料網格模型。
資料網格的五個最佳實務
- 小規模起步並迭代:在擴大規模前,透過試行網域調整流程。
- 將資料視為產品:定義各資料集的所有權、SLA 和可用性標準。
- 投資共用工具:讓領域團隊輕鬆發佈和探索。
- 盡早嵌入治理程序:從一開始就在自主權與法規遵循之間取得平衡。
- 專注於業務成果:根據可衡量的價值調整資料產品,而不只是技術目標。
透過結合領域所有權、強大的平台和聯合管理,組織可改善靈活度、信任和跨領域的協同合作,避免了傳統集中模式的瓶頸。
衡量和指標
評估成果時需要能平衡技術績效與業務成果的資料網格指標,這些度量包含:
-
資料產品品質 SLO/SLA: 必要,但必須為每個領域內容量身打造,而非統一套用。資料產品 KPI 範例如下:
- 資料新鮮度:資料產品在同意時間範圍內更新的百分比,例如每小時或每日
- 完整性:跨資料集的必要欄位已填入百分比
- 可用性:資料產品的可用時間,例如 99.9%
-
消費者採用和重複使用:能成為強而有力的價值指標,但若想準確測量,通常涉及到追蹤團隊的使用模式和反饋。消費者採用和重複使用的 KPI 範例如下:
- 各資料產品的專屬使用者數量
- 跨領域重複使用率:有多個領域使用的資料產品百分比
- 來自調查或反饋的消費者滿意度分數
-
洞察取得時間和服務成本:突顯效率的提升幅度(相較於集中式模型),但這些改善取決於組織成熟度和基準流程。洞察取得時間和服務成本的 KPI 範例如下:
- 從資料要求到取得可行動洞察的平均時間
- 相較於集中式模型的營運成本降低幅度
- 待處理的資料要求減少百分比
-
有機可乘的常見競爭者差距:瞄準競爭對手陷入困局的領域,並運用資料網格原則來超越他們。有機可乘的競爭者差距 KPI 範例包括:
- 透過資料產品功能解決的已知競爭者劣勢數量,例如改善探索性、更快速的資料存取
- 相較於競爭對手的新資料產品上市時間優勢
- 相較於競爭者預估值,自助式服務的採用率增加幅度
這些指標一同構成方向性的洞察,判斷資料網格是否提供靈活度、信任和延展性,而非僅考慮單一的基準。
資料網格常見問題
互通性定義為系統或產品,不需要使用者進行特別的操作,即可與其他系統或產品搭配使用的能力。Techtarget 補充,它可協助組織達到更高的效率和獲得更全面的資訊和資料檢視。如需詳細資訊,此開放式 MOOC 課程提供資料互通性的基本知識,以及不同類型及層級的資料互通性。
在資料內容中,互通性不僅限於簡單的連線能力,更包含可探索性(透過目錄或註冊輕鬆找到跨領域的資料產品);合約(關於資料綱要、API 和 SLA 的清楚、機器可讀協議,協助確保使用的一致性),以及共用標準(在領域之間流暢資料交換的共同管理、中繼資料和安全實務)。
互通性的範例是,當客戶領域發佈資料產品和客戶設定檔時,銷售領域便會使用此資料以擴充階段分析。互通性確保銷售團隊可探索目錄中的客戶資料產品、依賴其合約取得綱要和品質保證,以及使用共用標準進行整合,無需手動作業。
資料網格和資料架構是公司資料管理策略內的不同架構方法。
資料結構是以技術為本的方法,透過結合人工智慧、機器學習和進階分析,尋求越來越流暢的方式管理複雜的中繼資料和非結構化資訊。另一方面,資料網格依賴於資料結構內所有的技術發展,但更注重將資料管理流程與依賴資料的使用者進行整合,並從人類的觀點尋找精簡資料存取和實用性的方法。
資料網格與資料結構之間存在雞與蛋的關係:如果資料管理要按所需速度演進,就需要不斷推進資料結構技術。然而,若沒有人類流程及組織策略的後續演進,人們將無法正確運用先進的資料結構技術。隨著 DOS 和複雜的介面讓我們享受更流暢的電腦作業系統,以及這些流程和技術的進步,資料網格和資料結構的架構注定會越來越順暢。