何謂資料網格?
資料網格為使用分散式架構的資料管理方法。
資料網格概覽
資料網格代表查看資訊的新方式。資料本身是產品、工具、最終手段,並非只是企業收集並分析後面的概念,以回溯方式了解已經發生的事。
適用於資料湖泊挑戰的資料網格原則
談到資料湖泊、資料網格時,基本上我們指的是大數據。之所以是「大」數據,不僅僅是因為它的資料巨量。在其他準則中,大數據的定義也源自於其複雜、變動、迅速產生、非結構化的特性。
線性資料庫就像是試算表:它具有資料列和資料欄,而且所有資料元件都必須符合不可變動的類別。機器、感測器和工業來源產生的部份資料已結構化,並能整合至線性資料庫。無論您必須處理多少資料量,如果結構化程度為 100%,則不符合大數據標準,並可以儲存在線性資料庫中,讓篩選與擷取資料變得相對簡單。
但越來越多的現代大數據未經結構化,且由視覺元件、開放式文字,甚至影片和豐富的媒體所組成。這個關鍵資料可以包含許多公司數千 TB 的資訊,而且它無法儲存在標準的線性資料庫中。
接著出現資料湖泊。隨著大數據資料量開始增加,便開發了資料湖泊,可以以原始格式從中央資料庫儲存和存取複雜資料。雖然資料湖泊代表大數據問題的絕佳解決方案,但仍有弱點。資料湖泊缺少特定分析功能,因此需依賴其他擷取、索引編排、轉換、查詢和分析功能的服務。從企業管理角度來看,資料湖泊也面臨三大挑戰:
1. 複雜的所有權 當太多使用者可產生和存取資料,要定義資料湖泊的所有權便相當複雜。在沒有明確定義角色和責任的情況下,同一組資料可能會由各方以不同的方式管理,造成不一致,導致資料難以使用。同樣地,當最終使用者沒有積極管理其他資料,其他資料則會被忽略。資料網格架構可確保資料管理明確依網域分配,以便每個團隊或網域專家管理其產生和使用的資料。為因應此狀況,資料網格也使用聯合管理結構,讓資料建模、安全性政策和法規遵循受到集中控管。
2. 資料品質 當資料量過大,或當中央資料管理員本身不了解資料時,資料湖泊可能會無法確保資料品質。資料網格架構從根本上將資料視為有價值的產品,使資料的品質和完整性處於資料管理最優先的位置。可以預見,每個團隊都知道他們希望從收集的資料中推斷出最重要的標準和問題。透過將這些標準和優先順序整合至架構中,資料網格有助於確保在涉及較大的資料集時,持續且優先提供乾淨、最新和完整的資料。當然,套用機器學習演算法時,這些標準和結果資料集會隨著時間變得越來越準確和實用。
3. 瓶頸 由於資料湖泊的集中式架構,和傳統上困難的資料擷取流程和通訊協定,因此可能會產生瓶頸。這通常表示,管理大量已整合資料的工作落在單一 IT 或資料管理團隊身上。隨著資料量(以及擷取資料的需求)增加,這些 IT 團隊便會負擔過重。
此外,資料必須經過審查並適當結構化,以確保資料合規且遵循資料管理原則。當面對過多壓力時,可能會出現草草通過這些法規遵循階段的狀況,從而給公司帶來潛在風險和損失。另一方面,資料網格架構可讓經授權,且對資料擁有較大既得利益的專業使用者進行存取和控制,同時採用嚴格且無法避免的安全性通訊協定。
資料網格原則是在直接回應這些日益增長的資料湖泊挑戰時產生的。去中心化和普及化的資料管理架構,透過確保正確的資料立即可供適當人員隨時隨地使用,使企業更聰明、更靈活、更精確。資料網格使資料即產品成真,降低障礙並優先考慮資訊的價值,以便團隊更快速、不受阻礙地存取重要資料。
說明資料網格架構
我們已討論資料網格為何是去中心化的資料架構,將資料視為一項重要的商務管理工具。重要的是,各別團隊負責處理自己工作領域與專業知識範圍內的資料,同時確保遵循中央決定的資料管理實務。這種心態轉變是數據網格的核心。
為了進一步了解完成方式,我們可將資料網格架構視為有三個主要元件:
1. 資料來源代表輸入主要原始資料的資料庫(如資料湖泊)。無論是從雲端工業物聯網網路、客戶意見回饋表單或廢棄的網站資料收集而來,整個網路的使用者會視需要參考和處理這些原始輸入資料。雖然資料湖泊方法會將這些資料輸送漏至單一集中位置,但資料網格方法會將這些原始資料的接收、儲存、處理和擷取責任,分配給一系列負責的網域。
2.資料網格基礎架構表示此資訊不僅單獨位於個別部門網域內,也可在組織營運網路中任意共用,同時仍符合現行資料管理準則。這是資料網格兩大關鍵支柱帶來的直接結果:自助資料平台和聯合管理。自助資料平台提供每個網域所需的工具和基礎架構,以便在各處擷取、轉換、處理和提供其資料。同時,聯合管理原則確保了整個組織的標準化,讓所有領域團隊之間能輕鬆互通資料。
3. 資料所有人為資料網格的最終要件,負責套用部門資料的法規遵循、管理和分類通訊協定。例如,人力資源檔案必須使用特定的安全性通訊協定儲存,不得針對其他用途使用,而只能提供給指定人員。當然,每個部門都會有其部門或用途專屬的資料種類和類型。在資料湖泊系統中,IT 團隊必須為所有在資料湖泊中倒入資料的資料所有人,處理這些不同的通訊協定和種類。然而,資料網格架構讓網域所有人擁有完整權限並控制這些事務,因為比起領域專家,他們更擅長管理自己的資料,並確保符合品質標準。
資料網格實務:使用者和使用原因
為了讓資料管理解決方案更進化、更成功,它們必須與各種應用程式和作業具關聯性且能供其運用。隨著資料網格架構和操作方便度的改善,我們發現運用安全且分散的方式將資料作為產品和工具,能夠強化越來越多的業務功能。
以下為幾項常見業務使用案例:
銷售:對銷售團隊來說,最重要的是客戶開發、客戶育成和獲得潛在商機。您的銷售團隊成員在辦公桌前處理行政工作的時間越長,他們與新客戶建立關係的時間就越短。透過資料網格架構,銷售團隊使用者不需要擔任資料管理和擷取專家,便可隨手取得最強大且相關的資料集和組合。當銷售部門擁有所有適合分析的資料時,便能轉化為更實用的洞察和策略。
供應鏈和物流:現代供應鏈容易受到各式各樣的中斷影響。當公司可以快速轉向,並以同等的靈活度面對威脅和商機時,便可具備競爭優勢。從客戶的意見回饋,到工業物聯網網路和數位分身,現今的全球供應鏈資料快速地大量流入。當經驗豐富且熟練的供應鏈經理能夠即時規劃並深入這些資料集,企業便會獲得強大的洞察力和敏銳度。
製造:作為供應鏈的一環,公司的製造作業同樣容易受到快速變化的市場和多變的客戶需求影響。過去,設計團隊和研發團隊必須仰賴從其他部門取得的歷史客戶資料。如今,資料網格為製圖者、研發和測試團隊以及到製造現場的所有使用者提供即時資料存取。即時的客戶意見可以立即提供給產品開發團隊,而工業物聯網網路和數位模擬的最新資訊可協助工廠營運更安全、更快速、更有效率。
行銷:如今,客戶需求與期望正以前所未有的速度塑造未來、改變與成長。單一品牌通常在社群媒體、鎖定特定受眾的數位廣告,以及線上和全通路購物入口網站,擁有無數的消費者接觸點。目前市場上越來越多人期望能夠達到快速自訂、更短的產品生命週期,以及享有大量的選擇和競爭優勢。若要了解並運用這些趨勢,現代行銷人員需要即時並同步存取各種資料集。在過去,這代表必須向其他部門請求(並等待)資料。然而,透過設定資料網格,行銷人員可依自己的條件即時選擇並存取此資料。
人力資源:人力資源團隊必須管理大量極其複雜且敏感的資料。隨著遠端和混合工作場所的趨勢日益增加,資料也越趨複雜且依地區範圍而不同。更別提人力資源團隊必須盡速掌握不斷變化的法規遵循和法律問題。從聘僱到退休,人力資源主管必須能夠驗證、評估和分析任何組織中最不同的資料集。資料網格架構允許適當的安全性通訊協定和嚴格限制的存取權,同時,讓經過授權的人力資源使用者能夠快速存取資料和資訊,而不依賴複雜的內部通訊協定和多個部門間的繁瑣流程。
財務:與人力資源團隊一樣,財務和會計團隊也負責極為重要且敏感的資料。現代 ERP 系統為財務帶來變革,運用記憶體式資料庫技術自訂最新的報表、分析和預測。然而,即使財務團隊使用最佳的資料庫和 ERP,由於受到一直以來的制式文化、嚴重的資料孤島、繁瑣程序、不合時宜的流程所困擾,他們往往仍然面臨障礙。資料網格架構徹底翻轉檢視和管理財務資料的方式,甚至可能動搖停滯的思維,讓團隊有機會制定和修改老舊的資料流程。
資料網格顯然不只是另一個熱門概念,而是需要認真考慮的資料策略趨勢。各個大小和產業的公司都在使用資料網格,找尋運用資料來產生洞察和創造價值的方式。
資料網格效益
在過去,舊資料庫和有限的資料管理基礎架構建立了一個觀點:資料應儲存在單一儲存區中,並由幾位資料管理員自行決定。現在,資料是帶動您業務成長的助力,並應自由提供給領域專家,他們最清楚可以如何運用資料,並在競爭中獲利。
資料網格架構的主要優點可以彙總如下:
增加資料可存取性。資料網格確保組織內的所有適當人員皆可存取所需資料,使其在工作中發揮最佳狀態。
改善分析功能。當團隊將資料視為每天使用的產品時,便表示他們開始採用資料優先方法進行規劃和制定策略,進而減少錯誤,並採取更客觀、不過於主觀的業務開發方法。
可自訂的資料管道和流程。為邁向成功,團隊必須選擇專屬的自訂資料集,這因此帶來了極大的麻煩,也造成許多最優異、最可能獲利的專案都遭到擱置。透過資料網格,團隊可以快速存取和測試新的專案模型,而不需像從前一樣浪費時間或資源。
可減少瓶頸。這對 IT 團隊和資料所有人而言是明顯的雙贏。此外,減少挫折和麻煩的來源,可以幫助打破妨礙企業健全發展的資訊孤島。
減少對中央資料管理團隊的壓力。這不僅代表減少待處理項目和挫折感,也意味著為您的優秀 IT 團隊省去無數的時間,致力於更專業、有趣且可獲利的追求。