什麼是資料建模?
資料建模為將資料流程顯示為圖表的程序。
資料建模概觀
資料建模為將資料流程顯示為圖表的程序。在建立新的或替代的資料庫結構時,設計工具會從資料如何流入/出資料庫的方式圖表開始。此流程圖用於定義資料格式、結構和資料庫處理功能的特性,以便有效支援資料流程需求。建立和部署資料庫後,資料模型將繼續成為資料庫存在的原因以及資料設計方式的紀錄文件和理由。
此過程產生的資料模型提供了資料庫內資料元素之間的關係框架,以及資料使用指南。資料模型是軟體開發與分析的基本要素。它們提供標準化的方法,以便跨系統一致地定義及格式化資料庫內容,讓不同應用程式共享相同資料。
資料建模為何重要?
全面且最佳化的資料模型可協助建立簡化的邏輯資料庫,免除冗餘、降低儲存需求並實現有效的擷取。它也可以讓所有系統都具有「單一事實來源」,這對有效的營運和能夠符合法規和法規要求至關重要。資料建模是數位企業兩個重要功能的關鍵步驟。
由 IT 專業人員執行(新的或客製化)的軟體開發專案
在設計和建立任何軟體專案前,必須對最終產品的外觀和性能有一個記錄在案的遠景。這個願景的一個重要部分是管理所需功能的業務規則集。另一部分是資料說明 – 資料流程(或資料模型)和支援它的資料庫設計。
資料建模保留願景記錄,並為軟體設計者提供產品規劃藍圖。由於資料庫和資料流程已完全定義和記錄,且依據這些規格所開發的系統,系統應提供確保資料準確的預期功能(假設程序已正確遵循)。
分析和視覺化(或商務智慧)是使用者主要的決策工具
隨著資料量和使用者人數增加,組織需要一種將原始資料轉換為實用資訊的方法,以便制定決策。一如預期,資料分析需求大幅成長。資料視覺化透過圖形呈現資料,讓使用者更容易存取資料。
現今的資料模型會將原始資料轉換為實用資訊,並可轉換為動態視覺效果。資料模型會準備資料以供分析:清除資料、定義衡量和維度,以及透過建立階層、設定單位和幣別並新增公式來增強資料。
資料建模有哪些類型?
三種主要資料模型類型為關聯式模型、維度模型和實體關係(E-R)模型。還有其他一些不常用的資料模型,包含階層性模型、網路模型、物件導向模型和多值模型。模型類型定義邏輯結構(資料的邏輯儲存方式),以及儲存、組織和擷取的方式。
- 關聯式模型:儘管方法「較舊」,但目前仍在使用的最常見的資料庫模型是關聯式模型,它以固定格式的記錄儲存資料,並將資料排列在包含資料列和資料行的表格中。資料模型最基本的類型有兩個元素:衡量和維度。衡量是數值,例如數量和收入,用於總值和或平均值等數學計算。維度可為文字或數值。它們不會用於計算並包含說明或位置。原始資料定義為衡量或維度。其他用於關聯式資料庫設計的術語包括「關係」(含資料列和資料行的表格)、「屬性」(資料行)、「元組」(資料列)和「網域」(資料行中允許的值集)。雖然定義關聯式資料庫有其他術語和結構需求,但重要的因素是該結構中定義的關係。通用資料元素(或鍵)將表和資料集連結在一起。表格也可以明確關聯,例如父子關係,包括一對一、一對多或多對多。
- 維度模型:較不嚴格和結構化,有利於與業務應用或情境更相關的情境式資料結構。此資料庫結構已針對線上查詢和資料倉儲工具進行最佳化。關鍵資料元素,例如交易數量,被稱為「事實」,並附有稱為「維度」的參考資訊,例如產品 ID、單價或交易日期。事實表格是維度模型中的主要表格。擷取可以快速高效,將特定類型活動的資料儲存在一起,但缺乏關係連結會使資料的分析擷取和使用複雜化。由於資料結構與產生和使用資料的業務功能相關聯,因此結合不同系統(例如在資料倉儲中)產生的資料可能會出現問題。
- 豐富實體模型(E-R):E-R 模型以圖形形式表示業務資料結構,其中包含各種形狀的方塊以表示活動、功能或「實體」,線條用於表示關聯、相依性或「關係」。E-R 模型接著會用來建立關聯式資料庫,每一資料列代表一個實體,該資料列中的欄位包含屬性。與所有關聯式資料庫一樣,「關鍵」資料元素用於將表格連結在一起。
資料抽象的三個層級為何?
資料模型有多種類型,具有不同類型的可能配置。資料處理社群確定了三種建模來代表模型開發時的思維層級。
概念資料模型
這是「全局」模型,代表整體結構和內容,而非資料計劃的詳細資訊。這是資料建模的典型起點,用於識別組織的各種資料集和資料流程。概念模型為邏輯和實體模型開發的高階藍圖,且為資料架構文件的重要部份。
邏輯資料模型
第二個細節層級為邏輯資料模型。它與「資料模型」的一般定義最相關,因為它描述了資料流程和資料庫內容。邏輯模型會為概念模型中的整體結構新增詳細資訊,但不包含資料庫本身的規格,因為模型可套用至各種資料庫技術和產品。(請注意,若專案與單一應用程式或其他有侷限的系統相關,則可能沒有概念性模型。)
實體資料模型
實體資料庫模型說明邏輯模型如何實現的具體內容。這必須包含足夠的詳細資訊,讓技術人員在硬體和軟體中建立實際的資料庫結構,以支援將使用它的應用程式。毋庸置疑,實體資料模型是指定的資料庫軟體系統所特有的。若使用不同的資料庫系統,則可從單一邏輯模型衍生多個實體模型。
資料建模程序與技術
資料建模本質上是一個自上而下的過程,從概念模型開始建立整體願景,然後是邏輯模型,最後是實體模型中包含的詳細設計。
建立概念模型主要是將意見轉換成圖形形式的程序,類似於程式設計師的流程圖。
現代資料模型工具可協助您定義並建立邏輯和實體資料模型和資料庫。下列為幾個典型的資料建模技術和步驟:
決定實體並建立實體關係圖(ERD)。實體可更精確地描述為「對貴公司感興趣的資料元素」。例如,「客戶」為實體。「銷售」是另一個實體。在 ERD 上,您會記錄這些不同實體在業務中的相互關係,以及兩者之間存在的高階連線。
定義事實、衡量和維度。事實是指資料中顯示特定時間或交易(例如產品銷售)的部分。您的衡量是定量的,例如數量、收入、成本等。維度為定性衡量,例如說明、地點和日期。
使用圖形工具或 SQL 查詢建立資料檢視連結。若您不熟悉 SQL,則圖形工具是最直覺的選項,可讓您將元素拖放至模型並視覺化建立連線。建立檢視時,您可選擇將表格和其他檢視合併至單一輸出。當您在圖形檢視中選擇來源並將其拖放至已與輸出相關的來源上時,您可選擇連結或建立聯合表格。
現代分析解決方案也可使用圖形拖放顯示,協助您選取、篩選和連結資料來源。一般在 IT 部門工作的資料專家可使用進階工具,但使用者也可以透過視覺化方式建立資料模型和組織表格、圖表、地圖和其他物件,根據資料洞察呈現故事,從而創造自己的故事。
資料建模範例
無論是商業、娛樂、個人還是其他應用程式,對任何應用程式來說,資料建模都是設計系統和定義啟動系統所需基礎架構的早期必要步驟。這包含任何類型的交易系統、資料處理應用程式或套件,或其他任何收集、建立或使用資料的系統。
資料倉儲的資料建模勢在必行,因為資料倉儲是從多個來源引入的資料的儲藏庫,這些來源可能有不同格式的相似或相關資料。必須先繪製出倉儲格式和結構,決定如何操作每個傳入資料集,使其符合倉儲設計的需求,讓資料有助於分析和資料採集。資料模型是分析工具、執行資訊系統(儀表板)、資料採集,以及與任何和所有資料系統和應用程式整合的重要推手。
在任何系統設計的早期階段,資料建模是所有其他步驟和階段所仰賴的關鍵先決條件,以建立所有程式、功能和工具所依賴的基礎。資料模型就像一種共同語言,可讓系統透過了解和接受模型中所述的資料來進行溝通。在現今的大數據、機器學習、人工智慧、雲端連線、物聯網以及包括邊緣運算等分散式系統的世界中,這比以往任何時候更加重要。
資料建模的演變
實際上,資料建模和資料處理、資料儲存和電腦程式設計一樣歷史悠久,僅管這個術語本身可能只是在 1960 年代資料庫管理系統開始發展時才被普遍使用。規劃和建構新結構的概念並不新鮮,也沒有什麼創新。隨著越來越多資料、資料庫和資料種類的出現,資料建模本身也變得更加結構化和正規化。
如今,資料建模比以往任何時候都更加重要,因為技術人員需要應對新的資料來源(IoT 感測器、位置感知裝置、點擊流、社交媒體)以及大量非結構化資料(文本、音訊、影片、原始感測器輸出),其數量和速度都超出了傳統系統的能力。現在不斷需要新的系統、創新資料庫結構和技術,以及新的資料模型來將這一新開發工作緊密結合在一起。
資料建模的下一步是什麼?
資訊連線以及來自許多不同來源的資料,包括感應器、語音、影片、電子郵件等,可延伸 IT 專業人員的建模專案範圍。當然,互聯網就是這種演變的推手之一。雲端是解決方案的主要部分,因為雲端是唯一夠大、可擴充且夠靈活的運算基礎架構,可以在不斷擴展的連線世界中滿足目前和未來的需求。
資料庫設計的選項也在變化。十年前,主要的資料庫結構是採用傳統磁碟儲存技術的面向行的關聯式資料庫。典型 ERP 總帳或存貨管理的資料儲存在數十個需要更新和建模的不同表格中。現代 ERP 解決方案現今使用欄式設計將動態資料儲存在記憶體中,大幅減少表格數量並提高速度和效率。
對業務別專業人員而言,現今新推出的自助服務工具將持續改善。新工具也將推出,讓資料建模和視覺效果變得更加輕鬆且更具協作性。
摘要
規劃完善並完整的資料模型,是開發真正實用、有用且準確資料庫的關鍵。從概念模型開始,配置資料模型的所有元件和功能。接著將這些計劃精煉為邏輯資料模型,描述資料流並說明所需資料的定義,以及如何取得、處理、儲存和分配這些資料。邏輯資料模型會驅動資料庫產品特有的實體資料模型,且為指導建立資料庫和應用程式軟體的詳細設計文件。
良好的資料建模和資料庫設計對於開發功能強大、可靠且安全的應用程式系統和資料庫至關重要,這些系統和資料庫與資料倉儲和分析工具配合良好,並可促進業務夥伴和多個應用程式集之間的資料交換。規劃完善的資料模型有助於確保資料完整性,讓貴公司的資料更具價值且值得信賴。