コンテンツにスキップする
写真:データウェアハウスのフローを検討する人々

データモデリングとは?

データモデリングとはデータの流れを図式化するプロセスです。新規または代替のデータベース構造を作成する際、設計者はまずデータベースに入出力されるデータの流れを図式化するところから始めます。このフロー図を使用して、データフローの要件を効率的に満たすデータのフォーマットや構造、データベース処理機能の特性を定義します。データベースの構築と導入が完了した後も、このデータモデルはデータベースの目的やデータフローの設計方法を明らかにする、ドキュメント化や妥当性の証明に生かされます。

 

上記のプロセスから得られたデータモデルは、データベース内のデータ要素間の関係性を定義する枠組みになるとともに、データの使い方に関する指針も示します。データモデルはソフトウェアの開発と分析の基盤となる要素です。データベースの内容の定義とフォーマットに関して、システム間で一貫性のある標準化された方法を提供し、さまざまなアプリケーションで同じデータを共有できるようにします。

データモデリングが重要である理由

包括的で最適化されたデータモデルは、冗長性を排除し、ストレージ要件を軽減し、効率的な検索を可能とする、シンプル化された論理データベースの作成に役立ちます。さらに、あらゆるシステムに「信頼できる唯一の情報源」を提供します。このような情報源は、効果的な運用とともに、法規制への立証可能なコンプライアンスに不可欠です。データモデリングはデジタルエンタープライズに不可欠な 2 つの機能を実現するうえで重要なステップになります。

IT のプロが進めるソフトウェア開発プロジェクト (新規またはカスタマイズ)

 
どのようなソフトウェアプロジェクトでも、設計と開発の前に、最終製品の概要や動作に対するビジョンをドキュメント化する必要があります。このビジョンの大部分は目的の機能を統制する一連のビジネスルールになります。その他の部分は、データの記述、つまりデータフロー(またはデータモデル)と、その基盤となるデータベース設計です。
 
データモデリングは、このビジョンを記録として残し、ソフトウェア設計者にロードマップを示します。データベースとデータフローを完全に定義およびドキュメント化し、それらの仕様に基づいてシステムを開発すれば、データの精度を維持するために必要な機能を期待通りに提供できるはずです(適切に手順が踏まれた場合)。
 

アナリティクスとビジュアル化(またはビジネスインテリジェンス)- ユーザーのための主要な意思決定ツール

 

データ量とユーザー数が増大したことで、組織は生データを意思決定のための行動につながる情報に変換する手段を必要としています。そのような状況で、データアナリティクスに対する需要が劇的に増大するのは当然です。データをグラフィック表示によってビジュアル化すれば、ユーザーにとって利用しやすくなります。

 

最近のデータモデルは、動的なビジュアル化が可能な形で、生データを有用な情報に変換します。データモデリングは、分析用にデータを用意します。データのクレンジング、メジャーとディメンションの定義のほか、階層の設定、単位と通貨の設定、数式の追加などによるデータの強化を行います。

 

データモデリングの種類

データモデルは主に 3 つの種類があります。リレーショナル、ディメンショナル、エンティティリレーションシップ (E-R) モデルです。その他にも、階層、ネットワーク、オブジェクト指向、多値などの一般的には使われていないものもあります。モデルの種類は、論理構造、つまりデータの論理的な保存方法と、そこから決まる保存、整理、検索の方法を定義します。

  1. リレーショナル:手法としては「古い」ものの、現在も引き続き最も一般的に使用されているデータベースモデルがリレーショナルモデルです。データを固定フォーマットのレコードとして保存し、行と列からなるテーブルに配置します。この最も基本的なデータモデルには、2 つの要素、メジャーとディメンションがあります。メジャーとは、数量や収益などの数値であり、合計や平均などの数学的計算に使用されます。ディメンションは、テキストの場合と数値の場合があります。計算には使用されず、説明や場所を保存します。生データはメジャーまたはディメンションとして定義されます。リレーショナルデータベースの設計で使用される、その他の用語として「リレーション」(行と列によるテーブル)、「属性」(列)、「タプル」(行)、「ドメイン」(列に使用できる値の集合)などがあります。その他にもリレーショナルデータベースを定義する用語や構造的要件は存在しますが、重要な要素は、その構造内に定義される関係性です。共通のデータ要素(またはキー)がテーブルとデータセットを結びつけます。1 対 1、1 対多、多対 1、多対多の親子関係のように、テーブル同士を明示的に関係付けることも可能です。
  2. ディメンショナル:厳密度と構造化の度合いが緩和されたディメンショナルな手法は、業務用途または背景情報などとより深く関連する、コンテキスト型データ構造に適しています。このデータベース構造は、オンラインクエリーやデータウェアハウスツール向けに最適化されています。例えは取引数量などの重要なデータ要素は「ファクト」と呼ばれ、「ディメンション」と呼ばれる参考情報、例えば製品 ID、単価、取引日などが付加されています。ファクトテーブルはディメンショナルモデルの一次テーブルです。特定の種類のアクティビティに必要なデータをまとめて保存することで、検索は高速かつ効率的になりますが、リレーションのリンクが存在しないため、分析的な検索やデータ利用が複雑化する場合があります。データ構造が、データを生成および使用する業務機能に直結しているため、異種システム(例えばデータウェアハウス)で生成されるデータとの結合に問題が生じる可能性があります。
  3. エンティティリレーションシップ (E-R):E-R モデルは、アクティビティや機能つまり「エンティティ」を表すさまざまな形のボックスと、関連付けや依存関係つまり「リレーションシップ」を表す線を含むグラフィックスの形で業務データ構造を表現します。次に、このモデルを使用して、各行がエンティティを表し、その行の中のフィールドに属性を保存したリレーショナルデータベースを作成します。あらゆるリレーショナルデータベースと同様に、「キー」データ要素を使用してテーブルをリンクします。

データ抽象化の 3 つのレベル

データモデルには、さまざまな種類があり、そのレイアウトにもさまざまな種類があります。データ処理のコミュニティでは、モデルの開発段階に沿った思考レベルに対応する 3 種類のモデリングが存在するとしています。

概念データモデル

 

これは、データ計画の全体の構造と内容を記述し、詳細には立ち入らない「全体像」的なモデルです。データモデリングは、一般的にここから着手し、組織内の各種データセットとデータフローを特定します。概念モデルは、論理および物理モデルの開発に使用する上位の青写真であり、データアーキテクチャのドキュメントの重要な部分を占めます。

 

論理データモデル

 

詳細度が 2 番目のデータモデルは、論理データモデルです。このモデルは、データフローとデータベースの内容を記述することから「データモデル」という言葉の一般的な定義に最も近いモデルになります。論理モデルは、概念モデルに含まれる全体構造に詳細を追加しますが、データベース自体の仕様は含まれません。モデルを異なる種類のデータベース技術や製品に適用できるようにするためです。(プロジェクトが単独のアプリケーションや他の限定的なシステムに関連するものである場合、概念モデルが存在しない場合もあります。)

 

物理データモデル

 

物理データベースモデルでは、論理モデルの実現方法を具体的に記述します。モデルには、技術者がハードウェアとソフトウェアに実際のデータベース構造を作成し、それを使用するアプリケーションの要求に応えられるように、十分な詳細情報を含める必要があります。言うまでもなく、物理データモデルは指定されたデータベーズソフトウェアシステムに固有なものになります。いくつかの異なるデータベースシステムを使用する場合は、1 つの論理モデルから複数の物理モデルを派生させる場合もあります。

データモデリングのプロセスと手法

データモデリングは本質的にトップダウンのプロセスです。全体像を確立する概念モデルから始めて、論理モデルへと進み、最終的に物理モデルに含まれる詳細設計に至ります。

 

概念モデル構築の大部分は、アイデアをプログラム開発者が使用するフローチャートに似た図式に変換するプロセスになります。

 

最新のデータモデリングツールは、論理および物理データモデルとデータベースの定義と構築を支援します。ここでは代表的なモデリングの手法と手順をご紹介します。

  • エンティティを決定しエンティティリレーションシップ図 (ERD) を作成します。エンティティは、「業務の対象となるデータ要素」と説明した方がわかりやすいかも知れません。例えば「顧客」はエンティティの例です。「売上」もそうでしょう。ERD では、これら各種のエンティティが業務の中で互いにどのように関係し、それらの間にどのような上位の接続が存在するのかをドキュメント化します。
  • ファクト、メジャー、ディメンションを定義します。ファクトとは、データのうち、製品の販売など、具体的な発生事象またはトランザクションを示す部分です。メジャーとは、数量、収益、コストなど定量的な情報です。ディメンションとは説明、場所、日付などの定性的な尺度です。
  • グラフィックツールまたは SQL クエリーを使用してデータビューのリンクを作成します。SQL に慣れていない場合は、グラフィックツールが最も直感的に使用できる選択肢です。モデルに要素をドラッグアンドドロップして視覚的に接続を構築できます。ビューの作成時に、複数のテーブルを 1 つの出力に結合したり、別のビューを結合したりできます。グラフィックビューでソースを選択して、既に出力に関連付けられているソースの上にドラッグした場合、これらのテーブルを結合するか (Join)、ユニオン (Union) を作成するか選択できます。

最新の分析ソリューションは、グラフィック表示上のドラッグアンドドロップによって、データソースの選択、フィルタリング、接続を簡単に行えます。データエキスパート(通常は IT 部門)向けの高度なツールもありますが、ビジネスユーザーが独自のストーリーを作成することも可能です。視覚的にデータモデルを作成し、テーブル、チャート、マップ、その他のオブジェクトを配置するだけで、データインサイトに基づいたストーリーを語ることができます。

placeholder

SAP Analytics Cloud の詳細はこちら

データインサイトに基づいたストーリーを語るデータモデルを作成する

データモデリングの例

業務用、エンターテインメント用、個人用、その他アプリケーションの種類を問わず、データモデルは、システムの設計時や、システム運用に必要なインフラストラクチャの定義時など、開発の早い段階から必要になります。ここでいうシステムには、取引システム、データ処理アプリケーションスイート、その他データを収集、作成、使用するあらゆるシステムが含まれます。

 

データモデリングはデータウェアハウスに不可欠です。データウェアハウスとは複数のソースから収集されたデータのリポジトリであり、類似または関連するデータが異なるフォーマットで保存される可能性が高いからです。はじめに、データウェアハウスのフォーマットと構造を綿密に定義する必要があります。各入力データセットの操作方法をデータウェアハウス設計のニーズに合わせて決定するためです。これによって分析やデータマイニングに適したデータが得られます。データモデルは、さらにこの後、分析ツール、エグゼクティブ向け情報システム(ダッシュボード)、データマイニング、あらゆるデータシステムとアプリケーションとの統合を実現するうえで重要な役割を果たします。

 

どのようなシステムでも、設計の初期段階では、データモデリングが他の手順や段階が拠り所とする重要な前提条件となり、そこからプログラム、機能、ツールのすべての基盤が確立されます。データモデルは、システム間の共通言語のようなものです。システムはモデルに記述されたとおりにデータを理解し、受け入れることで互いにやり取りすることができます。現在のようなビッグデータ機械学習人工知能クラウド接続IoT、エッジコンピューティングなどの分散システムの世界では、データモデルの重要性がかつてないほど高まっています。

データモデリングの進化

データ処理、データストレージ、コンピュータープログラミングの分野においては、データモデリングは、ごく現実的な意味で昔から存在していました。しかし、この用語自体が一般化したのは、おそらく 1960 年代にデータベース管理システムが進化しはじめた頃だと思われます。新しい構造のプランニングやアーキテクチャ構築という概念には、特に目新しい点もなければ、革新的な点もありません。データ、データベース、データの種類の増加に合わせて、データモデリング自体の構造化と定式化が進んだだけです。

 

現在、新しいデータソース(IoT センサー、位置認識デバイス、クリックストリーム、ソーシャルメディア)や、従来システムの能力を超える量とスピードで押し寄せる非構造化データ (テキスト、音声、動画、センサーからの生データ出力) への対応に躍起になっている技術者たちにとって、データモデリングの重要性がこれまでになく高まっています。こうした新種の開発の取り組みをまとめあげる、新しいシステム、革新的なデータベースの構造と手法、そして新しいデータモデルへの需要は恒常化しています。

データモデリングの次のステップ

あらゆる情報をつなげようとする環境と、センサー、音声、ビデオ、メールなど多種多様で膨大なデータの出現によって、IT のプロがカバーしなければならないモデリングプロジェクトの範囲は広がるばかりです。インターネットが、こうした進化の立役者の一つであることは間違いありません。クラウドはソリューションの重要な要素です。拡張を続けるコネクティビティの世界の、現在そして未来の要件に対応するのに十分な容量、拡張性、俊敏性を備える、唯一のコンピューティングインフラストラクチャだからです。

 

データベース設計の選択肢も変化しつつあります。10 年前、データベース構造の主流は、従来のディスクストレージ技術を使用した、行構成のリレーショナルデータベースでした。一般的な ERP の総勘定元帳や在庫管理は、更新とモデル化が必要な、数十もの異なるテーブルに保存されていました。現在、最新の ERP ソリューションでは、アクティブなデータがメモリー上に保存され、テーブルの数を激減させスピードと効率を高める列設計が採用されています。

 

ビジネスユーザー向けの新しいセルフサービス型のツールも進化し続けています。データのモデリングやビジュアル化を、今までになく簡単かつ共同作業しやすいものにする新しいツールも導入されるでしょう。

まとめ

考え抜かれた完全なデータモデルが、真の機能性、有効性、安全性、正確性を備えたデータベースの開発の鍵になります。最初に、データモデルのすべての構成要素と機能がレイアウトされた概念モデルを作成します。次に、それらの計画を論理データモデルに詳細化します。論理データモデルは、データフローを記述するとともに、必要なデータおよび、それを収集、処理、保存、配信する方法の定義を明確化します。論理データモデルは、データベース製品に固有の物理データモデルを駆動します。物理データモデルとは、データベースとアプリケーションソフトウェアの作成を導く詳細な設計文書です。

 

機能性、信頼性、安全性を備えたアプリケーションシステムやデータベースの開発には、優れたデータモデリングとデータベース設計が欠かせません。そうしたアプリケーションが、データウェアハウスや分析ツールと円滑に連携し、ビジネスパートナーとのデータ交換や、さまざまなアプリケーションセット間でのデータ交換を容易にします。よく考えられたデータモデルであれば、データの完全性を保証し、貴社のデータの価値と信頼性をさらに高めてくれるでしょう。

placeholder

最新データモデリングツールの詳細はこちら

データとビジネスコンテキストを結びつけてビジネスユーザーに洞察を引き出す能力を与える

その他の記事

SAP Insights ニュースレター

placeholder
今すぐ購読

ニュースレターを購読して、重要な情報や知見を手に入れましょう。

参考文献

先頭に戻る