コンテンツにスキップする
写真:データを見る女性

データウェアハウスとは?

データウェアハウス (DW) とは、多くの異なる情報源から得られる大量のデータを結びつけ調和させる、デジタルストレージシステムです。ビジネスインテリジェンス (BI) の提供、レポート作成、分析、規制要件への準拠を目的とし、企業がデータをインサイトに変換し、データ主導のスマートな意思決定を行えるようにします。データウェアハウスは、現行データと履歴データを一個所に保存し、組織の信頼できる唯一の情報源として機能します。

 

業務システム(ERPCRM など)、データベース、外部ソース(パートナーシステム、モノのインターネット (IoT) デバイス、天気予報アプリ、ソーシャルメディアなど)からデータウェアハウスへのデータフローは通常、一定頻度で発生します。クラウドコンピューティングの登場によりランドスケープはクラウドに移行しました。最近数年でデータストレージの場所は、従来のオンプレミスのインフラストラクチャから、オンプレミス、プライベートクラウド、パブリッククラウドなどの複数の場所へと移動しました。

 

最新のデータウェアハウスは、構造化データと非構造化データ(ビデオ、画像ファイル、センサーデータなど)の両方を処理できるように設計されています。分析やインメモリーデータベース技術(データセットをディスクストレージではなくコンピューターメモリーに保持する技術)を搭載し、信頼できるデータにリアルタイムでアクセスして確信を持った意思決定を行えるようにするデータウェアハウスもあります。異種ソースからのデータを組み合わせ、それを分析に適したフォーマットに変換したり、現行データと長期間の履歴データの両方を把握したりすることは、データウェアハウスがなければ不可能です。

データウェアハウスとは?

データウェアハウスとは?

データウェアハウスのメリット

適切に設計されたデータウェアハウスは、BI またはアナリティクスに関するあらゆる取り組みを成功に導く基盤となります。その主な役割は、現代のビジネスには必須となったレポート、ダッシュボード、分析ツールの原動力となることです。データウェアハウスはデータ主導の意思決定に必要な情報を提供し、新製品の開発から在庫レベルまであらゆる判断を的確に下せるようにします。データウェアハウスには、多数のメリットがあります。その一部をご紹介します。

  • より的確なビジネスアナリティクス:データウェアハウスを使用すれば、意思決定者は複数の情報源のデータにアクセスでき、不完全な情報に基づく判断を迫られることがなくなります。
  • より高速なクエリー:データウェアハウスは、高速なデータ検索と分析に特化して構築されています。データウェアハウスがあれば、IT 部門のサポートをほとんど、あるいはまったく受けずに、大量の統合されたデータに対して極めて高速なクエリーを実行できます。
  • データ品質の向上:データウェアハウスに読み込まれる前に、データクレンジングケースがシステムによって作成され、さらなる処理のためにワークリストに登録されます。これによって、データは、高品質で正確なデータに基づく分析(ひいては意思決定)に対応した、一貫性のあるフォーマットに変換されます。
  • 履歴に対するインサイト:データウェアハウスは、詳細な履歴データを保存します。これに基づいて、意思決定者は過去のトレンドや課題から教訓を得たり、今後の予想やビジネスの継続的改善を行ったりすることができます。

データの系統を示すデータウェアハウスのスクリーンショット

データウェアハウスに保存できるデータ

1980 年代終盤にデータウェアハウスが最初の広がりを見せたとき、人、製品、取引に関するデータを保存するように設計されていました。これらのデータは簡単にアクセスできるように、整然と体系化およびフォーマット化されていました(構造化データと呼ばれます)。しかし、その後すぐに企業はドキュメント、画像、ビデオ、メール、ソーシャルメディアの投稿、機械センサーからの生データなど、非構造化データを保存、検索、分析する機能も求めるようになりました。

 

最新のデータウェアハウスは、構造化データと非構造化データの両方に対応できます。これらのデータタイプを結合して、両者間のサイロを解消すれば、最も価値のある洞察に必要な完全で包括的な状況把握が可能になります。

主要な用語

データウェアハウスの世界を理解するための用語は多数あります。最も重要なものをいくつかご紹介します。その他の用語や FAQ は用語集をご覧ください。

 

データウェアハウスとデータベース

 

データベースとデータウェアハウスは、どちらもデータストレージシステムですが、その目的が異なります。データベースは通常、特定の業務領域のデータを保存します。データウェアハウスは、企業全体の現行データと履歴データを保存し、BI や分析機能を供給します。データウェアハウスは、データベースサーバーを使用して組織のデータベースからデータを引き出すほか、データモデリング、データライフサイクル管理、データソース統合、その他多くの機能も備えています。

 

データウェアハウスとデータレイク

 

データウェアハウスとデータレイクは、どちらもビッグデータの保存に使用されますが、まったく異なるストレージシステムです。データウェアハウスは、特定の目的に合わせてフォーマット化されたデータを保存するのに対し、データレイクは、使用目的がまだ定義されていない、未処理の状態の生データを保存します。データウェアハウスとデータレイクは、しばしば補完的な役割を果たします。例えば、業務上の疑問に答えるために、レイクに保存された生データが必要になった場合、データウェアハウス内で抽出、クリーニング、変換されたうえで分析に使用されます。適切なストレージソリューションの選定においては、データ量、データベースの性能、ストレージの価格設定が重要な役割を果たします。

データウェアハウスとデータレイク

データウェアハウスとデータレイクの比較図

データウェアハウスとデータマート

 

データマートはデータウェアハウスを構成する下位の要素で、セールス、マーケティング、財務など部門や職務によって個別に分割された領域です。特定の業務目的のためにスタンドアロンで作成されるデータマートもあります。データウェアハウスが会社全体の中心的なデータストアとして機能する一方、データマートは特定のユーザーグループに関連データを供給します。これによって、データアクセスのシンプル化と分析の高速化が可能となるとともに、それらのグループが自分たちのデータを管理できるようになります。多くの場合、データウェアハウス内に複数のデータマートがデプロイされます。

データウェアハウスとデータマート

データマートの仕組みを表す図

データウェアハウスを構成する主な要素

一般的なデータウェアハウスは、中央データベース、ETL(抽出/変換/ロード)ツール、メタデータ、アクセスツールの 4 つの主要要素によって構成されます。これらの構成要素はいずれも速度を重視して構築されているため、結果を迅速に得て、データをその場で分析できます。

データウェアハウスの構成要素

データウェアハウスの構成要素を示す図

  1. 中央データベース:データウェアハウスの基盤として機能するデータベースです。従来は、オンプレミスまたはクラウドで動作する、標準的なリレーショナルデータベースでした。しかし、ビッグデータ、真のリアルタイム性能に対するニーズ、RAM 価格の大幅下落によって、インメモリーデータベースが急速に人気を集めはじめています。
  2. データ統合:データは、さまざまなデータ統合手法によってソースシステムから抽出され、高速分析に利用できるフォーマットへと変換されます。データ統合の手法には、ETL(抽出/変換/ロード)と ELT のほか、リアルタイムのデータ複製、一括ロード処理、データ変換、データ品質とデータ強化サービスなどがあります。
  3. メタデータ:メタデータとはデータに関するデータです。データウェアハウス内のデータセットのソース、用途、値、その他の特性を指定します。データに背景情報を付加するビジネスメタデータ、保存場所や構造など、データへのアクセス方法を記述した技術メタデータなどがあります。
  4. データウェアハウスアクセスツール:ユーザーは、アクセスツールを使用してデータウェアハウス内のデータを操作できます。アクセスツールの例として、クエリーとレポートのツール、アプリケーション開発ツール、データマイニングツール、OLAP ツールなどがあります。

データウェアハウスのアーキテクチャ

かつてのデータウェアハウスは、ビジネスデータのフローに対応したレイヤー構造になっていました。

データウェアハウスのアーキテクチャ図

データウェアハウスのアーキテクチャ図:一般的なデータウェアハウスには、上記の 3 つの独立したレイヤーがあります。最新のデータウェアハウスでは、OLTP と OLAP が単一のシステムに統合されています。

 

  • データレイヤー:データは ETL ツールによってソースから抽出され、変換後に、この最下層にロードされます。最下層はデータベースサーバー、データマート、データレイクで構成されます。この層でメタデータが作成され、データをシームレスに結合、集約するために、データ仮想化などのデータ統合ツールが使用されます。
  • セマンティックレイヤー:この中間層ではオンライン分析処理 (OLAP) とオンライントランザクション処理 (OLTP) サーバーが高速で複雑なクエリーやアナリティクスのために、データを再構成します。
  • アナリティクスレイヤー:この最上層は、フロントエンドクライアントのレイヤーです。データウェアハウスアクセスツールが含まれ、これを使用してユーザーは、データの操作、ダッシュボードやレポートの作成、KPI の監視、データのマイニングや分析、アプリの作成、その他多くの作業を実行できます。多くの場合、この層はデータの探索や新しいデータモデル開発のためのワークベンチまたはサンドボックス領域を備えています。

 

データウェアハウスは意思決定を支援するために設計されてきました。そして主に IT チームによって構築、保守されてきましたが、ここ数年の間にビジネスユーザーの能力を強化するような進化を遂げ、データへのアクセスや行動につながる洞察を導き出す際の IT 部門への依存度が低くなってきました。ビジネスユーザーの能力を高めるデータウェアハウスの主要機能をいくつかご紹介します。

  1. 自然言語のフレーズを提供するセマンティックまたはビジネスレイヤー。あらゆるユーザーが、即座にデータを理解し、データモデル内の要素間の関係を定義し、新しいビジネス情報によってデータフィールドを拡充できます。
  2. データモデルと接続を 1 つの安全で統制された場所にまとめることができる仮想ワークスペース。単一の共通スペースと、単一の共通データセットを介して、業務の連携が促進されます。
  3. クラウド。データ分析タスクを簡単に実行するための充実したツールセットと機能を、世界中の従業員に提供し、意思決定の質をさらに高めます。IT 部門のサポートをさほど受けずに、新しいアプリやデータソースを取り込めます。

    今すぐ始める

    SAP のクラウドデータウェアハウスを今すぐ試す

    クラウドデータウェアハウスの 7 つのメリット

    クラウドベースのデータウェアハウスの人気が高まっているのには、相応の理由があります。これらの最新データウェアハウスは、従来のオンプレミスバージョンに比べて、いくつか有利な点があります。ここでは、クラウドデータウェアハウスがもたらすメリットの上位 7 つをご紹介します。

    1. 迅速な導入:クラウドデータウェアハウスでは、数回クリックするだけで、ほとんど無制限とも言えるコンピューティングパワーとデータストレージを購入できます。そして、あらゆる場所から数分で、独自のデータウェアハウス、データマート、サンドボックスを構築できます。
    2. 総所有コスト (TCO) の削減:DWaaS (DataWarehouse as a Service) の価格モデルが設定されるため、必要なとき必要なリソースに支払うだけで済むようになります。長期にわたる必要量の予測をしたり、1 年を通して必要以上のコンピューティングリソースに支払ったりする必要がなくなります。また、高価なハードウェア、サーバールーム、保守スタッフなどの初期コストの発生も回避できます。ストレージの価格とコンピューティングの価格が分けられていることも、コスト削減につながります。
    3. 弾力性:クラウドデータウェアハウスでは、必要に応じた動的な拡張または縮小が可能です。クラウドは、仮想化され、高度に分散化された環境を提供し、拡張縮小する可能性がある大量のデータを管理できます。
    4. セキュリティと障害回復:多くの場合、クラウドデータウェアハウスは実際にはオンプレミスの DW よりも強力なデータセキュリティと暗号化機能を提供します。データは自動複製およびバックアップされるため、データ消失のリスクを最小限に抑えることができます。
    5. リアルタイム技術:インメモリーデータベース技術によって構築されたクラウドデータウェアハウスならば、極めて高速のデータ処理が可能となり、状況を即座に認識するためのリアルタイムデータが得られます。
    6. 新しいテクノロジー:クラウドデータウェアハウスならば、機械学習などの新しいテクノロジーを簡単に取り入れることができます。こうした機能は、例えばビジネスユーザーにガイド付きのエクスペリエンスを提供したり、質問すべき問いを提案する形で意思決定を支援したりします。
    7. ビジネスユーザーの能力向上:クラウドデータウェアハウスでは、多数のデータソースおよびデータ分析の作業を容易にする充実したツールセットや機能によって、統一された状況認識を可能とし、世界の従業員の能力を等しく強化します。IT 部門のサポートなしで、新しいアプリやデータソースを取り込めます。

    データウェアハウスは、部門、ベンダー、地域、状態、その他多くの項目ごとに、会社の支出の包括的分析を支援します。

    データウェアハウスのベストプラクティス

    データウェアハウスを新たに構築した場合、または既存のウェアハウスに新しいアプリケーションを追加した場合に、時間とコストを節約しながら目標を達成できる、実績のある手順をご紹介します。業務用途に特化したものと、IT 部門の総合的取り組みに含まれるものがあります。以下は、手始めに実行すべき手順の一覧です。その他のベストプラクティスは、技術パートナーやサービスパートナーとの協業の中で選択してください。

    業務部門のベストプラクティス

    • 必要な情報を定義します。初期のニーズを十分に把握すれば、それをサポートするデータソースを見つけることができます。多くの場合、推奨されるデータは、取引グループ、顧客、サプライヤーが持っています。
    • 現行データの場所、構造、品質を文書化します。これによって、データの欠落している部分や、データウェアハウス要件を満たすためのデータ変換のビジネスルールなどが見えてきます。
    • チームを編成します。チームには、今後情報を利用および提供するエグゼクティブの支持者、管理職、スタッフなどを含めます。例えば、各チームメンバーが必要とする標準レポーティングや KPI を特定します。
    • データウェアハウスアプリケーションの優先順位を決めます。妥当な要件と、十分な業務上の価値があるパイロットプロジェクトを 1 つか 2 つ選択します。
    • 強力なデータウェアハウス技術パートナーを選定します。プロジェクトに必要な実装サービスを提供できる経験豊富なパートナーである必要があります。クラウドサービスとオンプレミスオプションの両方を含む、自社の導入ニーズに対応できるかどうかを確認してください。
    • 適切なプロジェクト計画を策定します。コミュニケーションと状況報告の土台となる現実的な青写真とスケジュールを、チームと協力して作成します。

    IT 部門のベストプラクティス

    • パフォーマンスとセキュリティを監視します。データウェアハウス内には貴重な情報が格納されますが、それらはすぐにアクセスでき、組織に価値をもたらすものでなければなりません。システムの使用状況を注意深く監視し、パフォーマンスレベルが高く保たれていることを確認してください。
    • データの品質基準、メタデータ、構造、ガバナンスを維持します。価値のあるデータソースが日々次々と使用可能になりますが、それら追加されるソースに対しては、データウェアハウスの一部として一貫性のある管理が必要です。データのクリーニング、メタデータの定義、ガバナンス基準への準拠に必要な手順を実行してください。
    • 俊敏なアーキテクチャを提供します。会社および業務部門による使用量が増加すると、多岐にわたるデータマートやデータウェアハウスが必要になります。そうしたニーズに対する対応は、柔軟なプラットフォームの方が、限定的で制約のある製品よりもはるかに容易です。
    • 保守などのプロセスを自動化します。機械学習は、ビジネスインテリジェンスの価値を高めるだけでなく、データウェアハウスの技術的管理機能の自動化にも活用できるため、スピードを維持したまま運用コストを削減できます。
    • クラウドを戦略的に使用します。各支社や部門には、それぞれ異なる導入ニーズがあります。適宜オンプレミスシステムを使用して、クラウドデータウェアハウスでは、拡張性、コスト削減、電話やタブレットによるアクセスというクラウド特性をフル活用してください。

    まとめ

    最新のデータウェアハウス、特にクラウドデータウェアハウスは、今後ますます親会社とその業務部門のデジタル変革の取り組みにおいて、重要な役割を果たすでしょう。これらのデータウェアハウスにより、現在の業務システムの活用度が高まります。特にその威力が発揮されるのは、複数の社内システムのデータを組織外の新しい重要な情報と組み合わせたときです。

     

    ダッシュボード、KPI、アラート、レポーティングの各機能は、社内のエグゼクティブ、管理職、スタッフだけでなく、取引先やサプライヤーのニーズにも対応します。データウェアハウスは、高速で複雑なデータマイニングと分析も可能とし、他の業務システムのパフォーマンスを阻害しません。

     

    小さく始めて必要に応じて拡張する柔軟性を備えていることから、支社レベルでも業務部門レベルでも、最新のデータウェアハウステクノロジーを活用して、意思決定と最終損益を向上させることができます。

    SAP のデータウェアハウスソリューションの詳細はこちら

    信頼できる意思決定に必要な統一されたデータと分析機能をクラウドで手に入れましょう。

    その他の記事

    データウェアハウス用語集

    データレイクとは、あらゆる種類のビッグデータを保存する場所です。ビジネスアプリケーションの構造化データ、さらにモバイルアプリ、ソーシャルメディア、モノのインターネット (IoT) デバイスの非構造化データも含まれます。データはその本来のフォーマット(構造化、非構造化、半構造化、バイナリ)で保存されることから、複数のデータタイプの分析を可能とするために、変換、正規化、その他の処理が必要になる場合があります。保存するデータ量が大きいこと、分散したソースへの高速接続が必要なこと、拡張性が求められることから、ほとんどのデータレイクはクラウドベースです。

    ETL は「抽出、変換、ロード」の略語です。これら 3 つのアクティビティを組み合わせて、ソースからデータを取り出し、使用可能なフォーマットに変換したうえで、データウェアハウスまたは他のデータストアに移動するために使用されるプロセスを構成します。ETL はトランザクションデータに対して特に効果がありますが、より高度なツールではさまざまな非構造化データタイプにも対応できます。

    データマートは、データウェアハウスのパーティションで分割された領域で、財務やマーケティングなど、特定の業務領域またはチームを対象としています。データマートにより、各部門は自分たちに関係のあるデータやインサイトにすばやくアクセスできるとともに、より大きなデータストア内に独自のデータセットを管理することも可能です。

    データモデルは、ソフトウェアの開発と分析における基盤要素です。データがどのように構造化され、どのような形でデータベースに保存されるのかを記述します。データベース内のデータ要素間の関係性を定義する枠組みとともに、データ利用の指針も提供します。

     

    データモデリングとは、データモデルを作成するプロセスです。データベースまたはデータウェアハウスの構造を作成する場合、設計者はまずデータベースまたはデータウェアハウスに入出力されるデータのフロー図を作成するところから始めます。このフロー図を使用して、データフローの要件を効率的に満たすデータのフォーマットや構造、データベース処理機能の特性を定義します。データベースの内容の定義とフォーマットに関して、システム間で一貫性のある標準化された方法を提供し、さまざまなアプリケーションで同じデータを共有できるようにします。

    エンタープライズデータウェアハウス (EDW) は、現在および過去のビジネスデータを一個所に保存したもので、マスターデータ管理、データウェアハウス、データ管理に対する包括的手法に基づいたデータ戦略が具現化されたものです。EDW は分析ソフトウェアや、全社規模の正確な KPI やレポート作成に最適な環境を提供します。多くの EDW は、拡張性、アクセス、使いやすさの観点からクラウドベースです。

    SAP Insights ニュースレター

    今すぐ購読

    ニュースレターを購読して、重要な情報や知見を手に入れましょう。

    参考文献

    先頭に戻る