flex-height
text-black

データセンターのサーバールーム

データウェアハウスとは?

データウェアハウス (DW) とは、多くの異なる情報源から得られる大量のデータを結びつけ調和させる、デジタルストレージシステムです。

default

{}

default

{}

primary

default

{}

secondary

データウェアハウスの概要

データウェアハウス (DWH) とは、多くの異なる情報源から得られる大量のデータを結びつけ調和させる、デジタルストレージシステムです。ビジネスインテリジェンス (BI) の提供、レポート作成、分析、規制要件への準拠を目的とし、企業がデータをインサイトに変換し、データ主導のスマートな意思決定を行えるようにします。データウェアハウスは、現行データと履歴データを 1 つの場所に保存し、組織の信頼できる唯一の情報源として機能します。

業務システム(ERPCRM など)、データベース、外部ソース(パートナーシステム、モノのインターネット (IoT) デバイス、天気予報アプリ、ソーシャルメディアなど)からデータウェアハウスへのデータフローは通常、一定頻度で発生します。クラウドコンピューティングの登場によりランドスケープはクラウドに移行しました。最近数年でデータストレージの場所は、従来のオンプレミスのインフラストラクチャから、オンプレミス、プライベートクラウド、パブリッククラウドなどの複数の場所へと移動しました。

最新のデータウェアハウスは、構造化データと非構造化データ(ビデオ、画像ファイル、センサーデータなど)の両方を処理できるように設計されています。分析やインメモリーデータベース技術(データセットをディスクストレージではなくコンピューターメモリーに保持する技術)を搭載し、信頼できるデータにリアルタイムでアクセスして確信を持った意思決定を行えるようにするデータウェアハウスもあります。異種ソースからのデータを組み合わせ、それを分析に適したフォーマットに変換したり、現行データと長期間の履歴データの両方を把握したりすることは、データウェアハウスがなければ不可能です。

データウェアハウスのメリット

適切に設計されたデータウェアハウスは、ビジネスインテリジェンス、レポート、およびアナリティクスを成功に導く基盤です。データを唯一の正確な情報源に統合して、ビジネス全体でより的確で確信に満ちた意思決定を行うためのインサイトを迅速に提供します。主なメリットは以下のとおりです。

データウェアハウスに保存できるデータのタイプ

1980 年代終盤にデータウェアハウスが初めて現れたときは、構造化データを保存するように設計されていました。このデータは、顧客の詳細情報、製品リスト、取引記録などの情報をきちんと整理したものです。その後ビジネスニーズが拡大すると、企業は、ドキュメント、画像、ビデオ、メール、ソーシャルメディアの投稿、機械センサーからの出力や IoT デバイスなど、非構造化データの処理も求めるようになりました。

最新のデータウェアハウスでは、構造化データと非構造化データの両方を処理し、これらを統合した包括的な統合ビューを通じて、さらに強力なインサイトを提供しています。

主要な概念と比較

データウェアハウジングの世界には、知っておくべきことが多数あります。最も重要な概念をいくつかご紹介します。その他の定義や FAQ は用語集をご覧ください

データウェアハウスとデータベース

データベースとデータウェアハウスは、どちらもデータを保存しますが、その役割が異なります。データベースは、特定の事業領域のリアルタイム情報を管理します。一方、データウェアハウスは、組織全体の現行データと履歴データを組み合わせて、レポートとアナリティクスをサポートします。データウェアハウスは、データベーステクノロジー上で動作しますが、データを長期にわたって統合、モデリング、および管理するためのツールを備えています。

データベースは、トランザクションを処理し、レコードを迅速に更新することで、日常業務を滞りなく遂行できるようにします。データウェアハウスはアナリティクスをサポートして、傾向の特定、パフォーマンスの比較、戦略的な意思決定を容易にします。

データウェアハウスとデータレイク

データウェアハウスとデータレイクはいずれも大量のデータを保存しますが、目的は異なります。データウェアハウスはレポートやアナリティクス用に整えられた構造化データを保持しますが、データレイクは後で使用される可能性のある未処理のローデータを保存します。データウェアハウスとデータレイクが連携して動作することはよくあります。データレイク内のローデータは、分析に必要になると変換され、データウェアハウスに移されます。

データレイクは、柔軟で低コストのローデータ用ストレージとして使用されます。データウェアハウスは、構造化データに対する信頼性の高いアナリティクスを高速で実行するために使用されます。ほとんどの組織は両方からメリットを得られます。つまり、データレイクにすべてのデータを取り込み、そのデータからデータウェアハウスでインサイトを引き出します。

データウェアハウスとデータマート

データマートはデータウェアハウスを構成する下位の要素で、セールス、マーケティング、財務など部門や職務によって個別に分割された領域です。例えば、セールスデータマートなら、リード、パイプライン活動、および受注案件に注目するかもしれません。財務データマートなら、予算、予測、および収益の指標を中心に扱うと考えられます。

特定の業務目的のためにスタンドアロンで作成されるデータマートもあります。データウェアハウスが会社全体の中心的なデータストアとして機能する一方、データマートは特定のユーザーグループに関連データを供給します。これによって、データアクセスのシンプル化と分析の高速化が可能となるとともに、それらのグループが自分たちのデータを管理できるようになります。多くの場合、データウェアハウス内に複数のデータマートがデプロイされます。

データウェアハウスの主な構成要素

最新のデータウェアハウスには、中央データベース、データ統合/取り込みツール、メタデータ、アクセスツールの 4 つの主な構成要素が含まれます。これらを組み合わせると、高速で信頼性の高いアナリティクスを大規模に提供することができます。

  1. 中央データベース:データウェアハウスの中核的なストレージエンジン。従来はリレーショナルデータベースでしたが、パフォーマンス向上のためにインメモリーシステムやクラウドネイティブシステムの採用が増えています。
  2. データ統合/取り込み:ETL や ELT などのバッチ方式と、変更データキャプチャー (CDC) によるレプリケーションやストリーミングパイプラインなどのリアルタイムオプションを使用して、ソースシステムからデータが取り込まれます。これらのプロセスでは、変換、品質チェック、およびエンリッチ化にも対応します。
  3. メタデータ:ビジネスコンテキストと技術コンテキストの両方にわたり、データの出所、構造、意味、使用方法など、データを説明する情報。
  4. アクセスツール:データウェアハウスのデータをクエリー、分析、および操作できるようにするユーザー向けツール。レポートツール、ダッシュボード、アナリティクスプラットフォーム、アプリケーション開発ツールなど。

データウェアハウスのアーキテクチャー

データウェアハウスはこれまで、システムでのデータの移動に対応したレイヤーに整理されていました。一般的なデータウェアハウスには、3 つのレイヤーがあります。最新のプラットフォームではアーキテクチャーが簡素化され、データの移動とアナリティクスが高速で行われます。

データウェアハウスの仕組み

データウェアハウスは、データの信頼性を高め、探索や分析が容易になるように、企業全体から得た情報を整理します。このプロセスは通常、以下の 4 つのシンプルなステップに従います。

  1. 抽出:アプリケーション、データベース、クラウドサービスなどのソースシステムからデータを抽出します。この段階では、データはそのまま収集されます。
  2. 変換:データの一貫性を確保し、すぐに使用できるように、データのクリーニング、標準化、整形を行います。この作業には、エラーの削除、フォーマットの調整、またはビジネスルールの適用が含まれる場合があります。
  3. ロード:準備されたデータは、レポートとアナリティクスを迅速に提供するために最適化された、構造化された形式でデータウェアハウスに保存されます。
  4. 分析:データがロードされると、チームはダッシュボード、レポート、高度なアナリティクスを使用してデータを探索し、情報に基づいた意思決定を行うことができます。

ETL と ELT の違い

ETL(抽出→変換→ロード):データはデータウェアハウスに追加される前に変換されます。このアプローチは、処理能力に制限のある従来のデータウェアハウスで一般的です。

ELT(抽出→ロード→変換):最初にローデータがデータウェアハウスにロードされてから、データウェアハウス内で変換されます。最新のクラウドプラットフォームは、大規模な変換を効率的に処理できるため、この方法が適しています。

データウェアハウスの 4 つの主な特徴

データウェアハウスは、信頼性が高く、一貫性があり、分析可能な情報をビジネス全体に提供するために、いくつかのコア原則に基づいて構築されます。以下に 4 つの主な特徴を挙げます。

  1. サブジェクト指向:顧客や売上などのビジネス上の中核となるテーマに関してデータを整理し、分析をサポートします。
  2. 統合化:ERP や CRM など、さまざまなシステムから得たデータにクリーニングと標準化が行われるため、一貫性を確保した上で、データを組み合わせて利用することができます。
  3. 時系列:長期にわたる履歴データを保存して、傾向やパフォーマンスの分析を可能にします。
  4. 不変性:データは、ロード後は変更されません。つまり、読み取りは可能ですが、更新や削除が行われることはなく、信頼できる正確な情報源が保証されます。

クラウドデータウェアハウスのメリット

クラウドデータウェアハウスの人気が高まっているのは、従来のオンプレミスシステムに比べて、大きなメリットがあるからです。ここでは、データウェアハウスのクラウド移行がもたらすメリットの上位 7 つをご紹介します。

  1. 迅速なデプロイ:ストレージ、コンピューティング、データマートやサンドボックスなどの新しい環境を、どこからでも数分で開始できます。
  2. TCO の削減:リソースを使用した分だけ料金を支払います。ストレージとコンピューティングを分離すれば、ハードウェア、設備、および保守のコストを回避し、支出を削減できます。
  3. 柔軟性:規模の拡張または縮小を手作業なしで即座に行い、変化の多いワークロードや大量のデータに対処します。
  4. セキュリティと障害回復:クラウドプラットフォームでは、多くの場合、データ損失を防止するために、より強力なセキュリティ制御、暗号化、および自動バックアップの機能が提供されます。
  5. リアルタイムパフォーマンス:インメモリーエンジンとクラウドネイティブエンジンで高速処理を実現し、リアルタイムのインサイトを迅速に提供します。
  6. 新しいテクノロジーの利用:機械学習、インサイト提供の自動化、高度なアナリティクスなどの機能を簡単に統合できます。
  7. ビジネスユーザーの能力強化:IT チームが大きく関与することなく、データの統合ビューと、情報を分析したり、新しいソースを接続したりするための直感的なツールを各チームに提供します。

データウェアハウスのベストプラクティス

データウェアハウスを新たに構築した場合、または既存のデータウェアハウスを拡張した場合に、時間とコストを節約しながら目標を達成できる、実績のあるプラクティスをご紹介します。ビジネスニーズに焦点を当てたプラクティスもあれば、IT に関する広範なガイダンスに含まれるものもあります。以下は、手始めに実行すべき手順の一覧です。技術パートナーやサービスパートナーとの協業の中で、改良を進めてください。

業務部門のベストプラクティス

IT 部門のベストプラクティス

まとめ

最新のデータウェアハウス(特にクラウドベースのデータウェアハウス)は、社内外のソースから得たデータを統合し、ビジネスを完全かつタイムリーに把握できるようにして、デジタルトランスフォーメーションの中心的な役割を果たします。データウェアハウスは、組織全体のダッシュボード、KPI、アラート、およびレポートを強化し、業務システムに影響を与えることなく、高速で複雑なアナリティクスを提供します。

データウェアハウスは、小規模で開始しても簡単に拡張できるため、コーポレート部門のチームとビジネスユニットはいずれも、より的確な意思決定を行い、パフォーマンスを向上させることが可能になります。

FAQ(よくある質問)

データレイクとは?
データレイクとは、あらゆる種類のビッグデータを保存する場所です。ビジネスアプリケーションの構造化データ、さらにモバイルアプリ、ソーシャルメディア、モノのインターネット (IoT) デバイスの非構造化データも含まれます。データはその本来のフォーマット(構造化、非構造化、半構造化、バイナリ)で保存されることから、複数のデータタイプの分析を可能とするために、変換、正規化、その他の処理が必要になる場合があります。保存するデータ量が大きいこと、分散したソースへの高速接続が必要なこと、拡張性が求められることから、ほとんどのデータレイクはクラウドベースです。膨大な量のローデータを保存できるため、柔軟かつ低コストでデータウェアハウスを補完できます。
ETL および ELT とは?
ETL は「抽出、変換、ロード」の略語です。ソースシステムからデータを取り出し、そのデータをクリーニングして使用可能なフォーマットに整形し、データウェアハウスまたは他のデータストアにロードするプロセスを指します。多くの最新システムでは ELT(「抽出、ロード、変換」)も使用されており、この場合、データを先にロードしてから、変換します。どちらのアプローチも、トランザクションシステムのデータか、より複雑な非構造化ソースのデータかを問わず、ローデータを分析可能な状態に変換するのに役立ちます。
データマートとは?
データマートは、対象を絞り込んだ、データウェアハウスの一部です。財務やマーケティングなど、特定の業務領域またはチーム向けに設計されています。データマートにより、グループは自らの業務に最も関連性の高いデータにすばやくアクセスして、大規模なデータウェアハウス内のキュレーションされた独自データセットを管理することができます。例えば、財務データマートなら、財務チームのレポートニーズに合わせて調整された予算、予測、および収益データが含まれる場合があります。
データモデリングとは?
データモデリングは、データの整理や関連付けの方法を定義するプロセスで、データの効果的な保存や使用を可能にします。データモデルによって、データが何を表しているか、さまざまな情報がどのように関連し合っているかを説明し、システム全体で一貫した構造を確保するためのブループリントが作成されます。例えば、セールスデータモデルなら、レポートと分析をサポートするために、顧客、注文、および製品をどう紐づけるのかを示します。
エンタープライズデータウェアハウス (EDW) とは?
エンタープライズデータウェアハウス (EDW) は、会社の現行データと履歴データをすべて 1 つの場所に保存する一元化されたシステムです。アナリティクス、レポート、および会社全体の KPI に利用される、一貫性のある唯一の情報源を提供します。多くの EDW は、容易なアクセス、拡張性、管理の観点から、クラウドで実行されます。
3 種類のデータウェアハウスとは?
  1. エンタープライズデータウェアハウス:EDW は、現行データと履歴データをすべて 1 つの場所に保存する、一元化された全社的なデータウェアハウスです。アナリティクス、レポート、および組織全体の KPI に利用される、一貫性のある唯一の正確な情報源を提供します。最新の EDW の多くは、拡張性と容易なアクセスの観点からクラウドベースです。
  2. 業務データストア:ODS は、業務レポートや日常業務に利用される、ほぼリアルタイムのデータストアです。トランザクションシステムと EDW の中間で、複数のソースから得られたデータを最新の形式で結合しますが、完全な履歴ではありません。この仕組みは、業務上の意思決定を迅速に行うためにデータを頻繁に更新する必要がある場合に有用です。
  3. データマート:データマートは、財務、セールス、マーケティングなど、特定のチームやビジネスユニット向けに設計された、小規模なサブジェクト別の部分的なデータウェアハウスです。これにより、データウェアハウス全体を公開しなくても、グループにとって最も重要なデータに迅速にアクセスすることができます。
データウェアハウスの 4 つの構成要素とは?
  1. 中央データベース:構造化データ、クリーニング済みのデータ、および統合されたデータが格納される一次ストレージレイヤー。これは通常、アナリティクス用に最適化されたリレーショナル、カラム型、またはクラウドネイティブのデータベースです。
  2. データ統合/取り込みツール:ETL(抽出、変換、ロード)、ELT(抽出、ロード、変換)、バッチロード、リアルタイムレプリケーションなどのツールとプロセス。ソースシステムからデータウェアハウスにデータを取り込み、使用するための準備を行います。
  3. メタデータ:データを説明する情報。データの出所、構造、意味、使用方法など。メタデータは、ユーザーのデータに対する理解と信頼を促進します。
  4. アクセスツール:データのクエリー、視覚化、探索、および分析を可能にするユーザー向けのアプリケーションとインターフェース。レポートツール、ダッシュボード、アナリティクスプラットフォーム、SQL クエリーツールなど。
SQL はデータウェアハウスですか?
いいえ。SQL はデータのクエリーと管理に使用される言語であり、データウェアハウスは分析用に大量データの保存、整理、および処理を行うシステムです。SQL は、データウェアハウス内のデータの処理に使用される主要なツールの 1 つにすぎません。

関連ガイドとお役立ち資料