データウェアハウスとは?
データウェアハウス (DW) とは、多くの異なる情報源から得られる大量のデータを結びつけ調和させる、デジタルストレージシステムです。
default
{}
default
{}
primary
default
{}
secondary
データウェアハウスの概要
データウェアハウス (DWH) とは、多くの異なる情報源から得られる大量のデータを結びつけ調和させる、デジタルストレージシステムです。ビジネスインテリジェンス (BI) の提供、レポート作成、分析、規制要件への準拠を目的とし、企業がデータをインサイトに変換し、データ主導のスマートな意思決定を行えるようにします。データウェアハウスは、現行データと履歴データを 1 つの場所に保存し、組織の信頼できる唯一の情報源として機能します。
業務システム(ERP や CRM など)、データベース、外部ソース(パートナーシステム、モノのインターネット (IoT) デバイス、天気予報アプリ、ソーシャルメディアなど)からデータウェアハウスへのデータフローは通常、一定頻度で発生します。クラウドコンピューティングの登場によりランドスケープはクラウドに移行しました。最近数年でデータストレージの場所は、従来のオンプレミスのインフラストラクチャから、オンプレミス、プライベートクラウド、パブリッククラウドなどの複数の場所へと移動しました。
最新のデータウェアハウスは、構造化データと非構造化データ(ビデオ、画像ファイル、センサーデータなど)の両方を処理できるように設計されています。分析やインメモリーデータベース技術(データセットをディスクストレージではなくコンピューターメモリーに保持する技術)を搭載し、信頼できるデータにリアルタイムでアクセスして確信を持った意思決定を行えるようにするデータウェアハウスもあります。異種ソースからのデータを組み合わせ、それを分析に適したフォーマットに変換したり、現行データと長期間の履歴データの両方を把握したりすることは、データウェアハウスがなければ不可能です。
図 1:データウェアハウスの概要
データウェアハウスのメリット
適切に設計されたデータウェアハウスは、ビジネスインテリジェンス、レポート、およびアナリティクスを成功に導く基盤です。データを唯一の正確な情報源に統合して、ビジネス全体でより的確で確信に満ちた意思決定を行うためのインサイトを迅速に提供します。主なメリットは以下のとおりです。
- ビジネスアナリティクスの改善:データウェアハウスは、複数のシステムから得られるデータを一貫性のある単一のビジネスビューに統合するため、リーダーは傾向の分析が容易になり、データ主導の意思決定をスマートに行うことができます。
- クエリーとインサイトの高速化:データウェアハウスはトランザクションではなくアナリティクス用に最適化されているため、ユーザーは大規模なデータセットに対して複雑なクエリーを高速で実行できます。このため、レポートサイクルが短縮され、IT 部門への依存が軽減されます。
- データ品質と一貫性の向上:データは、クレンジング、検証、標準化が終わってからデータウェアハウスに追加されるため、高品質で信頼性の高い情報に基づいたアナリティクスが可能になります。データ品質の向上が直接、的確な意思決定につながります。
- 履歴に対する詳細なインサイト:データウェアハウスは豊富な履歴データを保持しており、長期的なパターンの特定、パフォーマンスの評価、戦略的計画を強化する精度の高い予測を容易にします。
図 2:データの系統を示すデータウェアハウスのスクリーンショット
データウェアハウスに保存できるデータのタイプ
1980 年代終盤にデータウェアハウスが初めて現れたときは、構造化データを保存するように設計されていました。このデータは、顧客の詳細情報、製品リスト、取引記録などの情報をきちんと整理したものです。その後ビジネスニーズが拡大すると、企業は、ドキュメント、画像、ビデオ、メール、ソーシャルメディアの投稿、機械センサーからの出力や IoT デバイスなど、非構造化データの処理も求めるようになりました。
最新のデータウェアハウスでは、構造化データと非構造化データの両方を処理し、これらを統合した包括的な統合ビューを通じて、さらに強力なインサイトを提供しています。
主要な概念と比較
データウェアハウジングの世界には、知っておくべきことが多数あります。最も重要な概念をいくつかご紹介します。その他の定義や FAQ は用語集をご覧ください。
データウェアハウスとデータベース
データベースとデータウェアハウスは、どちらもデータを保存しますが、その役割が異なります。データベースは、特定の事業領域のリアルタイム情報を管理します。一方、データウェアハウスは、組織全体の現行データと履歴データを組み合わせて、レポートとアナリティクスをサポートします。データウェアハウスは、データベーステクノロジー上で動作しますが、データを長期にわたって統合、モデリング、および管理するためのツールを備えています。
データベースは、トランザクションを処理し、レコードを迅速に更新することで、日常業務を滞りなく遂行できるようにします。データウェアハウスはアナリティクスをサポートして、傾向の特定、パフォーマンスの比較、戦略的な意思決定を容易にします。
データウェアハウスとデータレイク
データウェアハウスとデータレイクはいずれも大量のデータを保存しますが、目的は異なります。データウェアハウスはレポートやアナリティクス用に整えられた構造化データを保持しますが、データレイクは後で使用される可能性のある未処理のローデータを保存します。データウェアハウスとデータレイクが連携して動作することはよくあります。データレイク内のローデータは、分析に必要になると変換され、データウェアハウスに移されます。
データレイクは、柔軟で低コストのローデータ用ストレージとして使用されます。データウェアハウスは、構造化データに対する信頼性の高いアナリティクスを高速で実行するために使用されます。ほとんどの組織は両方からメリットを得られます。つまり、データレイクにすべてのデータを取り込み、そのデータからデータウェアハウスでインサイトを引き出します。
図 3:データウェアハウスとデータレイクの比較
データウェアハウスとデータマート
データマートはデータウェアハウスを構成する下位の要素で、セールス、マーケティング、財務など部門や職務によって個別に分割された領域です。例えば、セールスデータマートなら、リード、パイプライン活動、および受注案件に注目するかもしれません。財務データマートなら、予算、予測、および収益の指標を中心に扱うと考えられます。
特定の業務目的のためにスタンドアロンで作成されるデータマートもあります。データウェアハウスが会社全体の中心的なデータストアとして機能する一方、データマートは特定のユーザーグループに関連データを供給します。これによって、データアクセスのシンプル化と分析の高速化が可能となるとともに、それらのグループが自分たちのデータを管理できるようになります。多くの場合、データウェアハウス内に複数のデータマートがデプロイされます。
図 4:データマートの仕組みを示す図
データウェアハウスの主な構成要素
最新のデータウェアハウスには、中央データベース、データ統合/取り込みツール、メタデータ、アクセスツールの 4 つの主な構成要素が含まれます。これらを組み合わせると、高速で信頼性の高いアナリティクスを大規模に提供することができます。
図 5:データウェアハウスの構成要素を示す図
- 中央データベース:データウェアハウスの中核的なストレージエンジン。従来はリレーショナルデータベースでしたが、パフォーマンス向上のためにインメモリーシステムやクラウドネイティブシステムの採用が増えています。
- データ統合/取り込み:ETL や ELT などのバッチ方式と、変更データキャプチャー (CDC) によるレプリケーションやストリーミングパイプラインなどのリアルタイムオプションを使用して、ソースシステムからデータが取り込まれます。これらのプロセスでは、変換、品質チェック、およびエンリッチ化にも対応します。
- メタデータ:ビジネスコンテキストと技術コンテキストの両方にわたり、データの出所、構造、意味、使用方法など、データを説明する情報。
- アクセスツール:データウェアハウスのデータをクエリー、分析、および操作できるようにするユーザー向けツール。レポートツール、ダッシュボード、アナリティクスプラットフォーム、アプリケーション開発ツールなど。
データウェアハウスのアーキテクチャー
データウェアハウスはこれまで、システムでのデータの移動に対応したレイヤーに整理されていました。一般的なデータウェアハウスには、3 つのレイヤーがあります。最新のプラットフォームではアーキテクチャーが簡素化され、データの移動とアナリティクスが高速で行われます。
図 6:データウェアハウスのアーキテクチャー図
- データレイヤー:データは ETL ツールによってソースから抽出され、変換後に、この最下層にロードされます。最下層はデータベースサーバー、データマート、データレイクで構成されます。この層でメタデータが作成され、データをシームレスに結合、集約するために、データ仮想化などのデータ統合ツールが使用されます。
- セマンティックレイヤー:この中間層ではオンライン分析処理 (OLAP) とオンライントランザクション処理 (OLTP) サーバーが高速で複雑なクエリーやアナリティクスのために、データを再構成します。
- アナリティクスレイヤー:この最上層は、フロントエンドクライアントのレイヤーです。データウェアハウスアクセスツールが含まれ、これを使用してユーザーは、データの操作、ダッシュボードやレポートの作成、KPI の監視、データのマイニングや分析、アプリの作成、その他多くの作業を実行できます。多くの場合、この層はデータの探索や新しいデータモデル開発のためのワークベンチまたはサンドボックス領域を備えています。
データウェアハウスは意思決定を支援するために設計されてきました。そして主に IT チームによって構築、保守されてきましたが、ここ数年の間にビジネスユーザーの能力を強化するような進化を遂げ、データへのアクセスや行動につながる洞察を導き出す際の IT 部門への依存度が低くなってきました。こうした進化は、強固で柔軟なデータアーキテクチャーの採用によって支えられています。ビジネスユーザーの能力を高めるデータウェアハウスの主要機能をいくつかご紹介します。 - 自然言語のフレーズを提供するセマンティックまたはビジネスレイヤー。あらゆるユーザーが、即座にデータを理解し、データモデル内の要素間の関係を定義し、新しいビジネス情報によってデータフィールドを拡充できます。
- データモデルと接続を 1 つの安全で統制された場所にまとめることができる仮想ワークスペース。単一の共通スペースと、単一の共通データセットを介して、業務の連携が促進されます。
- クラウド。データ分析タスクを簡単に実行するための充実したツールセットと機能を、世界中の従業員に提供し、意思決定の質をさらに高めます。IT 部門のサポートをさほど受けずに、新しいアプリやデータソースを取り込めます。
データウェアハウスの仕組み
データウェアハウスは、データの信頼性を高め、探索や分析が容易になるように、企業全体から得た情報を整理します。このプロセスは通常、以下の 4 つのシンプルなステップに従います。
- 抽出:アプリケーション、データベース、クラウドサービスなどのソースシステムからデータを抽出します。この段階では、データはそのまま収集されます。
- 変換:データの一貫性を確保し、すぐに使用できるように、データのクリーニング、標準化、整形を行います。この作業には、エラーの削除、フォーマットの調整、またはビジネスルールの適用が含まれる場合があります。
- ロード:準備されたデータは、レポートとアナリティクスを迅速に提供するために最適化された、構造化された形式でデータウェアハウスに保存されます。
- 分析:データがロードされると、チームはダッシュボード、レポート、高度なアナリティクスを使用してデータを探索し、情報に基づいた意思決定を行うことができます。
ETL と ELT の違い
ETL(抽出→変換→ロード):データはデータウェアハウスに追加される前に変換されます。このアプローチは、処理能力に制限のある従来のデータウェアハウスで一般的です。
ELT(抽出→ロード→変換):最初にローデータがデータウェアハウスにロードされてから、データウェアハウス内で変換されます。最新のクラウドプラットフォームは、大規模な変換を効率的に処理できるため、この方法が適しています。
データウェアハウスの 4 つの主な特徴
データウェアハウスは、信頼性が高く、一貫性があり、分析可能な情報をビジネス全体に提供するために、いくつかのコア原則に基づいて構築されます。以下に 4 つの主な特徴を挙げます。
- サブジェクト指向:顧客や売上などのビジネス上の中核となるテーマに関してデータを整理し、分析をサポートします。
- 統合化:ERP や CRM など、さまざまなシステムから得たデータにクリーニングと標準化が行われるため、一貫性を確保した上で、データを組み合わせて利用することができます。
- 時系列:長期にわたる履歴データを保存して、傾向やパフォーマンスの分析を可能にします。
- 不変性:データは、ロード後は変更されません。つまり、読み取りは可能ですが、更新や削除が行われることはなく、信頼できる正確な情報源が保証されます。
クラウドデータウェアハウスのメリット
クラウドデータウェアハウスの人気が高まっているのは、従来のオンプレミスシステムに比べて、大きなメリットがあるからです。ここでは、データウェアハウスのクラウド移行がもたらすメリットの上位 7 つをご紹介します。
- 迅速なデプロイ:ストレージ、コンピューティング、データマートやサンドボックスなどの新しい環境を、どこからでも数分で開始できます。
- TCO の削減:リソースを使用した分だけ料金を支払います。ストレージとコンピューティングを分離すれば、ハードウェア、設備、および保守のコストを回避し、支出を削減できます。
- 柔軟性:規模の拡張または縮小を手作業なしで即座に行い、変化の多いワークロードや大量のデータに対処します。
- セキュリティと障害回復:クラウドプラットフォームでは、多くの場合、データ損失を防止するために、より強力なセキュリティ制御、暗号化、および自動バックアップの機能が提供されます。
- リアルタイムパフォーマンス:インメモリーエンジンとクラウドネイティブエンジンで高速処理を実現し、リアルタイムのインサイトを迅速に提供します。
- 新しいテクノロジーの利用:機械学習、インサイト提供の自動化、高度なアナリティクスなどの機能を簡単に統合できます。
- ビジネスユーザーの能力強化:IT チームが大きく関与することなく、データの統合ビューと、情報を分析したり、新しいソースを接続したりするための直感的なツールを各チームに提供します。
図 7:データウェアハウジングによって経費の包括的なアナリティクスをサポート
データウェアハウスのベストプラクティス
データウェアハウスを新たに構築した場合、または既存のデータウェアハウスを拡張した場合に、時間とコストを節約しながら目標を達成できる、実績のあるプラクティスをご紹介します。ビジネスニーズに焦点を当てたプラクティスもあれば、IT に関する広範なガイダンスに含まれるものもあります。以下は、手始めに実行すべき手順の一覧です。技術パートナーやサービスパートナーとの協業の中で、改良を進めてください。
業務部門のベストプラクティス
- 必要な情報を定義します。まず、回答すべき質問と、支持すべき意思決定を特定します。そこから、必要なデータソースを決定します。業種グループ、顧客、およびサプライヤーも、有用なデータに関するガイダンスを提供することができます。
- 現行データの状態を文書化します。データが存在する場所、データの構造、およびデータの品質を記録して、ギャップ、必要な変換、およびデータウェアハウスが従うビジネスルールを特定します。
- 適切なチームを編成します。エグゼクティブの支持者、ビジネスマネージャー、およびインサイトを利用するエンドユーザーを含めます。成功するために必要な標準レポート、KPI、および指標を把握します。
- 最初のプロジェクトに優先順位を付けます。業務上の価値が明確で、適度な範囲の 1 〜 2 件のパイロットから開始します。早期に成功すれば、以降の活動に弾みがつきます。
- 強力な技術パートナーを選定します。実績、導入サポート、および導入ニーズに合ったプラットフォームを持つベンダーを選定します。
- 現実的なプロジェクト計画を作成します。チームで協力して、明確なロードマップとタイムラインを策定します。全員の連携を保つために、定期的なコミュニケーションを確立し、最新の状況を共有します。
IT 部門のベストプラクティス
- パフォーマンス、アクセス、セキュリティを監視します。データウェアハウスは高速で、保護されていなければなりません。システムの使用、セキュリティイベント、およびアクセスパターンを追跡して、データの安全性を維持しながら、権限のあるユーザーがアクセスしやすいようにします。
- データの品質、メタデータ、構造、ガバナンスを維持します。データウェアハウスに新たに追加されるデータは、一貫したルールに従う必要があります。クリーニング、変換、メタデータ定義、データガバナンスを標準化して、ユーザーが結果を信頼できるようにします。
- 柔軟なアーキテクチャーを提供します。ビジネスの成長に伴い、チームには新しいデータマート、モデル、ワークロードが必要になります。硬直的なシステムや緊密に結合したシステムよりも、拡張性のあるモジュール型アーキテクチャーの方がこれらのニーズをサポートできます。
- 保守と運用を自動化します。自動化と機械学習を使用して、インデックス作成、監視、最適化、更新などのタスクを効率化します。これにより、パフォーマンスが向上し、運用コストが削減されます。
- クラウドを戦略的に使用します。各チームには、それぞれ異なる要件があります。必要に応じて、特定のワークロードをオンプレミスに保持しながら、クラウドデータウェアハウスを利用すれば、拡張性を備え、コストを削減し、どのデバイスからでも容易にアクセスすることができます。
まとめ
最新のデータウェアハウス(特にクラウドベースのデータウェアハウス)は、社内外のソースから得たデータを統合し、ビジネスを完全かつタイムリーに把握できるようにして、デジタルトランスフォーメーションの中心的な役割を果たします。データウェアハウスは、組織全体のダッシュボード、KPI、アラート、およびレポートを強化し、業務システムに影響を与えることなく、高速で複雑なアナリティクスを提供します。
データウェアハウスは、小規模で開始しても簡単に拡張できるため、コーポレート部門のチームとビジネスユニットはいずれも、より的確な意思決定を行い、パフォーマンスを向上させることが可能になります。
FAQ(よくある質問)
- エンタープライズデータウェアハウス:EDW は、現行データと履歴データをすべて 1 つの場所に保存する、一元化された全社的なデータウェアハウスです。アナリティクス、レポート、および組織全体の KPI に利用される、一貫性のある唯一の正確な情報源を提供します。最新の EDW の多くは、拡張性と容易なアクセスの観点からクラウドベースです。
- 業務データストア:ODS は、業務レポートや日常業務に利用される、ほぼリアルタイムのデータストアです。トランザクションシステムと EDW の中間で、複数のソースから得られたデータを最新の形式で結合しますが、完全な履歴ではありません。この仕組みは、業務上の意思決定を迅速に行うためにデータを頻繁に更新する必要がある場合に有用です。
- データマート:データマートは、財務、セールス、マーケティングなど、特定のチームやビジネスユニット向けに設計された、小規模なサブジェクト別の部分的なデータウェアハウスです。これにより、データウェアハウス全体を公開しなくても、グループにとって最も重要なデータに迅速にアクセスすることができます。
- 中央データベース:構造化データ、クリーニング済みのデータ、および統合されたデータが格納される一次ストレージレイヤー。これは通常、アナリティクス用に最適化されたリレーショナル、カラム型、またはクラウドネイティブのデータベースです。
- データ統合/取り込みツール:ETL(抽出、変換、ロード)、ELT(抽出、ロード、変換)、バッチロード、リアルタイムレプリケーションなどのツールとプロセス。ソースシステムからデータウェアハウスにデータを取り込み、使用するための準備を行います。
- メタデータ:データを説明する情報。データの出所、構造、意味、使用方法など。メタデータは、ユーザーのデータに対する理解と信頼を促進します。
- アクセスツール:データのクエリー、視覚化、探索、および分析を可能にするユーザー向けのアプリケーションとインターフェース。レポートツール、ダッシュボード、アナリティクスプラットフォーム、SQL クエリーツールなど。
関連ガイドとお役立ち資料