media-blend
text-black

ビジネスミーティングで、インタラクティブな画面でグラフを確認する社員たち

データレイクとデータウェアハウス

データレイクは、データをどのように収集したかに関係なく、生データをネイティブ形式で保存します。データウェアハウスは、事前に定義された方法でクリーニングされ、構造化された形式でデータを保存します。

default

{}

default

{}

primary

default

{}

secondary

データレイクとデータウェアハウスの概要

データレイクとデータウェアハウスは、大量のデジタルデータを保存、管理、取得するシステムです。企業はデータを収集して、事業運営、顧客、市場、サプライチェーンに関するインサイトを獲得し、より戦略的に対応できるようにします。

データサイロを解消し、複数のシステム、形式、部門にビジネスデータが散在するという課題に対処するためのソリューションとして、データウェアハウスが登場しました。

不整合があると、データにアクセスして統合や分析を行ったり、パターンを見つけたり、需要を予測したり、ビジネスパフォーマンスを評価したりするのが困難でした。データウェアハウスは、データを一元化されたリポジトリーに統合するために開発されました。データウェアハウスでは、分析のためにデータを統合、クリーニング、構造化することができます。このアプローチにより、コンプライアンス、パフォーマンス監視、ビジネスインテリジェンスのプロセスをサポートする「唯一の正しい情報源」が確立されます。

一方で、データレイクはデータウェアハウスの限界に対するソリューションとして登場しました。データウェアハウスは、ソーシャルメディア、IoT デバイス、センサー、モバイルアプリなどの新しいソースで爆発的に生成されるようになった非構造化データや半構造化データを適切に処理できませんでした。また、従来のデータウェアハウスでは保存する前にデータをクリーニングして処理する必要があり、画像、動画、テキストなどの膨大な量の多様なデータを保存して処理することは、処理コストが高くつき、効率が良くありませんでした。

企業は、生データを元の形式で保存するという、より柔軟でコストの低い方法を必要としていました。このソリューションとしてデータレイクが開発されました。

現在、多くの企業は、データウェアハウスとデータレイクの両方が含まれるハイブリッドアプローチを採用しています。それが、データレイクハウスです。このアーキテクチャーは、前者の高速で構造化されたレポート作成機能と、後者の AI や機械学習のアプリケーションの可能性という、両方の利点を備えています。

データレイクとデータウェアハウス:主な違い

データレイクとデータウェアハウスの主な違いは、保存するデータの種類と、その保存方法にあります。どちらも、組織のデータ戦略において重要な役割を果たします。

データウェアハウスは、事前定義された構造またはスキーマに従ってクリーニングされ、処理された構造化データを保存します。データの保存前にスキーマが適用されるため、このアプローチは「スキーマオンライト」(書き込み時スキーマ)と呼ばれます。

たとえば、顧客 ID データは整数、発注日付データは YYYY-MM-DD という形式、合計販売金額データは 10 進数形式などのように、スキーマによって指定されます。すべてのデータがこのようなルールに従っているため、「2025 年 4 月の顧客別売上合計を調べる」などのクエリを、高い信頼性で迅速に実行することができます。このスピードと正確性により、データウェアハウスはレポート作成、ダッシュボード、ビジネスインテリジェンスなどのユースケースに適しています。

一方で、データレイクは、データがどのように構造化されているかを問わず、生データを元の形式で保存します。事前に定義されたスキーマは必要ありません。

スキーマはデータがクエリされるときに初めて定義されるため、このアプローチは「スキーマオンリード」(読み込み時スキーマ)と呼ばれます。クエリ時に初めて、そのクエリに応じて生データが解析され、構造化され、解釈されます。

要約すると、データウェアハウスはデータを保存する前にスキーマを適用して、すべてのデータを構造化し、クリーニングして、使用可能な状態にしておきます。データレイクは、データのクエリ時にスキーマを適用します。最初から構造化されているかどうかに関係なく、任意のデータを保存することができます。

データレイクとデータウェアハウスの違い

データレイク
データウェアハウス
データの種類
構造化データ、半構造化データ、非構造化データ(ログ、動画、テキストなど)を保存します。
構造化データ(販売取引、財務データなど)のみを保存します。
スキーマ
スキーマオンリード:データのクエリ時にスキーマが適用されます。
スキーマオンライト:データが保存される前にスキーマが適用されます。
ユーザー
データサイエンティスト、エンジニア、アナリストが、パターンを探ったり、モデルをトレーニングしたり、機械学習のワークフローを実行したりします。
ビジネスアナリスト、経営者、事業運営チームが、レポートや KPI を生成します。
目的
大量のさまざまな生データを柔軟に保存し、データ探索、AI、機械学習に使用します。
レポート、ダッシュボード、ビジネスインテリジェンスに使用される、構造化された処理済みデータの中央リポジトリーです。
コスト
低コストのオブジェクトストレージです。
前処理と最適化により、ストレージと処理のコストが高くなります。

データレイクとデータウェアハウスのいずれを選ぶべきか

データレイクは任意の形式の生データを保存できるため、柔軟性を必要とするビジネスに適しています。たとえば、小売業者は、Web サイト、モバイルアプリ、ソーシャルメディア、POS システムなど、複数のソースから大量のデータを収集します。収集したデータをクリーニング、変換、構造化する必要がないため、スケーリングが容易な、より費用対効果の高いストレージシステムを使用することができます。ただし、クエリ時に生データを処理する際のコストは、データウェアハウスの最適化されたクエリよりも高くなることがあります。

一方で、データウェアハウスではコストが高くなります。ロード前のクリーニング、変換、構造化のプロセス、およびロード後のインデックス作成とパーティショニングのために、作業用の追加のリソースとストレージが必要になります。ただし、この最適化により、ビジネスインテリジェンス、レポート作成、運用分析用としてデータがすぐに利用可能な状態になっています。アナリストや経営者はデータウェアハウスを利用することで、レポートの生成、KPI の監視、情報に基づいた意思決定を迅速かつ簡単に行うことができます。

データレイクは AI と機械学習のアプリケーション向けの新しい機会をもたらすことに注目する必要があります。データサイエンティストは、データレイクが保存する広大で多様なデータセットを活用することによって、トレンドを見つけたり、予測モデルを構築したり、機械学習アプリケーションを実行したりすることができます。たとえば、ユーザーの過去の利用に基づいて製品をユーザーに提案するレコメンドシステム、顧客のレビューやソーシャルメディアのコメントのセンチメント分析を行う自然言語処理ツールなどの用途があります。

現在、多くのモダンな企業は、本質的にはこれら両方の組み合わせであるデータアーキテクチャーを採用しています。それはデータレイクハウスと呼ばれ、データレイクの柔軟性と、データウェアハウスのガバナンスとパフォーマンスを兼ね備えることを意図しています。データレイクハウスの導入率は急速に高まっていますが、多くの企業は依然として重要なレポートのために従来型のウェアハウスを利用しています。

実際の事例とユースケース

ここでは、さまざまな業種で独自のニーズをサポートするために、データレイク、データウェアハウス、またはその両方の要素の組み合わせを使用している例を紹介します。

医療:病院では多くの場合、データレイクアーキテクチャーを使用して、業務で生成されるさまざまな種類の膨大なデータを保存、管理、分析します。これには、構造化されていないウェアラブルのデータや医療画像、半構造化された HL7 患者データ、構造化されたラボテストの結果などが含まれます。すべてを中央のリポジトリーに統合することで、高度な分析と AI を生データに適用することができます。たとえば、リスクのある患者を特定したり、ゲノミクスの分析を行って治療計画をパーソナライズしたりすることができます。バイタルサインのデータをストリーミングする「スマート」なウェアラブルデバイスを患者に装備してもらうことで、早期の警告サインを検出してより迅速に介入することもできます。

金融:銀行やその他の金融機関は、マネーロンダリング防止 (AML) ルールや、厳格な財務報告規則(米国のサーベンスオクスリー法、国際的なバーゼル III など)を遵守する必要があります。データウェアハウスを使用して、複数のシステムからの財務データ(取引レコード、口座残高、取引データなど)を構造化して保存することで、ガバナンスやセキュリティに関する要件を満たすための規制レポートを生成することができます。コンプライアンスに加えて、金融機関はデータウェアハウスを使用して、過去のデータセットと現在のデータセットにわたって複雑なクエリを実行することで、ビジネスインテリジェンスを強化したり、リスクを管理したり、不正を検出したりできます。

メディア:動画ストリーミングサービスでは、データレイクハウスのアプローチを使用して、ユーザーデータを収集、保存、分析し、パーソナライズされたエクスペリエンスを提供します。ストリーミングのログやソーシャルメディアのフィードバックなど、複数のソースからさまざまな種類のデータを取得し、中央のリポジトリーに保存します。その後、これらのデータを使用して、関連性の高いコンテンツを推奨する機械学習モデルを構築することができます。また、それらのデータに対してキュレーションと構造化を行ってサブセットを作成し、分析やレポートのニーズに活用することもできます。たとえば、ダッシュボードでユーザー維持率を確認したり、コンテンツ獲得の意思決定のための情報を提供したりできます。

データプラットフォームの新たなトレンド

データの価値を最大化しようとしている企業の間で、データレイクハウスの人気が急速に高まっています。データレイクハウスは、ビジネスインテリジェンスのユースケースと、AI や機械学習のユースケースの両方を 1 つのプラットフォームでサポートできます。ただし、データレイクハウスは進化の途上であり、ミッションクリティカルなレポートのために従来型のデータウェアハウスに依存し続けている企業もあることに注意する必要があります。

特に、生産性と効率の推進要素としての AI の可能性がデータアーキテクチャーに影響を及ぼしています。現在、いくつかの新しいデータレイクのプラットフォームやデータレイクハウスのプラットフォームが LLM と統合されています。これにより、技術系以外のユーザーが自然言語でクエリを行い、データを探索、分析することができます。たとえば、ユーザーが「第 2 四半期の販売の傾向を見せてください」と依頼すると、システムが認識できる SQL が LLM によって生成されます。これは、データ主導のインサイトへのアクセスの民主化と言えます。

サーバーレスアーキテクチャーも戦略として出現しています。この戦略では、企業はデータインフラストラクチャーを管理するためにクラウドプロバイダーと契約します。この場合、企業は自社所有のデータプラットフォームを構築して管理するのではなく、データプラットフォームへのアクセスに対して料金を支払う形になります。この選択肢の長所は、より簡単にスケーラブルできることと、コスト効率です。データ量やクエリ負荷が急増した場合、クラウドプロバイダーは帯域幅を柔軟に提供することができ、企業は使用した分だけ料金を支払います。開発者はインフラストラクチャーを考慮する必要がないため、より迅速にデプロイすることができます。

企業によっては、データレイクとウェアハウスを複数のクラウドサービスに分散させる、マルチクラウド戦略を選択する場合もあります。この戦略の主な利点は冗長性とレジリエンスです。1 つのクラウドがオフラインになったとしても、別のクラウドでビジネスを継続できます。また、特定のクラウドで特定のワークフローを最適化することもできます。たとえば、機械学習を得意とするクラウドサービスを利用することなどが挙げられます。業種または国によっては、センシティブデータを、現地のコンプライアンス要件を満たす地域またはクラウドプロバイダーに保存することが義務付けられている場合があります。

複数のクラウド環境にわたってデータを接続、管理するために、データファブリックアーキテクチャーが導入されることがあります。このアーキテクチャーでは、個別のシステムやアプリケーションが同期されることにより、データへのリアルタイムアクセスが可能になり、ランドスケープ全体で統一されたビューが構築されます。

医療記録、社会保障番号、ソースコードなどのセンシティブデータを保護するために、データプラットフォーム内でゼロトラストアクセス制御などのポリシーが採用されることがあります。この場合、すべてのユーザーが、必要なデータにアクセスするために自分の身元を認証する必要があります。

FAQ(よくある質問)

データレイクとは何ですか?
データレイクとは、数値、テキスト、画像、動画、ログなど、大量の生データを元の形式で保存するように設計されたストレージシステムです。データレイクは、巨大な「デジタル貯蔵庫」と考えることができます。そこには、あらゆる種類の情報が、すぐには整理されないまま流れ込みます。

コンテンツのレコメンデーションシステムの基盤となる機械学習モデルをトレーニングするデータサイエンティストにとって、データレイクは有用です。
データウェアハウスとは何ですか?

データウェアハウスとは、主に大量の構造化データを保持するように設計されたストレージシステムです。構造化データは、定められた方法でクリーニングされ、組織化され、フォーマット設定されます(スプレッドシートの定義された行と列のようなものと考えてください)。多くのモダンなウェアハウスでは、JSON や XML など、半構造化された特定の形式を扱うこともできます。

企業は、データウェアハウスを使用して、質問にすばやく回答したり、レポートを生成したり、主要業績指標を追跡したりできます。これらの機能は、ビジネスインテリジェンスとして分類されるものです。

データレイクハウスとは何ですか?
データレイクハウスとは、データレイクとデータウェアハウスの良い部分を組み合わせたモダンなデータプラットフォームです。最初にデータを整理することなく、あらゆる種類のデータ(生データ、非構造化データ、半構造化データ)を保存できます。必要に応じて、迅速かつ構造化された分析やレポート作成が可能です。
スキーマとは何ですか?スキーマオンリードとスキーマオンライトの違いは何ですか?

スキーマとは、データの編成方法に関するルールです。たとえば、保存されるデータの型(数値、日付など)、データの配置方法(テーブル、列など)、情報の相互関係などが定義されます。

スキーマオンライトとは、データを保存する前に、事前定義された構造(スキーマ)にデータを適合させる必要があることを意味します。データウェアハウスはこの仕組みで動作します。これにより、データがクリーンになり、あらかじめ分析に適した状態にしておくことができます。

スキーマオンリードは、データを使用または分析するときになって初めて構造が適用されることを意味します。データレイクはこの仕組みで動作します。はじめは任意の形式でデータを保存でき、すぐに編成する必要がないため、より高い柔軟性があります。しかし、このアプローチには、クエリ時間が遅くなるというトレードオフがあります。また、複数のユーザーが同じ生データを異なる方法で解釈する可能性があるため、不整合が生じる場合もあります。

これとは対照的に、スキーマオンライトでは事前に整合性が適用されますが、柔軟性は低くなります。

構造化データ、非構造化データ、半構造化データの違いは何ですか?

構造化データは、高度に整理され、容易に検索できます。通常は、テーブルに顧客名、売上番号、日付などの形式で保存されます。

非構造化データは、動画、画像、音声ファイル、ソーシャルメディアの投稿など、定まった形式がなく、整理が困難なデータです。

半構造化データは、これらの中間のデータです。多少は整理されていますが、テーブルほど厳密ではありません。例として、JSON ファイル、XML 文書、電子メールなどが挙げられます。

SAP のロゴ

データの価値を最大化

SAP Business Data Cloud にすべてのデータを集めましょう。

詳細はこちら