flex-height
text-black

サーバールームを歩く男性

データレイクとは何ですか?

データレイクは、データサイロ問題への対処に役立つセントラルデータリポジトリーです。

default

{}

default

{}

primary

default

{}

secondary

データレイクとは:定義と目的

データレイクは、構造化データ、半構造化データ、非構造化データをネイティブ形式で保存する一元化されたリポジトリーです。データを保存する前に整理する必要がある他のストレージシステムとは異なり(データウェアハウスなど)、データレイクはローデータをそのまま受け入れ、高度なアナリティクス、人工知能 (AI)、機械学習 (ML) のユースケースで必要になるまで、元の構造と形式を保持します。

データレイクの中核的な目的は、データサイロを解消し、組織のデータ資産の単一ソースを構築することです。複数のソースからのデータを単一のアクセス可能な場所、つまりデータレイクに統合するため、データサイエンティスト、アナリスト、機械学習エンジニアは、別の方法であれば異種システムに閉じ込められていたであろう情報を探索し、実験し、価値を抽出することができます。データレイクに保存できるデータソースの例を以下に示します。

データレイクの目的は、あらゆるタイプのデータを保存・分析するための、柔軟で拡張可能なソリューションを提供することです。これは、スキーマオンリードアプローチ(データウェアハウスで使用されるスキーマオンライトとは対照的)によって可能になります。

スキーマオンリードとは何を意味するか?

スキーマオンリードとは、データの構造と意味(スキーマ)が、データの保存時ではなくアクセス時に適用されることを意味します。これにより、柔軟性が維持されるため、将来どのように使用されるかを正確に知らなくてもデータを保存できます。そのため、データレイクは、探索的アナリティクス、データマイニング、機械学習、データの予期しないパターンの検出に最適です。

データレイクアーキテクチャーとコンポーネント

データレイクアーキテクチャーは多層であり、複数の重要なコンポーネントで構成され、それらが連携してデータの取り込み、保存、処理、エンドユーザーとアプリケーションへの提供を行います。以下に、データレイクの重要なコンポーネントを示します。

ストレージ層

ストレージ層はデータレイクアーキテクチャーの基盤であり、通常、莫大な量のデータにコスト効率の良い拡張可能なストレージを提供するオブジェクトストレージシステム上に構築されます。この層では、CSV ファイル、JSON ドキュメント、Parquet ファイル、画像、ビデオなど形式を問わず、データをネイティブ形式で保持します。

データ取得

データ取り込み層では、さまざまなソースからレイクにデータを取り込むプロセスを処理します。これには、定期的なデータロードのバッチ取り込みと、リアルタイムデータストリームのストリーミング取り込みが含まれます。データ取り込みツールでは、データの完全性を確保し、データリネージを追跡しながら、さまざまなデータタイプやソースを処理する必要があります。

データカタログとメタデータ管理

カタログ化およびメタデータ管理コンポーネントでは、レイクに存在するデータの体系的に整理されたインベントリ(場所、意味、他のデータとの関係を含む)を保持します。ライブラリーやアーカイブカタログマネージャーと考えてください。堅牢なデータカタログは、検索可能なインデックスとして機能するため、ユーザーはリポジトリー全体を手動で閲覧しなくても、関連するデータセットを見つけることができます。

処理層

処理層では、データ変換、クレンジング、エンリッチ化、分析が可能になります。この層には、バッチ処理、ストリーム処理、対話型クエリー用のエンジンが含まれており、ユーザーは特定のユースケースに備えたり、アドホック分析を実行することができます。

アクセス層

アクセス層は、ノートブックを使用するデータサイエンティスト、SQL クエリーを実行するアナリスト、API を介してデータを使用するアプリケーションなど、さまざまなタイプのユーザー向けのインターフェースとツールを提供します。また、この層では、セキュリティポリシーを適用し、誰がどのデータにどの条件下でアクセスできるかを管理します。

データレイクのタイプ:クラウド、オンプレミス、ハイブリッド、マルチクラウド

データレイクには、組織がデータレイクを導入する構成に応じて、さまざまなタイプがあります。各構成には、特定の利点とトレードオフがあります。

クラウドデータレイク

クラウドデータレイクは完全にクラウドプラットフォーム上でホストされ、ほぼ無制限の拡張性、従量制課金の価格設定、クラウドネイティブなアナリティクスおよび AI サービスとの容易な統合を提供します。クラウドデータレイクにより、インフラストラクチャーへの先行投資が不要になるため、組織はストレージとコンピューティングリソースを独立して拡張することができます。クラウドデータレイクは、成長中の企業や、最先端のアナリティクス機能へのアクセスを保持しながら運用上の間接費を削減しようとする企業に特に適しています。

オンプレミスデータレイク

オンプレミスデータレイクは、組織のデータセンター内に導入され、組織はインフラストラクチャー、セキュリティ、データ主権を完全に制御でき、これらに対する全責任を負います。オンプレミスデータレイクは、特殊な規制およびセキュリティ要件を持つ組織で使用されることもありますが、変革プロジェクトの場合は多額の資本投資、継続的な保守、多大な労力を必要とする傾向があります。多くの場合、これはトレードオフであり、制御の粒度を高める場合は、拡張性やコスト効率を犠牲にすることになります。

ハイブリッドデータレイク

ハイブリッドデータレイクは、クラウドストレージとオンプレミスストレージを組み合わせることで、組織が一部のデータをオンプレミスで保持しながら、拡張性や高度なアナリティクスには引き続きクラウドリソースを使用できるようにします。このアプローチでは、柔軟性がもたらされますが、データ同期、ガバナンス、環境全体での一貫したエクスペリエンスの管理において複雑さが生じます。

マルチクラウドデータレイク

マルチクラウドデータレイクは複数のクラウドプロバイダーにわたり、組織がベンダーロックインを回避し、各プロバイダーの最良のサービスを利用してコストを最適化し、冗長性によって事業継続性を確保するのに役立ちます。ただし、マルチクラウドアーキテクチャーでは、データの相互運用性、一貫したセキュリティポリシー、クラウドプロバイダー間のデータ転送コストの管理について、慎重に計画する必要があります。また、変更またはイノベーションの導入が、より複雑なプロセスになる場合もあります。

データレイクとデータウェアハウスとデータレイクハウス

組織目標に適したソリューションを選択するには、これらのデータストレージアプローチの違いを理解することが不可欠です。データレイク、データウェアハウス、データレイクハウスをいくつかの重要な基準で比較してみましょう。

特徴
データレイク
データウェアハウス
データレイクハウス
スキーマ
スキーマオンリード
スキーマオンライト
オプション構造による柔軟性
データタイプ
構造化、半構造化、非構造化
主に構造化(場合によっては半構造化)
テーブル管理を使用するすべてのタイプ
一般的な保管コスト
低い保管コスト
高い保管コスト
中程度のコスト
主なユーザー
データサイエンティストとエンジニア、ML エンジニア、アナリスト
ビジネスアナリスト、経営幹部、データサイエンティスト
すべてのユーザータイプ
ユースケース
探索、ML、高度なアナリティクス、AI、スケーラブルなストレージ(追加処理まで)
クエリーおよび特定のアルゴリズム向けに最適化
統合されたアナリティクスとレポート
パフォーマンス
処理エンジンによって変動する
クエリー向けに最適化されている
組み込みのガバナンスによる高パフォーマンス
データ品質
さまざまな品質のローデータ
クリーンアップおよび検証されたデータ
ある程度の柔軟性を備えた品質

実際にどのようなことが行われているのでしょうか?

データレイクは、大量のローデータを経済的に保存することに長けており、探索的アナリティクスと機械学習をサポートします。多様なデータタイプを扱うための柔軟性が必要であり、データがどのように使用されるかを事前に知らない場合には最適です。データを保存し、その後、データウェアハウスに取り込むこともできます。

データウェアハウスは、ビジネスインテリジェンスやレポート向けであり、クエリーパフォーマンスのために最適化された構造化スキーマを備えています。データ品質と一貫性が最重要である、明確に定義されたレポートおよびモデリングニーズに最も適しています。例として、予測分析での使用が挙げられます。実際には、データレイクに蓄積されたデータは、データパイプラインの構成に応じて、処理されてストリーミングされたり、定期的にデータウェアハウスに取り込まれます。

データレイクハウスは、データレイクの柔軟性とデータウェアハウスの管理機能やパフォーマンスを兼ね備えた新しいアーキテクチャーです。組織が同一プラットフォーム上で探索的アナリティクスとビジネスレポートの両方を実行できるようにし、データの重複と複雑さを軽減します。

データレイクのメリット

データレイクの各メリットにより、データレイクは組織にとって非常に魅力ある選択肢となっており、最新のデータアーキテクチャーの土台ともなっています。データレイクアーキテクチャーの利点を以下に示します。

柔軟性:データレイクは、あらゆる形式のあらゆるデータタイプを受け入れるため、保存する前にデータを変換したり、データの欠落に対処する必要がありません。つまり、広範囲にわたる事前計画を策定したり、使用方法を把握する必要なしに、データの収集を即時に開始できます。スキーマオンリードアプローチにより、異なるチームが同じデータをさまざまな方法で利用・解釈し、イノベーションや発見を促進することができます。

スケーラビリティ:データレイクを使用することで、特にクラウドベースの実装において、アーキテクチャーの変更や移行なしに、ストレージをギガバイトからペタバイトに拡張できます。組織は小さく始めて、データニーズが拡大するにつれ、データレイクを拡張することができます。

コスト効率:データレイクストレージのメリットの 1 つは、同じ量のストレージにおいて、従来のデータウェアハウスよりもコストが大幅に低いことです。これにより、予算制約を超えずに、履歴データを保持し、新たなデータソースを探索することが経済的に可能になります。

高度なアナリティクスのサポート:データレイクにより、データサイエンティストや機械学習エンジニアは、モデルの構築とトレーニング、データマイニング、その他の高度なタスクのためにローデータにアクセスできるようになります。データウェアハウスの処理済みデータとは異なり、ローデータの取り込みでは、正確な予測とインサイトに重要となる可能性のある、ニュアンスと詳細が保持されます。データレイクでは、ストリーミングデータの取り込みによってリアルタイムアナリティクスもサポートするため、組織は最新の情報に基づいて行動することができます。

データ民主化:データレイクアーキテクチャーのもう 1 つの利点は、すべての組織データを単一のアクセス可能な場所に保存することで、組織内のより多くのユーザーがデータを発見して使用できるようになり、サイロが解消され、あらゆるレベルでデータ主導の意思決定が促進されることです。

データレイクに関するよくある課題

データレイクにはすばらしいメリットがありますが、潜在能力を最大限に引き出すには組織が対処しなければならない課題もあります。データレイクに関するよくある課題をいくつか紹介します。

複雑なデータレイクガバナンス

多様なデータを大量に保存する場合、データガバナンスはより複雑になります。適切なガバナンスフレームワークがなければ、データレイクは「データスワンプ」に変わってしまう可能性があります。データスワンプは、データが整理されずにダンプされるリポジトリーであり、データの検索、理解、信頼が困難になります。明確な所有権を確立し、データリネージを文書化し、メタデータを管理することが不可欠ですが、これには継続的な作業と規律が必要です。

データセキュリティに関する懸念

セキュリティとアクセス制御には、細心の注意が必要です。データレイクには、組織全体の機密情報が含まれており、監査証跡を維持しながら、権限のあるユーザーのみが特定のデータセットにアクセスできるようにするために、堅牢なセキュリティポリシーとツールが要求されます。暗号化、認証、きめ細かいアクセス制御、データマスキングはすべて、データレイク環境を保護し、データレイク管理に関する問題を回避するために、重要な役割を果たしています。

不均一なデータ品質

データレイクでは、データ品質は自動的には保証されません。ローデータがそのまま保存されるため、データレイクにはエラー、重複、不整合が含まれる可能性があります。アナリティクスに使用する前に、このデータを検証、クレンジング、エンリッチ化するプロセスが必要です。データ品質に注意を払わなければ、レイクのデータに基づいて構築されたアナリティクスや ML モデルは、信頼できない結果を生む可能性があります。

データレイク管理に関する問題

複雑さと専門知識の要件を過小評価してはなりません。データレイクを効果的に管理するには、分散システム、データエンジニアリング、メタデータ管理、およびさまざまな処理フレームワークのスキルが必要です。データレイクインフラストラクチャーを構築・維持するために、トレーニングへの投資、専門的な人材の採用、またはエキスパートサービスプロバイダーとの提携が必要になる場合があります。

クエリー時間が長い

パフォーマンスの最適化は、特に大規模なデータセットに対する対話型クエリーにおいては、簡単ではありません。スキーマが事前に最適化されたウェアハウスとは異なり、データレイクでは、許容できるクエリーパフォーマンスを実現するために、熟考されたデータ編成、パーティショニング戦略、ファイル形式の選択が必要です。一言で言うと、データレイクには考えられないほど膨大な量のデータが含まれる可能性があるため、必要なデータを見つけるのに時間がかかることがあります。

データレイクの例と実際のユースケース

データレイクの実際の使用例は、組織がビジネス上の課題に対処し、競争優位性を獲得するために、データレイクをどのように活用しているかを示しています。一般的なデータレイクのユースケースをいくつか分析して、細かく見ていきましょう。

データレイクのユースケース:予知保全のための IoT 分析

ある製造会社は、複数の施設にある数千台の機械からセンサーデータを収集し、毎日テラバイトの時系列データを生成しています。このデータをデータレイクにストリーミングすることで、保全レコード、生産スケジュール、サプライヤー情報と統合します。機械学習モデルが履歴パターンを分析して、機械の故障を発生前に予測することで、ダウンタイムを削減し、数百万の修理コストを節約しています。このユースケースを可能にしているのは、複数ソースからの高速ストリーミングデータを処理するデータレイクの能力です。

データレイクのユースケース:パーソナライズされたマーケティングのために顧客をあらゆる角度から把握

ある小売企業は、オンライン閲覧行動、購買履歴、モバイルアプリのインタラクション、カスタマーサービスコールとチャット、ソーシャルメディアエンゲージメント、店舗訪問などの顧客データをデータレイクに統合します。各顧客に関するこの包括的なビューを分析することで、詳細なセグメントを作成し、マーケティングキャンペーン、製品レコメンデーション、カスタマーエクスペリエンスをパーソナライズすることができます。これにより、キャンペーンの効果が高まり、顧客満足度が大幅に向上する可能性があります。このデータレイク事例では、構造化トランザクションデータと非構造化インタラクションログの両方を保存する柔軟性と能力によって、この包括的な顧客ビューを実現しています。

データレイクのユースケース:金融サービスのリスクモデリング

ある金融機関は、データレイクを使用してトレーディングデータ、市場フィード、ニュース記事、ソーシャルメディアセンチメント、法令に基づく申告を集約します。データサイエンティストは、従来の財務指標と追加のデータソースの両方を考慮した高度なリスクモデルを構築します。レイクのスキーマオンリードアプローチにより、既存のシステムを中断することなく、さまざまなデータソースやモデリング手法を探索できるため、より正確なリスク評価を実現できます。

データレイクのベストプラクティス

以下のデータレイクのベストプラクティスを活用することで、組織はよくある落とし穴を避けながら、データレイクの価値を最大化することができます。

  1. 初日からメタデータ管理を優先。存在するデータ、取得元、意味、他のデータセットとの関係を記載した包括的なデータカタログを作成します。優れたメタデータは、データレイクを、圧倒的なデータダンプではなく、検索可能で理解しやすいリソースへと変えます。これは、データレイク管理の重要な要素です。
  2. データレイクのガバナンスの確保。データ所有権を定義し、品質基準を確立し、データの取り込み、分類、ライフスタイル管理のための明確なプロセスを構築する、強力なデータガバナンスフレームワークを導入します。ガバナンスは後回しにすべきではありません。データレイクアーキテクチャーに最初から組み込んで、データに対する信頼性を維持し、規制要件を確実に遵守できるようにします。
  3. データの保護。保存時および転送中の暗号化、きめ細かなアクセス制御、監査ログ、および必要に応じたデータマスキングを導入することで、セキュリティとコンプライアンスを実現できるように設計します。アクセスパターンとアクセス権限を定期的にレビューして、最小権限の原則に沿っていることを確認します。
  4. パフォーマンスの最適化。データを論理的にパーティショニングし(日付、地域、または関連する他のディメンション別)、分析ワークロード用の効率的なファイル形式を選択し、古いデータをアーカイブまたは削除するライフサイクルポリシーを実装することで、ストレージを適切に整理します。これらの選択は、コストとクエリーパフォーマンスの両方に大きな影響を与えます。
  5. データ主導型の文化の醸成。セルフサービスアナリティクスを可能にするトレーニングとツールを提供しながら、データを見つけやすく、かつアクセスしやすくします。チームに適切な専門知識がない場合は、ビジネスの関係者とテクノロジーのギャップを埋め、最適なデータレイク管理を実現できる追加人材を採用することを検討します。技術インフラは、人々が実際にそれを使用してより良い意思決定を行う場合にのみ価値があります。

データレイクの未来

組織が柔軟性とガバナンスの両方を求める中、データレイクは進化を続け、レイクとウェアハウスの最も良い側面を兼ね備えたデータレイクハウスアーキテクチャーの出現へとつながっています。この統合は、組織がさまざまな目的のために別個のシステムを維持するのではなく、多様なアプローチをサポートする統合プラットフォームを必要としているという認識の高まりを反映しています。

AI と機械学習は、データレイク戦略においてますます中心的役割を果たすようになっています。最新のデータレイクは単なるストレージリポジトリーではなく、AI モデルを履歴データでトレーニングし、ストリーミングデータを使用して予測を行い、フィードバックループを通じて継続的に改善する、一元化されたプラットフォームです。AI プラットフォームおよび自動化された ML 機能との統合は、例外ではなく標準になりつつあります。

組織が最新データに基づいて行動する価値を認識する中、リアルタイムおよびストリーミング分析は引き続き注目されています。その結果、データレイクは 1 秒以内のデータ処理とクエリーをサポートするように進化し、履歴分析とリアルタイム処理の境界があいまいになっています。

最後に、世界中でデータプライバシー規制が拡大し変化する中、データレイクはデータプライバシーと保護を計画的にサポートするように進化していく必要があります。そのためには、自動データ分類、同意管理、簡易なコンプライアンスレポートなどの機能を後から追加するのではなく、プラットフォームに組み込む必要があります。

データレイクの未来は、柔軟性、アクセシビリティ、自動化にかかっています。これらは、組織がセキュリティ、品質、ガバナンスを維持しながら、増加するデータ量を容易に管理できるようにする機能です。データレイクは、継続的な投資と注意を必要とする戦略的資産とみなす必要があります。

FAQ(よくある質問)

なぜ「データレイク」と呼ばれるのですか?
「データレイク」という用語は、多くの川が 1 つの湖に流れるように、複数のソースからのデータが一元化されたリポジトリーに流れる、という自然な比喩を使用しています。水を当初の状態で(ろ過および浄化されずに)蓄積する自然の湖のように、データレイクはデータをネイティブ形式で(変換や構造化を必要とせずに)保存します。この比喩は、大量の多様なデータを「自然な」状態で保持し、データがさまざまな目的で利用される、というレイクの能力を強調しています。湖の水が多くの用途に役立つのと同じです。それに対し、ウェアハウスには、ろ過され、びん詰めされ、ラベルが付けられ、場合によってはボトルのサイズや pH バランスで整理された水が蓄積されます。
データウェアハウスとは何ですか?また、データレイクとはどのような違いがありますか?
データウェアハウスは構造化されたリポジトリーであるのに対し、データレイクは構造化または非構造化を問わず、すべてのタイプのデータを取り込んで保存できるストレージアプローチです。データレイクとデータウェアハウスの主な違いは、そのアプローチです。データウェアハウスはスキーマオンライト(データを保存する前に構造化する必要がある)を使用するのに対し、データレイクはスキーマオンリード(データのアクセス時に構造が適用される)を使用します。データウェアハウスは既知のレポートニーズとクエリーに合わせて最適化されているのに対し、データレイクはローデータに対する探索的分析と機械学習をサポートします。データウェアハウスは、特定のビジネスの質問に迅速に回答することに特化されていると考えてください。これに対し、データレイクは柔軟性、容量、および新たな質問の発見を重視して構築されています。
データレイクにおけるデータ管理とは?
データレイクにおけるデータ管理には、いくつかの重要なアクティビティが含まれます。カタログ化とメタデータ管理では、ユーザーが利用できるデータセットを見つけて理解できるようにします。ガバナンスでは、データ所有権、品質基準、アクセス制御に関するポリシーを確立します。アクセス管理とリネージ追跡では、誰がどのデータにアクセスし、それがどのように変換または使用されたかを示します。ライフサイクルおよび保持ポリシーでは、データの保持期間およびアーカイブまたは削除すべき時期を決定します。効果的なデータレイク管理では、データレイクが無秩序な「データスワンプ」になるのを防ぎ、データレイク管理上の問題を軽減します。
データレイクハウスとは何ですか?
データレイクハウスは、データレイクの柔軟性やコスト効率と、データウェアハウスの構造とパフォーマンスを兼ね備えた最新のアーキテクチャーです。データレイクハウスでは、ローデータをネイティブ形式で保存できる(レイクと同様)と同時に、テーブル型の構造、スキーマの適用、最適化されたクエリーパフォーマンスもサポートできます(ウェアハウスと同様)。この統合アプローチにより、別個のレイクシステムとウェアハウスシステム間でデータを複製する必要がなくなり、アーキテクチャーがシンプルになり、コストが削減されると同時に、探索的アナリティクスとビジネスレポートの両方が同一プラットフォーム上でサポートされます。
マルチクラウドのデータレイクとは?
マルチクラウドデータレイクは、2 つ以上のクラウドプロバイダーにわたります。組織はベンダーロックインを回避し、各プロバイダーの最良のサービスを利用してコストを最適化し、冗長性によって事業継続性を確保し、さまざまな地域のデータレジデンシー要件を満たすために、マルチクラウド戦略を採用します。ただし、マルチクラウドアーキテクチャーでは、データの相互運用性、一貫したセキュリティポリシーの維持、クラウド間のデータ転送コストの管理に関する課題が生じます。
データレイクにおけるオブジェクトストレージとは?
オブジェクトストレージは、データレイクにデータを保持する基盤となるストレージ層です。階層フォルダーでデータを整理するファイルシステムとは異なり、オブジェクトストレージではデータをそれぞれ一意の識別子、メタデータ、データ自体を含む個別のオブジェクトとして保存します。オブジェクトストレージは、拡張性とコスト効率が高いため、膨大な量のデータをネイティブ形式で保存するのに最適です。