コンテンツにスキップする
写真:データレイクを象徴する湖

データレイクとは?

データレイクは情報のリポジトリです。データレイクはデータウェアハウスと混同されることがよくありますが、それぞれ異なるビジネスニーズに対応し、アーキテクチャーも異なっています。特にクラウドデータレイクは、ソーシャルデータ、IoT のマシンデータ、トランザクションデータが加速度的に増え続けるなか、最新のデータ管理戦略に組み込まれる重要な要素になります。あらゆるデータタイプを保存、変換、分析する機能により、新たなビジネスチャンスとデジタルトランスフォーメーションへの道が開かれます。これこそがデータレイクの役割です。

90

%

ビッグデータの取り組みによって将来の成功が決まると考えている金融機関の割合

64.2

2020 年に作成されたデジタルデータのゼタバイト数

176 億米ドル

2026 年までに到達すると予測されるデータレイク市場の価値

データレイクの定義

データレイクは、データサイロ問題への対処に役立つセントラルデータリポジトリです。データレイクで重要なのは、膨大な生データをネイティブ(オリジナル)形式のまま保存することです。この形式は、構造化、非構造化、半構造化のいずれの形式でもかまいません。データレイク、特にクラウドのデータレイクは、低コストで拡張しやすく、応用機械学習アナリティクスと合わせて使用されることがよくあります。

データレイクとデータウェアハウス

データレイクとは対照的に、データウェアハウスにはデータ管理機能が備わっており、事前定義されたビジネス上の質問やユースケース向けに処理された、フィルタリング済みのデータが保存されています。

データレイクとデータウェアハウス

データウェアハウスとデータレイクの比較図

データウェアハウスとデータレイクは、多くの場合、相互に補完し合っています。例えば、ビジネス上の質問に回答するためにデータレイクに保存されている生データが必要になった場合、そのデータを抽出、クリーニング、変換して、データウェアハウスでの詳細な分析に使用できます。

 

「データレイクハウス」とは、発展段階にある新しい概念で、従来のデータレイク上にデータ管理機能を追加したものです。要するに、データレイクとデータウェアハウスが融合されています。 

 

以上の説明はデータタイプとプロセス上の違いについてですが、さらに、データレイクとデータウェアハウスソリューションを詳細に比較すると以下のようになります。

Edit Table Feature Comparison Component

最終的には、データ量、データベースのパフォーマンス、ストレージ価格が、ストレージソリューションの選択に大きく影響します。

データレイクソリューションの主な要素

  • データ移動:データレイクを使用すると、複数のソースから任意のデータタイプをネイティブ形式でインポートすることができます。これにより、必要に応じてデータの規模に合わせた調整が可能になり、データ構造、スキーマ、変換方法を定義する必要もないため、管理費を削減できます。
  • データの安全な保存とカタログ:データレイクは、CRM や ERP ソフトウェアのビジネスデータから、IoT デバイス、ソーシャルメディアやレガシーシステムの履歴データまで、さまざまなソースの構造化/半構造化/非構造化データを保存します。また、データレイクでは、ガバナンス、セキュリティ、制御を適用しながら、バッチデータやストリーミングデータを取得できます。適切なツールを使用すると、データに直接クエリーを実行したり、データウェアハウスにデータを取り込んだりすることができます。
  • アナリティクスと機械学習:データレイクによって、個別のアナリティクスデータベースにデータを移動することなく、ロールベースで情報にアクセスして、アナリティクスや機械学習分析を実行できるようになります。また、履歴データをリアルタイムデータと組み合わせて、機械学習モデルや予測分析モデルを改良し、より良い結果や新しい結果を提供することができます。

データレイクのしくみ

最新のデータレイクには、主に 3 つの機能があります。

  1. 生データのランディングゾーン
  2. 分析目的に合わせてデータを変換するステージングゾーン
  3. アナリティクス、アプリケーションでデータを利用し、機械学習モデルにデータを供給するデータ探索ゾーン

データレイクから、アナリティクスやその他のビジネスアプリケーション、または機械学習ツールなどのさまざまなソースに情報が取り込まれ、さらに詳細な分析が行われます。

 

データレイクのユースケース

小売業でのデータレイクのユースケースを 2 つ紹介します。

 

長期販売データを、Web サイトのクリックストリームデータ、気象データ、ニュースデータ、マイクロ/マクロ経済データなどの非構造化データとともに、データレイクに保存します。このデータをまとめて保存しアクセスできるようにすると、データサイエンティストがこれらの異なる情報ソースを組み合わせて、特定の製品や製品ラインの需要予測モデルを簡単に作成できるようになります。この情報が小売 ERP システムへの入力として使用され、製品の増産計画や減産計画に役立ちます。 

 

また、マーケティングエキスパートは同じデータレイクにアクセスして、Web サイトのセンチメント分析や、ニュースデータ、マクロ経済データ、販売履歴データへのソーシャルメディアの関与を確認し、注力する製品と、販売数、利益、選ばれる確率を最大限に高めるためのベストな方法を判断することができます。

データレイクのタイプ

データレイクは、オンプレミス、クラウド、ハイブリッド環境で、Amazon Web Services (AWS)、Microsoft Azure、Google Cloud といった複数のクラウドハイパースケーラーを横断して配置することができます。

 

データレイクの種類で最も一般的なのは、間違いなくクラウドデータレイクです。クラウドデータレイクは、フルマネージド型のクラウドサービス内で、通常のデータレイク機能をすべて提供します。

  • オンプレミスのデータレイク:オンプレミスのデータレイクを使用して、社内の IT エンジニアリングリソースがハードウェア、ソフトウェア、プロセスを管理します。このアプローチでは、設備投資 (CAPEX) の負担が大きくなり、データはサイロ化する傾向があります。
  • クラウドデータレイク:クラウドデータレイクでは、オンプレミスのインフラストラクチャーがアウトソーシングされます。運用コスト (OPEX) の負担は大きくなりますが、この導入アプローチは規模の調整がしやすく、その他多くのメリットもあります(後述)。
  • ハイブリッドデータレイク:オンプレミスとクラウドのデータレイクを両方同時に維持することを選択する場合もあります。このような状況はあまりみられませんが、採用されるのはほとんど、オンプレミスからクラウドへの移行時です。
  • マルチクラウドデータレイク:マルチクラウドデータレイクでは、2 つ以上のクラウドサービスを組み合わせます。たとえば、企業が AWS と Azure の両方を使用してクラウドデータレイクの管理と維持を行う場合があります。これを実現するには、種類の異なるプラットフォーム間の相互通信を確保するために高度な専門知識が必要です。

クラウドデータレイクの 6 つのメリット

クラウドデータレイクを選択すべき理由はなんでしょうか。データを価値の高いビジネス資産に変えると、デジタルトランスフォーメーションの実現につながります。クラウドとデータレイクを組み合わせると強い基盤が提供されます。クラウドデータレイクを使用すると、履歴データや、ログファイル、クリックストリーム、ソーシャルメディア、インターネット接続デバイスなどの新しいデータソースにアナリティクスを適用して、実用的なインサイトを得ることができます。

 

期待される主なメリットをいくつか紹介します。

  1. コスト効率:クラウドストレージプロバイダーは、多くのストレージオプションや価格設定オプションを用意しています。
  2. 自動スケーリング:クラウドサービスにはスケーリング機能が備わっており、企業はオンデマンドでストレージ容量を計算/活用できます。
  3. セントラルデータリポジトリ:クラウドデータレイクは、情報を統合し、チーム間のプロセス効率を考慮してデータアクセスを統制する唯一の正しい情報源として機能します。
  4. データセキュリティ:クラウドストレージプロバイダーは、責任共有モデルを通じてデータのセキュリティを保証します。
  5. ツール:クラウドストレージプロバイダーやその他のベンダーが提供する ETL ツールを使用すれば、データのクロール、データカタログの構築、データ準備/データ変換/データ取り込みの実行により、データのクエリーが可能になります。
  6. アナリティクスの向上により、新しいインサイトを取得し、ビジネス成果を高める:クラウドデータレイクでは、データを新しい方法で組み合わせることができます。例えば、CRM データやソーシャルメディアの分析により、顧客離れの原因を見極める新しいカスタマーインサイトを得たり、ロイヤルティ向上にはどのようなプロモーションがよいかを探ったりできます。また、IoT データの分析を通じて業務効率を向上させることも可能です。  
placeholder

データレイクソリューションを今すぐ始める

SAP HANA Cloud のデータレイク機能の詳細をご覧ください。

その他の記事

データレイクに関する FAQ

データレイクに関する下記の FAQ をご覧ください。さらに詳細な定義については、データ管理用語集を参照してください。

「データレイク」という用語は、より柔軟で大規模なデータストアの概念を反映するべく進化した用語です。これが、サイロ化され定義が厳格な、構造化されたデータマートとは異なる点です。

 

10 年以上前、データソースの拡大にともない、将来の分析に備えてペタバイト規模の未定義データを保存することが必要になり、このニーズに対処するべく生まれたのがデータレイクです。初期のデータレイクは、オンプレミスのデータセンターに基づいた Hadoop ファイルシステム (HDFS) とコモディティハードウェアをベースに構築されました。しかし、分散アーキテクチャーに固有の課題がある上、カスタムデータを変換して分析する必要があり、これが Hadoop ベースのシステムのパフォーマンスが最適化されない原因となっていました。

 

今では、クラウドコンピューティングとデータストレージのテクノロジーが、最新のデータスタック、およびクラウドデータレイクの主要な基盤になりました。

データウェアハウス (DW) とは、多くの異なる情報源から得られる大量の構造化データや書式設定されたデータを結びつけ調和させる、デジタルストレージシステムです。一方、データレイクでは、データは元の形式で保存され、構造化も書式設定もされません。

データ管理は、生産性、効率、意思決定をサポートするために、データの収集、整理、アクセスを行うプロセスです。

データレイクハウスは、従来のデータレイクに、データ管理機能とデータウェアハウス機能を追加したものです。この発展段階にある新しい領域は、急速に変化しています。 

マルチクラウドとは、単一の異種混在アーキテクチャー内で、複数のクラウドのコンピューティングサービスやストレージサービスを使用することです。これは、例えば、複数のクラウドホスティング環境にわたって、クラウド資産、ソフトウェア、アプリケーションを分散させることを意味します。

ファイルストレージは、データをフォルダー内のファイルの階層として整理および表現します。ブロックストレージは、データを任意に整理された均等サイズのボリュームにまとめたチャンクとして管理します。オブジェクトストレージは、データを管理し、関連メタデータとリンクします。オブジェクトストレージシステムでは、大量の非構造化データを保持することができます。

SAP Insights ニュースレター

placeholder
今すぐ購読

ニュースレターを購読して、重要な情報や知見を手に入れましょう。

参考文献

先頭に戻る