データレイクとは?
データレイクは、データサイロ問題への対処に役立つセントラルデータリポジトリーです。
データレイクの概要
データレイクは情報のリポジトリーです。データレイクはデータウェアハウスと混同されることがよくありますが、それぞれ異なるビジネスニーズに対応し、アーキテクチャーも異なっています。特にクラウドデータレイクは、ソーシャルデータ、IoT のマシンデータ、トランザクションデータが加速度的に増え続けるなか、最新のデータ管理戦略に組み込まれる重要な要素になります。あらゆるデータタイプを保存、変換、分析する機能により、新たなビジネスチャンスとデジタルトランスフォーメーションへの道が開かれます。これこそがデータレイクの役割です。
90
%
ビッグデータの取り組みによって将来の成功が決まると考えている金融機関の割合
64.2
2020 年に作成されたデジタルデータのゼタバイト数
176
億米ドル
2026 年までに到達すると予測されるデータレイク市場の価値
データレイクの定義
データレイクは、データサイロ問題への対処に役立つセントラルデータリポジトリーです。データレイクで重要なのは、膨大な生データをネイティブ(オリジナル)形式のまま保存することです。この形式は、構造化、非構造化、半構造化のいずれの形式でもかまいません。データレイク、特にクラウドのデータレイクは、低コストで拡張しやすく、応用機械学習アナリティクスと合わせて使用されることがよくあります。
データレイクとデータウェアハウス
データレイクとは対照的に、データウェアハウスにはデータ管理機能が備わっており、事前定義されたビジネス上の質問やユースケース向けに処理された、フィルタリング済みのデータが保存されています。
データウェアハウスとデータレイクの比較図
データウェアハウスとデータレイクは、多くの場合、相互に補完し合っています。例えば、ビジネス上の質問に回答するためにデータレイクに保存されている生データが必要になった場合、そのデータを抽出、クリーニング、変換して、データウェアハウスでの詳細な分析に使用できます。
「データレイクハウス」とは、発展段階にある新しい概念で、従来のデータレイク上にデータ管理機能を追加したものです。要するに、データレイクとデータウェアハウスが融合されています。
以上の説明はデータタイプとプロセス上の違いについてですが、さらに、データレイクとデータウェアハウスソリューションを詳細に比較すると以下のようになります。
最終的には、データ量、データベースのパフォーマンス、ストレージ価格が、ストレージソリューションの選択に大きく影響します。
データレイクソリューションの主な要素
データ移動:データレイクを使用すると、複数のソースから任意のデータタイプをネイティブ形式でインポートすることができます。これにより、必要に応じてデータの規模に合わせた調整が可能になり、データ構造、スキーマ、変換方法を定義する必要もないため、管理費を削減できます。
データの安全な保存とカタログ:データレイクは、CRM や ERP ソフトウェアのビジネスデータから、IoT デバイス、ソーシャルメディアやレガシーシステムの履歴データまで、さまざまなソースの構造化/半構造化/非構造化データを保存します。また、データレイクでは、ガバナンス、セキュリティ、制御を適用しながら、バッチデータやストリーミングデータを取得できます。適切なツールを使用すると、データに直接クエリーを実行したり、データウェアハウスにデータを取り込んだりすることができます。
アナリティクスと機械学習:データレイクによって、個別のアナリティクスデータベースにデータを移動することなく、ロールベースで情報にアクセスして、アナリティクスや機械学習分析を実行できるようになります。また、履歴データをリアルタイムデータと組み合わせて、機械学習モデルや予測分析モデルを改良し、より良い結果や新しい結果を提供することができます。
データレイクのしくみ
最新のデータレイクには、主に 3 つの機能があります。
- 生データのランディングゾーン
- 分析目的に合わせてデータを変換するステージングゾーン
- アナリティクス、アプリケーションでデータを利用し、機械学習モデルにデータを供給するデータ探索ゾーン
データレイクから、アナリティクスやその他のビジネスアプリケーション、または機械学習ツールなどのさまざまなソースに情報が取り込まれ、さらに詳細な分析が行われます。
データレイクのユースケース
小売業でのデータレイクのユースケースを 2 つ紹介します。
長期販売データを、Web サイトのクリックストリームデータ、気象データ、ニュースデータ、マイクロ/マクロ経済データなどの非構造化データとともに、データレイクに保存します。このデータをまとめて保存しアクセスできるようにすると、データサイエンティストがこれらの異なる情報ソースを組み合わせて、特定の製品や製品ラインの需要予測モデルを簡単に作成できるようになります。この情報が小売 ERP システムへの入力として使用され、製品の増産計画や減産計画に役立ちます。
また、マーケティングエキスパートは同じデータレイクにアクセスして、Web サイトのセンチメント分析や、ニュースデータ、マクロ経済データ、販売履歴データへのソーシャルメディアの関与を確認し、注力する製品と、販売数、利益、選ばれる確率を最大限に高めるためのベストな方法を判断することができます。
データレイクのタイプ
データレイクは、オンプレミス、クラウド、ハイブリッド環境で、Amazon Web Services (AWS)、Microsoft Azure、Google Cloud といった複数のクラウドハイパースケーラーを横断して配置することができます。
データレイクの種類で最も一般的なのは、間違いなくクラウドデータレイクです。クラウドデータレイクは、フルマネージド型のクラウドサービス内で、通常のデータレイク機能をすべて提供します。
オンプレミスのデータレイク:オンプレミスのデータレイクを使用して、社内の IT エンジニアリングリソースがハードウェア、ソフトウェア、プロセスを管理します。このアプローチでは、設備投資 (CAPEX) の負担が大きくなり、データはサイロ化する傾向があります。
クラウドデータレイク:クラウドデータレイクでは、オンプレミスのインフラストラクチャーがアウトソーシングされます。運用コスト (OPEX) の負担は大きくなりますが、この導入アプローチは規模の調整がしやすく、その他多くのメリットもあります(後述)。
ハイブリッドデータレイク:オンプレミスとクラウドのデータレイクを両方同時に維持することを選択する場合もあります。このような状況はあまりみられませんが、採用されるのはほとんど、オンプレミスからクラウドへの移行時です。
マルチクラウドデータレイク:マルチクラウドデータレイクでは、2 つ以上のクラウドサービスを組み合わせます。たとえば、企業が AWS と Azure の両方を使用してクラウドデータレイクの管理と維持を行う場合があります。これを実現するには、種類の異なるプラットフォーム間の相互通信を確保するために高度な専門知識が必要です。
クラウドデータレイクの 6 つのメリット
クラウドデータレイクを選択すべき理由はなんでしょうか。データを価値の高いビジネス資産に変えると、デジタルトランスフォーメーションの実現につながります。クラウドとデータレイクを組み合わせると強い基盤が提供されます。クラウドデータレイクを使用すると、履歴データや、ログファイル、クリックストリーム、ソーシャルメディア、インターネット接続デバイスなどの新しいデータソースにアナリティクスを適用して、実用的なインサイトを得ることができます。
期待される主なメリットをいくつか紹介します。
- コスト効率:クラウドストレージプロバイダーは、多くのストレージオプションや価格設定オプションを用意しています。
- 自動スケーリング:クラウドサービスにはスケーリング機能が備わっており、企業はオンデマンドでストレージ容量を計算/活用できます。
- セントラルデータリポジトリー:クラウドデータレイクは、情報を統合し、チーム間のプロセス効率を考慮してデータアクセスを統制する唯一の正しい情報源として機能します。
- データセキュリティ:クラウドストレージプロバイダーは、責任共有モデルを通じてデータのセキュリティを保証します。
- ツール:クラウドストレージプロバイダーやその他のベンダーが提供する ETL ツールを使用すれば、データのクロール、データカタログの構築、データ準備/データ変換/データ取り込みの実行により、データのクエリーが可能になります。
- アナリティクスの向上により、新しいインサイトを取得し、ビジネス成果を高める:クラウドデータレイクでは、データを新しい方法で組み合わせることができます。例えば、CRM データやソーシャルメディアの分析により、顧客離れの原因を見極める新しいカスタマーインサイトを得たり、ロイヤルティ向上にはどのようなプロモーションがよいかを探ったりできます。また、IoT データの分析を通じて業務効率を向上させることも可能です。