コンテンツにスキップする
ビッグデータとは?

ビッグデータとは?

ビッグデータは、私たちが日々その中を漂っている情報(コンピューター、モバイルデバイス、マシンセンサーから流れ出る膨大な量のデータ)の大海といえます。このデータは、意思決定の促進、プロセスとポリシーの改善、顧客中心の製品、サービス、エクスペリエンスの創出を実現するために使用されます。ビッグデータは、その量だけでなく、その性質の多様性と複雑さから、「ビッグ」と定義されています。通常、ビッグデータは、従来のデータベースの収集、管理、処理の能力を超えています。また、デジタルで監視可能な地球上のどこからでも、どんなものからでも発生します。気象衛星、IoT デバイス、交通監視カメラ、ソーシャルメディアのトレンドなど、各企業がレジリエンスと競争力を高めるためにマイニングと分析を行う、多種多様なデータソースがあります。

ビッグデータアナリティクスの重要性

ビッグデータの真価は、そのビッグデータをどの程度分析でき、そして理解できるかで決まります。人工知能 (AI)、機械学習、最新データベーステクノロジーにより、ビッグデータのビジュアル化と分析が可能になり、実用的なインサイトをリアルタイムで提供することができます。ビッグデータアナリティクスにより、企業はデータを活用して、新しいビジネスチャンスをつかんだり、ビジネスモデルを構築したりできます。著者で経営アナリストのジェフリー・ムーア (Geoffrey Moore) 氏は次のように述べています。「ビッグデータアナリティクスがなければ、企業は目を閉じ耳を塞いで、Web にさまよい出ることになります。それはまるで、高速道路に迷い出た鹿のようなものです。」

ビッグデータとアナリティクスについて

ビッグデータの進化

現在では考えられないことですが、アポロ誘導コンピューターは、80 キロバイト未満のメモリーを使って、月面着陸に成功した最初の宇宙船を誘導しました。それ以降、コンピューター技術は指数関数的に成長し、それとともにデータ生成量も増加しました。実際に、世界のデータ保存の技術能力は、1980 年代以降、約 3 年ごとに倍増しています。アポロ 11 号が打ち上げられた 50 年あまり前、全世界で生成されるデジタルデータの量は平均的なノート PC に収まる程度のものでした。IDC 社によれば、現在全世界で生成されているデジタルデータは推定 44 ゼタバイト(44 兆ギガバイト)で、2025 年までには 163 ゼタバイトに達すると推定されています。 

64.2

2020 年に生成されたデジタルデータのゼタバイト数 – IDC

2

デジタルストレージを開始後、 5 年で増加するデータ量 – IDC

ソフトウェアやテクノロジーの高度化が進むにつれ、非デジタルシステムはさらに通用しなくなるでしょう。デジタルで生成、収集されたデータを処理するために、より高度なデータ管理システムが必要になります。そして、SNS、スマートフォン、コネクテッド IoT デバイスの急激な成長により、現在のビッグデータ時代が始まりました。

ビッグデータの種類:構造化データおよび非構造化データとは?

データセットは通常、その構造とインデックス化のシンプル具合によって 3 つの種類に分類されます。

3 種類のビッグデータ

ビッグデータの種類
  1. 構造化データ:整理と検索が最も簡単なデータです。財務データ、マシンログ、人口統計データなどが含まれます。構造化データを思い浮かべるには、事前定義された列と行で構成されたスプレッドシートが最適です。スプレッドシートの構成要素は分類が容易で、データベースの設計者や管理者は、検索や分析のためのシンプルなアルゴリズムを定義することができます。構造化データの場合、膨大な量であっても、必ずしもビッグデータと見なされるわけではありません。構造化データそれ自体の管理が比較的簡単であるため、ビッグデータの定義基準を満たさないからです。従来、データベースは SQL と呼ばれるプログラミング言語を使用して構造化データを管理していました。SQL は、開発者がその当時人気が出始めていたリレーショナル(スプレッドシート形式)データベースを構築、管理できるようにするために、IBM によって 1970 年代に開発されたものです。 
  2. 非構造化データ:ソーシャルメディアの投稿や音声、画像、自由に記入できる顧客コメントなどが含まれます。このようなデータは、行列形式の標準リレーショナルデータベースでは簡単に取得できません。以前は、企業が大量の非構造化データを検索、管理、分析したいと考えた場合、手間のかかる手動プロセスを使用する必要がありました。非構造化データを分析して理解することの潜在的な価値は明らかでしたが、それを実行するためのコストが法外すぎました。また、その実行に要する時間を考えても、分析結果が出る頃にはもう古くなっていることがよくありました。非構造化データは通常、スプレッドシートやリレーショナルデータベースではなく、データレイク、データウェアハウス、NoSQL データベースに保存されます。
  3. 半構造化データ:その名の示すとおり、構造化データと非構造化データのハイブリッドです。電子メールは、メッセージの本文に非構造化データが含まれますが、送信者、受信者、件名、日付などの組織プロパティも含まれるため、半構造化データの良い例になります。また、ジオタギングやタイムスタンプ、セマンティックタグを利用するデバイスも、構造化データを非構造化コンテンツと一緒に配信できます。例えば、身元がわからないスマートフォン画像でも、それが自撮りであることと、撮られた時間と場所はわかります。AI テクノロジーを利用する最新データベースは、データタイプを即座に特定できるだけでなく、含まれている異種データセットを効果的に管理および分析するためのアルゴリズムをリアルタイムに生成することができます。 

ビッグデータのソース

データを生成するモノの範囲は、ドローン衛星からトースターまで、驚異的な速度で拡大しています。ただし分類上、データソースは通常、以下の 3 つの種類に分けられます。

 

ビッグデータのソース

ソーシャルデータ

ソーシャルデータには、その名の示すとおり、ソーシャルメディア上のコメント、投稿、画像、さらに(増加の一途をたどる)動画が含まれます。そして、4G または 5G セルラーネットワークの世界的な普及拡大に伴い、2023 年までにスマートフォンで動画コンテンツを定期的に視聴する人の数は全世界で 27 億 2,000 万人に達すると推定されています。ソーシャルメディアとその利用状況の動向は、前触れなく急速に変化する傾向がありますが、ソーシャルメディアはデジタルデータの生成元としてその成長を止めることはないでしょう。

 

マシンデータ

IoT デバイスやマシンにはセンサーが装備され、デジタルデータを送受信できるようになっています。IoT センサーが、企業全体のデバイス、車両、設備からマシンデータを収集します。世界規模で、気象センサー、交通センサー、セキュリティ監視カメラなど、データを生成するモノの数が急速に増加しています。IDC 社は、2025 年までに地球上に 400 億を超える IoT デバイスが存在するようになり、世界全体のデジタルデータのほぼ半分を生成すると予測しています。

 

トランザクションデータ

これは、世界で最も速く移動し、増大するデータの 1 つです。例えば、ある大手の国際的小売業者は、1 時間で 100 万件を超える顧客トランザクションを処理することで知られています。世界中の購買トランザクションとバンキングトランザクションを加えれば、生成されるデータの膨大さを想像できるでしょう。さらに、トランザクションデータも、画像やコメントなどを含む半構造化データになりつつあり、管理と処理がいっそう複雑になっています。  

ビッグデータを定義する 5 つの V

データセットが大きいというだけでは、必ずしもビッグデータにはなりません。ビッグデータと見なされるには、データが少なくとも以下の 5 つの特性を持っている必要があります。

5 つの V と呼ばれるビッグデータの 5 つの特徴

ビッグデータの 5 つの V
  1. Volume(データ量):データ量はビッグデータを「ビッグ」にする唯一の要素ではありませんが、それが主要な特徴であることは確かです。ビッグデータを完全に管理し十分に活用するには、高度なアルゴリズムと AI 主導の分析が必要です。しかし、それを行うには、大企業が保有するテラバイト単位のデータを保存、整理、取得できる安全で信頼性の高い手段が必要です。
  2. Velocity(速さ):以前は、データが生成された後、従来のデータベースシステムに(多くの場合は手作業で)入力してからでないと、データを分析または取得することができませんでした。現在は、ビッグデータテクノロジーにより、データベースはデータの生成中に、瞬時にデータを処理、分析、設定することができます。企業にとって、このことはビジネスチャンスの獲得、顧客ニーズへの対応、不正行為の阻止、スピードが重要なその他の活動でリアルタイムデータを使用できることを意味します。
  3. Variety(多様性):構造化データのみで構成されるデータセットは、その量が膨大でも、必ずしもビッグデータとは呼ばれません。ビッグデータは、通常、構造化データ、非構造化データ、半構造化データの組み合わせで構成されます。従来のデータベースおよびデータ管理ソリューションには、ビッグデータを構成する複雑な異種データセットを管理するための柔軟性も拡張性もありませんでした。
  4. Veracity(真実性):最新のデータベーステクノロジーは、企業が膨大な量と種類のビッグデータを蓄積してデータの意味を理解することを可能にします。しかし、データは、正確で、関連性があり、タイムリーであってはじめて、価値あるものとなります。構造化データのみで構成される従来のデータベースでは、データの正確さに問題があるとすれば、通常、構文上の誤りや入力ミスが問題の原因でした。非構造化データでは、まったく新しい真実性の課題があります。人間のバイアス、ソーシャルノイズ、データの出自の問題はすべて、データの品質に影響を及ぼす可能性があります。
  5. Value(価値):ビッグデータの分析から、興味深かったり、意外な結果を得られることは間違いありません。ただ、ビジネスの場合、ビッグデータアナリティクスにより、企業が競争力とレジリエンス(回復力)を高め、顧客へのサービスを向上させるのに役立つインサイトを提供できる必要があります。最新のビッグデータテクノロジーは、データを収集、取得できる能力を高め、収益とレジリエンスの両方に目に見える効果をもたらします。

ビッグデータのメリット

最新のビッグデータ管理ソリューションにより、企業はかつてないスピードと正確さで、生データを的確なインサイトに変換することができます。

  • 製品およびサービスの開発:ビッグデータアナリティクスにより、製品開発者は顧客レビューやカルチャートレンドなどの非構造化データを分析し、迅速に対応できます。
  • 予知保全:McKinsey 社が実施したグローバルな調査で、IoT 対応のマシンからのビッグデータの分析によって、設備の保守コストが最大 40% 削減されたことが明らかになりました。
  • カスタマーエクスペリエンス:Gartner 社は、グローバルビジネスリーダーを対象とした 2020 年の調査で、「成長企業は、そうではない企業よりも、カスタマーエクスペリエンスデータを積極的に収集している」と結論付けました。ビッグデータの分析により、企業は自社のカスタマーエクスペリエンスを改善し、パーソナライズできるようになります。
  • レジリエンスとリスク管理:コロナ禍によって、多くのビジネスリーダーが事業の中断や混乱に対して自分たちの事業運営がいかに脆弱であるかを突然悟ることになりました。ビッグデータのインサイトを活用すれば、企業はリスクを予見し、不測の事態に備えることができます。
  • コスト削減と効率の向上:企業は組織内のすべてのプロセスに高度なビッグデータアナリティクスを適用することで、非効率なプロセスを見つけるだけでなく、高速かつ効果的なソリューションを導入することができます。
  • 競争力の強化:ビッグデータから得られるインサイトにより、企業はコスト削減、顧客満足度の向上、製品の改善、事業運営の革新を図ることができます。

AI とビッグデータ

ビッグデータの管理は、膨大な量の異種混在の複雑な情報を処理し、有意義に分析する能力を持つシステムに依存しています。この点で、ビッグデータと AI はある程度の相互関係があります。ビッグデータは、データを整理し分析する AI の働きがなければ、実用性はそれほどありません。また、AI が、実用に耐える十分な頑健性を持つアナリティクスを実現できるかどうかは、ビッグデータに含まれるデータセットの幅広さによって決まります。Forrester Research 社のアナリスト、ブランドン・パーセル (Brandon Purcell) 氏が述べているように、「データは AI の生命線です。AI システムがその機能を発揮するためには、データから学習する必要があるのです。」

データは AI の生命線です。AI システムがその機能を発揮するためには、データから学習する必要があるのです。

– ブランドン・パーセル氏、Forrester Research 社アナリスト

機械学習とビッグデータ

機械学習アルゴリズムは、入力データを定義し、データのパターンを特定します。これらのインサイトは、情報に基づいた業務上の意思決定や、プロセスの自動化をサポートするために提供されます。機械学習はビッグデータによってその機能を発揮します。分析対象のデータセットの頑健性が高いほど、システムが学習して継続的に進化できる機会が広がり、プロセスの順応性を高められます。

ビッグデータテクノロジー

ビッグデータアーキテクチャー

 

ビッグデータのアーキテクチャーは、ビル建設におけるアーキテクチャーと同じように、データ管理・分析における基本構造のブループリントを提供します。ビッグデータアーキテクチャーは、ビッグデータを管理するのに必要なプロセスをマッピングします。これは 4 つの基本「レイヤー」で構成されます。まず、データソース、データストレージ、次にビッグデータ分析、そして最後に、消費レイヤーを通って、分析結果がビジネスインテリジェンスとして提示されます。

 

ビッグデータアナリティクス

 

このプロセスは、ビッグデータの特性に合ったデータモデリングとアルゴリズムを使用することで、有用なデータビジュアル化を可能にします。MIT Sloan School of Management の詳細調査で、2,000 人以上のビジネスリーダーにビッグデータ分析に関する自社の経験について尋ねた結果、ビッグデータ管理戦略の策定に携わったり、これを支援した場合に、最も意義あるビジネス成果を得ていました。

 

ビッグデータと Apache Hadoop

 

1 つの大きな箱の中に 10 枚の 10 セント硬貨と 100 枚の 5 セント硬貨が混じって入っている場合を想像してください。次に、1 列に並んだ 10 個の小さな箱があり、10 枚の 5 セント硬貨と 1 枚の 10 セント硬貨がそれぞれの箱に入っていると想像してください。10 セント硬貨を見つけやすいのはどちらのシナリオでしょうか。Hadoop は基本的にこの原理で動いています。Hadoop は、多数のコンピューターが接続されたネットワークでビッグデータの分散処理を行うためのオープンソースフレームワークです。したがって、Hadoop では、1 つの大きなコンピューターですべてのデータを保存および処理するのではなく、複数のコンピューターを、ほぼ無制限に拡張可能なネットワーク内にクラスタ化し、データを並行処理して分析します。このプロセスでは通常、分散コンピューターをマーシャリングすることでビッグデータ処理を調整する MapReduce と呼ばれるプログラミングモデルを利用します。

 

データレイク、データウェアハウス、NoSQL

 

構造化データの保存には、従来の SQL スプレッドシート形式のデータベースが使用されます。非構造化/半構造化ビッグデータは、インデックス化や分類に適していないため、独自のストレージおよび処理のパラダイムを必要とします。データレイク、データウェアハウス、NoSQL データベースはすべて、従来型でないデータセットを管理するデータリポジトリーです。データレイクは、まだ処理されていない大量の生データのプールです。データウェアハウスは、特定の目的のためにすでに処理されたデータのリポジトリーです。NoSQL データベースは、処理するデータの性質に合わせて修正できる柔軟なスキーマを提供します。これらのシステムにはそれぞれ長所と短所があるため、多くの企業は、自社のニーズに合わせてこれらの異なるデータリポジトリーを組み合わせて使用しています。

 

インメモリーデータベース

 

従来のディスクベースのデータベースは、SQL およびリレーショナルデータベーステクノロジーを念頭に置いて開発されました。大量の構造化データは処理できるかもしれませんが、非構造化データを最適に保存して処理するようには設計されていません。インメモリーデータベースでは、ディスクベースのシステムからデータを取得する必要はなく、処理および分析は完全に RAM 内で行われます。また、インメモリーデータベースは分散アーキテクチャー上で構築されています。つまり、単一ノードのディスクベースデータベースモデルとは対照的に、インメモリーデータベースは、並列処理により、はるかに速い処理速度を実現することができます。

ビッグデータの仕組み

ビッグデータは、分析によって、業績を大幅に向上させる、的確で有用なインサイトを提供するものになって初めて意味のあるものになります。企業は、ビッグデータ変革に備えて、自社のシステムとプロセスがビッグデータを収集、保存、分析できる準備が十分にできていることを確認する必要があります。

ビッグデータの使用に関する主要な 3 つのステップ

ビッグデータの仕組み
  1. ビッグデータの収集。ビッグデータの多くは、一貫性のない異種ソースから流れ込んでくる、大量の非構造化データセットです。従来のディスクベースのデータベースやデータ統合メカニズムには、このようなデータを処理する能力はまったくありません。ビッグデータ管理では、インメモリーデータベースソリューションと、ビッグデータ収集に特化したソフトウェアソリューションの導入が必要です。
  2. ビッグデータの保存。ビッグデータは、その名のとおり量が膨大です。多くの企業は、既存データ用のオンプレミスストレージソリューションを有しており、これらのリポジトリーを再利用して、ビッグデータのニーズを満たし、コストを節約したいと考えています。しかし、ビッグデータは、サイズ制限やメモリー制限がない場合にその力を発揮します。最初からクラウドストレージソリューションをビッグデータモデルに組み込まなかった場合、数ヵ月後に後悔する企業は少なくないでしょう。
  3. ビッグデータの分析。AI および機械学習テクノロジーをビッグデータ分析に組み込まない場合、ビッグデータの可能性を最大限に引き出すことは不可能です。ビッグデータの 5 つの V のうちの 1 つは、「Velocity(速さ)」です。ビッグデータのインサイトが実用的な価値を持つには、スピーディさが必要です。分析プロセスは、自己最適化が可能で、定期的に経験から学習する必要があります。これは、AI 機能と最新データベーステクノロジーによってのみ実現できます。

ビッグデータの用途


ビッグデータによって実現されるインサイトの獲得やディープラーニングは、ほぼすべての業務や業種にメリットをもたらします。とは言え、ビッグデータが最も有効に機能するのは、複雑な業務が発生する大規模な組織になります。

  • ファイナンス(財務・経理)
    「Journal of Big Data」の 2020 年の調査では、ビッグデータは「ファイナンスサービスセクターの変革、特に貿易や投資、税改革、不正の検出・調査、リスク分析、およびオートメーションにおいて、重要な役割を果たしている」と指摘されています。また、ビッグデータは、顧客満足度とカスタマーエクスペリエンスの向上に必要なインサイトを得るために顧客データとフィードバックを分析することで、金融業界の変革に役立っています。トランザクションデータセットは、世界で最も動きが速く、最も大きなデータセットです。高度なビッグデータ管理ソリューションの導入が増えることで、銀行や金融機関はこのデータを保護し、顧客と企業の両方にメリットがある方法でこのデータを活用できるようになります。
  • ヘルスケア
    ビッグデータの分析により、医療従事者はより正確でエビデンスに基づいた診断を行うことができます。さらに、ビッグデータは、病院管理者が傾向を特定し、リスクを管理し、不要な支出を最小限に抑えるのに役立ちます。これにより、患者ケアおよび研究の領域に可能な限り最大限の予算を割り当てることができます。コロナ禍において、世界中のリサーチサイエンティストが、COVID-19 の治療と管理方法について凌ぎを削っています。ビッグデータはこの過程で大きな役割を果たしています。2020 年 7 月の「The Scientist」では、コロナウイルスと戦うために、医療チームがビッグデータをどのように活用し分析できるかについて次のように述べています。「ビッグデータやデータサイエンスのツールやリソースを、これまでは不可能だった方法で活用することで、臨床科学のやり方を変革できるかもしれません。」
  • 輸送とロジスティクス
    アマゾンエフェクト (Amazon Effect) とは、顧客がオンライン注文するあらゆる商品に対して、翌日配送を期待してしまう Amazon 社の影響のことを言います。「Entrepreneur」誌は、ダイレクトなアマゾンエフェクトとして、「ラストマイルの物流レースがさらに激化するだろう」と指摘しています。ロジスティクス企業は、輸送経路計画、混載、および燃費対策を最適化するために、ますますビッグデータ分析に頼るようになっています。
  • 教育
    コロナ禍において、世界中の教育機関は、リモート学習をサポートするためにカリキュラムや指導方法を変えなければなりませんでした。ここで発生した主な課題は、学生の成績とオンライン指導方法の全体的な効果を分析および評価するための信頼性の高い方法を見つけることでした。ビッグデータが教育やオンライン学習に及ぼす影響に関する 2020 年の記事では、教師について次のように述べています。「ビッグデータによって、教師は教育のパーソナライズ、混合学習の開発、評価システムの変革、生涯学習の促進に自信が持てるようになりました。」
  • エネルギーと公益事業
    米国の労働統計局によると、公益事業者は 14 億米ドル以上を検針員に費やしており、通常、アナログメーターや不定期の手作業での読み取りに依存しています。スマートメーターリーダーは、デジタルデータを 1 日に何度も配信し、ビッグデータ分析により、効率的なエネルギー利用および正確な価格設定と予測を実現します。さらに、現場作業員が検針から解放されると、データ収集・分析により、修理とアップグレードが緊急に必要とされる場所に作業員を優先して配備できるようになります。

SAP のデータ管理ソリューションの詳細はこちら

多様なデータランドスケープを管理し、統合されたデータからビジネスインサイトを獲得しましょう

その他のインサイト

ビッグデータに関する FAQ

ビッグデータは、多様なソースからの潜在的な業務関連データ(構造化データと非構造化データの両方)で構成されます。分析後、その企業と同市場における全業務領域について、より深いインサイトとより正確な情報を提供するために使用されます。  

ビッグデータテクノロジーとは、ビッグデータの処理および分析に使用されるすべてのツール、ソフトウェア、技術のことです。これには、データマイニング、データストレージ、データ共有、データビジュアル化などが含まれます。

Apache Hadoop は、オープンソースの分散処理ソフトウェアソリューションです。複数のコンピューターを接続し、それらのコンピューターでビッグデータを並行処理し、ビッグデータ管理の高速化、促進を実現するために使用されます。

Apache Spark は、オープンソースの分散処理ソフトウェアソリューションです。複数のコンピューターを接続し、それらのコンピューターでビッグデータを並行処理し、ビッグデータ管理の高速化、促進を実現するために使用されます。Spark の前身である Hadoop のほうが広く使われていますが、Spark は機械学習などのテクノロジーを活用してスピードと効率を向上させたので人気が上昇しています。 

データレイクは、大量の未加工の非構造化データを保存および取得できるリポジトリーです。ビッグデータの多くは構造化されておらず、従来の行列形式のリレーショナルデータベースに保存できないため、データレイクが必要です。 

ダークデータとは、企業が通常業務の一環として収集するすべてのデータです(監視カメラ映像や Web サイトのログファイルなどを含む)。コンプライアンス目的で保存されますが、通常、活用されることはありません。この大規模なデータセットについては、もたらす価値よりも高い保存コストがかかります。 

データファブリックとは、ビジネスエコシステム全体にわたるビッグデータのアーキテクチャーとテクノロジーが統合されたものです。その目的は、あらゆるソースのあらゆる種類のビッグデータを、企業全体のすべてのデータ管理サービスに接続することです。 

SAP Insights ニュースレター

今すぐ購読

ニュースレターを購読して、重要なインサイトを手に入れましょう。

イノベーションに関する記事

先頭に戻る