Saltar al contenido
¿Qué es Big Data?

¿Qué es Big Data?

La importancia de las analíticas de Big Data

Big Data es el océano de información en el que nadamos a diario –vastos zettabytes de datos que fluyen desde nuestras computadoras, dispositivos móviles y sensores de máquinas–. Las organizaciones usan estos datos para tomar decisiones, mejorar los procesos y las políticas y crear productos, servicios y experiencias centrados en el cliente. Big Data se define como "grande" no solo por su volumen, sino también por la variedad y complejidad de su naturaleza. Normalmente, supera la capacidad de las bases de datos tradicionales para capturar, gestionar y procesar datos. Y Big Data puede venir de cualquier lugar o cualquier cosa en el mundo que se pueda monitorear digitalmente. Satélites meteorológicos, dispositivos de internet de las cosas (IoT), cámaras de tránsito, tendencias de redes sociales –son solo algunas de las fuentes de datos que se extraen y analizan para hacer que las empresas sean más resilientes y competitivas–.

El verdadero valor de Big Data se mide por el grado en que usted puede analizar y comprender los datos. La inteligencia artificial (IA), machine learning y las tecnologías modernas de bases de datos permiten la visualización y el análisis de Big Data para brindar información estratégica accionable –en tiempo real–. Las analíticas de Big Data ayudan a las empresas a poner sus datos a trabajar –para hacer realidad nuevas oportunidades y construir modelos de negocio–. Como dijo acertadamente Geoffrey Moore, autor y analista de gestión, “sin analíticas de Big Data, las empresas son ciegas y sordas, salen a la web como ciervos en una autopista”.

Evolución de Big Data

Por inconcebible que parezca hoy, la computadora guía del Apolo llevó la primera nave espacial a la luna con menos de 80 kilobytes de memoria. Desde entonces, la tecnología informática ha crecido a un ritmo exponencial –y la generación de datos junto con ella–. De hecho, la capacidad tecnológica mundial para almacenar datos se ha duplicado aproximadamente cada tres años desde la década de 1980. Hace poco más de 50 años, cuando el Apolo 11 despegó, la cantidad de datos digitales generados en todo el mundo podría haber cabido en una computadora portátil promedio. Hoy en día, IDC estima que el número es de 44 zettabytes (o 44 billones de gigabytes) y proyecta que crecerá hasta 163 zettabytes para 2025.  

64.2

zettabytes de datos digitales se crearon en 2020, IDC

163

zettabytes de datos digitales para el 2025, IDC

A medida que el software y la tecnología se tornan más avanzados, menos viables son, en comparación, los sistemas no digitales. Los datos generados y recopilados digitalmente exigen sistemas de gestión de datos más avanzados para gestionarlos. Además, el crecimiento exponencial de las plataformas de redes sociales, las tecnologías de smartphones y los dispositivos de IoT conectados digitalmente ha ayudado a crear la era actual de Big Data.

¿Qué son los datos estructurados y no estructurados?

Los datasets se clasifican normalmente en tres tipos en función de su estructura y de lo sencillo (o no) que sean de indexar.

Datos estructurados

Este tipo de datos es el más simple de organizar y buscar. Puede incluir datos financieros, registros de máquina y detalles demográficos. Una hoja de cálculo de Excel, con su diseño de columnas y filas predefinidas, es una buena forma de visualizar datos estructurados. Sus componentes están categorizados fácilmente, lo cual les permite a los diseñadores y administradores de bases de datos definir algoritmos simples para búsqueda y análisis. Incluso cuando existen datos estructurados en un gran volumen, no necesariamente califican como Big Data porque los datos estructurados por sí solos son relativamente simples de gestionar y, por lo tanto, no cumplen con los criterios de definición de Big Data. Tradicionalmente, las bases de datos han usado un lenguaje de programación llamado lenguaje de consulta estructurado (SQL) para gestionar datos estructurados. SQL fue desarrollado por IBM en la década de 1970 para permitirles a los desarrolladores construir y gestionar las bases de datos relacionales (estilo de hoja de cálculo) que comenzaban a prevalecer en ese momento.  

Datos no estructurados

Esta categoría de datos puede incluir cosas como publicaciones en redes sociales, archivos de audio, imágenes y comentarios abiertos de clientes. Este tipo de datos no es fácil de capturar en las bases de datos relacionales de filas y columnas estándar. Tradicionalmente, las empresas que querían buscar, gestionar o analizar grandes cantidades de datos no estructurados debían usar laboriosos procesos manuales. Nunca hubo duda respecto al valor potencial de analizar y comprender tales datos, pero el costo de hacerlo era a menudo demasiado exorbitante para que valiera la pena. Teniendo en cuenta el tiempo que llevaba, los resultados a menudo eran obsoletos antes incluso de que fueran entregados. En lugar de hojas de cálculo o bases de datos relacionales, los datos no estructurados se suelen almacenar en data lakes, almacenes de datos y bases de datos NoSQL.

Datos semiestructurados

Tal como suena, los datos semiestructurados son un híbrido entre datos estructurados y no estructurados. Los correos electrónicos son un buen ejemplo, ya que incluyen datos no estructurados en el cuerpo del mensaje, al igual que propiedades organizativas como emisor, destinatario, asunto y fecha. Los dispositivos que usan etiquetado geográfico, marcas de tiempo o etiquetas semánticas también pueden brindar datos estructurados junto con contenido no estructurado. Una imagen de smartphone no identificada, por ejemplo, puede indicar que es una selfie y el momento y el lugar donde se hizo. Una base de datos moderna que corre tecnología de IA no solo puede identificar al instante diferentes tipos de datos, sino que también puede generar algoritmos en tiempo real para gestionar y analizar eficazmente los dispares datasets involucrados. 

La gama de cosas que generan datos está creciendo a un ritmo fenomenal –desde satélites drones hasta tostadoras–. Pero a efectos de su categorización, las fuentes de datos generalmente se dividen en tres tipos:

Datos sociales

Como su nombre lo indica, los datos sociales se generan mediante comentarios, publicaciones, imágenes y, cada vez más, videos en las redes sociales. Y con la creciente ubicuidad global de las redes celulares 4G y 5G, se estima que el número de personas en el mundo que ven regularmente contenido de video en sus teléfonos inteligentes aumentará a 2,72 mil millones para el 2023. Aunque las tendencias en redes sociales y su uso tienden a cambiar de manera rápida e impredecible, lo que no cambia es su crecimiento constante como generadoras de datos digitales.

Datos de máquinas

Los dispositivos y las máquinas de IoT están equipados con sensores y tienen la capacidad de enviar y recibir datos digitales. Los sensores de IoT ayudan a las empresas a recopilar y procesar datos de máquinas de dispositivos, vehículos y equipos en toda la empresa. Globalmente, el número de cosas que generan datos está creciendo rápidamente –desde sensores de clima y tránsito hasta de vigilancia de seguridad–. IDC estima que para el 2025 habrá más de 40 mil millones de dispositivos de IoT en el mundo, lo cual generará casi la mitad del total de datos digitales del mundo.

Datos transaccionales

Estos son algunos de los datos con el movimiento y el crecimiento más rápidos del mundo. Por ejemplo, un gran minorista internacional es conocido por procesar más de un millón de transacciones por hora con los clientes. Y cuando uno agrega todas las transacciones bancarias y de compra del mundo, se obtiene una imagen del asombroso volumen de los datos que se generan. Además, los datos transaccionales se componen cada vez más de datos semiestructurados, que incluyen cosas como imágenes y comentarios, lo cual hace que sean más complejos de gestionar y procesar.

Solo porque un dataset sea grande, no necesariamente es Big Data. Para calificarlos como tal, los datos deben poseer al menos las siguientes cinco características:

Volumen

Aunque el volumen no es en absoluto el único componente que hace que Big Data sea "grande", sin duda es una característica principal. Para gestionar y usar plenamente Big Data, se necesitan algoritmos avanzados y analíticas impulsadas por IA. Pero antes de que esto ocurra, debe haber un medio seguro y confiable para almacenar, organizar y recuperar los muchos terabytes de datos que poseen las grandes empresas.

Velocidad

En el pasado, cualquier dato que se generara debía introducirse luego en un sistema tradicional de base de datos –a menudo manualmente–, antes de que pudiera ser analizado o recuperado. Hoy en día, la tecnología de Big Data permite que las bases de datos procesen, analicen y configuren datos al mismo tiempo que se generan –a veces en milisegundos–. Para las empresas, esto significa que los datos en tiempo real pueden ser usados para captar oportunidades financieras, responder a las necesidades del cliente, frustrar el fraude y abordar cualquier otra actividad en la cual la velocidad sea crítica.

Variedad

Los datasets que se componen únicamente de datos estructurados no necesariamente son Big Data, independientemente de lo voluminosos que sean. Big Data normalmente se compone de combinaciones de datos estructurados, no estructurados y semiestructurados. Las bases de datos tradicionales y las soluciones de gestión de datos carecen de la flexibilidad y el alcance necesarios para gestionar los datasets complejos y dispares que conforman Big Data.

Veracidad

Si bien la tecnología de base de datos moderna les permite a las empresas acumular y dar sentido a asombrosas cantidades y tipos de Big Data, solo son valiosos si son precisos, relevantes y oportunos. En las bases de datos tradicionales que solo estaban compuestas por datos estructurados, los errores sintácticos y mecanográficos eran los culpables habituales en cuanto a la precisión de los datos. Con los datos no estructurados, hay un conjunto completamente nuevo de desafíos de veracidad. El sesgo humano, el ruido de las redes y la procedencia de los datos pueden tener un impacto en la calidad de los datos.

Valor

Sin duda, los resultados que se obtienen del análisis de Big Data a menudo son fascinantes e inesperados. Pero para las empresas, las analíticas de Big Data deben brindar información estratégica que pueda ayudarlas a ser más competitivas y resilientes –y atender mejor a sus clientes–. Las tecnologías modernas de Big Data habilitan la capacidad de recopilar y recuperar datos que pueden brindar beneficios mensurables tanto para los línea de resultados como para la resiliencia operativa.

Las soluciones de gestión de Big Data modernas les permiten a las empresas convertir datos sin procesar en información estratégica relevante –con velocidad y precisión sin precedentes–.

  • Desarrollo de productos y servicios: las analíticas de Big Data les permiten a los desarrolladores de productos analizar datos no estructurados, tales como reseñas de clientes y tendencias culturales, y responder rápidamente.
  • Mantenimiento predictivo: en una encuesta internacional, McKinsey descubrió que el análisis de Big Data de máquinas habilitadas para IoT redujo los costos de mantenimiento de equipamiento en hasta un 40%.
  • Experiencia de cliente: en una encuesta del 2020 a líderes de negocio globales, Gartner determinó que “las empresas en crecimiento recopilan datos de experiencia del cliente de manera más activa que las empresas que no crecen”. El análisis de Big Data les permite a las empresas mejorar y personalizar la experiencia de sus clientes con su marca.  
  • Resiliencia y gestión de riesgos: la pandemia del COVID-19 implicó una toma de conciencia drástica para muchos líderes de negocios, pues se dieron cuenta de lo vulnerables que eran sus operaciones a la disrupción. La información estratégica de Big Data puede ayudar a las empresas a anticipar el riesgo y prepararse para lo inesperado.
  • Ahorro de costos y mayor eficiencia: cuando las empresas aplican analíticas avanzadas de Big Data en todos los procesos de su organización, no solo son capaces de detectar ineficiencias, sino también de implementar soluciones rápidas y eficaces.
  • Competitividad mejorada: la información estratégica obtenida de Big Data puede ayudar a las empresas a ahorrar dinero, complacer a los clientes, hacer mejores productos e innovar en las operaciones de negocio.

IA y Big Data

La gestión de Big Data depende de sistemas con el poder de procesar y analizar con sentido grandes cantidades de información dispar y compleja. En este sentido, Big Data e IA tienen una relación un tanto recíproca. Big Data no tendría mucho uso práctico sin IA para organizarla y analizarla. Y la IA depende de la amplitud de los datasets contenidos en Big Data para brindar analíticas lo suficientemente consistentes como para ser accionables. Como afirma Brandon Purcell, analista de Forrester Research, “los datos son la esencia de la IA. Un sistema de IA necesita aprender de los datos para poder cumplir con su función”.

Los datos son el elemento vital de la IA. Un sistema de IA necesita aprender de los datos para poder cumplir con su función.

Brandon Purcell, analista, Forrester Research

Machine learning y Big Data

Los algoritmos de machine learning definen los datos entrantes e identifican patrones en ellos. Esta información estratégica se brinda para ayudar a tomar decisiones de negocio y automatizar procesos. Machine learning prospera en Big Data porque cuanto más robustos son los datasets que se analizan, mayor es la oportunidad para que el sistema aprenda y evolucione continuamente y adapte sus procesos.

Explore las soluciones de SAP para la gestión de datos

Gestione su entorno de datos diversos –en todos los almacenes de datos, data lakes y bases de datos– con una variedad de soluciones on-premise y en la nube para cumplir sus necesidades específicas.

Preguntas frecuentes sobre Big Data

Big Data consta de todos los datos potencialmente relevantes para el negocio, tanto estructurados como no estructurados –desde una variedad de fuentes dispares–. Una vez analizados, se usan para brindar información más detallada y precisa sobre todas las áreas operativas de una empresa y su mercado.

La tecnología de Big Data se aplica a todas las herramientas, software y técnicas que se usan para procesar y analizar Big Data –incluyendo (entre otras cosas) minería de datos, almacenamiento de datos, intercambio de datos y visualización de datos–.

Apache Hadoop es una solución de software de procesamiento distribuido de código abierto. Se usa para acelerar y facilitar la gestión de Big Data conectando varias computadoras y permitiéndoles procesar Big Data en paralelo.

Apache Spark es una solución de software de procesamiento distribuido de código abierto. Se usa para acelerar y facilitar la gestión de Big Data conectando varias computadoras y permitiéndoles procesar Big Data en paralelo. Su predecesor Hadoop es mucho más usado, pero Spark está ganando popularidad debido a su uso de machine learning y otras tecnologías, que aumentan su velocidad y eficiencia.

Un data lake es un repositorio en el cual se pueden almacenar y recuperar grandes cantidades de datos sin procesar y no estructurados. Los data lakes son necesarios porque gran parte de Big Data no está estructurada y no se puede almacenar en una base de datos relacional de filas y columnas tradicionales. 

Los datos oscuros son todos los datos que las empresas recopilan como parte de sus operaciones comerciales habituales (como imágenes de vigilancia y archivos de registro del sitio web). Se guardan con fines de cumplimiento normativo, pero normalmente nunca se usan. Estos grandes datasets tienen un costo mayor de almacenamiento que el valor que aportan. 

El tejido de datos es la integración de la arquitectura y las tecnologías de Big Data en todo un ecosistema de negocio. Su propósito es conectar Big Data de todas las fuentes y todos los tipos, con todos los servicios de gestión de datos en toda la empresa.  

Big Data es el océano de información en el que nadamos a diario –vastos zettabytes de datos que fluyen desde nuestras computadoras, dispositivos móviles y sensores de máquinas–. Las organizaciones usan estos datos para tomar decisiones, mejorar los procesos y las políticas y crear productos, servicios y experiencias centrados en el cliente. Big Data se define como "grande" no solo por su volumen, sino también por la variedad y complejidad de su naturaleza. Normalmente, supera la capacidad de las bases de datos tradicionales para capturar, gestionar y procesar datos. Y Big Data puede venir de cualquier lugar o cualquier cosa en el mundo que se pueda monitorear digitalmente. Satélites meteorológicos, dispositivos de internet de las cosas (IoT), cámaras de tránsito, tendencias de redes sociales –son solo algunas de las fuentes de datos que se extraen y analizan para hacer que las empresas sean más resilientes y competitivas–.

Evolución de Big Data

Por inconcebible que parezca hoy, la computadora guía del Apolo llevó la primera nave espacial a la luna con menos de 80 kilobytes de memoria. Desde entonces, la tecnología informática ha crecido a un ritmo exponencial –y la generación de datos junto con ella–. De hecho, la capacidad tecnológica mundial para almacenar datos se ha duplicado aproximadamente cada tres años desde la década de 1980. Hace poco más de 50 años, cuando el Apolo 11 despegó, la cantidad de datos digitales generados en todo el mundo podría haber cabido en una computadora portátil promedio. Hoy en día,IDC estima que el número es de 44 zettabytes (o 44 billones de gigabytes) y proyecta que crecerá hasta 163 zettabytes para 2025. 

59

zettabytes

de datos digitales hoy en día – IDC

3

veces

el volumen de datos que será creado durante los próximos cinco años en comparación con los cinco años anteriores – IDC

A medida que el software y la tecnología se tornan más avanzados, menos viables son, en comparación, los sistemas no digitales. Los datos generados y recopilados digitalmente exigen sistemas de gestión de datos más avanzados para gestionarlos. Además, el crecimiento exponencial de las plataformas de redes sociales, las tecnologías de smartphones y los dispositivos de IoT conectados digitalmente ha ayudado a crear la era actual de Big Data.

Tipos de Big Data: ¿qué son los datos estructurados y no estructurados?

Los data sets se clasifican normalmente en tres tipos en función de su estructura y de lo sencillo (o no) que sean de indexar.

Los tres tipos de Big Data

Tipos de Big Data
  1. Datos estructurados: este tipo de datos es el más sencillo de organizar y buscar. Pueden incluir datos financieros, registros de máquinas, y detalles demográficos. Una hoja de cálculo de Excel, con su diseño de columnas y filas predefinidas, es una buena forma de visualizar datos estructurados. Sus componentes están categorizados fácilmente, lo cual les permite a los diseñadores y administradores de bases de datos definir algoritmos simples para búsqueda y análisis. Incluso cuando existen datos estructurados en un gran volumen, no necesariamente califican como Big Data porque los datos estructurados por sí solos son relativamente simples de gestionar y, por lo tanto, no cumplen con los criterios de definición de Big Data. Tradicionalmente, las bases de datos han usado un lenguaje de programación llamado lenguaje de consulta estructurado (SQL) para gestionar datos estructurados. SQL fue desarrollado por IBM en la década de 1970 para permitirles a los desarrolladores construir y gestionar las bases de datos relacionales (estilo hojas de cálculo) que comenzaban a prevalecer en ese momento. 
  2. Datos no estructurados: esta categoría de datos puede incluir cosas como publicaciones en redes sociales, archivos de audio, imágenes, y comentarios abiertos de clientes. Este tipo de datos no es fácil de capturar en las bases de datos relacionales de filas y columnas estándar. Tradicionalmente, las empresas que querían buscar, gestionar o analizar grandes cantidades de datos no estructurados debían usar laboriosos procesos manuales. Nunca hubo duda respecto al valor potencial de analizar y comprender tales datos, pero el costo de hacerlo era a menudo demasiado exorbitante para que valiera la pena. Teniendo en cuenta el tiempo que llevaba, los resultados a menudo eran obsoletos antes incluso de que fueran entregados. En lugar de hojas de cálculo o bases de datos relacionales, los datos no estructurados se suelen almacenar en data lakes, almacenes de datos y bases de datos NoSQL.
  3. Datos semiestructurados: tal como suena, los datos semiestructurados son un híbrido de datos estructurados y no estructurados. Los correos electrónicos son un buen ejemplo, ya que incluyen datos no estructurados en el cuerpo del mensaje, al igual que propiedades organizativas como emisor, destinatario, asunto y fecha. Los dispositivos que usan etiquetado geográfico, marcas de tiempo o etiquetas semánticas también pueden brindar datos estructurados junto con contenido no estructurado. Una imagen de smartphone no identificada, por ejemplo, puede indicar que es una selfie y el momento y el lugar donde se hizo. Una base de datos moderna que corre tecnología de IA no solo puede identificar al instante diferentes tipos de datos, sino que también puede generar algoritmos en tiempo real para gestionar y analizar eficazmente los dispares data sets involucrados. 

Fuentes de Big Data

La gama de cosas que generan datos está creciendo a un ritmo fenomenal –desde satélites drones hasta tostadoras–. Pero a efectos de su categorización, las fuentes de datos generalmente se dividen en tres tipos:

 

Fuentes de Big Data

Datos de redes sociales

Como su nombre lo indica, los datos de redes sociales se generan mediante comentarios, publicaciones, imágenes y, cada vez más, videos en las redes sociales. Y con la creciente ubicuidad global de las redes celulares 4G y 5G, se estima que el número de personas en el mundo que ven regularmente contenido de video en sus teléfonos inteligentes aumentará a 2.720 millones para el 2023. Aunque las tendencias en redes sociales y su uso tienden a cambiar de manera rápida e impredecible, lo que no cambia es su crecimiento constante como generadoras de datos digitales.

 

Datos de máquinas

Los dispositivos y las máquinas de IoT están equipados con sensores y tienen la capacidad de enviar y recibir datos digitales. Los sensores de IoT ayudan a las empresas a recopilar y procesar datos de máquinas de dispositivos, vehículos y equipos en toda la empresa. Globalmente, el número de cosas que generan datos está creciendo rápidamente –desde sensores de clima y tránsito hasta de vigilancia de seguridad–. IDC estima que para el 2025 habrá más de 40 mil millones de dispositivos de IoT en el mundo, lo cual generará casi la mitad del total de datos digitales del mundo.

 

Datos transaccionales

Estos son algunos de los datos con el movimiento y el crecimiento más rápidos del mundo. Por ejemplo, un gran minorista internacional es conocido por procesar más de un millón de transacciones por hora con los clientes. Y cuando uno agrega todas las transacciones bancarias y de compra del mundo, se obtiene una imagen del asombroso volumen de los datos que se generan. Además, los datos transaccionales se componen cada vez más de datos semiestructurados, incluyendo cosas como imágenes y comentarios, lo cual hace que sean más complejos de gestionar y procesar.  

Las cinco V que definen Big Data

Solo porque un data set sea grande, no necesariamente es Big Data. Para calificarlos como tal, los datos deben poseer al menos las siguientes cinco características:

Las cinco características de Big Data, llamadas "las 5 V"

Las 5 "V" de Big Data
  1. Volumen: si bien el volumen no es en absoluto el único componente que hace que Big Data sea grande, sin duda es una característica principal. Para gestionar y usar plenamente Big Data, se necesitan algoritmos avanzados y analíticas impulsadas por IA. Pero antes de que esto ocurra, debe haber un medio seguro y confiable para almacenar, organizar y recuperar los muchos terabytes de datos que poseen las grandes empresas.
  2. Velocidad: en el pasado, cualquier dato que se generara debía introducirse luego en un sistema tradicional de base de datos –a menudo manualmente–, antes de que pudiera ser analizado o recuperado. Hoy en día, la tecnología de Big Data permite que las bases de datos procesen, analicen y configuren datos al mismo tiempo que se generan –a veces en milisegundos–. Para las empresas, esto significa que los datos en tiempo real pueden ser usados para captar oportunidades financieras, responder a las necesidades del cliente, frustrar el fraude y abordar cualquier otra actividad en la cual la velocidad sea crítica.
  3. Variedad: los data sets que se componen únicamente de datos estructurados no necesariamente son Big Data, independientemente de lo voluminosos que sean. Big Data normalmente se compone de combinaciones de datos estructurados, no estructurados y semiestructurados. Las bases de datos tradicionales y las soluciones de gestión de datos carecen de la flexibilidad y el alcance necesarios para gestionar los data sets complejos y dispares que conforman Big Data.
  4. Veracidad: si bien la tecnología de base de datos moderna permite a las empresas acumular y dar sentido a asombrosas cantidades y tipos de Big Data, eso solo es valioso si son precisos, relevantes y oportunos. En las bases de datos tradicionales que solo estaban compuestas por datos estructurados, los errores sintácticos y mecanográficos eran los culpables habituales en cuanto a la precisión de los datos. Con los datos no estructurados, hay un conjunto completamente nuevo de desafíos de veracidad. El sesgo humano, el ruido de las redes y la procedencia de los datos pueden tener un impacto en la calidad de los datos.
  5. Valor: sin duda, los resultados que se obtienen del análisis de Big Data a menudo son fascinantes e inesperados. Pero para las empresas, las analíticas de Big Data deben brindar información estratégica que pueda ayudarlas a ser más competitivas y resilientes –y atender mejor a sus clientes–. Las tecnologías modernas de Big Data habilitan la capacidad de recopilar y recuperar datos que pueden brindar beneficios mensurables tanto para la línea de resultados como para la resiliencia operativa.

Beneficios de Big Data

Las soluciones de gestión de Big Data modernas les permiten a las empresas convertir datos sin procesar en información estratégica relevante –con velocidad y precisión sin precedentes–.

  • Desarrollo de productos y servicios: las analíticas de Big Data les permiten a los desarrolladores de productos analizar datos no estructurados, tales como reseñas de clientes y tendencias culturales, y responder rápidamente.
  • Mantenimiento predictivo: en una encuesta internacional, McKinsey descubrió que el análisis de Big Data de máquinas habilitadas para IoT redujo los costos de mantenimiento de equipamiento en hasta un 40%.
  • Experiencia del cliente: en una encuesta del 2020 a líderes de negocio globales, Gartner determinó que “las empresas en crecimiento recopilan datos de experiencia del cliente de manera más activa que las empresas que no crecen”. El análisis de Big Data les permite a las empresas mejorar y personalizar la experiencia de sus clientes con su marca.
  • Resiliencia y gestión de riesgos: la pandemia del COVID-19 implicó una toma de conciencia drástica para muchos líderes de negocios, pues se dieron cuenta de lo vulnerables que eran sus operaciones a la disrupción. La información estratégica de Big Data puede ayudar a las empresas a anticipar el riesgo y prepararse para lo inesperado.
  • Ahorro de costos y mayor eficiencia: cuando las empresas aplican analíticas avanzadas de Big Data en todos los procesos de su organización, no solo son capaces de detectar ineficiencias, sino también de implementar soluciones rápidas y eficaces.
  • Competitividad mejorada: la información estratégica obtenida de Big Data puede ayudar a las empresas a ahorrar dinero, complacer a los clientes, hacer mejores productos e innovar en las operaciones de negocio.

IA y Big Data

La gestión de Big Data depende de sistemas con el poder de procesar y analizar con sentido grandes cantidades de información dispar y compleja. En este sentido, Big Data e IA tienen una relación un tanto recíproca. Big Data no tendría mucho uso práctico sin IA para organizarla y analizarla. Y la IA depende de la amplitud de los data sets contenidos en Big Data para brindar analíticas lo suficientemente consistentes como para ser accionables. Como afirma Brandon Purcell, analista de Forrester Research, “los datos son el elemento vital de la IA. Un sistema de IA necesita aprender de los datos para poder cumplir con su función”.

Los datos son el elemento vital de la IA. Un sistema de IA necesita aprender de los datos para poder cumplir con su función.

– Brandon Purcell, analista, Forrester Research

Machine learning y Big Data

Los algoritmos de machine learning definen los datos entrantes e identifican patrones en ellos. Esta información estratégica se brinda para ayudar a tomar decisiones de negocio y automatizar procesos. Machine learning prospera con Big Data porque cuanto más robustos son los data sets que se analizan, mayor es la oportunidad para que el sistema aprenda y evolucione continuamente y adapte sus procesos.

Tecnologías de Big Data

Arquitectura de Big Data

 

Al igual que con la arquitectura en la construcción de edificios, la arquitectura de Big Data brinda un blueprint para la estructura fundamental de cómo las empresas gestionarán y analizarán sus datos. La arquitectura de Big Data mapea los procesos necesarios para gestionar Big Data en su recorrido a través de cuatro "capas" básicas, desde fuentes de datos hasta almacenamiento de datos, pasando luego al análisis de Big Data y, finalmente, a través de la capa de consumo en la que los resultados analizados se presentan como business intelligence.

 

Analíticas de Big Data

 

Este proceso permite una visualización de datos con sentido mediante el uso de modelado de datos y algoritmos específicos adaptados a la características de Big Data. En un estudio en profundidad y encuesta de la MIT Sloan School of Management, se preguntó a más de 2.000 líderes de negocio acerca de la experiencia de su empresa con respecto al análisis de Big Data. No es de sorprender que aquellos que estaban comprometidos y que apoyaban el desarrollo de sus estrategias de gestión de Big Data lograron los resultados de negocio mensurablemente más beneficiosos.

 

Big Data y Apache Hadoop

 

Imagínese 10 monedas de diez centavos en una caja grande mezcladas con 100 monedas de un centavo. Luego, imagine 10 cajas más pequeñas, una al lado de la otra, cada una de las cuales tiene 10 monedas de un centavo y solo una de diez centavos. ¿En qué escenario sería más fácil identificar las monedas de diez centavos? Hadoop básicamente funciona sobre la base de ese principio. Es un marco de código abierto para gestionar el procesamiento distribuido de Big Data a través de una red de muchas computadoras conectadas. Así que en lugar de usar una computadora grande para almacenar y procesar todos los datos, Hadoop agrupa múltiples computadoras en una red casi infinitamente escalable y analiza los datos en paralelo. Este proceso típicamente usa un modelo de programación llamado MapReduce, que coordina el procesamiento de Big Data ordenando las computadoras distribuidas.

 

Lago de datos, almacenes de datos y NoSQL

 

Las bases de datos estilo de hoja de cálculo SQL tradicionales se usan para almacenar datos estructurados. Los datos Big Data no estructurados y semiestructurados requieren paradigmas únicos de almacenamiento y procesamiento, ya que no se prestan a ser indexados y categorizados. Los lagos de datos, los almacenes de datos y las bases de datos NoSQL son repositorios de datos que gestionan data sets no tradicionales. Un lago de datos es un amplio grupo de datos en bruto que aún no se han procesado. Un almacén de datos es un repositorio de datos que ya se ha procesado para un objetivo específico. Las bases de datos NoSQL brindan un esquema flexible que se puede modificar para adaptarse a la naturaleza de los datos que se procesarán. Cada uno de estos sistemas tiene sus fortalezas y debilidades y muchas empresas usan una combinación de estos diferentes repositorios de datos para cumplir mejor sus necesidades.

 

Bases de datos in-memory

 

Las bases de datos tradicionales basadas en disco se desarrollaron con SQL y tecnologías de base de datos relacionales en mente. Aunque pueden manejar grandes volúmenes de datos estructurados, simplemente no están diseñados para almacenar y procesar mejor los datos no estructurados. Con bases de datos in-memory, el procesamiento y análisis se realizan completamente en RAM, en lugar de tener que recuperar los datos de un sistema basado en disco. Las bases de datos in-memory también se construyen en arquitecturas distribuidas. Esto significa que pueden lograr velocidades mucho mayores usando el procesamiento paralelo, en contraposición con los modelos de base de datos basados en disco de un solo nodo.

Cómo funciona Big Data

Big Data funciona cuando su análisis brinda información estratégica relevante y accionable que mejore el negocio de manera mensurable. En preparación para la transformación de Big Data, las empresas deben asegurarse de que sus sistemas y procesos estén lo suficientemente preparados para recopilar, almacenar y analizar Big Data.

Los tres pasos principales involucrados en el uso de Big Data

Cómo funciona Big Data
  1. Recopile Big Data. Gran parte de Big Data se compone de enormes data sets no estructurados, que inundan desde fuentes dispares e inconsistentes. Las bases de datos tradicionales basadas en discos y los mecanismos de integración de datos simplemente no tienen la capacidad para manejar esto. La gestión de Big Data requiere la adopción de soluciones de bases de datos in-memory y soluciones de software específicas para la adquisición de Big Data.
  2. Almacene Big Data. Su propio nombre lo indica, Big Data es voluminoso. Muchas empresas cuentan con soluciones de almacenamiento on-premise para sus datos existentes y esperan economizar dando nuevo uso a esos repositorios para cumplir sus necesidades de procesamiento de Big Data. Sin embargo, Big Data funciona mejor cuando no está restringido por limitaciones de tamaño y memoria. Las empresas que no incorporan soluciones de almacenamiento en la nube en sus modelos de Big Data desde el principio a menudo lo lamentan unos meses más tarde.
  3. Analice Big Data. Sin la aplicación de tecnologías de IA y machine learning al análisis de Big Data, simplemente no es posible alcanzar todo su potencial. Una de las cinco V de Big Data es la "velocidad". Para que la información estratégica de Big Data sea accionable y valiosa, debe llegar rápidamente. Los procesos analíticos deben optimizarse de manera automática y ser capaces de aprender de la experiencia en forma regular –un resultado que solo se puede lograr con la funcionalidad de IA y las tecnologías de base de datos modernas–.

Aplicaciones de Big Data


La información estratégica y el deep learning que aporta Big Data pueden brindar beneficios prácticamente a cualquier negocio o industria. Sin embargo, las grandes organizaciones con remesas operativas complejas a menudo son capaces de hacer el uso más significativo de Big Data.

  • Finanzas
    En el Journal of Big Data, un estudio de 2020señala que Big Data “juega un rol importante en el cambio del sector de los servicios financieros, particularmente en comercio e inversión, reforma fiscal, detección e investigación de fraudes, análisis de riesgo y automatización”. Big Data también ha ayudado a transformar la industria financiera analizando los datos y el feedback del cliente para obtener la valiosa información estratégica necesaria para mejorar la satisfacción y experiencia del cliente. Los data sets transaccionales son algunos de los más rápidos y grandes del mundo. La adopción creciente de soluciones avanzadas de gestión de Big Data ayudará a los bancos y las instituciones financieras a proteger estos datos y usarlos de maneras que beneficien y protejan tanto al cliente como al negocio.
  • Cuidado de la salud
    El análisis de Big Data les permite a los profesionales de la salud realizar diagnósticos más precisos y basados en pruebas. Además, Big Data ayuda a los administradores de hospitales a detectar tendencias, gestionar riesgos y minimizar los gastos innecesarios –lo cual genera los presupuestos más altos posible para las áreas de atención al paciente e investigación–. En el contexto de la pandemia, científicos de investigación de todo el mundo están corriendo por desarrollar mejores maneras de tratar y gestionar el COVID-19 –y Big Data está jugando un rol muy importante en este proceso–. Un artículo de julio del 2020 en The Scientist describe cómo los equipos médicos fueron capaces de colaborar y analizar Big Data para ayudar a combatir el coronavirus: "Podemos transformar la forma en que se hace la ciencia clínica, aprovechando las herramientas y recursos de Big Data y la ciencia de datos de maneras que no eran posibles".
  • Transporte y logística
    El "efecto Amazon" es un término que describe cómo Amazon ha establecido el punto de referencia para las expectativas de entrega al día siguiente, por la cual los clientes ahora exigen ese tipo de velocidad de envío para cualquier cosa que pidan on-line. La revista Entrepreneur señala que, como resultado directo del efecto Amazon, "la carrera logística de la 'última milla' aumentará su competitividad". Las empresas de logística confían cada vez más en las analíticas de Big Data para optimizar planificación de rutas, consolidación de cargas y mediciones de eficiencia de combustible.
  • Educación
    Durante la pandemia, las instituciones educativas de todo el mundo han tenido que reinventar sus planes de estudios y métodos de enseñanza para dar soporte a la educación a distancia. Un reto importante para este proceso ha sido encontrar formas confiables de analizar y evaluar el rendimiento de los estudiantes y la eficacia general de los métodos de enseñanza on-line. Un artículo del 2020 sobre el impacto de Big Data en la educación y el aprendizaje on-line hace una observación sobre los profesores: “Big Data hace que se sientan mucho más confiados en personalizar la educación, desarrollar el aprendizaje combinado, transformar los sistemas de evaluación y promover el aprendizaje permanente”.
  • Energía y servicios públicos
    Según la U.S. Bureau of Labor Statistics, las empresas de servicios públicos gastan más de USD 1.400 millones en lectores de medidores y, por lo general, dependen de medidores analógicos y lecturas manuales poco frecuentes. Los lectores de medidores inteligentes entregan datos digitales muchas veces al día y, con el beneficio del análisis de Big Data, esta inteligencia puede brindar información para un uso de energía más eficiente y precios y proyecciones más precisos. Además, cuando los trabajadores de campo se liberan de la lectura de medidores, la captura y análisis de datos pueden ayudar a reasignarlos más rápidamente en donde las reparaciones y actualizaciones son más urgentes.

Explore las soluciones de gestión de datos de SAP

Gestione su diverso entorno de datos y una sus datos para obtener información estratégica de negocio.

Más en esta serie

Preguntas frecuentes sobre Big Data

Big Data consta de todos los datos potencialmente relevantes para el negocio, tanto estructurados como no estructurados –desde una variedad de fuentes dispares–. Una vez analizados, se usan para brindar información más detallada y precisa sobre todas las áreas operativas de una empresa y su mercado.   

La tecnología de Big Data se aplica a todas las herramientas, software y técnicas que se usan para procesar y analizar Big Data –incluyendo (entre otras cosas) minería de datos, almacenamiento de datos, intercambio de datos y visualización de datos–.

Apache Hadoop es una solución de software de procesamiento distribuido de código abierto. Se usa para acelerar y facilitar la gestión de Big Data conectando varias computadoras y permitiéndoles procesar Big Data en paralelo.

Apache Spark es una solución de software de procesamiento distribuido de código abierto. Se usa para acelerar y facilitar la gestión de Big Data conectando varias computadoras y permitiéndoles procesar Big Data en paralelo. Su predecesor Hadoop es mucho más usado, pero Spark está ganando popularidad debido a su uso de machine learning y otras tecnologías, que aumentan su velocidad y eficiencia.  

Un lago de datos es un repositorio en el cual se pueden almacenar y recuperar grandes cantidades de datos sin procesar y no estructurados. Los lagos de datos son necesarios porque gran parte de Big Data no está estructurada y no se puede almacenar en una base de datos relacional de filas y columnas tradicionales. 

Los datos oscuros son todos los datos que las empresas recopilan como parte de sus operaciones comerciales habituales (como imágenes de vigilancia y archivos de registro del sitio web). Se guardan con fines de cumplimiento normativo, pero normalmente nunca se usan. Estos grandes data sets tienen un costo de almacenamiento mayor que el valor que aportan. 

El tejido de datos es la integración de la arquitectura y las tecnologías de Big Data en todo un ecosistema de negocio. Su propósito es conectar Big Data de todas las fuentes y todos los tipos, con todos los servicios de gestión de datos en toda la empresa.  

SAP Insights Newsletter

Suscríbase hoy

Obtenga información estratégica clave suscribiéndose a nuestro newsletter.

Lectura adicional

Volver al inicio