¿Qué es Big Data?
Big Data es el océano de información en el que nadamos a diario –vastos zetabytes de datos que fluyen desde nuestras computadoras, dispositivos móviles y sensores de máquinas–.
Definición de Big Data en detalle
Big Data es el océano de información en el que nadamos a diario –vastos zettabytes de datos que fluyen desde nuestras computadoras, dispositivos móviles y sensores de máquinas–. Las organizaciones usan estos datos para tomar decisiones; mejorar procesos y políticas; y crear productos, servicios y experiencias centrados en el cliente. Big Data se llama "grande" no solo por su volumen, sino también por la variedad y complejidad de su naturaleza. Normalmente, supera la capacidad de las bases de datos tradicionales para capturar, gestionar y procesar datos. Y Big Data puede provenir de cualquier lugar o cosa en el mundo que sea posible monitorear digitalmente. Satélites meteorológicos, dispositivos de internet de las cosas (IoT), cámaras de tránsito y tendencias en redes sociales son solo algunas de las fuentes de datos que se extraen y analizan para hacer que las empresas sean más resilientes y competitivas.
La importancia de las analíticas de Big Data
El verdadero valor de Big Data se mide por el grado en que usted puede analizar y comprender los datos. La inteligencia artificial (IA), el machine learning y las tecnologías modernas para base de datos permiten la visualización y análisis de Big Data para brindar información estratégica accionable –en tiempo real–. Las analíticas de Big Data ayudan a las empresas a poner sus datos a trabajar para hacer realidad nuevas oportunidades y construir modelos de negocio. Como dijo acertadamente Geoffrey Moore, autor y analista de gestión, “sin analíticas de Big Data, las empresas son ciegas y sordas, entran a la web como animales distraídos a una autopista”.
Evolución de Big Data
Por inconcebible que parezca hoy, la computadora guía del Apolo llevó la primera nave espacial a la luna con menos de 80 kilobytes de memoria. Desde entonces, la tecnología informática ha crecido a un ritmo exponencial –y la generación de datos junto con ella–. De hecho, la capacidad tecnológica mundial para almacenar datos se ha duplicado cada tres años aproximadamente desde la década de 1980. Hace poco más de 50 años, cuando despegó el Apolo 11, la cantidad de datos digitales generados en todo el mundo hubiera cabido en una laptop promedio. En 2020, Statista estima que se crearon o replicaron 64,2ZB y que "la cantidad de datos digitales creados durante los próximos cinco años será más del doble de los creados desde la llegada del almacenamiento digital".
A medida que el software y la tecnología se vuelven más avanzados, menos viables son, en comparación, los sistemas no digitales. Los datos generados y recopilados digitalmente demandan sistemas de gestión más avanzados. Además, el crecimiento exponencial de plataformas de redes sociales, tecnologías de smartphones y dispositivos de IoT digitalmente conectados ha ayudado a crear la actual era de Big Data.
Tipos de Big Data: ¿qué son los datos estructurados y no estructurados?
Los data sets normalmente se clasifican en tres tipos según su estructura y cuán sencillo (o no) es indexarlos.
Los tres tipos de Big Data
- Datos estructurados: es el tipo más sencillo de organizar y buscar. Pueden incluir datos financieros, registros de máquinas, y detalles demográficos. Una hoja de cálculo de Excel, con su diseño de columnas y filas predefinidas, es una buena forma de visualizar datos estructurados. Sus componentes se categorizan fácilmente, lo cual permite a los diseñadores y administradores de bases de datos definir algoritmos simples para búsqueda y análisis. Incluso cuando existen grandes volúmenes de datos estructurados, no necesariamente califican como Big Data porque los datos estructurados por sí solos son relativamente simples de gestionar y, por lo tanto, no cumplen con los criterios de definición de Big Data. Tradicionalmente, las bases de datos han usado un lenguaje de programación llamado lenguaje de consulta estructurado (SQL) para gestionar datos estructurados. El SQL fue desarrollado por IBM en la década de 1970 para permitirles a los desarrolladores construir y gestionar las bases de datos relacionales (al estilo de las hojas de cálculo) que comenzaban a prevalecer en ese momento.
- Datos no estructurados: esta categoría puede incluir cosas tales como posteos en redes sociales, archivos de audio, imágenes, y comentarios abiertos de clientes. Este tipo de datos no son fáciles de capturar en bases de datos relacionales estándar de filas y columnas. Tradicionalmente, las empresas que querían buscar, gestionar o analizar grandes cantidades de datos no estructurados debían usar laboriosos procesos manuales. Nunca hubo duda sobre el valor potencial de analizar y comprender tales datos, pero el costo de hacerlo a menudo era demasiado exorbitante como para que valiera la pena. Debido al tiempo que llevaba, los resultados solían quedar obsoletos incluso antes de ser entregados. En lugar de hojas de cálculo o bases de datos relacionales, los datos no estructurados se suelen almacenar en data lakes, almacenes de datos y bases de datos NoSQL.
- Datos semiestructurados: tal como suena, los datos semiestructurados son un híbrido entre estructurados y no estructurados. Los correos electrónicos son un buen ejemplo, ya que incluyen datos no estructurados en el cuerpo del mensaje, al igual que propiedades organizativas tales como emisor, destinatario, asunto y fecha. Los dispositivos que usan etiquetado geográfico o semántico o marcas de tiempo también pueden brindar datos estructurados junto con contenido no estructurado. Una imagen de smartphone no identificada, por ejemplo, puede indicar que es una selfie y el momento y lugar donde se tomó. Una base de datos moderna que opera tecnología de IA no solo puede identificar al instante diferentes tipos de datos, sino también generar algoritmos en tiempo real para gestionar y analizar eficazmente los dispares data sets involucrados.
Fuentes de Big Data
La gama de cosas que generan datos está creciendo a un ritmo fenomenal –desde satélites drones hasta tostadoras–. Pero a efectos de su categorización, las fuentes de datos generalmente se dividen en tres tipos:
Datos de redes sociales
Como su nombre lo indica, estos datos se generan mediante comentarios, posteos, imágenes y, cada vez más, videos en las redes sociales. Y con la creciente ubicuidad global de las redes celulares 4G y 5G, se estimaba que en el mundo el número de personas que ven regularmente contenido de video en sus smartphones alcanzara los 2720 millones para el 2023. Aunque las tendencias en redes sociales y su uso tienden a cambiar de manera rápida e impredecible, lo que no cambia es su crecimiento constante como generadoras de datos digitales.
Datos de máquinas
Los dispositivos y máquinas de IoT están equipados con sensores y tienen la capacidad de enviar y recibir datos digitales. Los sensores de IoT ayudan a las empresas a recopilar y procesar datos provenientes de dispositivos, vehículos y equipamiento de toda la empresa. Globalmente, el número de cosas que generan datos está creciendo rápido –desde sensores de clima y tránsito hasta vigilancia de seguridad–. IDC estima que para el 2025 habrá más de 40.000 millones de dispositivos de IoT en el mundo, que generarán casi la mitad del total global de datos digitales.
Datos transaccionales
Estos datos están entre los que tienen el movimiento y crecimiento más rápidos del mundo. Por ejemplo, un gran minorista internacional es conocido por procesar más de un millón de transacciones por hora con los clientes. Y si a eso se le suman todas las transacciones bancarias y de compra del mundo, se obtiene una imagen del asombroso volumen de datos que se generan. Además, los datos transaccionales se componen cada vez más de datos semiestructurados que incluyen cosas tales como imágenes y comentarios, lo cual complejiza su gestión y procesamiento.
Las cinco V que definen el Big Data
Solo porque un data set sea grande, no necesariamente es Big Data. Para calificar como tal, los datos deben poseer al menos las siguientes cinco características:
Las cinco características de Big Data, llamadas las cinco V
- Volumen: si bien no es en absoluto el único requisito para el Big Data, sin duda es una característica principal. Para gestionar y usar plenamente Big Data, se necesitan algoritmos avanzados y analíticas impulsadas por IA. Pero antes de que esto ocurra, debe haber un medio seguro y confiable para almacenar, organizar y recuperar los muchos terabytes de datos que poseen las grandes empresas.
- Velocidad: en el pasado, cualquier dato que se generaba debía introducirse luego en un sistema tradicional de base de datos –a menudo manualmente–, antes de que pudiera ser analizado o recuperado. Hoy, la tecnología de Big Data permite que las bases de datos procesen, analicen y configuren los datos al mismo tiempo que se generan –a veces en milisegundos–. Para las empresas, esto significa que los datos en tiempo real pueden ser usados para captar oportunidades financieras, responder a las necesidades del cliente, evitar el fraude, y abordar cualquier otra actividad en la cual sea crítica la velocidad.
- Variedad: los data sets que se componen únicamente de datos estructurados no necesariamente son Big Data, independientemente de lo voluminosos que sean. Big Data normalmente se compone de combinaciones de datos estructurados, no estructurados y semiestructurados. Las soluciones tradicionales para gestión de datos y de bases de datos carecen de la flexibilidad y alcance necesarios para manejar los data sets complejos y dispares que conforman Big Data.
- Veracidad: si bien la tecnología moderna para bases de datos les permite a las empresas acumular y dar sentido a asombrosas cantidades y tipos de Big Data, estos solo tienen valor si son precisos, relevantes y oportunos. En las bases de datos tradicionales que solo estaban compuestas por datos estructurados, los culpables de las imprecisiones normalmente eran los errores de sintaxis y tipeo. Con los datos no estructurados, hay un conjunto completamente nuevo de desafíos de veracidad. El sesgo humano, el ruido de las redes y la procedencia de los datos pueden tener impacto en la calidad de los datos.
- Valor: sin duda, los resultados que se obtienen del análisis de Big Data suelen ser fascinantes e inesperados. Pero en los negocios, las analíticas de Big Data deben brindar información estratégica que los ayude a ser más competitivos y resilientes –y atender mejor a sus clientes–. Las tecnologías modernas de Big Data habilitan la capacidad de recopilar y recuperar datos que pueden brindar beneficios medibles tanto para los resultados finales como para la resiliencia operativa.
Beneficios del Big Data
Las soluciones para gestión de Big Data modernas les permiten a las empresas convertir datos sin procesar en información estratégica relevante –con una velocidad y precisión sin precedentes–.
Desarrollo de productos y servicios: las analíticas de Big Data les permiten a los desarrolladores de productos analizar datos no estructurados, tales como reseñas de clientes y tendencias culturales, y responder rápido.
Mantenimiento predictivo: en una encuesta internacional, McKinsey descubrió que el análisis de Big Data proveniente de máquinas habilitadas para IoT redujo en hasta un 40% los costos de mantenimiento de equipamiento.
Experiencia del cliente: en una encuesta del 2020 a líderes de negocio globales, Gartner determinó que “las empresas en crecimiento recopilan datos sobre la experiencia del cliente de manera más activa que las que no crecen”. Analizar esos Big Data les permite a las empresas mejorar y personalizar la experiencia de sus clientes con su marca. Además del Big Data, los equipos de CX cada vez tienen más en cuenta los "datos gruesos". Esta información cualitativa sobre las observaciones, sentimientos y reacciones de los clientes está mejorando Big Data y dándoles a las empresas una comprensión más completa.
Resiliencia y gestión de riesgos: la pandemia del COVID-19 implicó una toma de conciencia drástica para muchos líderes de negocios, pues se dieron cuenta de lo vulnerables que eran sus operaciones ante la disrupción. La información estratégica de Big Data puede ayudar a las empresas a anticipar el riesgo y prepararse para lo inesperado.
Ahorro de costos y mayor eficiencia: cuando las empresas aplican analíticas avanzadas de Big Data en todos sus procesos, no solo son capaces de detectar ineficiencias, sino también de implementar soluciones rápidas y eficaces.
Competitividad mejorada: la información estratégica obtenida de Big Data puede ayudar a las empresas a ahorrar dinero, complacer a los clientes, hacer mejores productos, e innovar en las operaciones de negocios.
IA y Big Data
La gestión de Big Data depende de sistemas con el poder de procesar y analizar de modo significativo grandes cantidades de información dispar y compleja. En este sentido, Big Data e IA tienen una relación un tanto recíproca. Big Data no tendría mucho uso práctico sin la IA para organizarlo y analizarlo. Y la IA depende de la amplitud de los data sets contenidos en Big Data para brindar analíticas lo suficientemente consistentes como para ser accionables. Como afirma Brandon Purcell, analista de Forrester Research, “los datos son la esencia de la IA. Un sistema de IA necesita aprender de los datos para poder cumplir con su función”.
"Los datos son el alma de la IA. Un sistema de IA necesita aprender de los datos para poder cumplir con su función”.
Brandon Purcell, analista, Forrester Research
Además de Big Data, las organizaciones usan cada vez más "datos pequeños" para entrenar a sus algoritmos de IA y machine learning. Los data sets pequeños –tales como encuestas de marketing, hojas de cálculo, correos electrónicos, notas de reuniones, e incluso posteos individuales en redes sociales– suelen pasarse por alto, pero pueden contener información valiosa. En última instancia, cuanto más material tengan los algoritmos para aprender, mejor será el resultado.
Machine learning y Big Data
Los algoritmos de machine learning definen los datos entrantes e identifican patrones en ellos. Esta información estratégica se brinda para ayudar a tomar decisiones de negocios y automatizar procesos. El machine learning prospera con Big Data porque cuanto más robustos son los data sets que se analizan, mayor es la oportunidad para que el sistema aprenda, y evolucione y adapte sus procesos continuamente.
Tecnologías de Big Data
Arquitectura de Big Data
Al igual que la arquitectura de construcción de edificios, la de Big Data brinda un blueprint para la estructura fundamental de cómo las empresas gestionarán y analizarán sus datos. La arquitectura de Big Data mapea los procesos necesarios para gestionarlo durante su recorrido a través de cuatro "capas" básicas: fuentes, almacenes, análisis de Big Data, y finalmente consumo, en la cual los resultados analizados se presentan como business intelligence.
Analíticas de Big Data
Este proceso permite visualizar los datos significativos usando modelado y algoritmos específicos adaptados a las características de Big Data. En un estudio detallado y encuesta de la MIT Sloan School of Management, se les preguntó a más de 2000 líderes de negocios acerca de la experiencia de su empresa con el análisis de Big Data. No es de sorprender que aquellos que estaban comprometidos y apoyaban el desarrollo de sus estrategias de gestión de Big Data lograran los resultados de negocio medibles más beneficiosos.
Big Data y Apache Hadoop
Imagínese 10 monedas de 10 centavos mezcladas en 1 caja grande con 100 monedas de 1 centavo. Luego, imagine 10 cajas más pequeñas, una al lado de la otra, cada una con 10 monedas de 5 centavos y solo 1 de 10 centavos. ¿En qué escenario sería más fácil identificar las monedas de 10 centavos? Hadoop funciona en base a ese principio. Es un marco de código abierto para gestionar el procesamiento distribuido de Big Data a través de una red de muchas computadoras conectadas. Así que en lugar de usar una computadora grande para almacenar y procesar todos los datos, Hadoop agrupa varias de ellas dentro de una red casi infinitamente escalable, y analiza los datos en paralelo. Este proceso normalmente usa un modelo de programación llamado MapReduce, que coordina el procesamiento de Big Data con marshalling de computadoras distribuidas.
Data lakes, almacenes de datos y NoSQL
Las bases de datos SQL tradicionales al estilo de las hojas de cálculo se usan para almacenar datos estructurados. Los Big Data no estructurados y semiestructurados requieren paradigmas únicos de almacenamiento y procesamiento, ya que no se prestan a ser indexados ni categorizados. Los data lakes, almacenes de datos y bases de datos NoSQL son repositorios que gestionan data sets no tradicionales. Un data lake es una vasta reserva de datos en bruto que aún no se han procesado. Un almacén de datos es un repositorio que ya ha sido procesado para un objetivo específico. Las bases de datos NoSQL brindan un esquema flexible que se puede modificar para adaptarse a la naturaleza de los datos que se procesarán. Cada uno de estos sistemas tiene sus fortalezas y debilidades, y muchas empresas los combinan para cubrir mejor sus necesidades.
Bases de datos in-memory
Las típicas bases de datos en discos fueron desarrolladas pensando en el SQL y las tecnologías relacionales. Aunque pueden manejar grandes volúmenes de datos estructurados, simplemente no están diseñadas para almacenar y procesar mejor los no estructurados. En las bases de datos in-memory, el procesamiento y análisis se realizan completamente en la RAM, en lugar de tener que recuperar los datos desde un sistema del disco. Las bases de datos in-memory también están incorporadas dentro de las arquitecturas distribuidas. Esto significa que pueden ser mucho más veloces usando el procesamiento paralelo en lugar de los modelos de base de datos en disco de un solo nodo.
Cómo funciona Big Data
Big Data funciona cuando su análisis brinda información estratégica relevante y accionable que mejora el negocio de manera medible. Como preparación para la transformación de Big Data, las empresas deben asegurarse de que sus sistemas y procesos estén lo suficientemente preparados como para recopilarlo, almacenarlo y analizarlo.
Los tres principales pasos en el uso de Big Data
- Recopile Big Data. Gran parte de Big Data se compone de enormes data sets no estructurados, que ingresan desde fuentes dispares e inconsistentes. Las bases de datos en discos y mecanismos de integración tradicionales simplemente no tienen capacidad para manejar esto. La gestión de Big Data requiere adoptar bases de datos in-memory y soluciones de software específicas para la adquisición de Big Data.
- Almacene Big Data. Como su nombre lo indica en inglés, el Big Data es grande. Muchas empresas tienen soluciones de almacenamiento on-premise para sus datos existentes, y esperan economizar dando un nuevo uso a esos repositorios para cubrir sus necesidades de procesamiento de Big Data. Sin embargo, Big Data funciona mejor cuando no está restringido por limitaciones de tamaño ni de memoria. Las empresas que no incorporan desde el principio soluciones para almacenamiento en la nube dentro de sus modelos de Big Data suelen lamentarlo unos meses más tarde.
- Analice Big Data. Sin aplicar tecnologías de IA y machine learning al análisis de Big Data, no es posible alcanzar todo su potencial. Una de las cinco V de Big Data es la velocidad. Para que la información estratégica de Big Data sea accionable y valiosa, debe llegar rápido. Los procesos analíticos deben autooptimizarse y poder aprender de la experiencia en forma periódica –un resultado que solo se puede lograr con funcionalidad de IA y tecnologías modernas para base de datos–.
Aplicaciones de Big Data
La información estratégica y el deep learning que aporta Big Data pueden brindar beneficios a prácticamente cualquier negocio o industria. Sin embargo, las grandes organizaciones con remesas operativas complejas suelen ser las que usan Big Data de modo más significativo.
Finanzas En el Journal of Big Data, un estudio de 2020 señala que este “juega un rol importante en los cambios en el sector de los servicios financieros, particularmente en comercio e inversión, reforma fiscal, detección e investigación de fraudes, análisis de riesgo, y automatización”. Big Data también ha ayudado a transformar la industria financiera analizando datos y feedback del cliente a fin de obtener la valiosa información estratégica necesaria para mejorar su satisfacción y experiencia. Los data sets transaccionales están entre los más grandes y con más rápido movimiento en el mundo. La adopción creciente de soluciones avanzadas para gestión de Big Data ayudará a bancos e instituciones financieras a protegerlo y usarlo de maneras que beneficien y cuiden tanto al cliente como al negocio.
Cuidado de la salud El análisis de Big Data les permite a los profesionales de la salud realizar diagnósticos más precisos y basados en pruebas. Además, Big Data ayuda a los administradores de hospitales a detectar tendencias, gestionar riesgos y minimizar gastos innecesarios –impulsando presupuestos lo más altos posibles para áreas de atención al paciente e investigación–. En el contexto de la pandemia, científicos de investigación de todo el mundo corrían para desarrollar mejores maneras de tratar y gestionar el COVID-19 –y Big Data jugó un rol muy importante en ese proceso–. Un artículo de julio del 2020 en The Scientist describe cómo los equipos médicos pudieron colaborar y analizar Big Data para ayudar a combatir el coronavirus: "Podemos transformar la forma de hacer ciencia clínica, aprovechando herramientas y recursos de Big Data y ciencia de datos de maneras que no eran posibles".
Transporte y logística El "efecto Amazon" es un término que describe el hecho de esa empresa ha elevado la vara de las expectativas de entrega al día siguiente, y ahora los clientes demandan esa velocidad de envío para cualquier cosa que pidan on-line. La revista Entrepreneur señala que, como resultado directo del efecto Amazon, "la carrera de la 'logística de última milla' se volverá más competitiva". Las empresas de logística confían cada vez más en las analíticas de Big Data para optimizar planificación de rutas, consolidación de cargas, y mediciones de eficiencia de combustible.
Educación Durante la pandemia, las instituciones educativas de todo el mundo tuvieron que reinventar sus planes de estudio y métodos de enseñanza para dar soporte al aprendizaje a distancia. Un desafío importante para ese proceso fue encontrar formas confiables de analizar y evaluar el desempeño de los estudiantes y la eficacia general de los métodos de enseñanza on-line. Un artículo del 2020 sobre el impacto de Big Data en la educación y capacitación on-line hace una observación sobre los docentes: “Big Data los hace sentir mucho más confiados al personalizar la educación, desarrollar aprendizaje combinado, transformar los sistemas de evaluación, y promover la capacitación de por vida”.
Energía y servicios públicos Según la U.S. Bureau of Labor Statistics, las empresas de servicios públicos gastan más de USD 1400 millones en lectores de medidores y, por lo general, dependen de medidores analógicos y lecturas manuales poco frecuentes. Los lectores de medidores inteligentes entregan datos digitales muchas veces al día y, con el beneficio del análisis de Big Data, pueden brindar información para lograr un uso de energía más eficiente y precios y proyecciones más precisos. Además, cuando los trabajadores de campo se liberan de la lectura de medidores, la captura y análisis de datos ayudan a reasignarlos más rápido adonde las reparaciones y actualizaciones sean más urgentes.
Preguntas frecuentes sobre Big Data
Explore las soluciones de SAP para gestión de datos
Gestione su diverso entorno de datos y únalos para obtener información estratégica de negocios.
Ideas que no encontrará en ningún otro lugar
Regístrese para recibir una dosis de business intelligence directamente en su bandeja de entrada.