Saltar al contenido
Foto de un lago

¿Qué es un data lake?

En esencia, un lago de datos es un repositorio de información. Los lagos de datos a menudo se confunden con los almacenes de datos, pero ambos atienden diferentes necesidades de negocio y tienen arquitecturas diferentes. En particular, los lagos de datos en la nube son un componente vital de una estrategia moderna de gestión de datos, ya que la proliferación de datos de redes sociales, datos de máquinas de internet de las cosas (IoT) y datos transaccionales sigue acelerándose. La capacidad de almacenar, transformar y analizar cualquier tipo de datos allana el camino para nuevas oportunidades de negocio y transformación digital –y aquí radica el rol de un lago de datos–.

90

%

de las instituciones financieras creen que las iniciativas de Big Data determinan el éxito futuro – ResearchAndMarkets.com

17.600

millones de dólares es el valor estimado del mercado de lagos de datos para 2026– ResearchAndMarkets.com

Definición de lago de datos

Un lago de datos es un repositorio de datos central que ayuda a abordar los problemas relacionados con los silos de datos. Es importante destacar que un lago de datos almacena grandes cantidades de datos sin procesar en su formato nativo –u original–. Ese formato podría ser estructurado, no estructurado o semiestructurado. Los lagos de datos, especialmente los de la nube, son de bajo costo, fácilmente escalables, y a menudo se usan con analíticas de machine learning aplicadas.

Lago de datos versus almacén de datos

A diferencia de un lago de datos, un almacén de datos brinda capacidades de gestión de datos y almacena datos procesados y filtrados que ya han sido procesados para casos de uso o preguntas de negocio predefinidos.

Diagrama de un almacén de datos comparado con un lago de datos.

Lago de datos versus almacén de datos

Los almacenes y los lagos de datos a menudo se complementan entre sí. Por ejemplo, cuando para responder a una pregunta de negocios se necesitan datos brutos que están almacenados en un lago de datos, para un análisis mayor se pueden extraer, depurar, transformar y usar en un almacén de datos.

 

Un "data lakehouse" es un concepto nuevo y en evolución, que agrega capacidades de gestión de datos sobre un lago de datos tradicional. En esencia, se trata de la combinación de un lago de datos y un almacén de datos. 

 

Además del tipo de datos y las diferencias en el proceso indicado anteriormente, aquí hay algunos detalles comparativos entre soluciones de lago de datos y de almacén de datos.

Edit Table Feature Comparison Component

En última instancia, el volumen de datos, el rendimiento de la base de datos y los precios de almacenamiento jugarán un papel importante en la elección de la solución de almacenamiento adecuada.

Elementos clave de una solución de lago de datos

  • Movimiento de datos: los lagos de datos permiten importar cualquier tipo de datos de múltiples fuentes en su formato nativo. Esto les permite a las empresas escalar en el tamaño de los datos según sea necesario sin tener que definir estructuras, esquemas ni transformaciones de datos, lo cual puede resultar en ahorro de gastos generales.
  • Almacene y catalogue datos de manera segura: el lago de datos almacena datos estructurados, semiestructurados y no estructurados de una variedad de fuentes, tales como datos de negocios del software de CRM o ERP, dispositivos de IoT, redes sociales, e incluso datos históricos de sistemas heredados. Y los lagos de datos le permiten capturar datos por lotes y en streaming al tiempo que aplica gobernanza, seguridad y control. Los datos se pueden consultar directamente o se pueden incorporar a un almacén de datos con las herramientas adecuadas.
  • Analíticas y machine learning: los lagos de datos permiten el acceso a la información de acuerdo con los roles para operar analíticas y análisis de machine learning sin la necesidad de pasar los datos a una base de datos analítica separada. Además, los lagos de datos permiten combinar datos históricos con datos en tiempo real para refinar los modelos de machine learning o analíticas predictivas para brindar mejores y/o nuevos resultados.

Cómo funcionan los lagos de datos

Un lago de datos moderno tiene tres características principales:

  1. Una zona de landing para sus datos crudos
  2. Una zona de staging en la que los datos se transforman con un objetivo analítico en mente
  3. Una zona de exploración de datos donde los datos son usados por analíticas y aplicaciones y para alimentar modelos de machine learning

Desde el lago de datos, la información se transfiere a una variedad de fuentes –tales como analíticas u otras aplicaciones de negocio, o a herramientas de machine learning para un análisis mayor–.

 

Caso de uso de un lago de datos

Aquí hay dos ejemplos para casos de uso de lago de datos en comercio minorista.

 

Los datos de ventas a largo plazo se almacenan en un lago de datos junto con datos no estructurados tales como secuencias de clics del sitio web, clima, noticias, y datos micro/macroeconómicos. Tener estos datos almacenados juntos y accesibles facilita que un científico de datos combine estas diferentes fuentes de información en un modelo que pronosticará la demanda de un producto o línea de productos específicos. Esta información se usa como entradas para el sistema de ERP minorista a fin de impulsar planes de producción aumentados o reducidos. 

 

En paralelo, un experto en marketing puede acceder a este mismo lago de datos y consultar un análisis de sentimientos sobre la interacción en el sitio web y las redes sociales con datos de noticias, macroeconomía e historial de ventas a fin de determinar en qué productos enfocarse y cómo maximizar ventas, beneficios y/o adopción.

Tipos de lagos de datos

Los lagos de datos pueden residir on-premise, en la nube, en un híbrido entre ambos, y en varios hiperescaladores en la nube, como Amazon Web Services (AWS), Microsoft Azure o Google Cloud.

 

Por lejos, el tipo de lago de datos más popular es el lago de datos en la nube. Un lago de datos en la nube brinda todas las características habituales de lago de datos, pero en un servicio en la nube totalmente gestionado.

  • Lago de datos on-premise: con un lago de datos on-premise, los recursos internos de ingeniería de TI gestionan hardware, software y procesos. Este enfoque tiene un compromiso de gasto de capital (CAPEX) más alto, y los datos tienden a estar en silos.
  • Lago de datos en la nube: en un lago de datos en la nube, la infraestructura on-premise se terceriza. Hay un mayor compromiso de gastos operativos (OPEX), pero este enfoque de implementación les permite a las empresas escalar más fácilmente, junto con muchos otros beneficios (ver más abajo).
  • Lago de datos híbrido: en algunos casos, algunas empresas optan por mantener lagos de datos on-premise y en la nube simultáneamente. Esta situación es bastante rara y se ve principalmente durante los escenarios de migración de on-premise a la nube.
  • Lago de datos multinube: en un lago de datos multinube, se combinan dos o más ofertas en la nube; por ejemplo, una empresa puede usar AWS y Azure para gestionar y mantener lagos de datos en la nube. Esto requiere una mayor experiencia para garantizar que estas plataformas dispares se comuniquen entre sí.

Los seis beneficios principales de un lago de datos en la nube

¿Por qué elegir un lago de datos en la nube? Convertir los datos en un activo de negocio de alto valor impulsa la transformación digital. Las fortalezas de la nube combinadas con un lago de datos brindan esa base. Un lago de datos en la nube permite a las empresas aplicar analíticas a datos históricos así a como nuevas fuentes de datos, tales como archivos de registro, flujos de clics, redes sociales, dispositivos conectados a internet, y más, a fin de obtener información estratégica accionable.

 

Estos son algunos de los beneficios clave que usted debería esperar:

  1. Rentabilidad: los proveedores de almacenamiento en la nube ofrecen muchas opciones de almacenamiento y precios.
  2. Escalado automático: los servicios en la nube están diseñados para brindar una funcionalidad de escalado que les permita a las empresas calcular y aprovechar la capacidad de almacenamiento on-demand.
  3. Repositorio de datos central: un lago de datos en la nube reúne la información, y funciona como la única fuente de verdad con acceso controlado a los datos habilitando así la eficiencia de los procesos entre los equipos.
  4. Seguridad de los datos: los proveedores de almacenamiento en la nube garantizan la seguridad de los datos mediante un modelo de responsabilidad compartida.
  5. Herramientas: los proveedores de almacenamiento en la nube y otros proveedores brindan herramientas de ETL que rastrean datos, crean un catálogo de datos, y realizan la preparación, transformación e ingesta de datos para que los datos puedan consultarse.
  6. Analíticas mejoradas para obtener nueva información estratégica y mejores resultados de negocio: un lago de datos en la nube puede combinar datos de nuevas maneras. Por ejemplo, los datos de CRM y las analíticas de redes sociales pueden brindar nuevos datos del cliente sobre la causa del abandono, o mostrar qué promociones aumentan la fidelidad. Además, se puede mejorar la eficiencia operativa mediante el análisis de datos de IoT.  

Comience con soluciones de lago de datos

Explore las capacidades del lago de datos dentro de SAP HANA Cloud.

Más en esta serie

Preguntas frecuentes sobre los lagos de datos

Explore algunas de nuestras preguntas frecuentes sobre lagos de datos a continuación y revise nuestro glosario de gestión de datos para obtener aun más definiciones.

El término "lago de datos" evolucionó para reflejar el concepto de un almacén de datos más grande y fluido, en comparación con un centro de datos más aislado, bien definido y estructurado, específicamente.

 

Hace más de una década, a medida que crecían las fuentes de datos, los lagos de datos cambiaron para abordar la necesidad de almacenar petabytes de datos indefinidos para un análisis mayor. Los primeros lagos de datos se basaban en el sistema de archivos Hadoop (HDFS) y en hardware commodity basado en centros de datos on-premise. Sin embargo, los desafíos inherentes a una arquitectura distribuida y la necesidad de transformación y análisis de los datos personalizados provocaron un rendimiento subóptimo de los sistemas basados en Hadoop.

 

La computación en la nube y las tecnologías de almacenamiento de datos ahora son la base principal para el stack de datos moderno –y para los lagos de datos en la nube–.

Un almacén de datos (DW) es un sistema de almacenamiento digital que conecta y armoniza grandes cantidades de datos estructurados y formateados de muchas fuentes diferentes. Por el contrario, un lago de datos almacena datos en su forma original y no está estructurado ni formateado.

La gestión de datos es el proceso de recopilar, organizar y acceder a los datos para dar soporte a la productividad, eficiencia y toma de decisiones.

Un data lakehouse añade capacidades de gestión y almacenamiento de datos a las capacidades de un lago de datos tradicional. Esta es un área nueva y en evolución que está cambiando rápido. 

Multinube es el uso de múltiples servicios de computación y almacenamiento en la nube en una única arquitectura heterogénea. Esto hace referencia a la distribución de activos, software y aplicaciones en la nube, por ejemplo, en varios entornos de alojamiento en la nube.

El almacenamiento de archivos organiza y representa los datos como una jerarquía de archivos en carpetas; el almacenamiento en bloque fragmenta los datos en volúmenes organizados arbitrariamente y de tamaño uniforme; mientras que el almacenamiento de objetos gestiona los datos y los vincula a los metadatos asociados. Los sistemas de almacenamiento de objetos permiten la retención de cantidades masivas de datos no estructurados.

SAP Insights Newsletter

Suscríbase hoy

Obtenga información estratégica clave suscribiéndose a nuestro newsletter.

Lectura adicional

Volver al inicio