¿Qué es un data lake?

Un data lake es un repositorio de datos central que ayuda a abordar los problemas relacionados con los silos de datos. 

Resumen sobre los data lakes

En esencia, un data lake es un repositorio de información. Los data lakes a menudo se confunden con los almacenes de datos, pero ambos atienden diferentes necesidades de negocio y tienen arquitecturas diferentes. En particular, los data lakes en la nube son un componente vital de una estrategia moderna de gestión de datos, ya que la proliferación de información proveniente de redes sociales, máquinas de internet de las cosas (IoT) y transacciones sigue acelerándose. La capacidad de almacenar, transformar y analizar cualquier tipo de datos allana el camino para nuevas oportunidades de negocios y la transformación digital –y en eso radica el rol de un data lake–.

90

%

de las instituciones financieras considera que las iniciativas de big data determinan el éxito futuro

64,2

zettabytes de datos digitales se crearon en 2020

USD 17.600

millones

de valor estimado del mercado de data lake para 2026

Definición de data lake

Un data lake es un repositorio de datos central que ayuda a abordar cuestiones relacionadas con los silos. Es importante destacar que un data lake almacena grandes cantidades de datos sin procesar en su formato nativo –u original–. Ese formato puede ser estructurado, no estructurado o semiestructurado. Los data lakes, especialmente los de la nube, son económicos, fácilmente escalables, y a menudo se usan con analíticas de machine learning aplicadas.

Data lake vs. almacén de datos

A diferencia de un data lake, un almacén de datos brinda capacidades para gestionarlos, y guarda los que ya fueron procesados y filtrados para casos de uso o preguntas de negocio predefinidos.

Imagen de un diagrama de un almacén de datos comparado con un data lake.

Los almacenes de datos y los data lakes suelen complementarse entre sí. Por ejemplo, cuando se necesitan datos brutos que están almacenados en un data lake para responder una pregunta de negocios, estos se pueden extraer, depurar, transformar y usar en un almacén para un análisis más profundo.

 

Data lakehouse es un concepto nuevo y en evolución, que agrega capacidades para gestión de datos sobre un data lake tradicional. En esencia, se trata de la combinación de un data lake y un almacén de datos.

 

Además del tipo de datos y las diferencias de proceso indicadas más arriba, aquí hay algunos detalles comparativos entre soluciones para data lake y para almacén de datos.

Data lake
Almacén de datos
Datos
Cualquier tipo de datos de cualquier fuente
Relacional o estructurado
Esquema
Esquema de lectura (tiempo de análisis)
Esquema de escritura (predefinido)
Costo de almacenamiento
Menor costo –escala de petabytes–
Mayor costo –escala de terabytes–
Calidad de datos
Datos seleccionados o no seleccionados
Datos seleccionados
Usuarios
Científicos de datos, desarrolladores de datos (que usan Python, por ejemplo), y analistas de negocios (que usan SQL para datos seleccionados)
Analistas de negocios que usan SQL
Analíticas
Machine learning, analíticas predictivas, descubrimiento/perfilado de datos
Informes por lotes, BI, visualizaciones

En última instancia, el volumen de los datos, el rendimiento de la base de datos y los precios jugarán un rol importante en la elección de la solución de almacenamiento correcta.

Elementos clave de una solución de data lake

  • Movimiento de datos: los data lakes permiten importar cualquier tipo de datos desde múltiples fuentes en su formato nativo. Esto les permite a las empresas escalar el volumen según sea necesario, sin tener que definir estructuras, esquemas ni transformaciones de datos, lo cual puede generar ahorro de gastos generales.

  • Almacene y catalogue datos de manera segura: el data lake almacena datos estructurados, semiestructurados y no estructurados provenientes de distintas fuentes, tales como software para CRM o ERP, dispositivos de IoT, redes sociales, e incluso históricos de sistemas heredados. Y los data lakes le permiten capturar datos por lotes y de streaming a la vez que aplica gobernanza, seguridad y control. Los datos se pueden consultar directamente o incorporar a un almacén con las herramientas correctas.

  • Analíticas y machine learning: los data lakes habilitan el acceso a la información en base a roles para operar analíticas y machine learning sin necesidad de pasar los datos a una base analítica separada. Además, los data lakes permiten combinar datos históricos y en tiempo real para refinar los modelos de machine learning o analíticas predictivas a fin de brindar mejores y/o nuevos resultados.

Cómo funcionan los data lakes

Un data lake moderno tiene tres características principales:

  1. Una zona de landing para los datos brutos
  2. Una zona de staging donde los datos se transforman con un propósito analítico en mente
  3. Una zona de exploración de datos donde son usados para analíticas, aplicaciones y para alimentar modelos de machine learning

Desde el data lake, la información se transfiere a una variedad de fuentes –tales como analíticas u otras aplicaciones de negocio, o a herramientas de machine learning para un análisis más profundo–.

 

Un caso de uso de data lake

Aquí hay dos ejemplos de casos de uso de un data lake en comercio minorista.

 

Los datos de ventas a largo plazo se almacenan en un data lake junto con datos no estructurados tales como secuencias de clics en sitios web, clima, noticias, y micro/macroeconomía. Tener estos datos almacenados juntos y accesibles facilita que un científico de datos combine esas diferentes fuentes de información dentro de un modelo que proyectará la demanda de un producto o línea de productos específicos. Esta información se usa como inputs para el sistema de ERP minorista a fin de aumentar o reducir los planes de producción.

 

En paralelo, un experto en marketing puede acceder a ese mismo data lake y realizar un análisis de sentimiento sobre interacción en sitios web y redes sociales usando datos provenientes de noticias, macroeconomía e historial de ventas a fin de determinar en qué productos enfocarse y cómo maximizar ventas, beneficios y/o adopción.

Tipos de data lakes

Los data lakes pueden estar alojados on-premise, en la nube, en un híbrido de ambos o en múltiples hiperescaladores en la nube, como Amazon Web Services (AWS), Microsoft Azure o Google Cloud.

 

Por lejos, el tipo más popular es el data lake en la nube. Un data lake en la nube brinda todas las características habituales del producto, pero dentro de un servicio en la nube totalmente gestionado.

  • Data lake on-premise: en este tipo, los recursos internos de ingeniería de TI gestionan hardware, software y procesos. Este enfoque tiene un compromiso más alto de gastos de capital (CAPEX), y los datos tienden a estar aislados en silos.

  • Data lake en la nube: en un data lake en la nube, la infraestructura on-premise se terceriza. Hay un mayor compromiso de gastos operativos (OPEX), pero este enfoque de implementación les permite a las empresas escalar más fácilmente, junto con muchos otros beneficios (ver más abajo).

  • Data lake híbrido: en algunos casos, las empresas optan por mantener data lakes on-premise y en la nube al mismo tiempo. Esta situación es poco común y se ve principalmente en los escenarios de migración de on-premise a la nube.

  • Data lake multinube: en un data lake multinube, se combinan dos o más ofertas; por ejemplo, una empresa puede usar AWS y Azure para gestionar y mantener data lakes en la nube. Esto requiere un mayor expertise para garantizar que estas plataformas dispares se comuniquen entre sí.

Los seis principales beneficios de un data lake en la nube

¿Por qué elegir un data lake en la nube? Convertir los datos en un activo de negocios de alto valor impulsa la transformación digital. Las fortalezas de la nube combinadas con un data lake brindan esa base tecnológica. Un data lake en la nube les permite a las empresas aplicar analíticas sobre datos históricos así como sobre nuevas fuentes, tales como archivos de registro, flujos de clics, redes sociales, dispositivos conectados a internet, y más, a fin de obtener información estratégica accionable.

 

Estos son algunos de los beneficios clave que usted debería esperar:

  1. Rentabilidad: los proveedores en la nube ofrecen muchas opciones de almacenamiento y precio.
  2. Autoescala: los servicios en la nube están diseñados para brindar una funcionalidad de escalado que les permita a las empresas computar y aprovechar la capacidad de almacenamiento on-demand.
  3. Repositorio de datos central: un data lake en la nube reúne la información, y sirve como única fuente de verdad con un acceso gobernado a los datos que habilita la eficiencia de los procesos entre equipos.
  4. Seguridad de los datos: los proveedores de almacenamiento en la nube garantizan la seguridad de los datos mediante un modelo de responsabilidad compartida.
  5. Herramientas: los proveedores de almacenamiento en la nube, entre otros, brindan herramientas de ETL que rastrean datos, los catalogan y realizan la preparación, transformación e ingesta para que puedan ser consultados.
  6. Analíticas mejoradas para obtener nueva información estratégica y mejores resultados de negocio: un data lake en la nube puede combinar los datos de nuevas maneras. Por ejemplo, el CRM y las analíticas de redes sociales pueden brindar nuevos datos sobre la causa de insatisfacción de un cliente, o mostrar qué promociones aumentan la fidelidad. Además, se puede mejorar la eficiencia operativa mediante el análisis de datos de IoT.

Preguntas frecuentes sobre los data lakes

Explore aquí abajo nuestras preguntas frecuentes sobre data lakes y vea nuestro glosario de gestión de datos para obtener aún más definiciones.

El término "data lake" evolucionó para reflejar el concepto de un almacén de datos más grande y fluido –comparado específicamente con un centro de datos más aislado, bien definido y estructurado–.

 

Hace más de una década, cuando crecían las fuentes de datos, los data lakes cambiaron para abordar la necesidad de almacenar petabytes de datos indefinidos para analizarlos más tarde. Los primeros data lakes se basaban en el sistema de archivos Hadoop (HDFS) y en hardware básico de centros de datos on-premise. Sin embargo, los desafíos inherentes a una arquitectura distribuida y la necesidad de hacer análisis y transformación personalizados de los datos contribuyó a un rendimiento subóptimo de los sistemas basados en Hadoop.

 

La computación en la nube y las tecnologías de almacenamiento ahora son la base principal del stack de datos moderno –y de los data lakes en la nube–.

Un almacén de datos (DW) es un sistema de almacenamiento digital que conecta y armoniza grandes cantidades de datos estructurados y formateados provenientes de muchas fuentes diferentes. Por el contrario, un data lake los almacena en su forma original –y no están estructurados ni formateados–.

La gestión de datos es el proceso de recopilar, organizar y acceder a ellos para dar soporte a la productividad, eficiencia y toma de decisiones.

Un data lakehouse añade capacidades de gestión y almacenamiento de datos a las capacidades de un data lake tradicional. Esta es un área nueva y en evolución que está cambiando rápido.

La multinube es una sola arquitectura heterogénea para usar múltiples servicios de computación y almacenamiento en la nube. Hace referencia, por ejemplo, a la distribución de activos, software y aplicaciones entre varios entornos de alojamiento en la nube.

El almacenamiento de archivos organiza y representa los datos bajo una jerarquía de carpetas; el almacenamiento en bloque los fragmenta en volúmenes organizados arbitrariamente y de tamaño uniforme; mientras que el almacenamiento de objetos gestiona los datos y los vincula a los metadatos asociados. Los sistemas de almacenamiento de objetos permiten retener cantidades masivas de datos no estructurados.

placeholder

Comience con las soluciones de data lake

Explore las capacidades del data lake de SAP HANA Cloud.

placeholder

Ideas que no encontrará en ningún otro lugar

Regístrese para recibir una dosis de business intelligence directamente en su bandeja de entrada.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel