¿Qué es un almacén de datos?

Un almacén de datos (DW) es un sistema de almacenamiento digital que conecta y armoniza grandes cantidades de datos de muchas fuentes diferentes.

Resumen sobre almacenes de datos

Un almacén de datos (DW) es un sistema de almacenamiento digital que conecta y armoniza grandes cantidades de ellos provenientes de muchas fuentes diferentes. Su propósito es alimentar business intelligence (BI), informes y analíticas, y dar soporte a los requisitos regulatorios –de manera que las empresas puedan convertir sus datos en información estratégica y tomar decisiones inteligentes basadas ellos–. Los almacenes de datos guardan los actuales e históricos en un solo lugar, y actúan como única fuente de verdad para la organización.

 

Los datos fluyen –generalmente con un ritmo periódico– hacia un almacén de datos desde sistemas operativos (como ERP y CRM), bases de datos, y fuentes externas tales como sistemas de socios, dispositivos de internet de las cosas (IoT), apps meteorológicas, y redes sociales. El surgimiento de la computación en la nube ha causado un cambio en el entorno. En los últimos años, los almacenes de datos se han alejado de la infraestructura on-premise tradicional hacia múltiples ubicaciones, incluyendo on-premise, nube privada y nube pública.

 

Los almacenes de datos modernos están diseñados para manejar datos estructurados y no estructurados, como videos, archivos de imágenes y datos de sensores. Algunos aprovechan analíticas integradas y tecnología de base de datos in-memory (que mantiene el data set en la memoria de la computadora en lugar de en el almacenamiento en disco) para brindar acceso en tiempo real a datos confiables e impulsar la toma de decisiones con confianza. Sin almacenamiento de datos, es muy difícil combinar datos de fuentes heterogéneas, garantizar que estén en el formato correcto para las analíticas, y obtener una visión actual y de largo alcance de los datos a lo largo del tiempo.

¿Qué es un almacén de datos?

Beneficios del almacenamiento de datos

Un almacén de datos bien diseñado es la base para cualquier programa de BI o de analíticas. Su principal labor es potenciar los informes, dashboards y herramientas analíticas que hoy se han vuelto indispensables para los negocios. Un almacén de datos brinda información para sus decisiones basadas en datos –y lo ayuda a tomar la decisión correcta en todo, desde el desarrollo de nuevos productos hasta los niveles de inventario–. Hay muchos beneficios en un almacén de datos. Estos son solo algunos: 

  • Mejores analíticas de negocio: con el almacenamiento de datos, los responsables de la toma de decisiones tienen acceso a datos de múltiples fuentes y ya no deben tomar decisiones basadas en información incompleta.  

  • Consultas más rápidas: los almacenes de datos se crean específicamente para captar y analizar datos rápido. Con un DW, usted puede consultar rápido grandes cantidades de datos consolidados con poco o ningún soporte de TI.  

  • Mejor calidad de datos: antes de cargarse en el DW, el sistema crea casos de depuración de datos y los introduce en una lista de trabajo para su posterior procesamiento, asegurándose de que los datos se transformen en un formato consistente para dar soporte a analíticas –y decisiones– basadas en datos precisos de alta calidad.

  • Información histórica: almacenando datos históricos enriquecidos, un almacén de datos les permite a los responsables de la toma de decisiones aprender de tendencias y desafíos pasados, realizar proyecciones, e impulsar la mejora continua del negocio.

placeholder

Captura de pantalla de un almacén de datos mostrando linaje de datos.

¿Qué puede guardar un almacén de datos?

Cuando los almacenes de datos se hicieron populares a finales de la década de 1980, estaban diseñados para almacenar información sobre personas, productos y transacciones. Estos datos –llamados datos estructurados – estaban bien organizados y formateados para facilitar el acceso. Sin embargo, las empresas pronto quisieron almacenar, recuperar y analizar datos no estructurados  –como documentos, imágenes, videos, correos electrónicos, publicaciones en redes sociales, y datos sin procesar de sensores de máquinas–.

 

Un almacén de datos moderno puede alojar datos estructurados y no estructurados. Fusionando estos tipos de datos y eliminando los silos entre ambos, las empresas pueden obtener una completa imagen integral de la información estratégica más valiosa.

Algunos términos clave

Hay muchos términos que definir en el mundo del DW. Estos son algunos de los más importantes. Explore otros términos y preguntas frecuentes en nuestro glosario.

 

Almacén de datos versus base de datos

 

Las bases de datos y los almacenes de datos son sistemas de almacenamiento; sin embargo, sirven a diferentes propósitos. Una base de datos por lo general los almacena para un área de negocios en particular. Un almacén de datos almacena los actuales e históricos para toda la empresa, y para alimentar BI y analíticas. Los almacenes de datos utilizan el servidor de una base de datos para extraerlos, y tienen funcionalidades adicionales para su modelado, gestión de ciclo de vida, integración de fuentes, y más.

 

Almacén de datos versus lago de datos

 

Tanto los almacenes de datos como los data lakes se utilizan para conservar Big Data, pero son sistemas muy diferentes. Un almacén de datos es para aquellos que han sido formateados con un propósito específico, mientras que un data lake es para los brutos que están sin procesar –cuyo fin aún no se ha definido–. Ambos sistemas suelen complementarse. Por ejemplo, cuando se necesitan datos de un data lake a fin de responder a una pregunta de negocios, se los puede extraer, depurar, transformar y utilizar en un almacén de datos para el análisis. El volumen de la información, el rendimiento de la base de datos y el precio de almacenamiento juegan un rol importante a la hora de ayudar a elegir la solución de almacenamiento correcta.

Diagrama de un almacén de datos comparado con un lago de datos.

Almacén de datos vs. data mart

 

Un data mart es una subsección de un almacén de datos, dividida específicamente para un departamento o línea de negocio como ventas, marketing o finanzas. Algunos también se crean con fines operativos independientes. Mientras que un almacén de datos sirve como tienda central para toda una empresa, un data mart brinda los que son relevantes para un grupo seleccionado de usuarios. Esto simplifica el acceso, acelera el análisis y brinda control. A menudo, se implementan múltiples data marts dentro de un almacén de datos.

Diagrama de un mercado de datos y cómo funciona.

¿Cuáles son los componentes clave de un almacén de datos?

Un almacén de datos típico tiene cuatro componentes principales: una base de datos central, herramientas de ETL (extraer, transformar, cargar), metadatos, y herramientas de acceso. Todos estos componentes están diseñados para ser rápidos, de modo que usted pueda obtener resultados en seguida y analizar los datos sobre la marcha.

Diagrama mostrando los componentes de un almacén de datos.

  1. Base de datos central: sirve como cimiento de su almacén de datos. Tradicionalmente, eran bases de datos relacionales estándar que operan on-premise o en la nube. Pero debido a Big Data, a la necesidad de ver el rendimiento en tiempo real, y a una drástica reducción de costos de la RAM, las bases de datos in-memory están ganando popularidad rápido.
  2. Integración de datos: los datos se extraen desde los sistemas fuente y se modifican a fin de alinear la información para un consumo analítico rápido usando una variedad de enfoques de integración de datos, tales como ETL (extraer, transformar, cargar) y ELT, así como replicación en tiempo real, procesamiento de carga por lotes, transformación, y servicios de calidad y enriquecimiento.
  3. Metadatos: estos son datos sobre sus datos. Especifican la fuente, uso, valores y otras características de los data sets que hay en su almacén de datos. Hay metadatos de negocios, que añaden contexto, y técnicos, que describen cómo acceder a los datos –incluso dónde residen y cómo están estructurados–.
  4. Herramientas de acceso al almacén de datos: ellas les permiten a los usuarios interactuar con su almacén de datos. Los ejemplos de herramientas de acceso incluyen las de consulta e informes, desarrollo de aplicaciones, minería de datos, y OLAP.

Arquitectura de un almacén de datos

En el pasado, los almacenes de datos operaban en capas que coincidían con el flujo de los datos de negocio.

Diagrama de arquitectura de un almacén de datos. Un almacén de datos típico incluye las tres capas separadas anteriores. Hoy, los almacenes de datos modernos combinan OLTP y OLAP en un único sistema.

  • Capa de datos: la información se extrae desde su fuente y luego se transforma y carga en el nivel inferior usando herramientas de ETL. El nivel inferior consiste en el servidor de la base de datos, los data marts y los data lakes de su negocio. Los metadatos se crean en este nivel –y se usan herramientas de integración tales como la virtualización a fin de combinar y agregar datos con fluidez–.

  • Capa semántica: en el nivel medio, los servidores de procesamiento analítico on-line (OLAP) y de procesamiento transaccional on-line (OLTP) reestructuran los datos para resolver consultas y analíticas rápidas y complejas.

  • Capa de analíticas: el nivel superior es el front-end para el cliente. Posee las herramientas de acceso al almacén de datos que les permiten a los usuarios interactuar con la información, crear dashboards e informes, supervisar KPI, extraer y analizar datos, crear apps, y más. Este nivel suele incluir un área de workbench o sandbox para la exploración de datos y el desarrollo de un nuevo modelo.

Los almacenes de datos fueron diseñados para dar soporte a la toma de decisiones, y eran construidos y mantenidos principalmente por equipos de TI, pero en los últimos años han evolucionado para empoderar a los usuarios de negocio –reduciendo así la dependencia de TI para acceder a los datos y obtener información estratégica accionable–. Algunas capacidades clave de almacenamiento de datos que han empoderado a los usuarios de negocio son:

  1. La capa semántica o de negocios, que brinda frases en lenguaje natural y les permite a todos comprender los datos al instante, definir relaciones entre los elementos del modelo de datos, y enriquecer los campos de datos con nueva información de negocios.
  2. Las áreas de trabajo virtuales permiten a los equipos aportar modelos de datos y conexiones a un lugar seguro y controlado, lo cual permite colaborar mejor con colegas a través de un único espacio en común y un único data set en común.
  3. La nube ha mejorado aun más la toma de decisiones empoderando globalmente a los empleados con un rico conjunto de herramientas y características para realizar tareas de análisis de datos fácilmente. Pueden conectar nuevas apps y fuentes de datos sin mucho soporte de TI.

Los siete beneficios principales de un almacén de datos en la nube

Los almacenes de datos basados en la nube están creciendo en popularidad –por una buena razón–. Estos sistemas modernos ofrecen varias ventajas sobre las versiones on-premise tradicionales. Estos son los siete principales beneficios de un almacén de datos en la nube:

  1. Rápido de implementar: con el almacenamiento de datos en la nube, usted puede comprar poder de computación y almacenamiento de datos casi ilimitados con unos pocos clics –y crear su propio almacén de datos, data marts y sandboxes desde cualquier lugar, en minutos–.
  2. Bajo costo total de propiedad (TCO): los modelos de precios del almacenamiento de datos como servicio (DWaaS) se configuran para que usted solo pague por los recursos que necesita, cuando los necesita. No debe pronosticar sus requisitos a largo plazo ni pagar más cómputo del que usa a lo largo del año. También puede evitar costos iniciales tales como hardware, salas de servidores y personal de mantenimiento. Separar los precios de almacenamiento de los de computación también le brinda una manera de reducir gastos.
  3. Elasticidad: a un almacén de datos en la nube usted puede expandirlo o contraerlo dinámicamente según sea necesario. La nube nos brinda un entorno virtualizado y altamente distribuido que puede gestionar volúmenes de datos más grandes o más pequeños.
  4. Seguridad y recuperación ante desastres: en muchos casos, los almacenes de datos en la nube les brindan una seguridad y cifrado más sólidos que los on-premise. Además, la información se duplica y resguarda automáticamente, así que usted puede minimizar el riesgo de pérdida de datos.
  5. Tecnologías en tiempo real: los almacenes de datos en la nube creados con tecnología in-memory pueden brindar velocidades de procesamiento extremadamente rápidas para entregar información en tiempo real que aporta conocimiento situacional instantáneo.
  6. Nuevas tecnologías: los almacenes de datos en la nube le permiten integrar fácilmente nuevas tecnologías tales como el machine learning, las cuales pueden brindar una experiencia guiada a los usuarios de negocio, así como soporte para la toma de decisiones en forma de preguntas recomendadas, como ejemplo.
  7. Empodere a los usuarios de negocios: los almacenes de datos en la nube equipan al personal de manera equitativa y global con una única vista sobre la información proveniente de numerosas fuentes, y un rico conjunto de herramientas y características para realizar fácilmente las tareas de análisis. Ellos pueden conectar nuevas apps y fuentes de datos sin recurrir a TI.
placeholder

El almacenamiento de datos brinda soporte para analíticas integrales de gastos de la empresa por departamento, proveedor, región y estado, por nombrar algunos.

Mejores prácticas de almacenamiento de datos

Cuando usted crea un nuevo almacén de datos o añade nuevas aplicaciones a un almacén existente, hay pasos probados para que alcance sus objetivos a la vez que ahorra tiempo y dinero. Algunos se enfocan en el uso de su negocio, y otras prácticas son parte de su programa de TI general. La siguiente lista es un buen punto de partida, y usted incorporará mejores prácticas adicionales a medida que trabaje con sus socios de tecnología y servicio. 

Mejores prácticas de negocio

  • Defina la información que necesita. Una vez que tenga una buena comprensión de sus necesidades iniciales, puede encontrar las fuentes de datos para les darán soporte. A menudo, grupos comerciales, clientes y proveedores tendrán para darle recomendaciones sobre los datos.

  • Documente la ubicación, estructura y calidad de sus datos actuales. Luego, puede identificar brechas y reglas de negocio para transformarlos a fin de que cumplan con los requisitos de su almacén.

  • Cree un equipo. Debe incluir patrocinadores ejecutivos, gerentes y personal que usará y proveerá la información. Por ejemplo, identifique los informes y KPI estándar que necesitan para hacer su trabajo.

  • Priorice sus aplicaciones de almacenamiento de datos. Elija uno o dos proyectos piloto que tengan requisitos razonables y un buen valor de negocio.

  • Elija un socio tecnológico sólido para el almacenamiento de datos. Este debe tener los servicios de implementación y la experiencia necesarios para los proyectos de usted. Asegúrese de que de soporte a sus necesidades de implementación, incluyendo tanto servicios en la nube como opciones on-premise.

  • Desarrolle un buen plan de proyecto. Trabaje con su equipo en un plan y cronograma realistas que den soporte a comunicaciones e informes de estado.

Mejores prácticas de TI

  • Monitoree el rendimiento y la seguridad.La información de su almacén de datos es valiosa, pero debe ser fácilmente accesible para brindar valor a la organización. Monitoree cuidadosamente el uso del sistema para garantizar que los niveles de rendimiento sean altos.

  • Mantenga estándares de calidad de los datos, metadatos, estructura y gobernanza. Nuevas fuentes de datos valiosos se ponen a disposición periódicamente, pero requieren una gestión consistente como parte de un almacén de datos. Siga los procedimientos para depurar datos, definir metadatos, y cumplir con los estándares de gobernanza.

  • Brinde una arquitectura ágil.A medida que aumente el uso por parte de su corporación o unidad de negocios, usted descubrirá una amplia gama de necesidades relacionadas con almacenes y data marts. Una plataforma flexible brindará mejor soporte que un producto limitado y restrictivo.

  • Automatice procesos tales como el mantenimiento. Además de añadir valor a la business intelligence, el machine learning puede automatizar las funciones de gestión técnica del almacén de datos para mantener la velocidad y reducir costos operativos.

  • Use la nube de manera estratégica. Las unidades y departamentos de negocios tienen distintas necesidades de implementación. Use sistemas on-premise cuando sea necesario, y capitalice los almacenes de datos en la nube para obtener escalabilidad, costos reducidos y acceso por teléfono y tablet.

En resumen

Los almacenes de datos modernos, y cada vez más aquellos que están en la nube, serán una parte clave de cualquier iniciativa de transformación digital para las empresas matrices y sus unidades de negocio. Capitalizan los sistemas de negocio actuales, especialmente cuando combinan datos provenientes de múltiples sistemas internos con información nueva e importante que llega desde organizaciones externas.

 

Los dashboards, KPI, alertas e informes dan soporte a los requisitos de ejecutivos, gerentes y personal, así como a importantes necesidades de clientes y proveedores. Los almacenes de datos también brindan analíticas y minería de datos rápidas y complejas, y no disrumpen el rendimiento de otros sistemas del negocio.

 

Dada la flexibilidad para empezar de a poco y expandirse según sea necesario, tanto las oficinas corporativas como las unidades de negocio pueden mejorar la toma de decisiones y el rendimiento de los resultados finales usando tecnología moderna para almacenamiento de datos.

Preguntas frecuentes sobre almacenes de datos

Un data lake es un lugar para almacenar todo tipo de Big Data, ya sean datos estructurados de aplicaciones de negocio, o datos no estructurados de apps móviles, redes sociales o dispositivos de internet de las cosas (IoT). Dado que los datos se almacenan en su formato natural –estructurado, no estructurado, semiestructurado o binario–, puede ser necesario convertir, normalizar o realizar otro tipo de procesamiento para habilitar analíticas que abarquen múltiples tipos de datos. La mayoría de los data lakes están basados en la nube debido a que almacenan grandes volúmenes, necesitan conexiones de alta velocidad a fuentes distribuidas, y requieren escalabilidad.

ETL significa “extraer, transformar y cargar”. Estas actividades juntas conforman el proceso usado para tomar datos desde la fuente y convertirlos a un formato utilizable –y luego trasladarlos a un almacén de datos u otra forma de almacenamiento de datos–. El ETL es especialmente útil con los datos transaccionales, pero las herramientas más avanzadas también pueden gestionar una variedad de tipos de datos no estructurados.

Un data mart es un segmento dividido de un almacén de datos, orientado a un área o equipo de negocios específico, como el de finanzas o marketing. Los data marts les facilitan a los departamentos un acceso rápido a los datos e información estratégica que son relevantes para ellos, y también el control de sus propios data sets dentro del almacén de datos más grande.

Los modelos de datos son un elemento fundamental del desarrollo de software y las analíticas. Un modelo de datos es una descripción de cómo están estructurados y cómo serán almacenados en la base de datos. Brinda un marco de relaciones entre los elementos de una base de datos, así como una guía de uso.

 

El modelado de datos es el proceso de creación de modelos. Al crear una estructura de base de datos o almacén de datos, el diseñador comienza con un diagrama del flujo hacia adentro y hacia afuera que tendrá. Este diagrama se usa para definir las características de formato y estructura, así como las funciones de manejo de la base de datos a fin de dar soporte de forma eficiente a los requisitos del flujo. El modelado brinda un método estandarizado para definir y formatear los contenidos de la base de datos de forma consistente entre todos los sistemas, lo cual permite que diferentes aplicaciones compartan la misma información.

Un almacén de datos empresariales (EDW) almacena en un solo lugar todos los datos del negocio actuales e históricos –integrando gestión de datos maestros, almacenamiento y una estrategia basada en un enfoque holístico sobre la gestión–. Los EDW brindan un entorno acogedor para el software de analíticas y el mantenimiento de KPI e informes precisos en toda la empresa. Muchos EDW están basados en la nube para ofrecer escalabilidad, acceso y facilidad de uso.

placeholder

Explore herramientas modernas de almacenamiento de datos

SAP Datasphere es la próxima generación de SAP Data Warehouse Cloud.

placeholder

Ideas que no encontrará en ningún otro lugar

Regístrese para recibir una dosis de business intelligence directamente en su bandeja de entrada.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel