¿Qué es el modelado de datos?
El modelado de datos es el proceso de diagramar flujos de datos.
Resumen sobre el modelado de datos
El modelado de datos es el proceso de diagramar flujos de datos. Al crear una estructura de base de datos nueva o alternativa, el diseñador comienza diagramando cómo fluirán los datos hacia adentro y hacia afuera. Este diagrama de flujo se utiliza para definir las características de los formatos y estructuras de datos, y las funciones para manejo de la base de datos a fin de dar soporte de forma eficiente a los requisitos del proceso. Una vez que la base de datos fue creada e implementada, el modelo de datos se convierte en la documentación y justificación de por qué ella existe, y de cómo se diseñaron los flujos.
El modelo resultante de este proceso brinda un marco de relaciones entre los elementos que hay dentro de una base de datos, así como una guía para utilizarlos. Los modelos de datos son un elemento fundamental del desarrollo de software y las analíticas. Ellos brindan un método estandarizado para definir y formatear los contenidos de la base de datos de forma consistente entre todos los sistemas, lo cual permite que diferentes aplicaciones compartan la misma información.
¿Por qué es importante el modelado de datos?
Un modelo de datos integral y optimizado ayuda a crear una base de datos lógica simplificada que elimina redundancias, reduce requisitos de almacenamiento y habilita una recuperación eficiente. También equipa a todos los sistemas con una "única fuente de verdad" –la cual es esencial para lograr operaciones efectivas y el cumplimiento comprobable de las regulaciones–. El modelado de datos es un paso clave en dos funciones vitales de una empresa digital.
Proyectos de desarrollo de software (nuevos o personalizaciones) realizados por profesionales de TI
Antes de diseñar y crear cualquier proyecto de software, debe haber una visión documentada de cómo será y se comportará el producto final. Una parte importante de esa visión es el conjunto de reglas de negocio que rigen la funcionalidad deseada. La otra parte es la descripción de los datos: los flujos (o modelos) y el diseño de la base de datos que les dará soporte.
El modelado de datos lleva un registro de la visión y brinda un roadmap para los diseñadores de software. Estando la base y los flujos de datos totalmente definidos y documentados, y los sistemas desarrollados según esas especificaciones, estos deberían brindar la funcionalidad esperada necesaria para mantener la precisión de los datos (dando por sentado que los procedimientos se siguieron adecuadamente).
Analíticas y visualización –o business intelligence–, una importante herramienta para la toma de decisiones de los usuarios
Dado el creciente número de datos y usuarios, las organizaciones necesitan una manera de convertir los datos brutos en información accionable para la toma de decisiones. No es de extrañar que la demanda de analíticas de datos haya crecido drásticamente. La visualización de datos hace que estos sean aún más accesibles para los usuarios presentándolos gráficamente.
Los modelos actuales transforman los datos brutos en información útil que se puede convertir en visualizaciones dinámicas. El modelado de datos los prepara para el análisis: los depura, define sus indicadores y dimensiones, y los mejora estableciendo jerarquías, configurando unidades y monedas, y añadiendo fórmulas.
¿Cuáles son los tipos de modelado de datos?
Los tres principales modelos de datos son relacional, dimensional, y de entidad-relación (E-R). También hay otros modelos cuyo uso no está generalizado, incluyendo jerárquico, en red, orientado a objetos, y multivalor. El tipo de modelo define la estructura lógica –el modo en que se almacenan, organizan y recuperan los datos–.
- Relacional: aunque es más antiguo en su enfoque, este es el modelo de base de datos más común que se utiliza aún hoy, el cual los almacena en registros de formato fijo y los organiza en tablas con filas y columnas. El tipo más básico de modelo de datos tiene dos elementos: mediciones y dimensiones. Las mediciones son valores numéricos, por ejemplo cantidades y ganancias, que se utilizan en cálculos matemáticos tales como suma o promedio. Las dimensiones pueden ser textuales o numéricas. No se utilizan en cálculos ni incluyen descripciones ni ubicaciones. Los datos brutos se definen como una medición o dimensión. Otra terminología utilizada en el diseño de bases de datos relacionales incluye "relaciones" (la tabla con filas y columnas), "atributos" (columnas), "tuplas" (filas) y "dominio" (conjunto de valores permitidos en una columna). Si bien hay términos y requisitos adicionales que definen una base de datos relacional, el factor importante son las relaciones definidas dentro de esa estructura. Los elementos de datos comunes (o claves) vinculan tablas y data sets. Las tablas también se pueden relacionar explícitamente, como en el caso de las relaciones principales y secundarias uno a uno, uno a varios, o varios a varios, por ejemplo.
- Dimensional: menos rígido y estructurado, este enfoque favorece una estructura contextual que está más relacionada con el uso o contexto del negocio. Esta base de datos está optimizada para las consultas on-line y herramientas de almacenamiento de datos. Los elementos de datos críticos, como por ejemplo la cantidad de una transacción, se denominan hechos y van acompañados de información de referencia llamada dimensiones, que puede ser el ID de producto, el precio unitario o la fecha de transacción. Una tabla de hechos es una tabla primaria en un modelo dimensional. La recuperación puede ser rápida y eficiente –ya que los datos para un tipo específico de actividad son almacenados juntos– pero la falta de vínculos relacionales puede complicar la recuperación analítica y el uso de los datos. Dado que la estructura está vinculada con la función del negocio que produce y utiliza la información, combinar datos producidos por sistemas diferentes (en un almacén de datos, por ejemplo) puede ser problemático.
- Entidad-relación (E-R): este modelo representa en forma gráfica una estructura de datos de negocio que contiene casillas de distintas formas para representar actividades, funciones o "entidades", y líneas para representar asociaciones, dependencias o "relaciones". El modelo E-R se utiliza para crear bases de datos relacionales donde cada fila representa una entidad y los campos de esa fila contienen atributos. Como en todas las bases de datos relacionales, los elementos de datos "clave" se utilizan para vincular las tablas entre sí.
¿Cuáles son los tres niveles de la abstracción de datos?
Existen muchos tipos de modelos de datos, con diferentes diseños. La comunidad de procesamiento de datos identifica tres tipos de modelado que representan niveles de pensamiento a medida que se van desarrollando los modelos.
Modelo de datos conceptual
Este es el modelo de panorama general que representa la estructura y contenido a grandes rasgos, pero no el detalle del plan de datos. Es el punto de partida típico para el modelado de datos, que identifica los diversos data sets y flujos en toda la organización. El modelo conceptual es el blueprint para desarrollar los modelos lógicos y físicos, y una parte importante de la documentación sobre la arquitectura de datos.
Modelo de datos lógico
El segundo nivel de detalle es el modelo de datos lógico. Está más estrechamente relacionado con la definición general de modelo de datos ya que describe el contenido de la base y el flujo de datos. El modelo lógico añade detalles a la estructura general del modelo conceptual, pero no incluye especificaciones para la base de datos en sí, ya que puede aplicarse a distintas tecnologías y productos. (Tenga en cuenta que quizás no haya un modelo conceptual si el proyecto se relaciona con una sola aplicación u otro sistema limitado).
Modelo de datos físico
El modelo de base de datos físico describe los detalles de cómo se realizará la matriz lógica. Debe contener suficiente detalle como para permitirles a los tecnólogos crear la estructura real de la base de datos en hardware y software a fin de dar soporte a las aplicaciones que la utilizarán. Huelga decir que el modelo de datos físico es específico para un determinado sistema de software de base de datos. Puede haber múltiples modelos físicos derivados de un único modelo lógico si se utilizan diferentes sistemas de base de datos.
Procesos y técnicas de modelado de datos
El modelado de datos es un proceso inherentemente descendente, que comienza con el modelo conceptual para establecer la visión general, luego pasa al modelo lógico, y finalmente al diseño detallado del modelo físico.
Crear el modelo conceptual es convertir una idea en una forma gráfica que se asemeja al diagrama de flujo de desarrollo de un programador.
Las herramientas modernas para modelado de datos pueden ayudar a definir y crear bases y modelos lógicos y físicos. Estas son algunas técnicas y pasos típicos del modelado de datos:
Determinar entidades y crear un diagrama de entidad-relación (ERD). Las entidades se pueden describir como elementos de datos de interés para su negocio. Por ejemplo, “cliente” sería una entidad. “Ventas” sería otra. Un ERD documenta cómo se relacionan estas diferentes entidades entre sí en su negocio, y qué conexiones generales existen entre ellas.
Defina sus hechos, mediciones y dimensiones. Un hecho es la parte de sus datos que indica una ocurrencia o transacción específica, como la venta de un producto. Sus mediciones son cuantitativas, por ejemplo cantidad, ingresos, costos, etc. Sus dimensiones son indicadores cualitativos, tales como descripciones, ubicaciones y fechas.
Cree un enlace a la vista de datos utilizando una herramienta gráfica o mediante consultas SQL. Si el SQL no le resulta muy familiar, la herramienta gráfica es la opción más intuitiva, porque le permite arrastrar y soltar elementos dentro de su modelo y crear sus conexiones visualmente. Al crear una vista, usted tiene la opción de combinar tablas e incluso otras vistas dentro de un solo resultado. Al seleccionar una fuente en la vista gráfica y arrastrarla sobre otra que ya está asociada al resultado, podrá elegir entre fusionar o crear una unión de estas tablas.
Las soluciones analíticas modernas también pueden ayudar a elegir, filtrar y conectar fuentes de datos utilizando una función gráfica de arrastrar y soltar. Hay herramientas avanzadas disponibles para expertos en datos que habitualmente trabajan en TI –pero los usuarios también pueden crear sus propias historias generando modelos de datos mediante herramientas visuales, y organizando tablas, gráficos, mapas y otros objetos a fin de elaborar un relato a partir de la información estratégica derivada de ellos–.
Ejemplos de modelado de datos
En cualquier aplicación –sea personal, de negocios, entretenimiento u otra índole–, el modelado de datos es un paso inicial necesario al diseñar el sistema y definir la infraestructura requerida para habilitarlo. Esto incluye todo tipo de sistema transaccional, o conjunto o suite de aplicaciones para procesamiento de datos, o cualquier otra solución que recopile, cree o utilice datos.
El modelado de datos es imperativo para un almacén de datos porque es un repositorio recopilado desde múltiples fuentes, las cuales probablemente usen formatos diferentes para información similar o relacionada. Es necesario primero mapear los formatos y estructura del almacén a fin de determinar cómo manejar cada data set entrante para que se adapte a las necesidades de diseño –de modo que los datos sean útiles para análisis y minería–. El modelo es entonces un importante habilitador de herramientas analíticas, sistemas de información ejecutiva (dashboards), minería de datos, e integración con todos los sistemas y aplicaciones de datos.
En las primeras etapas del diseño de cualquier sistema, el modelado de datos es clave, porque de él dependen los siguientes pasos que establecerán la base para todos los programas, funciones y herramientas. El modelo de datos es como un lenguaje en común que les permite a los sistemas comunicarse comprendiendo y aceptando los datos tal como se los describe allí. Esto es más importante que nunca en el mundo actual de big data, machine learning, inteligencia artificial, conectividad en la nube, IoT y sistemas distribuidos, incluyendo la computación edge.
Evolución del modelado de datos
En un sentido muy real, el modelado de datos existe desde hace tanto tiempo como el procesamiento, el almacenamiento y la programación informática, pero el término en sí llegó a popularizarse recién en la década de 1960, cuando los sistemas para gestión de bases de datos comenzaron a evolucionar. No hay nada nuevo ni innovador en el concepto de planificar y diseñar una nueva estructura. El propio modelado de datos se ha ido estructurando y formalizando a medida que surgieron más cantidad, bases y variedad de datos.
Hoy, el modelado de datos es más esencial que nunca, ya que los profesionales de TI deben lidiar con nuevas fuentes (sensores de IoT, dispositivos de geolocalización, flujos de clics, redes sociales) y con mucha información no estructurada (texto, audio, video, sensores) –en una cantidad y velocidad que superan las capacidades de los sistemas tradicionales–. Ahora existe una demanda constante de sistemas nuevos, estructuras y técnicas innovadoras para bases de datos, y modelos novedosos para unificar las iniciativas de desarrollo.
¿Qué es lo próximo en el modelado de datos?
La conectividad de la información y la enorme cantidad de datos provenientes de tantas fuentes diferentes –sensores, voz, video, correo electrónico, y más– extienden el alcance de los proyectos de modelado para los profesionales de TI. Internet es, por supuesto, uno de los habilitadores de esta evolución. La nube es una parte importante de la solución, ya que es la única infraestructura informática lo suficientemente grande, escalable y ágil como para abordar los requisitos actuales y futuros en un mundo cada vez más conectado.
Las opciones para el diseño de bases de datos también están cambiando. Hace una década, la estructura dominante era una base de datos relacional en filas que utilizaba la tecnología tradicional de almacenamiento en disco. Los datos de libro mayor o de gestión del inventario de un ERP típico se almacenaban en docenas de tablas diferentes que había que actualizar y modelar. Hoy, las soluciones de ERP modernas almacenan in-memory los datos activos utilizando columnas para reducir drásticamente las tablas y aumentar la velocidad y eficiencia.
Las nuevas herramientas por autoservicio que hoy están disponibles para los profesionales de líneas de negocio seguirán mejorando. Y llegarán otras para que el modelado y la visualización de datos sean aun más fáciles y colaborativos.
Resumen
Un modelo de datos completo y bien pensado es clave para desarrollar una base de datos verdaderamente funcional, útil, segura y precisa. Comience con el modelo conceptual para presentar todos los componentes y funciones. Luego, adapte esos planes dentro de un modelo de datos lógico que describa flujos y defina claramente qué datos se necesitan y cómo serán adquiridos, gestionados, almacenados y distribuidos. El modelo de datos lógico impulsa el modelo físico que es específico para una base de datos, y es el documento de diseño detallado que guía la creación de esta y el software de la aplicación.
Un buen modelado de datos y diseño de la base de datos son esenciales para desarrollar aplicaciones funcionales, confiables y seguras, y bases de datos que trabajan bien con los almacenes y las herramientas analíticas –y facilitan el intercambio de datos con los socios de negocio y entre múltiples aplicaciones–. Los modelos de datos bien pensados ayudan a garantizar su integridad, haciendo que la información de su empresa sea aún más valiosa y confiable.
Explore las herramientas modernas para modelado de datos
Conecte los datos con el contexto del negocio para empoderar a los usuarios y liberar información estratégica.
Ideas que no encontrará en ningún otro lugar
Regístrese para recibir una dosis de business intelligence directamente en su bandeja de entrada.