Saltar al contenido
Personas trabajando en un flujo de almacén de datos

¿Qué es el modelado de datos?

El modelado de datos es el proceso de diagramación de los flujos de datos. Al crear la estructura de una base de datos nueva o alternativa, el diseñador comienza con un diagrama del flujo de los datos por dentro y fuera de la base de datos. Este diagrama se usa para definir los formatos y estructuras de los datos y las funciones de gestión de la base de datos, a fin de dar un soporte eficiente al flujo de datos. Una vez creada e implementada la base de datos, el modelo de datos es la documentación y justificación de por qué existe la base de datos y cómo se diseñaron los flujos.

 

El modelo de datos que resulta de este proceso brinda un marco de relaciones entre elementos de datos dentro de una base de datos, así como una guía para el uso de los datos. Los modelos de datos son un elemento fundamental del desarrollo de software y analíticas. Ellos brindan un método estandarizado para definir y formatear los contenidos de la base de datos de forma consistente en todos los sistemas, lo cual permite que diferentes aplicaciones compartan los mismos datos.

¿Por qué es importante el modelado de datos?

Un modelo de datos integral y optimizado ayuda a crear una base de datos lógica simplificada que elimina la redundancia, reduce los requisitos de almacenamiento y permite una recuperación eficiente. También equipa a todos los sistemas con una "única fuente de verdad" –que es esencial para operaciones eficaces y cumplimiento regulatorio–. El modelado de datos es un paso clave en dos funciones vitales de una empresa digital.

Proyectos de desarrollo de software (nuevos o personalizaciones) realizados por profesionales de TI

 
Antes de diseñar y construir cualquier proyecto de software, debe existir una visión documentada de cómo será y se comportará el producto final. Una gran parte de esa visión es el conjunto de reglas para la funcionalidad deseada. La otra parte es la descripción de los datos: los flujos (o modelos) de datos y la base de datos que les brinda soporte.
 
El modelado de datos mantiene un registro de la visión y brinda un roadmap para los diseñadores de software. Con la base de datos y los flujos de datos totalmente definidos y documentados, y sistemas desarrollados de acuerdo con esas especificaciones, los sistemas deberían brindar la funcionalidad esperada necesaria para mantener los datos exactos (suponiendo que los procedimientos se hayan seguido adecuadamente).
 

Analíticas y visualización –o business intelligence–, una importante herramienta para la toma de decisiones de los usuarios

 

Con el creciente número de datos y usuarios, las organizaciones necesitan una manera de convertir los datos sin procesar en información accionable para la toma de decisiones. No es de extrañar que la demanda de analíticas de datos haya crecido drásticamente. La visualización de datos hace que los datos sean aun más accesibles para los usuarios al presentándolos gráficamente.

 

Los modelos de datos actuales transforman los datos sin procesar en información útil que puede convertirse en visualizaciones dinámicas. El modelado de datos prepara los datos para el análisis: depuración, definición de indicadores y dimensiones, jerarquías, configuración de unidades y monedas, y adición de fórmulas.

 

¿Cuáles son los tipos de modelado de datos?

Los tres principales modelos de datos son relacional, dimensional, y de entidad-relación (E-R). También hay otros cuyo uso no está generalizado, incluyendo jerárquico, en red, orientado a objetos, y multivalor. El tipo de modelo define la estructura lógica –el modo en que se almacenan, organizan y recuperan los datos–.

  1. Relacional: Aunque el enfoque es "más antiguo", el modelo de base de datos más común que aún se usa hoy en día es relacional, que almacena los datos en registros de formato fijo y organiza los datos en tablas con filas y columnas. El tipo más básico de modelo de datos tiene dos elementos: indicadores y dimensiones. Los indicadores son valores numéricos, como cantidades e ingresos, que se usan en cálculos matemáticos como suma o promedio. Las dimensiones pueden ser de texto o numéricas. No se usan en cálculos e incluyen descripciones o ubicaciones. Los datos brutos se definen como un indicador o una dimensión. Otra terminología usada en el diseño de la base de datos relacional incluye "relaciones" (la tabla con filas y columnas), "atributos" (columnas), "tuplas" (filas) y "dominio" (conjunto de valores permitidos en una columna). Si bien hay términos adicionales y requisitos estructurales que definen una base de datos relacional, el factor importante son las relaciones definidas dentro de esa estructura. Los elementos de datos comunes (o claves) vinculan tablas y conjuntos de datos. Las tablas también se pueden relacionar explícitamente, como las relaciones principales y secundarias, como ser uno a uno, uno a varios o varios a varios.
  2. Dimensional: Menos rígido y estructurado, el enfoque dimensional favorece una estructura de datos contextual que está más relacionada con el uso o contexto de negocio. Esta estructura de base de datos está optimizada para consultas online y herramientas de almacenamiento de datos. Los elementos de datos críticos, como una cantidad de transacción, por ejemplo, se denominan "hechos" y van acompañados de información de referencia llamada "dimensiones", ya sea el ID de producto, el precio unitario o la fecha de transacción. Una tabla de hechos es una tabla primaria en un modelo dimensional. La recuperación puede ser rápida y eficiente, con datos para un tipo específico de actividad almacenados juntos, pero la falta de vínculos de relación puede complicar la recuperación analítica y el uso de los datos. Dado que la estructura de datos está vinculada con la función de negocio que produce y usa los datos, la combinación de datos producidos por sistemas diferentes (en un almacén de datos, por ejemplo) puede ser problemática.
  3. Rico en entidades (E-R): Un modelo E-R representa una estructura de datos de negocio en forma gráfica que contiene cuadros de varias formas para representar actividades, funciones o "entidades" y líneas para representar asociaciones, dependencias o "relaciones". El modelo E-R se usa para crear una base de datos relacional con cada fila que representa una entidad y los campos de esa fila contienen atributos. Como en todas las bases de datos relacionales, los elementos de datos "clave" se usan para vincular tablas.

¿Cuáles son los tres niveles de abstracción de datos?

Existen muchos tipos de modelos de datos, con diferentes tipos de layouts. La comunidad de procesamiento de datos identifica tres tipos de modelado que representan el nivel de desarrollo.

Modelo conceptual de datos

 

El modelo de "panorama general" representa la estructura general y el contenido, pero no el detalle del plan de datos. Es el punto de partida típico para el modelado de datos, que identifica los diversos data sets y flujos de datos en toda la organización. El modelo conceptual es el blueprint para el desarrollo de los modelos lógicos y físicos, y es una parte importante de la documentación de la arquitectura de datos.

 

Modelo lógico de datos

 

El segundo nivel de detalle es el modelo lógico de datos. Se relaciona más estrechamente con la definición general de "modelo de datos" dado que describe el flujo de datos y el contenido de la base de datos. El modelo lógico añade detalles a la estructura general del modelo conceptual pero no incluye especificaciones para la propia base de datos, ya que puede aplicarse a varias tecnologías y productos. (Tenga en cuenta que quizás no haya un modelo conceptual si el proyecto se relaciona con una sola aplicación u otro sistema limitado).

 

Modelo de datos físico

 

El modelo de base de datos física describe los detalles de cómo se realizará el modelo lógico. Debe contener suficiente detalle para permitir a los tecnólogos crear la estructura real de la base de datos en hardware y software para soportar las aplicaciones que lo usarán. Huelga decir que el modelo físico de datos es específico de un sistema de software de base de datos designado. Puede haber varios modelos físicos derivados de un único modelo lógico si se usan diferentes sistemas de base de datos.

Procesos y técnicas de modelado de datos

El modelado de datos es inherentemente un proceso descendente, que comienza con el modelo conceptual para establecer la visión general, luego pasa al modelo lógico, y finalmente al diseño detallado del modelo físico.

 

Construir el modelo conceptual es convertir una idea en una forma gráfica que se asemeje al diagrama de flujo de un programador.

 

Las herramientas modernas para modelado de datos pueden ayudar a definir y crear bases de datos y modelos de datos lógicos y físicos. Estas son algunas técnicas y pasos típicos de modelado de datos:

  • Determine entidades y cree un diagrama de entidad-relación (ERD). Las entidades se pueden describir como "elementos de datos de interés para su negocio". Por ejemplo, “cliente” sería una entidad. “Ventas” sería otra. Un ERD documenta cómo estas diferentes entidades se relacionan entre sí en su empresa, y qué conexiones existen entre ellas.
  • Defina sus hechos, indicadores y dimensiones.Un hecho es la parte de sus datos que indica una ocurrencia o transacción específica, como la venta de un producto. Sus indicadores son cuantitativos, como cantidad, ingresos, costos, etc. Sus dimensiones son indicadores cualitativos, como descripciones, ubicaciones y fechas.  
  • Crear un enlace de vista de datos usando una herramienta gráfica o mediante consultas SQL. Si no está familiarizado con SQL, la herramienta gráfica es la opción más intuitiva, lo que le permite arrastrar y soltar elementos en su modelo y crear sus conexiones visualmente. Al crear una vista, tiene la opción de combinar tablas e incluso otras vistas en una sola salida. Al seleccionar una fuente en la vista gráfica y arrastrarla encima de una fuente ya asociada con la salida, tendrá la opción de unir o crear una unión de estas tablas.

Las soluciones analíticas modernas también pueden ayudar a elegir, filtrar y conectar fuentes de datos usando una función gráfica de arrastrar y soltar. Hay herramientas avanzadas disponibles para los típicos expertos en datos de TI – pero los demás usuarios también pueden crear sus propias historias generando modelos de datos con herramientas visuales, y organizando tablas, gráficos, mapas y otros objetos para contar historias basadas en la información estratégica de los datos–.

Explore SAP Analytics Cloud

Cree un modelo para contar una historia basada en análisis de datos.

Ejemplos de modelado de datos

Para cualquier aplicación, ya sea de negocios, entretenimiento, personal u otro, el modelado de datos es un paso inicial necesario en el diseño del sistema y la definición de la infraestructura necesaria para habilitar el sistema. Esto incluye cualquier tipo de sistema transaccional, conjunto o suite de aplicaciones de procesamiento de datos, o cualquier otro sistema que recopile, cree o use datos.

 

El modelado de datos es imperativo para un almacén de datos porque es un repositorio recopilado desde múltiples fuentes, las cuales probablemente tengan diferentes formatos para datos similares o relacionados entre sí. Primero, hay que asignar formatos y estructura al almacén para ajustar cada data set entrante a las necesidades de diseño –de modo que los datos sean útiles para el análisis y la minería de datos.– El modelo habilita herramientas analíticas, sistemas de información ejecutiva (dashboards), minería de datos, e integración con todos los sistemas y aplicaciones de datos.

 

En las primeras etapas del diseño de cualquier sistema, el modelado de datos es clave, porque de él dependen los siguientes pasos que fijarán el cimiento para todos los programas, funciones y herramientas. El modelo de datos es como un lenguaje común que permite a los sistemas comunicarse comprendiendo y aceptando los datos tal como se describe en el modelo. Esto es más importante que nunca en el actual mundo de Big Data, machine learning, inteligencia artificial, conectividad en la nube, IoT, y sistemas distribuidos, incluyendo la computación edge.

Evolución del modelado de datos

En un sentido muy real, el modelado de datos ha existido durante tanto tiempo como el procesamiento, almacenamiento y programación informáticos, pero el término en sí llegó a popularizarse recién en la década de 1960, cuando los sistemas para gestión de bases de datos comenzaron a evolucionar. No hay nada nuevo ni innovador en el concepto de planificar y diseñar una nueva estructura. El modelado de datos se ha estructurado y formalizado a medida que han surgido más datos, más bases de datos y más variedades de datos.

 

Hoy en día, el modelado de datos es más esencial que nunca, ya que los profesionales de TI luchan con nuevas fuentes de datos (sensores de IoT, dispositivos de geolocalización, flujos de clics, redes sociales) y con muchos datos no estructurados (texto, audio, video, sensores) –en una cantidad y velocidad que superan las capacidades de los sistemas tradicionales–. Ahora hay una demanda constante de nuevos sistemas, estructuras y técnicas de bases de datos innovadoras, y nuevos modelos de datos.

¿Qué sigue en modelado de datos?

La conectividad de la información y la enorme cantidad de datos desde tantas fuentes diferentes –sensores, voz, video, correo electrónico, y más– extienden el alcance de los proyectos de modelado de los profesionales de TI. Internet es, por supuesto, uno de los facilitadores de esta evolución. La nube es una parte importante de la solución, ya que es la única infraestructura informática lo suficientemente grande, escalable y ágil para abordar los requisitos actuales y futuros en un mundo cada vez más conectado.

 

Las opciones para el diseño de bases de datos también están cambiando. Hace una década, la estructura dominante era una base de datos relacional en filas que usaba la tecnología tradicional de almacenamiento en disco. Los datos de libro mayor o de gestión de inventario de un ERP típico se almacenaban en docenas de tablas diferentes que había que actualizar y modelar. Hoy en día, las soluciones de ERP modernas almacenan in-memory los datos activos usando columnas para reducir drásticamente las tablas y aumentar la velocidad y eficiencia.

 

Las nuevas herramientas por autoservicio que hoy están disponibles para los profesionales de líneas de negocio seguirán mejorando. Y llegarán nuevas herramientas para que el modelado y la visualización de datos sean aun más fáciles y colaborativos.

Resumen

Un modelo de datos completo y bien pensado es clave para el desarrollo de una base de datos verdaderamente funcional, útil, segura y precisa. Comience con el modelo conceptual para presentar todos los componentes y funciones. Luego, adapte esos planes dentro de un modelo de datos lógico que describa flujos y defina qué datos se necesitan y cómo serán adquiridos, gestionados, almacenados y distribuidos. El modelo de datos lógico dirige el modelo físico que es específico para una base de datos, y es el documento de diseño detallado que guía la creación de la base de datos y el software de la aplicación.

 

Un buen modelado de datos y diseño de la base de datos son esenciales para desarrollar aplicaciones funcionales, confiables y seguras, y bases de datos que funcionan bien con almacenes de datos y herramientas analíticas –y facilitan el intercambio de datos con los socios de negocio y entre múltiples aplicaciones–. Los modelos de datos bien pensados ayudan a garantizar la integridad de los datos, haciendo que los datos de su empresa sean aún más valiosos y confiables.

Explore las herramientas modernas para modelado de datos

Conecte los datos con el contexto del negocio para empoderar a los usuarios y liberar información estratégica.

Más de esta serie

SAP Insights Newsletter

Suscríbase hoy

Obtenga información estratégica clave suscribiéndose a nuestro newsletter.

Lectura adicional

Volver al inicio