Saltar al contenido
Almacén de datos

Glosario de gestión de datos

Explore varios términos y definiciones relacionados con datos en nuestro glosario de gestión de datos.

Una base de datos es una instalación para organizar, almacenar, gestionar, salvaguardar y controlar el acceso a los datos. Las bases de datos están diseñadas de acuerdo con una serie de esquemas diferentes (esquema), muchos de los cuales adhieren al modelo relacional para facilitar el acceso de los programas y las consultas sobre datos. Los tipos comunes de bases de datos incluyen sistemas de gestión de bases de datos relacionales (RDBMS), bases de datos in-memory, bases de datos orientadas a objetos (OODBMS), bases de datos NoSQL y bases de datos NewSQL –cada cual con sus propias ventajas–.

La gestión de datos refiere a todas las funciones necesarias para recopilar, controlar, proteger, manipular y entregar datos. Los sistemas de gestión de datos incluyen bases de datos, almacenes de datos y centros de datos; herramientas para recopilación, almacenamiento y recuperación de datos; y servicios públicos para ayudar con la validación, la calidad, y la integración con aplicaciones y herramientas analíticas. Las empresas necesitan una estrategia de datos para establecer la responsabilidad sobre los datos que se originan o son propios de determinadas áreas de responsabilidad.

La gestión de bases de datos hace referencia a los procesos y procedimientos necesarios para almacenar, manejar, manipular y proteger los datos. En muchas organizaciones, la responsabilidad de establecer y supervisar dichos procedimientos es la responsabilidad principal de un administrador de base de datos (DBA) o un cargo similar. La mayoría de las organizaciones confían en un sistema de gestión de bases de datos comercial (DBMS) como herramienta principal para gestionar su base de datos. 

Un sistema de gestión de bases de datos (DBMS) es el kit de herramientas de software que brinda una estructura de almacenamiento y una instalación para la gestión de bases de datos. El DBMS puede ser parte integral de un sistema de planificación de recursos empresariales (ERP) bajo licencia, de una compra independiente requerida, de una parte del software del sistema (sistema operativo), o ser un producto de software con licencia por separado. Independientemente de la fuente, es esencial que las aplicaciones se creen en torno a y/o se integren completamente con el DBMS, ya que son mutuamente dependientes para la funcionalidad efectiva tanto de las aplicaciones como del DBMS. El DBMS es esencialmente un kit de herramientas para gestión de bases de datos.

Una base de datos SQL es una base de datos relacional que almacena datos en tablas y filas. Los elementos de datos (filas) se vinculan según los elementos de datos comunes para permitir la eficiencia, evitar la redundancia y propiciar una recuperación fácil y flexible. El nombre SQL deriva de Structured Query Language, el kit de herramientas y protocolo de consultas en lenguaje natural que los usuarios pueden aprender y aplicar a cualquier base de datos compatible para almacenamiento, manipulación y recuperación de datos.

Se han desarrollado bases de datos NoSQL para manejar datos no estructurados a los cuales el SQL no puede dar soporte debido a la falta de estructura. El NoSQL usa técnicas creativas para superar esta limitación, tales como esquemas dinámicos y varias técnicas de preprocesamiento. Los tipos más comunes de bases de datos para datos no estructurados son los de clave-valor, documentos, columnas y gráficos; a menudo incluyen video, gráficos, texto libre, y registros de sensores sin procesar.

Un sistema de gestión de bases de datos relacionales es un sistema de gestión de bases de datos (DBMS) que se basa en el modelo de datos relacionales. El contenido del RDBMS se almacena en tablas, formadas por filas y columnas, y cada tabla representa un objeto específico, o entidad, en la base de datos que puede relacionarse con otro.  Un RDBMS normalmente contiene múltiples tablas e incluye funciones adicionales que mantienen la precisión, consistencia, integridad y seguridad de los datos, así como una interfaz SQL para acceder a los datos en relación entre sí a través de consultas complejas.

CDBMS es un término acuñado por Gartner que describe principalmente un modelo de implementación en la nube para el RDBMS antes mencionado.

Los datos estructurados se formatean en filas y columnas y se asignan a campos predefinidos. Normalmente se almacenan en hojas de cálculo de Excel o bases de datos relacionales, y los ejemplos incluyen transacciones financieras, información demográfica y registros de máquinas. Hasta hace poco, los datos estructurados eran el único tipo de datos utilizables para negocios.

Los datos no estructurados no están organizados en filas y columnas, lo cual dificulta el almacenamiento, análisis y búsqueda. Los ejemplos incluyen datos crudos de internet de las cosas (IoT), archivos de video y audio, comentarios en redes sociales y transcripciones del centro de llamadas. Los datos no estructurados normalmente se almacenan en lagos de datos, bases de datos NoSQL o almacenes de datos modernos.

Los datos semiestructurados tienen algunas propiedades organizativas, tales como etiquetas semánticas o metadatos, pero no se ajustan a las filas y columnas de una hoja de cálculo o base de datos relacional. Un buen ejemplo de datos semiestructurados es el correo electrónico, que incluye algunos datos estructurados, como las direcciones de emisor y destinatario, pero también datos no estructurados, como el mensaje en sí.

La asignación de datos es el proceso de hacer coincidir los campos entre diferentes estructuras de datos o bases de datos. Este es un paso necesario si hay que combinar bases de datos, migrar datos de un sistema o base a otro, o usar diferentes fuentes de datos dentro de una sola aplicación o herramienta analítica –como ocurre con frecuencia en el almacenamiento de datos–. La asignación de datos identificará información específica, conflictiva y duplicada para que se pueda desarrollar un conjunto de reglas a fin de llevar todos los datos a un esquema o formato coordinado.

Al crear la estructura de una base de datos nueva o alternativa, el diseñador comienza con un diagrama del flujo de los datos hacia y desde la base de datos. Diagramar los flujos de datos se llama modelado de datos. A partir de este diagrama de flujo, los ingenieros de software pueden definir los formatos y estructuras de los datos y funciones de la gestión de base de datos, a fin de dar un soporte eficiente al flujo de datos.

Un almacén de datos brinda una única instalación de almacenamiento integral para datos de muchas fuentes diferentes –tanto internas como externas–. Su objetivo principal es suministrar datos para business intelligence (BI), informes y analíticas. Los almacenes de datos modernos pueden almacenar y gestionar todo tipo de datos, estructurados y no estructurados, y suelen implementarse en la nube para tener mayor escalabilidad y facilidad de uso.

Un lago de datos es un vasto conjunto de datos almacenados en su formato bruto o natural. Los lagos de datos se usan habitualmente para almacenar Big Data, incluyendo datos estructurados, no estructurados y semiestructurados. 

Big Data es un término que describe conjuntos de datos extremadamente grandes de datos estructurados, no estructurados y semiestructurados. Big Data se caracteriza a menudo por las cinco "V": el gran volumen de datos recopilados, la variedad de tipos de datos, la velocidad a la que se generan los datos, su veracidad y valor. Con sistemas y analíticas para gestión de Big Data, las empresas pueden realizar minería de Big Data para obtener información estratégica profunda que guíe la toma de decisiones y las acciones.

A diferencia de Big Data, que es enormemente voluminoso y complejo, los datos pequeños son fáciles de entender para los humanos. Los data sets pequeños pueden incluir cualquier cosa, desde encuestas de marketing hasta hojas de cálculo cotidianas, e incluso pueden ser tan "pequeños" como una sola publicación o correo electrónico en las redes sociales. Cada vez más, las empresas utilizan datos pequeños, además de Big Data, para entrenar sus algoritmos de IA y machine learning, para obtener información estratégica aun más profunda. 

Thick data se refiere a datos cualitativos que proporcionan información sobre la vida emocional diaria de los consumidores. Incluye observaciones, sentimientos y reacciones, cosas que suelen ser difíciles de cuantificar. Cuando se combina con Big Data, aparece una imagen muy completa de las preferencias y requisitos de un consumidor.

La integración de datos es la práctica de ingerir, transformar, combinar y brindar datos, donde y cuando se necesiten. Esta integración se lleva a cabo en la empresa y más allá –tanto entre socios como con fuentes de datos y casos de uso de terceros– para cumplir con los requisitos de todas las aplicaciones y procesos del negocio. Las técnicas incluyen, entre otros, movimiento en masa/por lotes, extracción, transformación, carga (ETL), captura de cambios, réplica, virtualización, organización e integración de datos.

La virtualización de datos brinda a las empresas una visión unificada de todos los datos empresariales –en sistemas y formatos dispares– en una capa de datos virtual. En lugar de duplicar los datos, la virtualización los deja en sus sistemas fuente y simplemente expone una representación virtual en tiempo real de ellos frente a usuarios y aplicaciones. La virtualización de datos es un enfoque moderno de integración de datos que permite a los usuarios descubrir y manipular datos independientemente de su ubicación física, formato o protocolo.

Un tejido de datos es una combinación personalizada de arquitectura y tecnología. Usa integración y organización de datos dinámicas para conectar diferentes ubicaciones, fuentes y tipos de datos. Con las estructuras y flujos adecuados definidos dentro de la plataforma de tejido de datos, las empresas pueden acceder a los datos y compartirlos rápido sin importar dónde se encuentren o cómo se generaron.

La malla de datos es un enfoque de la gestión de datos que utiliza un marco arquitectónico distribuido. En otras palabras: extiende la propiedad y la responsabilidad de data sets específicos en toda la empresa, a aquellos usuarios que tienen la experiencia de especialista para comprender qué significan esos datos y cómo hacer el mejor uso de ellos. 

Un pipeline de datos describe un conjunto de procesos automatizados y repetibles para encontrar, depurar, transformar y analizar cualquier tipo de datos en su origen. Debido a que los datos se analizan cerca de donde se generan, los usuarios de negocio pueden analizar y compartir rápido la información que necesitan, con menos costo para la organización. Los pipelines de datos también pueden mejorarse con tecnologías como machine learning para hacerlos más rápidos y efectivos.

"Silo de datos" es un término de argot para una situación en la que departamentos individuales o áreas funcionales dentro de una empresa no comparten datos ni información con otros departamentos. Este aislamiento impide las iniciativas coordinadas en pos de los objetivos de la empresa, y da como resultado un rendimiento deficiente (y un servicio al cliente deficiente), altos costos y una incapacidad general para responder a las demandas y cambios del mercado. Los datos duplicados y redundantes son difíciles de conciliar, lo cual impide cualquier intento de coordinar actividades y gestionar eficazmente el negocio.

La manipulación de datos es el proceso de tomar datos sin procesar y transformarlos en un formato que sea compatible con las bases de datos y aplicaciones establecidas. El proceso puede incluir estructurar, depurar, enriquecer y validar los datos según sea necesario para que los datos brutos sean útiles.

La seguridad de los datos es el acto de hacer que los datos sean seguros –que estén protegidos contra el acceso o la exposición no autorizados, los desastres o las fallas del sistema y, al mismo tiempo, fácilmente accesibles para los usuarios y aplicaciones legítimos–. Los métodos y herramientas incluyen cifrado de datos, gestión de claves, prácticas de redundancia y de copia de seguridad, y controles de acceso. La seguridad de los datos es un requisito para que organizaciones de todos los tamaños y tipos protejan los datos de clientes y organizaciones contra la amenaza cada vez mayor de violaciones de datos y riesgos de privacidad. La redundancia y las copias de seguridad son importantes para la continuidad del negocio y la recuperación ante desastres.

La privacidad de datos hace referencia a las políticas y prácticas para manejar los datos de manera que estén protegidos del acceso o la divulgación no autorizados. Las políticas y prácticas de privacidad de datos cubren cómo se recopila y almacena la información según la estrategia de datos de la organización, cómo se puede compartir o no con terceros y cómo cumplir con las restricciones regulatorias. La privacidad de datos es un imperativo de negocio que satisface las expectativas del cliente al tiempo que protege la integridad y seguridad de la información almacenada.

"Calidad de datos" es un término nebuloso que describe la idoneidad y fiabilidad de los datos. Que los datos sean de buena calidad simplemente significa que son precisos (verdaderamente representativos de lo que describen), confiables (consistentes, auditables, protegidos y adecuadamente gestionados) y completos en la medida necesaria para usuarios y aplicaciones. La calidad de los datos solo puede garantizarse mediante una estrategia de datos debidamente elaborada y ejecutada que se lleve a cabo con herramientas y sistemas con solidez en la industria, junto con políticas y procedimientos de gestión de datos escrupulosamente aplicados.

La validación de datos es el proceso de determinar su calidad, precisión y validez antes de importarlos o usarlos. La validación puede consistir en una serie de actividades y procesos para autenticar los datos y, en general, "depurar" elementos de datos, incluyendo eliminar duplicados, corregir errores obvios o elementos que faltan, y quizás cambiar el formato (depuración de datos). La validación de datos garantiza que la información que se necesita para tomar decisiones importantes sea precisa y confiable.

La depuración de datos es el proceso de eliminar o corregir errores de un conjunto de datos, tabla o base de datos. Estos errores pueden incluir información errónea, imprecisa, irrelevante o incompleta. Este proceso, también llamado "depuración de datos", encuentra datos duplicados y otras inconsistencias, como errores tipográficos y conjuntos numéricos que no suman. La depuración de datos puede eliminar información incorrecta o corregir errores obvios, como campos vacíos o códigos faltantes.

La integridad de los datos se refiere a la veracidad de los datos a largo plazo. Una vez que los datos se ingresan o importan, manipulan, validan, depuran y almacenan, su integridad es la declaración de que su calidad se mantiene, y los usuarios pueden estar seguros de que los datos que ingresaron no han cambiado ni cambiarán. Los datos que se recuperan son los mismos que se almacenaron originalmente. A veces usada como sinónimo de calidad de datos, la integridad de los datos se centra más en la confiabilidad.

El control de datos es un conjunto de políticas y prácticas para garantizar una gestión de datos adecuada en toda la organización. Establece la infraestructura de TI y nombra a las personas (o cargos) que tienen la autoridad y responsabilidad de manejar y salvaguardar tipos de datos específicos. Un control eficaz de los datos garantiza que los datos estén disponibles, sean confiables, seguros y cumplan con las normativas –y que no se usen indebidamente–.

La administración de datos es la implementación de políticas y procedimientos de control de datos para establecer la precisión, confiabilidad, integridad y seguridad de los datos. Las personas asignadas con responsabilidades de administración de datos gestionan y supervisan los procedimientos y herramientas usados para gestionar, almacenar y proteger los datos.

La arquitectura de datos es el diseño general de estructura, políticas y reglas que definen los datos de una organización y cómo se usarán y gestionarán. La arquitectura de datos incluye los detalles de cómo se implementa la estrategia de datos para dar soporte a las necesidades y objetivos del negocio, y sirve como base para el desarrollo de bases de datos, procedimientos, protecciones, seguridad y control de datos.

La gestión de datos maestros (MDM) es la práctica de crear una única fuente de referencia "maestra" para todos los datos de negocio importantes. Incluye políticas y procedimientos para definir, gestionar y controlar (o gobernar) la gestión de datos maestros. La gestión centralizada de datos maestros elimina los conflictos y la confusión que surgen de bases de datos dispersas que tienen información duplicada y datos descoordinados que pueden estar desactualizados, dañados o desfasados –actualizados en un lugar pero no en otro–. Tener una sola versión que sirva a toda la empresa significa que todas las partes de la organización están trabajando con idénticas definiciones, estándares y suposiciones.

El término analíticas refiere al análisis sistemático de los datos. Las aplicaciones y los kits de herramientas analíticos contienen algoritmos matemáticos y motores computacionales que pueden manipular grandes conjuntos de datos para descubrir patrones, tendencias y relaciones, así como otros recursos de inteligencia que permiten a los usuarios hacer preguntas y obtener información estratégica útil sobre sus negocios, operaciones y mercados. Muchos kits de herramientas analíticas modernos están diseñados para ser usados por personal de negocios no técnico, lo cual les permite realizar dicho análisis con mínima asistencia de científicos de datos o especialistas en TI.

Las analíticas aumentadas son analíticas que han sido "aumentadas" con tecnologías de inteligencia artificial, como machine learning y procesamiento de lenguaje natural (NLP). Las analíticas aumentadas no solo pueden ayudar a los usuarios a descubrir información estratégica más profunda, más rápido –sino que pueden automatizar muchos pasos complicados en el proceso y permitir incluso a los usuarios no técnicos consultar datos de una manera natural y conversacional–.

La minería de datos es el acto de extraer información útil de grandes conjuntos de datos. La minería de datos suele ser hecha por usuarios de negocio que emplean herramientas analíticas para descubrir patrones, tendencias, anomalías, relaciones, dependencias, y otra inteligencia útil. La minería de datos tiene una amplia gama de aplicaciones, desde detectar fraudes y problemas de ciberseguridad hasta mejorar las proyecciones y encontrar oportunidades de mejora en el rendimiento.

La creación de perfiles de datos es la práctica de recopilar estadísticas y rasgos sobre un conjunto de datos, tales como su precisión, integridad y validez. La creación de perfiles de datos es una de las técnicas usadas en los esfuerzos de validación y depuración de datos, ya que puede ayudar a detectar problemas de calidad de datos como redundancias, valores faltantes e inconsistencias.

placeholder

¿Qué es la gestión de datos?

Conozca cómo su organización puede transformar sus datos en un activo valioso.

SAP Insights Newsletter

placeholder
Suscríbase hoy

Obtenga información estratégica clave suscribiéndose a nuestro newsletter.

Lectura adicional

Volver al inicio