flex-height
text-black

Sala de servidores

Glosario de gestión de datos

Explore una variedad de términos y definiciones relacionados con los datos en nuestro glosario de gestión de datos.

default

{}

default

{}

primary

default

{}

secondary

¿Qué es una base de datos?
Una base de datos es una instalación para organizar, almacenar, gestionar, salvaguardar y controlar el acceso a los datos. Las bases de datos están diseñadas de acuerdo con una serie de esquemas diferentes (esquema), muchos de los cuales adhieren al modelo relacional para facilitar el acceso de los programas y las consultas sobre datos. Los tipos comunes de bases de datos incluyen sistemas de gestión de bases de datos relacionales (RDBMS), bases de datos in-memory, bases de datos orientadas a objetos (OODBMS), bases de datos NoSQL y bases de datos NewSQL –cada cual con sus propias ventajas–.
¿Qué es la gestión de datos?
La gestión de datos se refiere a todas las funciones necesarias para recopilar, controlar, proteger, manejar y entregar datos. Los sistemas de gestión de datos incluyen bases de datos, almacenes de datos y centros de datos; herramientas para la recopilación, el almacenamiento y la recuperación de datos; y servicios públicos para ayudar con la validación, la calidad, y la integración con aplicaciones y herramientas analíticas. Las empresas necesitan una estrategia de datos para establecer la responsabilidad sobre los datos que se originan o que son propios de determinadas áreas de responsabilidad.
¿Qué es la gestión de bases de datos?
La gestión de bases de datos hace referencia a los procesos y procedimientos necesarios para almacenar, manejar, manipular y proteger los datos. En muchas organizaciones, la responsabilidad de establecer y supervisar dichos procedimientos es la función principal de un administrador de base de datos (DBA) o un cargo similar. La mayoría de las organizaciones confían en un sistema de gestión de bases de datos comercial (DBMS) como herramienta principal para gestionar su base de datos.
¿Qué es un sistema de gestión de base de datos (DBMS)?
Un sistema de gestión de bases de datos (DBMS) es el kit de herramientas de software que brinda una estructura de almacenamiento y una instalación para la gestión de bases de datos. El DBMS puede ser parte integral de un sistema de planificación de recursos empresariales (ERP) bajo licencia, de una compra independiente requerida, de una parte del software del sistema (sistema operativo), o ser un producto de software con licencia por separado. Independientemente de la fuente, es esencial que las aplicaciones se creen en torno al DBMS y/o se integren completamente con este, ya que son mutuamente dependientes para la funcionalidad efectiva tanto de las aplicaciones como del DBMS. El DBMS es esencialmente un kit de herramientas para la gestión de bases de datos.
¿Qué es una base de datos SQL?
Una base de datos SQL es una base de datos relacional que almacena datos en tablas y filas. Los elementos de datos (filas) se vinculan según los elementos de datos comunes para permitir la eficiencia, evitar la redundancia y propiciar una recuperación fácil y flexible. El nombre SQL deriva de Structured Query Language, el kit de herramientas y protocolo de consultas en lenguaje natural que los usuarios pueden aprender y aplicar a cualquier base de datos compatible para almacenamiento, manipulación y recuperación de datos.
¿Qué es una base de datos NoSQL?
Se han desarrollado bases de datos NoSQL para manejar datos no estructurados a los cuales el SQL no puede dar soporte debido a la falta de estructura. El NoSQL usa técnicas creativas para superar esta limitación, tales como esquemas dinámicos y distintas técnicas de preprocesamiento. Los tipos más comunes de bases de datos para datos no estructurados son los de clave-valor, documentos, columnas y gráficos, y suelen incluir video, gráficos, texto libre, y registros de sensores sin procesar.
¿Qué es un sistema de gestión de bases de datos relacionales (RDBMS)?
Un sistema de gestión de bases de datos relacionales es un sistema de gestión de bases de datos (DBMS) que se basa en el modelo de datos relacionales. El contenido del RDBMS se almacena en tablas, formadas por filas y columnas, y cada tabla representa un objeto específico o entidad de la base de datos que puede relacionarse con otro. Un RDBMS normalmente contiene múltiples tablas e incluye funciones adicionales que mantienen la precisión, consistencia, integridad y seguridad de los datos, así como una interfaz SQL para acceder a los datos relacionados entre sí mediante consultas complejas.
¿Qué es un CDBMS?
CDBMS es un término acuñado por Gartner que describe principalmente un modelo de implementación en la nube para el RDBMS antes mencionado.
¿Qué son los datos estructurados?
Los datos estructurados tienen formato de filas y columnas y se asignan a campos predefinidos. Normalmente se almacenan en hojas de cálculo de Excel o bases de datos relacionales, y los ejemplos incluyen transacciones financieras, información demográfica y registros de máquinas. Hasta hace poco, los datos estructurados eran el único tipo de datos utilizables para negocios.
¿Qué son los datos no estructurados?
Los datos no estructurados no están organizados en filas y columnas, lo cual dificulta su almacenamiento, análisis y búsqueda. Los ejemplos incluyen datos crudos de internet de las cosas (IoT), archivos de video y audio, comentarios en redes sociales y transcripciones de centros de llamadas. Los datos no estructurados normalmente se almacenan en lagos de datos, bases de datos NoSQL o almacenes de datos modernos.
¿Qué son los datos semiestructurados?
Los datos semiestructurados poseen algunas propiedades organizativas, tales como etiquetas semánticas o metadatos, pero no se ajustan a las filas y columnas de una hoja de cálculo o base de datos relacional. Un buen ejemplo de datos semiestructurados es el correo electrónico, que incluye algunos datos estructurados, como las direcciones del emisor y el destinatario, pero también datos no estructurados, como el mensaje en sí.
¿Qué es el mapeo de datos?
El mapeo de datos es el proceso de hacer coincidir los campos entre diferentes estructuras de datos o bases de datos. Este es un paso necesario para combinar bases de datos, migrar datos de un sistema o base a otro, o usar diferentes fuentes de datos dentro de una sola aplicación o herramienta analítica –como ocurre con frecuencia en el almacenamiento de datos–. El mapeo de datos identifica información específica, conflictiva y duplicada para que se pueda desarrollar un conjunto de reglas a fin de llevar todos los datos a un esquema o formato coordinado.
¿Qué es el modelado de datos?
Al crear la estructura de una base de datos nueva o alternativa, el diseñador comienza con un diagrama del flujo de datos hacia y desde la base de datos. Diagramar los flujos de datos se denomina modelado de datos. A partir de dicho diagrama de flujo, los ingenieros de software pueden definir los formatos y las estructuras de datos y funciones de la gestión de base de datos, a fin de dar un soporte eficiente al flujo de datos.
¿Qué es el almacenamiento de datos?
Un almacén de datos brinda una única instalación de almacenamiento integral para datos de muchas fuentes diferentes –tanto internas como externas–. Su objetivo principal es suministrar datos para business intelligence (BI), informes y analíticas. Los almacenes de datos modernos pueden almacenar y gestionar todo tipo de datos, estructurados y no estructurados, y suelen implementarse en la nube para tener mayor escalabilidad y facilidad de uso.
¿Qué es un data lake?
Un data lake es un vasto conjunto de datos almacenados en su formato bruto o natural. Los data lakes se usan habitualmente para almacenar Big Data, lo cual incluye datos estructurados, no estructurados y semiestructurados.
¿Qué es Big Data?
Big Data es un término que describe conjuntos de datos extremadamente grandes de datos estructurados, no estructurados y semiestructurados. Big Data suele caracterizarse por las cinco "V": el gran volumen de datos recopilados, la variedad de tipos de datos, la velocidad a la que se generan los datos, su veracidad y su valor. Con sistemas y analíticas para gestión de Big Data, las empresas pueden realizar minería de Big Data para obtener información estratégica profunda que guíe la toma de decisiones y las acciones.
¿Qué son los datos pequeños?
A diferencia de Big Data, que es sumamente voluminoso y complejo, los datos pequeños son fáciles de entender para los humanos. Los data sets pequeños pueden incluir cualquier cosa, desde encuestas de marketing hasta hojas de cálculo cotidianas —e incluso pueden ser tan "pequeños" como una sola publicación o correo electrónico en las redes sociales—. Cada vez más, las empresas utilizan datos pequeños, además de Big Data, para entrenar sus algoritmos de IA y machine learning, para obtener información estratégica aun más profunda.
¿Qué es el thick data?
Thick data se refiere a datos cualitativos que proporcionan información sobre la vida emocional cotidiana de los consumidores. Incluye observaciones, sentimientos y reacciones —cosas que suelen ser difíciles de cuantificar—. Cuando se combina con Big Data, aparece una imagen muy completa de las preferencias y los requisitos de un consumidor.
¿Qué es la integración de datos?
La integración de datos es la práctica de ingerir, transformar, combinar y brindar datos, donde y cuando se necesiten. Esta integración se lleva a cabo en la empresa y más allá —tanto entre socios como con fuentes de datos y casos de uso de terceros— para cubrir los requisitos de todas las aplicaciones y los procesos de negocio. Las técnicas aplicadas a los datos incluyen, por ejemplo, movimiento en masa/por lotes, extracción, transformación y carga (ETL), captura de cambios, réplica, virtualización, integración de datos de streaming, orquestación y más.
¿Qué es la virtualización de datos?
La virtualización de datos brinda a las empresas una visión unificada de todos los datos empresariales —abarcando sistemas y formatos dispares— en una capa de datos virtual. En lugar de duplicar los datos, la virtualización los deja en sus sistemas fuente y simplemente expone una representación virtual en tiempo real de los mismos para usuarios y aplicaciones. La virtualización de datos es un enfoque moderno de integración de datos que permite a los usuarios descubrir y manipular datos independientemente de su ubicación física, formato o protocolo.
¿Qué es el data fabric?
Un data fabric es una combinación personalizada de arquitectura y tecnología. Usa integración y orquestación de datos dinámicas para conectar diferentes ubicaciones, fuentes y tipos de datos. Con las estructuras y los flujos adecuados definidos dentro de la plataforma de data fabric, las empresas pueden acceder a los datos y compartirlos rápidamente sin importar dónde se encuentren o cómo se generaron.
¿Qué es el data mesh?
El data mesh es un enfoque de la gestión de datos que utiliza un marco arquitectónico distribuido. En otras palabras: extiende en todo el negocio la propiedad y responsabilidad sobre data sets específicos hasta aquellos usuarios que tienen expertise de especialista para comprender qué significan esos datos y cómo hacer el mejor uso de los mismos.
¿Qué es el pipeline de datos?
Un pipeline de datos describe un conjunto de procesos automatizados y repetibles para encontrar, depurar, transformar y analizar cualquier tipo de datos en su origen. Debido a que los datos se analizan cerca de donde se generan, los usuarios de negocio pueden analizar y compartir rápidamente la información que necesitan, con menos costo para la organización. Los pipelines de datos también pueden mejorarse con tecnologías como machine learning para hacerlos más rápidos y efectivos.
¿Qué son los silos de datos?
"Silo de datos" es un término de argot para una situación en la que departamentos individuales o áreas funcionales dentro de una empresa no comparten datos ni información con otros departamentos. Este aislamiento impide las iniciativas coordinadas en pos de los objetivos de la empresa, y da como resultado un rendimiento deficiente (y un servicio al cliente deficiente), altos costos y una incapacidad general para responder a las demandas y los cambios del mercado. Los datos duplicados y redundantes son difíciles de conciliar, lo cual impide cualquier intento de coordinar actividades y gestionar eficazmente el negocio.
¿Qué es la manipulación de datos?
La manipulación de datos es el proceso de tomar datos sin procesar y transformarlos en un formato que sea compatible con las bases de datos y las aplicaciones establecidas. El proceso puede incluir estructurar, depurar, enriquecer y validar los datos según sea necesario para que los datos brutos sean útiles.
¿Qué es la seguridad de datos?
La seguridad de los datos es el acto de hacer que los datos sean seguros —que estén protegidos contra el acceso o la exposición no autorizados, los desastres o las fallas del sistema y, al mismo tiempo, sean fácilmente accesibles para los usuarios legítimos y las aplicaciones—. Los métodos y las herramientas incluyen cifrado de datos, gestión de claves, prácticas de redundancia y de copia de seguridad, y controles de acceso. La seguridad de los datos es un requisito para que organizaciones de todos los tamaños y tipos protejan los datos de clientes y organizaciones contra la amenaza cada vez mayor de violaciones de datos y riesgos a la privacidad. La redundancia y las copias de seguridad son importantes para la continuidad del negocio y la recuperación ante desastres.
¿Qué es la privacidad de datos?
La privacidad de datos hace referencia a las políticas y prácticas para manejar los datos de manera que estén protegidos del acceso o la divulgación no autorizados. Las políticas y prácticas de privacidad de datos cubren la manera en que se recopila y almacena la información según la estrategia de datos de la organización, al forma en que se puede compartir o no con terceros y el modo de cumplir con las restricciones regulatorias. La privacidad de datos es un imperativo de negocio que satisface las expectativas del cliente a la vez que protege la integridad y la seguridad de la información almacenada.
¿Qué es la calidad de los datos?
"Calidad de datos" es un término ambiguo que describe la idoneidad y fiabilidad de los datos. Que los datos sean de buena calidad simplemente significa que son precisos (verdaderamente representativos de lo que describen), confiables (consistentes, auditables, protegidos y adecuadamente gestionados) y completos en la medida necesaria para usuarios y aplicaciones. La calidad de los datos solo puede garantizarse mediante una estrategia de datos debidamente elaborada y ejecutada que se lleve a cabo con herramientas y sistemas robustos en la industria, junto con políticas y procedimientos de gestión de datos escrupulosamente aplicados.
¿Qué es la validación de datos?
La validación de datos es el proceso de determinar la calidad, precisión y validez de los datos antes de importarlos o usarlos. La validación puede consistir en una serie de actividades y procesos para autenticar los datos y, en general, "depurar" elementos de datos, lo cual incluye eliminar duplicados, corregir errores obvios o elementos que faltan, y quizás cambiar el formato (depuración de datos). La validación de datos garantiza que la información que se necesita para tomar decisiones importantes sea precisa y confiable.
¿Qué es la depuración de datos?
La depuración de datos es el proceso de eliminar o corregir errores de un conjunto de datos, una tabla o una base de datos. Estos errores pueden incluir información errónea, imprecisa, irrelevante o incompleta. Este proceso, también llamado "limpieza de datos", encuentra datos duplicados y otras inconsistencias, como errores tipográficos y conjuntos numéricos que no cuadran. La depuración de datos puede eliminar información incorrecta o corregir errores obvios, como campos vacíos o códigos faltantes.
¿Qué es la integridad de datos?
La integridad de los datos se refiere a la veracidad de los datos a largo plazo. Una vez que los datos se ingresan o importan, manipulan, validan, depuran y almacenan, su integridad constituye la declaración de que su calidad se mantiene, y los usuarios pueden estar seguros de que los datos que ingresaron no han cambiado ni cambiarán. Los datos que se recuperan son los mismos que se almacenaron originalmente. A veces usada como sinónimo de calidad de datos, la integridad de los datos se centra más en la confiabilidad.
¿Qué es la gobernanza de datos?
La gobernanza de datos es un conjunto de políticas y prácticas para garantizar una gestión de datos adecuada en toda la organización. Establece la infraestructura de TI y nombra a las personas (o cargos) que tienen la autoridad y responsabilidad de manejar y salvaguardar tipos de datos específicos. Un control eficaz de los datos garantiza que los datos estén disponibles, sean confiables, seguros y cumplan con las normativas —y que no se usen indebidamente—.
¿Qué es la administración de datos?
La administración de datos es la implementación de políticas y procedimientos de control de datos para establecer la precisión, confiabilidad, integridad y seguridad de los datos. Las personas asignadas con responsabilidades de administración de datos gestionan y supervisan los procedimientos y las herramientas usadas para gestionar, almacenar y proteger los datos.
¿Qué es la arquitectura de datos?
La arquitectura de datos es el diseño general de estructura, políticas y reglas que definen los datos de una organización y cómo se usarán y gestionarán. La arquitectura de datos incluye los detalles de cómo se implementa la estrategia de datos para dar soporte a las necesidades y los objetivos de negocio —y sirve como base para el desarrollo de bases de datos, procedimientos, protecciones, seguridad y control de datos—.
¿Qué es la gestión de datos maestros?
La gestión de datos maestros (MDM) es la práctica de crear una única fuente de referencia "maestra" para todos los datos de negocio importantes. Incluye políticas y procedimientos para definir, gestionar y controlar (o gobernar) la gestión de datos maestros. La gestión centralizada de datos maestros elimina los conflictos y la confusión que surgen de bases de datos dispersas que tienen información duplicada y datos descoordinados que pueden estar desactualizados, dañados o desfasados —actualizados en un lugar pero no en otro—. Tener una sola versión que sirva a toda la empresa significa que todas las partes de la organización están trabajando con idénticas definiciones, estándares y suposiciones.
¿Qué son las analíticas?
El término analíticas refiere al análisis sistemático de los datos. Las aplicaciones y los kits de herramientas analíticos contienen algoritmos matemáticos y motores computacionales que pueden manipular grandes data sets para descubrir patrones, tendencias y relaciones, así como otros recursos de inteligencia que permiten a los usuarios hacer preguntas y obtener información estratégica útil sobre sus negocios, operaciones y mercados. Muchos kits de herramientas analíticas modernos están diseñados para ser usados por personal de negocios no técnico, lo cual les permite realizar dicho análisis con mínima asistencia de científicos de datos o especialistas en TI.
¿Qué son las analíticas aumentadas?
Las analíticas aumentadas son analíticas que han sido "aumentadas" con tecnologías de inteligencia artificial, como machine learning y procesamiento de lenguaje natural (NLP). Las analíticas aumentadas no solo pueden ayudar a los usuarios a descubrir información estratégica más profunda, más rápido —sino que pueden automatizar muchos pasos complicados en el proceso y permitir incluso a los usuarios no técnicos consultar datos de una manera natural y conversacional—.
¿Qué es la minería de datos?
La minería de datos es el acto de extraer información útil de grandes data sets. La minería de datos suele llevarse a cabo por usuarios de negocio que emplean herramientas analíticas para descubrir patrones, tendencias, anomalías, relaciones, dependencias, y demás inteligencia útil. La minería de datos tiene una amplia gama de aplicaciones, desde detectar fraudes y problemas de ciberseguridad hasta mejorar las proyecciones y encontrar oportunidades de mejora en el rendimiento.
¿Qué es la creación de perfiles de datos?
La creación de perfiles de datos es la práctica de recopilar estadísticas y rasgos sobre un data set, tales como su precisión, integridad y validez. La creación de perfiles de datos es una de las técnicas usadas como parte de las iniciativas de validación y depuración de datos, ya que puede ayudar a detectar problemas de calidad de datos como redundancias, valores faltantes e inconsistencias.
Logo de SAP

Producto de SAP

¿Qué es la gestión de datos?

Conozca cómo su organización puede transformar sus datos en un activo valioso.

Conozca más