Ir para o conteúdo
Data warehouse

Glossário de gerenciamento de dados

Explore uma variedade de termos e definições relacionados a dados em nosso glossário de gerenciamento de dados.

Um banco de dados é um recurso para organizar, armazenar, gerenciar, salvaguardar e controlar o acesso aos dados. Bancos de dados são projetados de acordo com diversos esquemas, muitos dos quais aderem ao modelo relacional para facilitar o acesso por programas e consultas de dados. Tipos comuns de bancos de dados incluem RDBMS (Sistemas de Gerenciamento de Banco de Dados Relacional), bancos de dados in-memory, OODBMS (Sistemas de Bancos de Dados Baseados em Objetos), bancos de dados NoSQL e bancos de dados NewSQL – cada um com as próprias vantagens.

O gerenciamento de dados diz respeito às funções necessárias para coletar, controlar, proteger, manipular e fornecer dados. Os sistemas de gerenciamento de dados incluem bancos de dados, data warehouses e data marts, ferramentas para coleta, armazenamento e recuperação de dados e utilitários para auxiliar na validação, qualidade e integração com aplicativos e ferramentas de análise. As empresas precisam de uma estratégia de dados para estabelecer responsabilidade pelos dados provenientes ou endêmicos de áreas específicas de responsabilidade.

Gerenciamento de banco de dados refere-se aos processos e procedimentos necessários para armazenar, processar, manipular e salvaguardar os dados. Em muitas organizações, a responsabilidade por estabelecer e supervisionar esses procedimentos é a principal incumbência do DBA (administrador de banco de dados) ou posição semelhante. A maioria das organizações conta com um DBMS (sistema de gerenciamento de banco de dados) comercial como a principal ferramenta para gerenciar o banco de dados. 

Um DBMS (Sistema de Gestão de Banco de Dados) é o kit de ferramentas de software que fornece uma estrutura de armazenamento e um recurso de administração de dados para gerenciamento de banco de dados. O DBMS pode ser parte integrante de um sistema ERP (Planejamento de Recursos Empresariais) licenciado, uma compra separada necessária, uma parte do software do sistema (sistema operacional) ou um produto de software licenciado separadamente. Independentemente da origem, é essencial que os aplicativos sejam desenvolvidos e/ou completamente integrados ao DBMS, pois são mutuamente dependentes para a funcionalidade efetiva de ambos os aplicativos e do DBMS. O DBMS é, em essência, um kit de ferramentas para gerenciamento de banco de dados.

Um banco de dados SQL é um banco de dados relacional que armazena dados em tabelas e linhas. Itens de dados (linhas) são vinculados com base em itens de dados comuns para permitir eficiência, evitar redundância e facilitar a recuperação de forma flexível. O nome SQL vem de Structured Query Language (Linguagem de Consulta Estruturada), o kit de ferramentas e protocolo de consulta de linguagem natural que os usuários podem aprender e aplicar a bancos de dados compatíveis para armazenamento, manipulação e recuperação de dados.

Bancos de dados NoSQL foram desenvolvidos para processar dados não estruturados que o SQL não é capaz de suportar por falta de estrutura. NoSQL usa técnicas criativas para superar essa limitação, incluindo esquemas dinâmicos e várias técnicas de pré-processamento. Os tipos mais comuns de bancos de dados para dados não estruturados são bancos de dados de valores-chave, documentos, colunas e gráficos e geralmente incluem itens como vídeo, gráficos, texto livre e saída bruta de sensor.

Um sistema de gerenciamento de banco de dados relacional é um DBMS (sistema de gerenciamento de banco de dados) baseado no modelo de dados relacional. Os conteúdos do RDBMS são armazenados em tabelas compostas por linhas e colunas, sendo que cada tabela representa um objeto específico, ou entidade, no banco de dados que pode ser relacionado a outro objeto.  Normalmente, o RDBMS contém várias tabelas e inclui funções adicionais que mantêm a precisão, consistência, integridade e segurança dos dados, bem como uma interface SQL para acessar os dados inter-relacionados por meio de consultas complexas.

CDBMS é um termo cunhado pelo Gartner que descreve principalmente um modelo de implementação em nuvem para RDBMS (explicado acima).

Dados estruturados são formatados ordenadamente em linhas e colunas e mapeados para campos predefinidos. Armazenados geralmente em planilhas do Excel ou bancos de dados relacionais, os exemplos incluem transações financeiras, informações demográficas e logs de máquina. Até recentemente, dados estruturados eram o único tipo de dados usados pelas empresas.

Dados não estruturados não são organizados em linhas e colunas, que dificulta o armazenamento, a análise e a pesquisa. Exemplos incluem dados brutos de IoT (Internet das Coisas), arquivos de vídeo e áudio, comentários de mídia social e transcrições de call center. Dados não estruturados geralmente são armazenados em data lakes, bancos de dados NoSQL ou data warehouses modernos.

Dados semiestruturados apresentam algumas propriedades organizacionais, como tags semânticas ou metadados, mas não são compatíveis com linhas e colunas de uma planilha ou banco de dados relacional. Um bom exemplo de dados semiestruturados é o e-mail – que inclui alguns dados estruturados, como endereços do remetente e destinatário, mas também dados não estruturados, como a própria mensagem.

Mapeamento de dados é o processo de combinar campos entre diferentes estruturas de dados ou bancos de dados. Esta é uma etapa necessária se os bancos de dados forem combinados, se os dados forem migrados de um sistema ou banco de dados para outro, ou se diferentes fontes de dados forem usadas em um único aplicativo ou ferramenta analítica – como acontece frequentemente em data warehousing. O mapeamento de dados identificará informações únicas, conflitantes e duplicadas para que um conjunto de regras possa ser desenvolvido para unir todos os dados em um esquema ou formato coordenado.

Ao criar uma estrutura de banco de dados nova ou alternativa, o designer começa com um diagrama de como os dados fluirão para dentro e para fora do banco de dados. A diagramação de fluxos de dados é denominada modelagem de dados. Nesse diagrama de fluxo, os engenheiros de software podem definir características de formatos de dados, estruturas e funções de processamento de banco de dados para dar suporte eficiente aos requisitos de fluxo de dados.

Um data warehouse fornece uma instalação de armazenamento única e abrangente para dados de muitas fontes diferentes – tanto internas quanto externas. Seu principal objetivo é fornecer dados para BI (Business Intelligence), relatórios e funções analíticas. Data warehouses modernos podem armazenar e gerenciar todos os tipos de dados, estruturados e não estruturados, e geralmente são implantados na nuvem para maior escalabilidade e facilidade de uso.

Data lake é um imenso reservatório de dados armazenados em formato bruto ou natural. Os data lakes são usados normalmente para armazenar Big Data, com dados estruturados, não estruturados e semiestruturados. 

Big Data é o termo que descreve conjuntos extremamente grandes de dados estruturados, não estruturados e semiestruturados. Big Data é frequentemente caracterizado por cinco Vs: o volume completo de dados coletados, a variedade de tipos de dados, a velocidade em que os dados são gerados, a veracidade e o valor dos dados. Com sistemas e análises de gestão de Big Data, as empresas podem minerar Big Data para obter insights profundos que norteiam decisões e ações.

Ao contrário do Big Data, que é extremamente volumoso e complexo, o Small Data contém informações que as pessoas entendem facilmente – de pesquisas de marketing a planilhas do dia a dia – e, como o nome sugere, pode conter apenas um e-mail ou post nas mídias sociais. Cada vez mais, as empresas estão usando Small Data, além do Big Data, para treinar algoritmos de IA e Machine Learning, com o objetivo de obter insights ainda mais detalhados. 

Thick Data são informações qualitativas que fornecem insights sobre as opiniões cotidianas dos consumidores, incluindo observações, sentimentos e reações – aspectos normalmente difíceis de quantificar. Quando combinado com Big Data, gera uma imagem muito abrangente sobre as preferências e as exigências dos consumidores.

Integração de dados é a prática de ingerir, transformar, combinar e provisionar dados, onde e quando necessário. Essa integração ocorre na empresa e além – entre parceiros, fontes de dados de terceiros e casos de uso – para atender aos requisitos de consumo de dados de todos os aplicativos e processos de negócios. As técnicas incluem movimentação de dados em massa/lote, ETL (Extração, Transformação, Carregamento), captura de dados de alteração, replicação de dados, virtualização de dados, integração de dados de streaming, orquestração de dados e muito mais.

A virtualização de dados fornece às empresas uma visão unificada de todos os dados corporativos – em diferentes sistemas e formatos – em uma camada de dados virtual. Em vez de duplicar dados, a virtualização de dados deixa os dados nos sistemas de origem e simplesmente expõe uma representação virtual deles para usuários e aplicativos em tempo real. Virtualização de dados é uma abordagem moderna para integração de dados que permite que os usuários descubram e manipulem dados, independentemente de sua localização física, formato ou protocolo.

Uma infraestrutura de dados é uma combinação personalizada de arquitetura e tecnologia. Ela usa integração e orquestração de dados dinâmicos para conectar diferentes locais, fontes e tipos de dados. Com estruturas e fluxos corretos, conforme definidos na plataforma da infraestrutura de dados, as empresas podem acessar e compartilhar rapidamente os dados, independentemente de onde estejam ou de como tenham sido gerados.

A malha de dados é uma abordagem de gerenciamento de dados que usa um framework de arquitetura distribuída. Ou seja, ela distribui a propriedade e a responsabilidade por conjuntos de dados específicos em toda a empresa aos usuários com a expertise certa para entender o que esses dados significam e como fazer o melhor uso deles. 

Um pipeline de dados descreve um conjunto de processos automatizados e repetíveis para localizar, limpar, transformar e analisar qualquer tipo de dados em sua origem. Como os dados são analisados perto de onde são gerados, os usuários de negócios podem analisar e compartilhar rapidamente as informações necessárias a um custo menor para a organização. Pipelines de dados também podem ser aprimorados por tecnologias como Machine Learning para torná-los mais rápidos e eficazes.

Silo de dados é uma gíria para uma situação em que departamentos individuais ou áreas funcionais dentro de uma empresa não compartilham dados nem informações com outros departamentos. Esse isolamento impede esforços coordenados em direção às metas da empresa e resulta em baixo desempenho (e fraco atendimento ao cliente), altos custos e incapacidade geral de responder às demandas e mudanças do mercado. Dados duplicados e redundantes são difíceis de reconciliar, impedindo ainda mais qualquer tentativa de coordenar atividades e gerenciar os negócios de forma eficaz.

Disputa de dados é o processo de pegar dados brutos e transformá-los em um formato compatível com bancos de dados e aplicativos estabelecidos. O processo pode incluir estruturação, limpeza, enriquecimento e validação de dados, conforme necessário, para tornar úteis os dados brutos.

Segurança de dados é o ato de tornar os dados seguros e protegidos – contra acesso ou exposição não autorizados, desastres ou falhas do sistema e, ao mesmo tempo, prontamente acessíveis a usuários e aplicativos legítimos. Métodos e ferramentas incluem criptografia de dados, gestão de chaves, práticas de redundância e backup e controles de acesso. Segurança de dados é um requisito para organizações de todos os portes e tipos para salvaguardar dados organizacionais e de clientes contra a ameaça cada vez maior de violações de dados e riscos à privacidade. Redundância e backups são importantes para a continuidade dos negócios e recuperação de desastres.

Privacidade de dados refere-se a políticas e práticas para lidar com os dados de maneira a protegê-los contra acesso ou divulgação não autorizados. Políticas e práticas de privacidade de dados abrangem a coleta e o armazenamento de informações de acordo com a estratégia de dados da organização, como eles podem ou não ser compartilhadas com terceiros, e como cumprir restrições legais. Privacidade dos dados é um imperativo de negócios que satisfaz as expectativas do cliente enquanto protege a integridade e a segurança das informações armazenadas.

Qualidade de dados é um termo nebuloso que descreve a adequação e confiabilidade dos dados. Dados bons e de qualidade significam simplesmente que eles são precisos (verdadeiros representantes do que descrevem), confiáveis (consistentes, auditáveis, gerenciados adequadamente e protegidos) e completos na medida em que usuários e aplicativos assim o exigem. A qualidade dos dados só pode ser garantida por uma estratégia de dados adequadamente concebida e executada, realizada com ferramentas e sistemas de força industrial, juntamente com políticas e procedimentos de gestão de dados seguidos escrupulosamente.

Validação de dados é o processo de determinar a qualidade, precisão e validade dos dados antes de importá-los ou usá-los. A validação pode consistir em uma série de atividades e processos para autenticar os dados e geralmente “limpar” itens de dados, incluindo remoção de duplicatas, correção de erros óbvios ou itens ausentes e possíveis alterações na formatação (limpeza de dados). A validação de dados garante que as informações necessárias para tomar decisões importantes sejam precisas e confiáveis.

Limpeza de dados é o processo de remover ou corrigir erros de um conjunto de dados, tabela ou banco de dados. Esses erros podem incluir informações corrompidas, imprecisas, irrelevantes ou incompletas. Esse processo, também denominado depuração de dados, encontra dados duplicados e outras inconsistências, como erros de digitação e conjuntos numéricos que não somam. A limpeza de dados pode remover informações incorretas ou corrigir erros óbvios, como campos vazios ou códigos ausentes.

Integridade de dados refere-se à veracidade dos dados a longo prazo. Depois que os dados são inseridos ou importados, processados, validados, limpos e armazenados, a integridade dos dados é uma declaração de que a qualidade dos dados é mantida e os usuários podem ter certeza de que os dados inseridos não foram e não serão alterados. Os dados recuperados são os mesmos que foram armazenados originalmente. Às vezes usado como sinônimo de qualidade de dados, integridade dos dados é mais sobre confiabilidade e dependência.

Governança de dados é um conjunto de políticas e práticas para garantir a gestão adequada dos dados em uma organização. Ela estabelece a infraestrutura de TI e nomeia os indivíduos (ou cargos) que têm autoridade e responsabilidade pelo processamento e proteção de tipos específicos de dados. A governança eficaz dos dados garante que eles estejam disponíveis, sejam confiáveis, seguros e em conformidade – e que não sejam mal utilizados.

Gerenciamento de dados é a implementação de políticas e procedimentos de governança de dados para estabelecer precisão, confiabilidade, integridade e segurança dos dados. Indivíduos designados com responsabilidades de gerenciamento de dados gerenciam e supervisionam procedimentos e ferramentas usados para manipular, armazenar e proteger dados.

Arquitetura de dados é o design geral de estrutura, políticas e regras que definem os dados de uma organização e como eles serão usados e gerenciados. A arquitetura de dados inclui detalhes de como a estratégia de dados é implementada em suporte às necessidades e metas de negócios – e serve de base para o desenvolvimento de bancos de dados, procedimentos, proteções, segurança e governança de dados.

MDM (Gerenciamento de Dados Mestres) é a prática de criar uma única fonte de referência “mestra” para todos os dados comerciais importantes. Inclui políticas e procedimentos para definir, gerenciar e controlar (ou governar) o processamento de dados mestre. O gerenciamento centralizado de dados mestres elimina conflitos e confusões decorrentes de bancos de dados dispersos com informações duplicadas e dados descoordenados que podem estar desatualizados, corrompidos ou deslocados no tempo – atualizados em um local, mas não em outro. Ter uma versão para atender a toda a empresa significa que todas as partes da organização estão trabalhando com as mesmas definições, padrões e suposições.

O termo funções analíticas refere-se à análise sistemática de dados. Aplicativos e kits de ferramentas de análise contêm algoritmos matemáticos e mecanismos computacionais que podem manipular grandes conjuntos de dados para revelar padrões, tendências, relações e outras informações que permitem aos usuários fazer perguntas e obter informações úteis sobre negócios, operações e mercados. Muitos kits de ferramentas de análise modernos são projetados para uso por pessoas não técnicas, permitindo que executem essas análises com o mínimo de assistência de cientistas de dados ou especialistas em TI.

Funções analíticas otimizadas são funções analíticas que foram ampliadas com tecnologia de Inteligência Artificial, incluindo Machine Learning e NLP (processamento de linguagem natural). Além de ajudar os usuários a desvendar insights mais profundos com maior rapidez, as funções analíticas otimizadas podem automatizar muitas etapas complicadas no processo e permitir que até usuários não técnicos consultem dados de maneira natural e conversacional.

Mineração de dados é o ato de extrair informações úteis de grandes conjuntos de dados. A mineração de dados geralmente é feita por usuários de negócios que empregam ferramentas de análise para descobrir padrões, tendências, anomalias, relações, dependências e outras informações úteis. A mineração de dados tem uma ampla gama de aplicações, desde a detecção de fraudes e preocupações de segurança cibernética até a melhoria de previsões e a descoberta de oportunidades de melhoria de desempenho.

Geração de perfis de dados é a prática de coletar estatísticas e características sobre um conjunto de dados, como precisão, integridade e validade. A geração de perfis de dados é uma das técnicas usadas nos esforços de validação e limpeza de dados, pois ajuda a detectar problemas de qualidade nos dados, como redundâncias, valores ausentes e inconsistências.

placeholder

O que é gerenciamento de dados?

Saiba como sua organização pode transformar seus dados em um ativo valioso.

Newsletter SAP Insights

placeholder
Assine ainda hoje

Receba insights importantes assinando nossa newsletter.

Leitura complementar

Voltar ao início