O que é modelagem de dados?

Modelagem de dados é o processo de diagramação do fluxo de dados.

Visão geral da modelagem de dados

Modelagem de dados é o processo de diagramação do fluxo de dados. Quando cria uma estrutura nova ou alternativa de banco de dados, o projetista começa com um diagrama de como os dados vão fluir para dentro e para fora do banco de dados. Este fluxograma é usado para definir as características dos formatos de dados, estruturas e funções de processamento de banco de dados para atender com eficiência os requisitos do fluxo de dados. Depois da criação e implementação do banco de dados, o modelo permanece ativo e se torna a documentação e a justificativa da existência do banco de dados e de como o fluxo de dados foi projetado.

 

O modelo de dados resultante desse processo constitui o arcabouço das relações entre os elementos do banco de dados e é um guia para a utilização dos dados. Os modelos de dados são um elemento fundamental do desenvolvimento de software e das funções analíticas. A modelagem é um método padronizado de definir e formatar o conteúdo do banco de dados de modo constante em todos os sistemas para permitir que aplicativos diferentes compartilhem os mesmos dados.

Por que a modelagem de dados é importante?

O modelo de dados abrangente e otimizado ajuda a criar um banco de dados lógico e simplificado que elimina redundâncias, reduz os requisitos de armazenamento e permite a recuperação eficiente. Ele também fornece a todos os sistemas uma "única fonte da verdade", essencial para a eficácia das operações e o compliance comprovado com as regras e os requisitos regulatórios. A modelagem de dados é uma etapa fundamental de duas funções vitais da empresa digital.

Projetos de desenvolvimento de software (novos ou personalizados) realizados por profissionais de TI

Antes de projetar e construir qualquer projeto de software, deve haver uma visão documentada de como será o produto final e de como se comportará. Uma grande parte dessa visão é o conjunto de regras de negócios que regem a funcionalidade desejada. A outra parte é a descrição dos dados – o fluxo de dados (ou modelo de dados) e o projeto do banco de dados que vai suportá-lo.

A modelagem de dados mantém o registro da visão e oferece um roadmap aos projetistas. Com o banco de dados e os fluxos de dados definidos e documentados, os sistemas desenvolvidos de acordo com essas especificações devem fornecer a funcionalidade esperada necessária para manter os dados precisos (supondo que os procedimentos sejam adequadamente seguidos).

Visualização e funções analíticas ou Business Intelligence: para os usuários, uma das principais ferramentas do processo decisório

 

Com o aumento do volume de dados e o número crescente de usuários, as organizações precisam transformar dados brutos em informações acionáveis para a tomada de decisões. Não surpreende que a demanda pela análise de dados tenha crescido radicalmente. A visualização dos dados os deixa ainda mais acessíveis aos usuários por apresentá-los graficamente.

 

Os modelos de dados atuais transformam dados brutos em informações úteis que podem formar visualizações dinâmicas. A modelagem prepara os dados para a análise: seleciona os dados, define as medidas e dimensões e aprimora os dados com a criação de hierarquias, a definição de unidades e moedas e o acréscimo de fórmulas.

Quais são os tipos de modelagem de dados?

Os três tipos primários de modelagem são relacional, dimensional e entidade-relacionamento (E-R). Há vários outros que não estão em uso geral, como hierárquico, de rede, orientado a objetos e multivalor. O tipo de modelo define a estrutura lógica – como os dados são armazenados logicamente – e, portanto, como eles são guardados, organizados e recuperados.

  1. Relacional: embora de abordagem "mais antiga", o modelo mais comum de banco de dados em uso é o relacional, que armazena os dados em registros de formato fixo e os organiza em tabelas, com linhas e colunas. O tipo mais básico de modelo de dados tem dois elementos: medidas e dimensões. As medidas são os valores numéricos, como quantidades e receitas, usados em cálculos matemáticos como somas ou médias. As dimensões podem ser textuais ou numéricas. Não são usadas em cálculos e incluem descrições e locais. Os dados brutos são definidos como medida ou dimensão. Outros termos usados no projeto de bancos de dados relacionais são “relações” (a tabela com linhas e colunas), “atributos” (colunas), “tuplas” (linhas) e “domínio” (conjunto de valores permitidos em uma coluna). Embora haja termos adicionais e requisitos estruturais que definem o banco de dados relacional, o fator importante são as relações definidas nessa estrutura. Os elementos de dados em comum (ou chaves) ligam tabelas e conjuntos de dados. As tabelas também podem ser relacionadas explicitamente, como relações pai-filho, um para um, um para muitos ou muitos para muitos.
  2. Dimensional: menos rígida e estruturada, a abordagem dimensional favorece uma estrutura contextual de dados mais relacionada ao contexto ou uso nos negócios. Essa estrutura de banco de dados é otimizada para consultas online e ferramentas de armazenamento de dados. Elementos fundamentais, como quantidade de transações, por exemplo, são denominados “fatos” e acompanhados por informações de referência chamadas “dimensões”, como ID do produto, preço unitário ou data da transação. A tabela de fatos é uma tabela primária em um modelo dimensional. A recuperação pode ser rápida e eficiente, com os dados de um tipo específico de atividade armazenados juntos, mas a ausência de vínculos de relacionamento complica a recuperação analítica e o uso dos dados. Como a estrutura de dados está associada à função de negócio que produz e utiliza os dados, a combinação desses dados por diferentes sistemas (em um data warehouse, por exemplo) pode ser problemática.
  3. Entidade-relacionamento (E-R): O modelo E-R é uma estrutura de dados de negócios em forma de gráfico, com vários formatos de caixas que representam atividades, funções ou "entidades" e linhas que representam associações, dependências ou "relacionamentos". O modelo E-R é usado para criar um banco de dados relacional em que cada linha representa uma entidade e os campos nessa linha contêm atributos. Como em todos os bancos de dados relacionais, os elementos de dados "chave" são usados para vincular tabelas.

Quais são os três níveis de abstração de dados?

Existem vários tipos de modelos de dados, com diferentes tipos de layout possíveis. A comunidade de processamento de dados identifica três tipos de modelagem para representar os níveis de pensamento à medida que os modelos são desenvolvidos.

Modelo de dados conceitual

 

Este é o modelo do "quadro maior", que representa a estrutura e o conteúdo geral, mas não os detalhes do plano de dados. É o ponto de partida típico para a modelagem de dados e identifica os vários conjuntos de dados e seu fluxo pela organização. O modelo conceitual é o plano geral para o desenvolvimento dos modelos lógicos e físicos e parte importante da documentação da arquitetura de dados.

 

Modelo de dados lógico

 

O segundo nível de detalhamento é o modelo de dados lógico. Ele está relacionado mais estreitamente à definição geral de "modelo de dados", pois descreve o fluxo de dados e o conteúdo do banco de dados. O modelo lógico adiciona detalhes à estrutura global do modelo conceitual, mas não inclui especificações do banco de dados em si, uma vez que o modelo pode ser aplicado a vários produtos e tecnologias de banco de dados. (Observe que poderá não haver um modelo conceitual se o projeto estiver relacionado a uma única aplicação ou a outro sistema limitado.)

 

Modelo de dados físico

 

O modelo de banco de dados físico descreve as especificidades da realização do modelo lógico. Ele deve conter detalhes suficientes para que os tecnólogos criem a estrutura real do banco de dados em hardware e software para sustentar os aplicativos que vão usá-lo. Desnecessário dizer que o modelo de dados físico é específico do sistema de software designado para o banco de dados. Poderá haver vários modelos físicos derivados de um único modelo lógico, se vários sistemas diferentes de banco de dados forem usados.

Processo e técnicas de modelagem de dados

Inerentemente, a modelagem de dados é um processo top-down, que começa com o modelo conceitual para estabelecer a visão geral, passa para o modelo lógico e, finalmente, para o projeto detalhado contido no modelo físico.

 

A construção do modelo conceitual é principalmente um processo de conversão de ideias em forma gráfica que se assemelha ao fluxograma de um programador.

 

As modernas ferramentas de modelagem de dados ajudam a definir e criar modelos de dados e bancos de dados lógicos e físicos. Aqui estão algumas técnicas e etapas típicas da modelagem de dados:

  • Determine as entidades e crie um diagrama entidade-relacionamento (DER). As entidades podem ser descritas como "elementos de dados que interessam a seus negócios". Por exemplo, "cliente" seria uma entidade. "Venda" seria outra. No DER, documenta-se como essas diferentes entidades se relacionam em seu negócio e que conexões de alto nível existem entre elas.

  • Defina os fatos, medidas e dimensões.O fato é a parte dos dados que indica uma ocorrência ou transação específica, como a venda de um produto. As medidas são quantitativas, como número de itens, receita, custo, etc. As dimensões são medidas qualitativas, como descrição, localização e data.

  • Crie um link de visão de dados com uma ferramenta gráfica ou consultas SQL. Se não estiver familiarizado com SQL, a ferramenta gráfica é a opção mais intuitiva, que permite arrastar e soltar elementos no modelo e criar conexões visualmente. Quando se cria uma visão, é possível combinar tabelas e até outras visões em uma única saída. Ao selecionar uma fonte na visão gráfica e arrastá-la até outra fonte já associada à saída, há a opção de ligar as duas ou de criar a união dessas tabelas.

As soluções analíticas modernas também ajudam a selecionar, filtrar e conectar fontes de dados com uma exibição gráfica de arrastar e soltar. Há ferramentas avançadas para os especialistas em dados que trabalham em TI, mas os usuários também podem criar histórias próprias montando visualmente um modelo de dados e organizando tabelas, gráficos, mapas e outros objetos para contar uma história com base em insights.

Exemplos de modelagem de dados

Em qualquer aplicativo, comercial, pessoal, de entretenimento ou outro, a modelagem de dados é uma etapa inicial necessária para projetar o sistema e definir a infraestrutura necessária para ativá-lo. Ela inclui qualquer tipo de sistema transacional, conjunto ou suíte de aplicativos de processamento de dados e qualquer outro sistema que colete, crie ou use dados.

 

A modelagem é imperativa para armazenar os dados, pois o data warehouse é um repositório de dados trazidos de várias fontes, que provavelmente usam formatos diferentes para dados semelhantes ou relacionados. Primeiro, é necessário mapear os formatos e a estrutura do warehouse para determinar como manipular, de acordo com as necessidades do projeto do warehouse, cada conjunto de dados que chega, de modo que os dados sejam úteis para a análise e a mineração de dados. Assim, o modelo de dados é um facilitador importante das ferramentas analíticas, dos sistemas de informação executiva (dashboards), da mineração de dados e da integração com todo e qualquer sistema de dados e aplicativos.

 

Nos estágios iniciais do projeto em qualquer sistema, a modelagem de dados é um requisito fundamental do qual dependem todas as outras etapas e estágios para formar a base sobre a qual se apoiam todos os programas, funções e ferramentas. O modelo de dados é como uma linguagem em comum que permite que os sistemas se comuniquem pela compreensão e aceitação dos dados, como descrito no modelo. Isso é mais importante do que nunca no mundo atual de Big Data, Machine Learning, Inteligência Artificial, conectividade em nuvem, IoT e sistemas distribuídos, incluindo edge computing.

Evolução da modelagem de dados

Em termos concretos, a modelagem de dados existe desde que surgiram o processamento e o armazenamento de dados e a programação de computadores, embora a expressão só tenha entrado em uso quando os sistemas de gestão de banco de dados começaram a evoluir na década de 1960. Não há nada novo nem inovador no conceito de planejar e arquitetar uma nova estrutura. A modelagem de dados em si ficou mais estruturada e formalizada à medida que surgiram mais dados, mais bancos de dados e mais diversidade de dados.

 

Hoje, a modelagem de dados é mais essencial do que nunca, pois os tecnólogos lidam com novas fontes de dados (sensores de IoT, dispositivos com reconhecimento de localização, fluxo de cliques, redes sociais) e uma onda de dados não estruturados (texto, áudio, vídeo, saída bruta de sensores), em volume e velocidade que excedem os recursos dos sistemas tradicionais. Atualmente, há uma demanda constante de novos sistemas, modelos de dados e estruturas e técnicas inovadoras de banco de dados para unificar esse novo esforço de desenvolvimento.

Qual é o próximo passo da modelagem de dados?

A conectividade das informações e o grande volume de dados de tantas e diferentes fontes, como sensores, voz, vídeo, e-mail e muito mais, aumentam o alcance dos projetos de modelagem para os profissionais de TI. É claro que a Internet é um dos facilitadores dessa evolução. A nuvem é uma parte importante da solução, pois é a única infraestrutura de computação suficientemente ágil, grande e escalável para atender aos requisitos atuais e futuros da expansão da conectividade.

 

As opções de projeto de banco de dados também estão mudando. Há uma década, a estrutura dominante era um banco de dados relacional baseado em linhas com a tecnologia tradicional de armazenamento em disco. Os dados do livro-Razão ou da gestão de estoque de um ERP típico eram armazenados em dezenas de tabelas diferentes que precisavam ser atualizadas e modeladas. Atualmente, as soluções ERP modernas armazenam dados ativos na memória e usam um projeto em colunas para reduzir drasticamente as tabelas e aumentar a velocidade e a eficiência.

 

Para os profissionais da linha de negócios, as novas ferramentas de autoatendimento disponíveis continuarão a melhorar. E novas ferramentas serão lançadas para tornar a modelagem e a visualização dos dados ainda mais fácil e colaborativa.

Resumo

Um modelo de dados completo e bem pensado é o segredo do desenvolvimento de um banco de dados verdadeiramente funcional, útil, seguro e preciso. Comece com o modelo conceitual para estabelecer todos os componentes e funções do modelo de dados. Depois, refina esse plano como um modelo de dados lógico que descreva o fluxo de dados e defina que dados são necessários e como serão adquiridos, processados, armazenados e distribuídos. O modelo de dados lógico embasa o modelo de dados físico específico de um banco de dados e é o documento detalhado do projeto que orienta a criação do banco de dados e do software.

 

Uma boa modelagem e um bom projeto de banco de dados são essenciais para o desenvolvimento de sistemas e bancos de dados funcionais, confiáveis e seguros que funcionem bem com data warehouses e ferramentas analíticas e facilitem o intercâmbio de dados com parceiros de negócios e entre vários conjuntos de aplicativos. Bem pensados, os modelos de dados ajudam a garantir a integridade dos dados da empresa, tornando-os ainda mais valiosos e confiáveis.

placeholder

Explore as modernas ferramentas de modelagem de dados

Conecte os dados ao contexto de negócios para capacitar os usuários a encontrar insights.

placeholder

Ideias que você não encontrará em nenhum outro lugar

Inscreva-se para receber uma dose de Business Intelligence diretamente em sua caixa de entrada.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel