flex-height
text-black

Sala de servidores num centro de dados

O que é um data warehouse?

Um data warehouse (DW) é um sistema de armazenamento digital que liga e harmoniza grandes quantidades de dados provenientes de muitas fontes diferentes.

default

{}

default

{}

primary

default

{}

secondary

Visão geral do data warehouse

Um data warehouse (DW) é um repositório centralizado que recolhe, integra e armazena grandes volumes de dados atuais e históricos provenientes de várias fontes. Suporta inteligência empresarial (BI), relatórios e análises avançadas, fornecendo uma única fonte de verdade consistente. Ao consolidar e normalizar os dados, as organizações podem gerar informações fiáveis, cumprir os requisitos regulamentares e tomar decisões informadas e baseadas em dados.

Os dados normalmente fluem para um data warehouse a partir de sistemas operacionais (como ERP e CRM), bases de dados internas e fontes externas, como plataformas de parceiros, dispositivos IoT, feeds meteorológicos e redes sociais. À medida que a computação em nuvem evoluiu, o armazenamento de dados passou dos ambientes tradicionais locais para arquiteturas flexíveis de multi-nuvem e nuvem híbrida.

Os armazéns de dados modernos são concebidos para gerir tanto dados estruturados como não estruturados, tais como vídeos, imagens e fluxos de sensores. Muitos incorporam análises integradas e processamento em memória para permitir consultas mais rápidas, acesso em tempo real aos dados e fluxos de trabalho de relatórios e BI mais eficientes. Sem um data warehouse, as organizações têm dificuldade em combinar fontes de dados heterogéneas, preparar devidamente os dados para análise e manter visibilidade entre os conjuntos de dados.

Benefícios dos data warehouses

Um data warehouse bem concebido é a base do sucesso da inteligência empresarial, relatórios e análises. Ao consolidar os dados numa única fonte de verdade, acelera a obtenção de insights para uma tomada de decisões melhor e mais confiante em toda a empresa. Os principais benefícios incluem:

Que tipos de dados pode um data warehouse armazenar?

Quando os data warehouses surgiram pela primeira vez no final da década de 1980, foram criados para armazenar dados estruturados—informação bem organizada como detalhes de clientes, listas de produtos e registos de transações. À medida que as necessidades empresariais aumentaram, as empresas também quiseram trabalhar com dados não estruturados, como documentos, imagens, vídeos, e-mails, publicações em redes sociais e dados de sensores provenientes de máquinas e dispositivos IoT.

Os armazéns de dados modernos conseguem lidar tanto com dados estruturados como não estruturados, reunindo-os para oferecer às empresas uma visão mais completa e integrada, permitindo obter insights mais sólidos.

Conceitos-chave e comparações

Há muito para aprender no mundo do armazenamento de dados. Aqui estão alguns dos conceitos mais importantes. Explore definições adicionais e perguntas frequentes no nosso glossário.

Data warehouse versus base de dados

As bases de dados e os armazéns de dados armazenam ambos dados, mas desempenham funções diferentes. Uma base de dados gere informações em tempo real para uma área de negócio específica, enquanto um data warehouse combina dados atuais e históricos de toda a organização para apoiar relatórios e análises. Embora funcione com tecnologia de base de dados, um data warehouse acrescenta ferramentas para integrar, modelar e gerir dados ao longo do tempo.

As bases de dados mantêm as operações diárias em funcionamento ao processar transações e atualizar registos rapidamente. Os data warehouses suportam a análise de dados, ajudando as equipas a identificar tendências, comparar desempenhos e tomar decisões estratégicas.

Data warehouse versus data lake

Armazéns de dados e lakes de dados ambos armazenam grandes quantidades de dados, mas têm propósitos diferentes. Um data warehouse armazena dados estruturados e preparados para relatórios e análises, enquanto um data lake guarda dados brutos e não processados que podem ser utilizados posteriormente. Eles trabalham frequentemente em conjunto: os dados brutos ficam no lago e são transformados e movidos para o armazém quando necessário para análise.

Utilize um data lake para armazenamento flexível e de baixo custo de dados brutos. Utilize um data warehouse para análises rápidas e fiáveis de dados estruturados. A maioria das organizações beneficia de ambos; o data lake capta tudo e o data warehouse transforma isso em conhecimento.

Data warehouse versus data mart

Um data mart é uma subseção de um data warehouse, particionada especificamente para um departamento ou área de negócio, como vendas, marketing ou finanças. Por exemplo, um data mart de vendas pode centrar-se em leads, atividade do pipeline e negócios fechados com sucesso, enquanto um data mart financeiro se focaria em orçamentos, previsões e métricas de receitas.

Alguns data marts também são criados para finalidades operacionais autónomas. Enquanto um data warehouse funciona como armazém de dados central para a totalidade de uma empresa, um data mart disponibiliza dados relevantes a um grupo selecionado de utilizadores. Isto simplifica o acesso aos dados, acelera a análise e permite-lhes controlarem os seus próprios dados. Muitas vezes, são implementados vários data marts dentro de um data warehouse.

Componentes principais de um data warehouse

Um armazém de dados moderno inclui quatro componentes principais: uma base de dados central, ferramentas de integração e ingestão de dados, metadados e ferramentas de acesso. Juntos, oferecem análises rápidas e fiáveis em grande escala.

  1. Base de dados central: O motor principal de armazenamento do armazém, tradicionalmente uma base de dados relacional, mas cada vez mais um sistema em memória ou nativo da cloud para um desempenho superior.
  2. Integração e ingestão de dados: Os dados são obtidos a partir de sistemas de origem utilizando métodos em lote como ETL e ELT, juntamente com opções em tempo real, tais como replicação por captura de alterações de dados e pipelines de streaming. Estes processos também tratam da transformação, verificações de qualidade e enriquecimento.
  3. Metadados: Informação que descreve os dados—sua origem, estrutura, significado e como devem ser utilizados—abrangendo tanto o contexto empresarial como técnico.
  4. Ferramentas de acesso: Ferramentas que permitem aos utilizadores consultar, analisar e interagir com os dados do armazém, incluindo ferramentas de relatórios, painéis de controlo, plataformas de análise e ferramentas de desenvolvimento de aplicações.

Arquitetura de data warehouse

Historicamente, os data warehouses eram organizados em camadas que correspondiam à forma como os dados circulavam pelo sistema. Um armazém de dados típico inclui três camadas. As plataformas modernas simplificam a arquitetura para suportar uma movimentação de dados mais rápida e análises.

Os armazéns de dados eram tradicionalmente construídos e geridos pelas equipas de TI, mas as plataformas modernas permitem cada vez mais que os utilizadores de negócio trabalhem diretamente com os dados. Capacidades-chave que impulsionam esta mudança incluem:

Como funciona um data warehouse?

Um data warehouse organiza informações de toda a sua empresa para que possam ser facilmente exploradas, confiáveis e analisadas. O processo geralmente segue quatro passos simples:

  1. Extrair: Os dados são extraídos de sistemas de origem, como aplicações, bases de dados e serviços na cloud. Nesta fase, os dados são recolhidos tal como estão.
  2. Transformar: Os dados são limpos, normalizados e estruturados para que fiquem consistentes e prontos a utilizar. Isto pode envolver a remoção de erros, o alinhamento de formatos ou a aplicação de regras de negócio.
  3. Carregamento: Os dados preparados são armazenados no armazém num formato estruturado, otimizado para relatórios e análises rápidos.
  4. Analisar: Assim que os dados forem carregados, as equipas podem explorá-los utilizando dashboards, relatórios e análises avançadas para tomar decisões informadas.

ETL vs. ELT: Qual é a diferença?

ETL (Extrair → Transformar → Carregar): Os dados são transformados antes de entrarem no armazém de dados. Esta abordagem é comum em armazéns de dados tradicionais que têm poder de processamento limitado.

ELT (Extrair → Carregar → Transformar): Os dados brutos são carregados primeiro no armazém e transformados dentro do armazém. As plataformas modernas de cloud preferem este método porque conseguem gerir de forma eficiente transformações em grande escala.

Quais são as quatro características principais de um data warehouse?

Um data warehouse é construído com base em alguns princípios fundamentais que garantem a entrega de informações fiáveis, consistentes e analisáveis em toda a empresa. As quatro características principais são:

  1. Orientado por assunto: Organizado em torno de tópicos centrais do negócio–como clientes ou vendas–para apoiar a análise.
  2. Integrado: Os dados de diferentes sistemas, como ERP e CRM, são limpos e normalizados, para que se ajustem de forma consistente.
  3. Variável no tempo: Armazena dados históricos ao longo de longos períodos, permitindo a análise de tendências e desempenho.
  4. Não volátil: Os dados permanecem estáveis após serem carregados – podem ser lidos, mas não são atualizados nem eliminados – garantindo uma fonte de verdade fiável.

Vantagens do armazém de dados na cloud

Os armazéns de dados na cloud estão cada vez mais populares porque oferecem vantagens significativas em relação aos sistemas tradicionais no local. Aqui estão os sete principais benefícios de migrar o seu data warehouse para a cloud:

  1. Rápido de implementar: Crie armazenamento, computação e novos ambientes como data marts ou sandboxes em minutos, a partir de qualquer lugar.
  2. TCO mais baixo: Pague apenas pelos recursos que utiliza. Evite custos de hardware, instalações e manutenção, e reduza despesas ao separar armazenamento e computação.
  3. Elasticidade: Aumente ou diminua instantaneamente para lidar com cargas de trabalho variáveis e grandes volumes de dados sem esforço manual.
  4. Segurança e recuperação de desastres: As plataformas de cloud geralmente oferecem controlos de segurança mais robustos, encriptação e cópias de segurança automáticas para proteger contra a perda de dados.
  5. Desempenho em tempo real: Motores em memória e nativos na cloud proporcionam velocidades de processamento rápidas para obter informações em tempo real.
  6. Acesso a novas tecnologias: Integre facilmente capacidades como aprendizagem automática, informações automatizadas e análises avançadas.
  7. Capacita os utilizadores empresariais: Oferece às equipas uma visão unificada dos dados, além de ferramentas intuitivas para analisar informações e ligar novas fontes sem grande envolvimento da equipa de TI.

Boas práticas de data warehouse

Ao construir um novo data warehouse ou expandir um já existente, seguir práticas comprovadas ajuda-o a alcançar os seus objetivos, poupando tempo e custos. Algumas práticas concentram-se nas necessidades do negócio, enquanto outras enquadram-se em orientações de TI mais amplas. A lista abaixo é um ponto de partida sólido, e irá refiná-la à medida que trabalhar com os seus parceiros de tecnologia e serviços.

Boas práticas empresariais

Boas práticas de TI

Resumo

Os armazéns de dados modernos—especialmente os baseados na cloud—desempenham um papel central na transformação digital ao unificarem dados de fontes internas e externas para uma visão completa e atempada do negócio. Alimentam dashboards, KPIs, alertas e relatórios em toda a organização e suportam análises rápidas e complexas sem impactar os sistemas operacionais.

Porque podem começar de forma modesta e escalar facilmente, ajudam tanto as equipas corporativas como as unidades de negócio a tomar melhores decisões e a melhorar o desempenho.

Perguntas frequentes

O que é um data lake?
Um data lake é um local para armazenar todos os tipos de Big Data, seja dados estruturados de aplicações empresariais ou dados não estruturados de aplicações móveis, redes sociais ou dispositivos da Internet das Coisas (IoT). Como os dados são armazenados no seu formato natural–estruturado, não estruturado, semi-estruturado ou binário–pode ser necessário realizar conversão, normalização ou outro processamento para permitir análises entre vários tipos de dados. A maioria dos data lakes são baseados na cloud devido aos grandes volumes de dados que armazenam, à necessidade de ligações de alta velocidade a fontes distribuídas e à necessidade de escalabilidade. A sua capacidade de armazenar grandes quantidades de dados brutos torna-os um complemento flexível e de baixo custo para um data warehouse.
O que são ETL e ELT?
ETL significa “extrair, transformar e carregar.” Refere-se ao processo de extrair dados de um sistema de origem, limpá-los e formatá-los para um formato utilizável, e depois carregá-los num data warehouse ou noutro repositório de dados. Muitos sistemas modernos também utilizam ELT—“extrair, carregar e transformar”—em que os dados são carregados primeiro e transformados posteriormente. Ambas as abordagens ajudam a transformar dados brutos em algo que pode ser analisado, quer provenham de sistemas transacionais ou de fontes mais complexas e não estruturadas.
O que é um data mart?
Um data mart é uma fatia específica de um data warehouse, concebida para uma área de negócio ou equipa específica, como finanças ou marketing. Isso dá a esse grupo acesso rápido aos dados mais relevantes para o seu trabalho e permite-lhe gerir o seu próprio conjunto de dados selecionado dentro do armazém maior. Por exemplo, um data mart financeiro pode incluir orçamentos, previsões e dados de receitas adaptados às necessidades de relatório da equipa financeira.
O que é modelação de dados?
A modelação de dados é o processo de definir como os dados são organizados e conectados para que possam ser armazenados e utilizados de forma eficaz. Um modelo de dados descreve o que os dados representam e como diferentes elementos se relacionam entre si, criando um plano para uma estrutura consistente entre sistemas. Por exemplo, um modelo de dados de vendas pode mostrar como os clientes, encomendas e produtos se relacionam para apoiar a elaboração de relatórios e a análise.
O que é um armazém de dados empresarial (EDW)?
Um armazém de dados empresarial (EDW) é um sistema centralizado que armazena todos os dados atuais e históricos de uma empresa num único local. Fornece uma fonte única e consistente de informação para análises, relatórios e KPIs em toda a empresa. Muitos EDWs funcionam na cloud para facilitar o acesso, a escalabilidade e a gestão.
Quais são os três tipos de armazéns de dados?
  1. Armazém de dados empresarial: Um EDW é um armazém de dados central, a nível de empresa, que armazena todos os dados atuais e históricos num só local. Fornece uma fonte única e consistente de informação para análises, relatórios e KPIs em toda a organização. A maioria dos armazéns de dados empresariais modernos são baseados na cloud para maior escalabilidade e acesso facilitado.
  2. Armazém de dados operacionais: Um ODS é um repositório de dados quase em tempo real utilizado para relatórios operacionais e atividades do dia a dia. Situa-se entre os sistemas transacionais e o EDW, combinando dados de várias fontes de forma mais atual, mas não totalmente histórica. É útil quando os dados precisam de ser atualizados frequentemente para decisões operacionais rápidas.
  3. Data mart: Um data mart é uma parte mais pequena e específica de um data warehouse, concebida para uma determinada equipa ou unidade de negócio, como finanças, vendas ou marketing. Proporciona acesso rápido aos dados mais relevantes para esse grupo, sem expor todo o armazém de dados.
Quais são os quatro componentes de um data warehouse?
  1. Base de dados central: A camada principal de armazenamento onde os dados estruturados, limpos e integrados são guardados. Normalmente, trata-se de uma base de dados relacional, columnar ou nativa da cloud, otimizada para análises.
  2. Ferramentas de integração / ingestão de dados: Ferramentas e processos—como ETL (extrair, transformar, carregar), ELT (extrair, carregar, transformar), cargas em lote e replicação em tempo real—que trazem dados dos sistemas de origem para o armazém e os preparam para utilização.
  3. Metadados: Informação que descreve os dados: de onde vieram, como estão estruturados, o que significam e como devem ser utilizados. Os metadados ajudam os utilizadores a compreender e a confiar nos dados.
  4. Ferramentas de acesso: As aplicações e interfaces que permitem aos utilizadores consultar, visualizar, explorar e analisar os dados, como ferramentas de relatórios, painéis de controlo, plataformas de análise e ferramentas de consulta SQL.
O SQL é um data warehouse?
Não. SQL é uma linguagem utilizada para consultar e gerir dados, enquanto um data warehouse é um sistema que armazena, organiza e processa grandes quantidades de dados para análise. O SQL é simplesmente uma das principais ferramentas utilizadas para trabalhar com dados dentro de um data warehouse.