O que é data warehouse?
Um data warehouse (DW, na sigla em inglês) é um sistema de armazenamento digital que conecta e harmoniza grandes volumes de dados de diferentes fontes.
default
{}
default
{}
primary
default
{}
secondary
Visão geral do data warehouse
Um data warehouse (DW) é um repositório centralizado que coleta, integra e armazena grandes volumes de dados atuais e históricos de várias fontes. Ele oferece suporte a business intelligence (BI), relatórios e funções analíticas avançadas, fornecendo uma fonte da verdade única e consistente. Ao consolidar e padronizar dados, as empresas podem gerar insights confiáveis, atender às exigências regulatórias e tomar decisões fundamentadas e baseadas em dados.
Normalmente, os dados fluem para um data warehouse a partir de sistemas operacionais (como ERP e CRM), bancos de dados internos e fontes externas, como plataformas de parceiros, dispositivos com IoT, feeds meteorológicos e mídias sociais. Com a maturidade da computação em nuvem, o armazenamento de dados passou de ambientes tradicionais on premise para arquiteturas flexíveis multinuvem e nuvens híbridas.
Os data warehouses modernos são projetados para gerenciar dados estruturados e não estruturados, como vídeos, imagens e fluxos de sensores. Muitos incorporam funções analíticas integradas e processamento in-memory para possibilitar consultas mais rápidas, acesso a dados em tempo real e relatórios e workflows de BI mais eficientes. Sem um data warehouse, as organizações têm dificuldades para combinar fontes de dados heterogêneas, preparar os dados adequadamente para análises e manter a visibilidade em todos os conjuntos de dados.
Figura 1: Visão geral de um data warehouse
Benefícios do armazenamento de dados
Um data warehouse bem projetado é a espinha dorsal de business intelligence, relatórios e análises bem-sucedidos. A consolidação dos dados em uma única fonte da verdade permite que o data warehouse acelere os insights para a tomada de decisões mais acertadas e mais seguras em toda a empresa. Os principais benefícios são:
- Análises avançadas de negócios: um data warehouse unifica dados de vários sistemas em uma visão única e consistente dos negócios, permitindo que os líderes analisem as tendências com mais facilidade e tomem decisões mais inteligentes e baseadas em dados.
- Consultas e insights mais rápidos: como os data warehouses são otimizados para análises, não para transações, os usuários podem executar consultas complexas em grandes conjuntos de dados muito mais rapidamente, o que acelera os ciclos de relatórios e reduz a dependência da TI.
- Melhor qualidade e consistência dos dados: os dados são limpos, validados e padronizados antes de entrarem no depósito, garantindo que as análises sejam baseadas em informações confiáveis e de alta qualidade, o que resulta diretamente em decisões aprimoradas.
- Insights históricos mais detalhados: um data warehouse preserva dados históricos ricos, facilitando a identificação de padrões de longo prazo, a avaliação de desempenho e a geração de previsões mais precisas que fortalecem o planejamento estratégico.
Figura 2: Captura de tela do data warehouse mostrando a linhagem de dados
Que tipos de dados um data warehouse pode armazenar?
Quando os data warehouses apareceram pela primeira vez no final da década de 1980, eles foram projetados para armazenar dados estruturados – informações bem organizadas, como detalhes do cliente, listas de produtos e registros de transações. Com a expansão das necessidades de negócios, as empresas também queriam trabalhar com dados não estruturados, como documentos, imagens, vídeos, e-mails, publicações em mídias sociais e saídas de sensores de máquinas e dispositivos com IoT.
Os data warehouses modernos podem lidar com dados estruturados e não estruturados, reunindo-os para oferecer às empresas uma visão mais completa e integrada de insights mais abrangentes.
Conceitos-chave e comparações
Há muito o que aprender no mundo do armazenamento de dados. Aqui estão alguns dos conceitos mais importantes. Conheça outras definições e perguntas frequentes em nosso glossário.
Data warehouse vs. banco de dados
Os bancos de dados e os data warehouses armazenam dados, mas desempenham funções diferentes. Um banco de dados gerencia informações em tempo real para uma área de negócios específica, enquanto um data warehouse combina dados atuais e históricos de toda a organização para dar suporte a relatórios e análises. Embora use tecnologia de banco de dados, um data warehouse adiciona ferramentas para integrar, modelar e gerenciar dados ao longo do tempo.
Os bancos de dados mantêm as operações diárias em execução, processando transações e atualizando registros rapidamente. Os data warehouses oferecem suporte a funções analíticas, ajudando as equipes a identificar tendências, comparar desempenho e tomar decisões estratégicas.
Data warehouse vs. data lake
Data warehouses e data lakes armazenam grandes quantidades de dados, mas têm finalidades diferentes. Um data warehouse contém dados estruturados e preparados para relatórios e análises, enquanto um data lake armazena dados brutos não processados para uso posterior. Eles geralmente trabalham juntos: os dados brutos ficam armazenados no lake e são transformados e transferidos para o warehouse para análise quando necessário.
Use um data lake para armazenamento de dados brutos flexível e de baixo custo. Use um data warehouse para análises rápidas e confiáveis de dados estruturados. A maioria das empresas se beneficia de ambos; o lake captura tudo e o warehouse transforma em insight.
Figura 3: Comparação de um data warehouse e um data lake
Data warehouse vs. data mart
Data mart é a subseção de um data warehouse, particionada especificamente para um departamento ou linha de negócios, como vendas, marketing ou finanças. Por exemplo, um data mart de vendas pode se concentrar em leads, atividades do pipeline e negócios fechados, enquanto um data mart de finanças priorizaria orçamentos, previsões e métricas de receita.
Alguns data marts também são desenvolvidos para fins operacionais independentes. Enquanto um data warehouse serve como armazenamento de dados central para uma empresa inteira, um data mart fornece dados relevantes a um grupo seleto de usuários. Isso simplifica o acesso aos dados, acelera a análise e permite que eles tenham controle sobre seus próprios dados. Vários data marts são geralmente implementados em um data warehouse.
Figura 4: Diagrama demonstrando como funciona um data mart
Componentes-chave de um data warehouse
Um data warehouse moderno inclui quatro componentes-chave: um banco de dados central, ferramentas de integração e ingestão de dados, metadados e ferramentas de acesso. Juntos, eles fornecem análises rápidas e confiáveis em larga escala.
Figura 5: Diagrama mostrando os componentes de um data warehouse
- Banco de dados central: mecanismo de armazenamento central do warehouse, tradicionalmente um banco de dados relacional, mas cada vez mais um sistema in-memory ou nativo na nuvem para melhor desempenho.
- Integração e ingestão de dados: dados são importados de sistemas de origem usando métodos em lote como ETL e ELT, juntamente com opções em tempo real, como replicação da captura de dados de alteração e pipelines de streaming. Esses processos também tratam da transformação, das verificações de qualidade e do enriquecimento.
- Metadados: as informações que descrevem os dados – sua origem, estrutura, significado e como eles devem ser usados – abrangendo o contexto técnico e de negócios.
- Ferramentas de acesso: utilizadas pelos usuários para consulta, análise e interação com dados de depósito, incluindo ferramentas de geração de relatórios, dashboards, plataformas de análise e ferramentas de desenvolvimento de aplicativos.
Arquitetura de data warehouse
Historicamente, os data warehouses eram organizados em camadas que se alinhavam à forma como os dados se moviam pelo sistema. Um data warehouse típico inclui três camadas. As plataformas modernas simplificam a arquitetura para dar suporte a funções analíticas e movimentos de dados mais rápidos.
Figura 6: Diagrama da arquitetura de data warehouse
- Camada de dados: os dados são extraídos dos sistemas de origem e, depois, transformados e carregados no warehouse usando um método de ingestão como ETL. Essa camada inclui o banco de dados central, os data marts e os data lakes, juntamente com os metadados e ferramentas de integração que padronizam e preparam os dados.
- Camada semântica: essa camada organiza e modela os dados para facilitar a consulta e a análise, oferecendo visões selecionadas e definições de negócios que permitem análises rápidas e consistentes.
- Camada de análise: a camada superior fornece as ferramentas com as quais os usuários interagem – dashboards, relatórios, monitoramento de KPIs, análise avançada e ambientes sandbox para explorar dados e desenvolver novos modelos.
Os data warehouses eram tradicionalmente desenvolvidos e gerenciados por equipes de TI, mas as plataformas modernas capacitam cada vez mais os usuários de negócios a trabalhar diretamente com os dados. Os principais recursos que impulsionam essa mudança são:
- Uma camada semântica amigável aos negócios que usa linguagem natural, esclarece relacionamentos e permite que os usuários enriqueçam dados com novo contexto.
- Espaços de trabalho virtuais que integram modelos de dados, lógica e colaboração em um único ambiente controlado.
- Ferramentas baseadas na nuvem que facilitam aos colaboradores a conexão de novas fontes de dados, a execução de análises e a obtenção de insights com muito menos dependência da TI.
Como funciona um data warehouse?
Um data warehouse organiza informações de toda a empresa para que possam ser facilmente exploradas, confiáveis e analisadas. O processo normalmente segue quatro passos simples:
- Extrair: os dados são extraídos dos sistemas de origem, como aplicativos, bancos de dados e serviços em nuvem. Nesta fase, os dados são coletados no estado em que se encontram.
- Transformar: os dados são depurados, padronizados e moldados de modo que fiquem consistentes e prontos para uso. Isso pode envolver a remoção de erros, o alinhamento de formatos ou a aplicação de regras de negócios.
- Carregar: os dados preparados são armazenados no warehouse em um formato estruturado otimizado para geração rápida de relatórios e análises.
- Analisar: depois que os dados são carregados, as equipes podem explorá-los usando dashboards, relatórios e funções analíticas avançadas para a tomada de decisões fundamentadas.
ETL e ELT: qual é a diferença?
ETL (Extrair → Transformar → Carregar): os dados são transformados antes de entrarem no warehouse. Essa abordagem é comum com data warehouses tradicionais que têm capacidade de processamento limitada.
ELT (Extrair → Carregar → Transformar): os dados brutos são carregados primeiro no warehouse e transformados dentro do warehouse. As plataformas em nuvem modernas favorecem esse método, pois podem lidar com transformações de larga escala com eficiência.
Quais são as quatro principais características de um data warehouse?
Um data warehouse tem como base alguns princípios fundamentais que garantem o fornecimento de informações confiáveis, consistentes e analisáveis em toda a empresa. As quatro principais características são:
- Orientado a assuntos: organizado em torno dos tópicos essenciais de negócios – como clientes ou vendas – para dar suporte à análise.
- Integrado: os dados de diferentes sistemas, como ERP e CRM, são depurados e padronizados para que se encaixem de maneira consistente.
- Variante no tempo: armazena dados históricos por longos períodos, permitindo análises de tendências e desempenho.
- Não volátil: os dados ficam estáveis depois de carregados – legíveis, mas não atualizados ou excluídos – garantindo uma fonte da verdade confiável.
Benefícios do data warehouse na nuvem
Os data warehouses na nuvem estão se tornando cada vez mais populares por oferecerem vantagens significativas em relação aos sistemas tradicionais on premise. Estes são os sete principais benefícios de migrar seu data warehouse para a nuvem:
- Implementação rápida: crie armazenamento, recursos computacionais e novos ambientes, como data marts ou sandboxes, em minutos, de qualquer lugar.
- Menor TCO: pague apenas pelos recursos que você usa. Evite custos com hardware, instalações e manutenção e reduza os gastos separando armazenamento e computação.
- Elasticidade: amplie ou reduza instantaneamente para lidar com mudanças nas cargas de trabalho e grandes volumes de dados, sem trabalho manual.
- Segurança e recuperação de desastres: as plataformas na nuvem geralmente fornecem controles de segurança mais robustos, criptografia e backups automáticos para a proteção contra perda de dados.
- Desempenho em tempo real: os mecanismos in-memory e nativos da nuvem oferecem processamentos mais rápidos para fornecer insights em tempo real.
- Acesso a novas tecnologias: integre facilmente recursos como Machine Learning, insights automatizados e funções analíticas avançadas.
- Capacitação dos usuários de negócios: forneça às equipes uma visão unificada dos dados, além de ferramentas intuitivas para analisar informações e conectar novas fontes sem grande envolvimento da TI.
Figura 7: O data warehouse oferece suporte a análises abrangentes de despesas
Melhores práticas de data warehouse
Ao criar um novo data warehouse ou ampliar um já existente, siga as práticas comprovadas que vão ajudar você a atingir seus objetivos e economizar tempo e dinheiro. Algumas práticas estão focadas nas necessidades dos negócios e outras se enquadram em orientações de TI mais amplas. A lista abaixo é um excelente ponto de partida e você a refinará à medida que trabalhar com seus parceiros de tecnologia e serviços.
Melhores práticas de negócios
- Defina as informações necessárias. Comece identificando as perguntas que deseja responder e as decisões que pretende apoiar. A partir daí, determine quais fontes de dados são necessárias. Grupos setoriais, clientes e fornecedores também podem dar orientações sobre dados úteis.
- Documente o estado de seus dados atuais. Registre onde seus dados estão armazenados, como estão estruturados, bem como a sua qualidade a fim de identificar lacunas, transformações necessárias e as regras de negócios em que seu warehouse vai se basear.
- Forme a equipe certa. Inclua patrocinadores executivos, gestores de negócios e usuários finais que dependerão dos insights. Entenda os relatórios padrão, os KPIs e as métricas de que eles precisam para ter sucesso.
- Priorize seus primeiros projetos. Comece com um ou dois pilotos que ofereçam valor claro de negócios e escopo gerenciável. As primeiras vitórias geram um grande impulso.
- Escolha um parceiro de tecnologia forte. Selecione um fornecedor com experiência comprovada, suporte à implementação e uma plataforma alinhada às suas necessidades de implementação.
- Desenvolva um plano realista. Colabore com a sua equipe para elaborar um roadmap e cronograma claros. A comunicação regular e as atualizações de status mantêm todos alinhados.
Melhores práticas de TI
- Monitore o desempenho, o acesso e a segurança. Um data warehouse deve ser rápido e estar protegido. Monitore o uso do sistema, os eventos de segurança e os padrões de acesso para garantir que os dados permaneçam seguros e, ao mesmo tempo, fáceis de serem acessados pelos usuários autorizados.
- Mantenha a qualidade dos dados, os metadados, a estrutura e a governança. Os novos dados inseridos no data warehouse devem seguir regras consistentes. Padronize a depuração, a transformação, as definições de metadados e a governança de dados para que os usuários possam confiar nos resultados.
- Forneça uma arquitetura flexível. À medida que a empresa cresce, as equipes precisarão de novos data marts, modelos e cargas de trabalho. Uma arquitetura modular escalável atende melhor a essas necessidades do que os sistemas rígidos ou fortemente acoplados.
- Automatize a manutenção e as operações. Use automação e Machine Learning para simplificar as tarefas, como indexação, monitoramento, otimização e atualizações. Isso melhora o desempenho e reduz os custos operacionais.
- Use a nuvem de modo estratégico. Equipes diferentes têm necessidades diferentes. Mantenha determinadas cargas de trabalho on premise, se necessário, enquanto usa data warehouses na nuvem para obter escalabilidade, menor custo e acesso mais fácil em todos os dispositivos.
Resumo
Os data warehouses modernos, principalmente os baseados em nuvem, desempenham um papel central na transformação digital, unificando dados de fontes internas e externas para oferecer uma visão completa e atualizada dos negócios. Eles alimentam dashboards, KPIs, alertas e relatórios em toda a organização e dão suporte a análises rápidas e complexas sem afetar os sistemas operacionais.
Podem ser usados a partir do básico e facilmente ampliados, o que ajuda as equipes corporativas e as unidades de negócios a tomar decisões acertadas e a melhorar o desempenho.
Perguntas frequentes
- Data warehouse empresarial: um EDW é um data warehouse central da empresa que armazena todos os dados atuais e históricos em um só lugar. Ele fornece uma fonte da verdade única e consistente para análises, relatórios e KPIs em toda a organização. A maioria dos EDWs modernos é baseada em nuvem para oferecer escalabilidade e acesso mais fácil.
- Armazenamento de dados operacionais: é um armazenamento de dados quase em tempo real usado para gerar relatórios operacionais e das atividades diárias. Ele fica entre os sistemas transacionais e o EDW, combinando dados de várias fontes em um formato mais atual, mas não totalmente histórico. É útil quando os dados precisam ser atualizados com frequência para a tomada de decisões operacionais rápidas.
- Data mart: um data mart é uma parte menor e específica de um data warehouse, projetada para uma equipe ou unidade de negócios específica, como finanças, vendas ou marketing. Fornece acesso rápido aos dados mais importantes para esse grupo sem expor todo o warehouse.
- Banco de dados central: camada de armazenamento primária onde os dados estruturados, depurados e integrados são armazenados. Normalmente, é um banco de dados relacional, em colunas ou nativo na nuvem, otimizado para análises.
- Ferramentas de integração/ingestão de dados: ferramentas e processos – como ETL (extrair, transformar, carregar), ELT (extrair, carregar, transformar), carregamentos em lote e replicação em tempo real – que levam dados dos sistemas de origem para o warehouse e os preparam para uso.
- Metadados: informações que descrevem os dados, por exemplo, sua origem, como são estruturados, o que significam e como devem ser usados. Os metadados ajudam os usuários a entender os dados e confiar neles.
- Ferramentas de acesso: aplicativos e interfaces que permitem que os usuários consultem, visualizem, explorem e analisem os dados, por exemplo, ferramentas de geração de relatórios, dashboards, plataformas de análise e ferramentas de consulta SQL.