Data lake versus data warehouse
Data lakes armazenam dados brutos em seu formato nativo, independentemente de como eles chegam. Data warehouses armazenam dados que foram depurados e estruturados de forma predefinida.
default
{}
default
{}
primary
default
{}
secondary
Introdução a data lakes e data warehouses
Data lakes e data warehouses são sistemas que armazenam, gerenciam e recuperam grandes volumes de dados digitais. As empresas coletam dados para ajudá-las a obter insights sobre seus clientes, operações, mercados e cadeias de suprimentos, viabilizando respostas mais estratégicas.
Os data warehouses surgiram como uma solução para eliminar silos de dados e vencer o desafio de dados de negócios espalhados por vários sistemas, formatos e departamentos.
Devido a inconsistências, os usuários tinham dificuldade de acessar, integrar e analisar esses dados para identificar padrões, prever a demanda ou avaliar o desempenho dos negócios. Os data warehouses foram desenvolvidos para consolidar esses dados em um repositório centralizado, no qual os dados poderiam ser integrados, depurados e estruturados para análise. Essa abordagem estabeleceu uma "única fonte da verdade" para dar suporte a processos de compliance, monitoramento de desempenho e business intelligence.
Os data lakes, por sua vez, surgiram como uma solução para as limitações dos data warehouses, que não comportavam adequadamente a explosão de dados não estruturados e semiestruturados gerados a partir de novas fontes, como mídias sociais, dispositivos IoT, sensores, aplicativos móveis etc. Armazenar e processar enormes volumes de dados diversos, como imagens, vídeos e textos, revelou-se muito caro e ineficiente, já que os data warehouses tradicionais exigiam que os dados fossem depurados e processados antes de serem enviados ao armazenamento.
As empresas precisavam de uma maneira mais flexível e econômica de armazenar os dados em seu formato bruto e original, e os data lakes foram criados para resolver esta questão.
Hoje, muitas empresas modernas adotam uma abordagem híbrida que envolve data warehouses e data lakes: o data lakehouse – uma arquitetura que fornece recursos de data warehouse para a geração de relatórios rápidos e estruturados, bem como o potencial para aplicativos de IA e Machine Learning dos data lakes.
Data lakes versus data warehouses: principais diferenças
A principal diferença entre data lakes e data warehouses reside no tipo de dados que armazenam e na forma como os armazenam, sendo que ambos desempenham um papel fundamental na estratégia de dados das organizações.
Data warehouses armazenam dados estruturados que foram depurados e processados de acordo com uma estrutura ou esquema predefinido. Como o esquema é aplicado antes do armazenamento dos dados, a abordagem é conhecida como schema-on-write.
Por exemplo, um esquema pode exigir que os dados de ID do cliente sejam um número inteiro, que os dados de pedidos estejam no formato AAAA-MM-DD e que os dados do montante total de vendas estejam no formato decimal. Como todos os dados cumprem essas regras, os usuários podem fazer consultas como "encontrar o total de vendas por cliente em abril de 2025", de forma rápida e confiável. Essa velocidade e precisão tornam os data warehouses ideais para dashboards, geração de relatórios e casos de uso de business intelligence.
Em contrapartida, os data lakes podem armazenar dados brutos em seu formato original, independentemente de como estejam estruturados, sem exigir um esquema predefinido para que os dados sejam armazenados.
Como o esquema só é definido quando os dados são consultados, a abordagem é conhecida como schema-on-read, ou seja, quando os dados brutos são analisados, estruturados e interpretados de acordo com a consulta.
Em resumo, os data warehouses aplicam um esquema antes de armazenar os dados para garantir que todos eles estejam estruturados e depurados para uso. Os data lakes aplicam um esquema quando os dados são consultados e podem armazenar quaisquer dados, estruturados ou não, desde o início.
Diferenças entre data lakes e data warehouses
Escolhendo entre data lake e data warehouse
Como podem armazenar dados brutos em qualquer formato, os data lakes são ideais para empresas que precisam de flexibilidade. Os varejistas, por exemplo, coletam enormes volumes de dados de várias fontes, como sites, aplicativos móveis, mídias sociais, sistemas de ponto de venda, entre outras. Como os dados coletados não precisam ser depurados, transformados ou estruturados, as empresas do varejo podem usar sistemas de armazenamento mais econômicos e facilmente escaláveis. No entanto, o custo do processamento de dados brutos no momento da consulta pode ser maior em relação às consultas otimizadas feitas em um data warehouse.
Em comparação, os custos são maiores com os data warehouses. Os processos de depuração, transformação e estruturação antes do carregamento – bem como a indexação e o particionamento após o carregamento – exigem armazenamento e recursos adicionais para funcionar. No entanto, essa otimização resulta em dados prontos para uso em business intelligence, relatórios e análises operacionais. Com data warehouses, analistas e executivos podem gerar relatórios, monitorar KPIs e tomar decisões fundamentadas de forma rápida e fácil.
Vale observar que os data lakes desvendam novas oportunidades para aplicativos de IA e Machine Learning. Os vastos e variados conjuntos de dados armazenados permitem que os cientistas de dados encontrem tendências, criem modelos preditivos e executem aplicativos de Machine Learning. Isso resulta, por exemplo, em sistemas de recomendação que sugerem produtos a usuários com base em interações passadas ou ferramentas de processamento de linguagem natural que executam análises de opinião com base em avaliações de clientes ou comentários nas mídias sociais.
Hoje em dia, muitas empresas modernas executam arquiteturas de dados que consistem essencialmente de combinações dessas duas abordagens. Os data lakehouses têm como objetivo oferecer a flexibilidade de um data lake com a governança e o desempenho de um data warehouse. Embora a adoção esteja crescendo rapidamente, muitas empresas ainda dependem de repositórios tradicionais para gerar relatórios cruciais.
Exemplos e casos de uso reais
Aqui estão exemplos de como diferentes setores usam data lakes, data warehouses ou uma combinação de elementos de ambos para suprir as necessidades específicas de cada ramo de negócio.
Assistência médica: os hospitais geralmente usam uma arquitetura de data lake para armazenar, gerenciar e analisar as grandes quantidades e os diversos tipos de dados que suas operações geram. Isso inclui dados de dispositivos vestíveis não estruturados e imagens médicas, dados semiestruturados do paciente HL7 e resultados de testes de laboratório estruturados. Ao consolidar tudo isso em um repositório central, eles podem aplicar análises avançadas e IA aos dados brutos para, por exemplo, identificar pacientes em risco ou analisar a genômica a fim de personalizar planos de tratamento. Com pacientes utilizando dispositivos vestíveis inteligentes que transmitem continuamente dados de sinais vitais, os provedores de saúde podem identificar sinais precoces de risco e intervir de maneira mais ágil.
Finanças: Bancos e outras instituições financeiras devem cumprir regras de combate à lavagem de dinheiro (AML, na sigla em inglês) e os rígidos regulamentos de relatórios financeiros (como Sarbanes-Oxley, nos Estados Unidos, ou Basileia III internacionalmente). Ao usar data warehouses para armazenar dados financeiros estruturados de vários sistemas, incluindo registros de transações, saldos de contas e dados comerciais, essas empresas podem gerar relatórios regulatórios que atendem aos requisitos de governança e segurança. Além dos objetivos de compliance, as instituições financeiras também usam data warehouses para viabilizar atividades como business intelligence, gestão de riscos e detecção de fraudes, executando consultas complexas em conjuntos de dados históricos e atuais.
Mídia: Os serviços de streaming de vídeo usam abordagens de data lakehouse para coletar, armazenar e analisar dados de usuários a fim de proporcionar experiências personalizadas. Tais organizações recebem diversos tipos de dados de várias fontes, como logs de streaming e feedback coletado em mídias sociais, e os armazenam em um repositório central. Em seguida, esses dados podem ser usados para desenvolver modelos de Machine Learning que recomendam o conteúdo mais relevante. Os mesmos dados também podem ser agrupados e estruturados em subconjuntos para suprir necessidades de análises ou relatórios, alimentando dashboards sobre taxas de retenção ou fundamentando decisões sobre a aquisição de conteúdo.
Novas tendências em plataformas de dados
Rapidamente, os data lakehouses estão se tornando a opção preferida de empresas que buscam maximizar o valor de seus dados. Essa arquitetura híbrida comporta casos de uso de business intelligence, IA e Machine Learning em uma única plataforma. No entanto, deve-se observar que os data lakehouses ainda estão evoluindo e que algumas empresas continuam contando com data warehouses tradicionais para a geração de relatórios essenciais.
O potencial da IA como fator determinante de produtividade e eficiência influenciou principalmente as arquiteturas de dados, com a integração de novas plataformas de data lake e data lakehouse a LLMs, permitindo que usuários não técnicos explorem e analisem dados fazendo consultas em linguagem natural. Por exemplo, um usuário pode perguntar "mostre-me as tendências de vendas no 2º trimestre" e o LLM pode gerar um SQL que o sistema consegue entender. Isso democratiza o acesso a insights baseados em dados.
Arquiteturas sem servidor também estão surgindo como uma estratégia, na qual as empresas contratam um provedor de nuvem para gerenciar sua infraestrutura de dados. Nesse modelo, a empresa paga pelo acesso a uma plataforma de dados em vez de configurar e gerenciar a própria plataforma. As vantagens incluem escalabilidade facilitada e melhor custo-benefício. O provedor de nuvem fornece flexibilidade na largura de banda, em caso de picos de volume de dados ou no carregamento de consultas, e a empresa só paga pelo que usar. Desta forma, os desenvolvedores podem implementar mais rapidamente, pois não precisam se preocupar com considerações de infraestrutura.
Algumas empresas chegam a optar por uma estratégia multinuvem, distribuindo seus data lakes e data warehouses entre vários serviços de nuvem. O principal benefício dessa estratégia é a resiliência proporcionada pela redundância. Se uma nuvem ficar offline, a empresa poderá continuar operando em outra. Além disso, as empresas podem otimizar workflows específicos em determinadas nuvens tendo, por exemplo, um serviço de nuvem especializado em Machine Learning. Em alguns setores ou países, dados confidenciais devem ser armazenados em uma região ou provedor de nuvem que atenda aos requisitos locais de compliance.
Para conectar, gerenciar e governar dados em ambientes multinuvem, as empresas podem implementar arquiteturas de infraestrutura de dados, que fornecem acesso em tempo real a dados em sistemas e aplicativos distintos, porém sincronizados, criando uma visão unificada em toda a estrutura.
Para proteger dados confidenciais, como registros médicos, números de previdência social e códigos-fonte, as organizações também têm adotado políticas como controles de acesso de confiança zero em suas plataformas de dados. Esses controles exigem que todos os usuários tenham sua identidade verificada para acessar os dados de que precisam.
Perguntas frequentes
Data lakes são úteis para cientistas de dados que desejam treinar modelos de Machine Learning que alimentam sistemas de recomendação de conteúdo.
Data warehouse é um sistema de armazenamento desenvolvido principalmente para armazenar grandes volumes de dados estruturados, depurados, organizados e formatados de determinada maneira. (Pense nas linhas e colunas definidas de uma planilha eletrônica). Data warehouses mais modernos também podem processar determinados formatos semiestruturados, como JSON ou XML.
As empresas usam data warehouses para responder perguntas rapidamente, gerar relatórios e monitorar as principais métricas de desempenho. Essas funções são categorizadas como business intelligence.
Esquemas são regras que definem como os dados são organizados – por exemplo, o tipo de dados que podem ser armazenados (números, datas), como os dados são dispostos (tabelas e colunas) e como as informações se relacionam entre si.
Em um schema-on-write, os dados devem se encaixar em uma estrutura predefinida (esquema) antes de serem armazenados. Os data warehouses funcionam da seguinte maneira: eles garantem que os dados estejam depurados e prontos para análise desde o início.
Em um schema-on-read, a estrutura só será aplicada quando alguém quiser usar ou analisar os dados. Os data lakes funcionam da seguinte maneira: eles propiciam maior flexibilidade, pois você pode armazenar os dados em qualquer formato, sem precisar organizá-los antes. No entanto, as desvantagens desta abordagem incluem maior lentidão nas consultas e possíveis inconsistências, visto que diferentes usuários podem interpretar os mesmos dados brutos de maneiras distintas.
Por outro lado, o schema-on-write impõe consistência desde o início, mas reduz a flexibilidade.
Os dados estruturados são altamente organizados, fáceis de pesquisar e geralmente podem ser armazenados em tabelas, como nomes de clientes, números de vendas e datas.
Os dados não estruturados não têm formato fixo e são mais difíceis de organizar, como vídeos, imagens, arquivos de áudio e posts em mídias sociais.
Dados semiestruturados ficam em algum lugar entre os dois, pois estão organizados mas não de forma tão rígida quanto as tabelas. Encontramos dados semiestruturados em arquivos JSON, documentos XML e e-mails, por exemplo.