media-blend
text-black

Profissionais a analisar gráficos num ecrã interativo numa reunião de negócios

Lago de dados vs. armazém de dados

Os data lakes armazenam dados brutos no seu formato nativo, independentemente da forma como chegam. Os data warehouses armazenam dados que foram limpos e estruturados de uma forma predefinida.

default

{}

default

{}

primary

default

{}

secondary

Introdução a data lakes e data warehouses

Lagos de dados e armazéns de dados são sistemas que armazenam, gerem e recuperam grandes volumes de dados digitais. As empresas recolhem dados para obterem informações sobre as suas operações, clientes, mercados e cadeias de abastecimento, para que possam responder de forma mais estratégica.

Armazéns de dados surgiram como uma solução para eliminar silos de dados e responder ao desafio dos dados empresariais dispersos por vários sistemas, formatos e departamentos.

A inconsistência dificultava o acesso, a integração e a análise destes dados pelos utilizadores, impedindo-os de identificar padrões, prever a procura ou avaliar o desempenho do negócio. Os data warehouses foram desenvolvidos para consolidar estes dados num repositório centralizado, onde os dados podiam ser integrados, limpos e estruturados para análise. Esta abordagem estabeleceu uma “fonte única de verdade” para apoiar a conformidade, o monitorização de desempenho e os processos de inteligência empresarial.

Lagos de dados, por sua vez, surgiram como uma solução para as limitações dos armazéns de dados, que não conseguiam lidar adequadamente com a explosão de dados não estruturados e semi-estruturados gerados por novas fontes como redes sociais, dispositivos IoT, sensores, aplicações móveis e muito mais. Armazenar e processar enormes quantidades de dados diversificados, como imagens, vídeos e texto, revelou-se demasiado caro e ineficiente, uma vez que os armazéns de dados tradicionais exigiam inicialmente que os dados fossem limpos e processados antecipadamente, antes do armazenamento.

As empresas precisavam de uma forma mais flexível e de baixo custo para armazenar dados no seu formato bruto e original, e os data lakes foram criados como solução.

Atualmente, muitas empresas modernas adotam uma abordagem híbrida que envolve tanto armazéns de dados como data lakes: o data lakehouse. Esta arquitetura oferece tanto as capacidades rápidas e estruturadas de geração de relatórios do primeiro, como o potencial para aplicações de IA e aprendizagem automática do segundo.

Lagos de dados vs. armazéns de dados: principais diferenças

A principal diferença entre data lakes e data warehouses está no tipo de dados que armazenam e na forma como esses dados são armazenados, ambos desempenhando um papel fundamental na estratégia de dados de uma organização.

Os data warehouses armazenam dados estruturados que foram limpos e processados de acordo com uma estrutura ou esquema predefinido. Como o esquema é aplicado antes de os dados serem armazenados, esta abordagem é conhecida como esquema-em-escrita.

Por exemplo, um esquema pode exigir que o dado do ID do cliente seja um número inteiro, que o dado da data da encomenda esteja no formato AAAA-MM-DD e que o dado do valor total da venda esteja em formato decimal. Como todos os dados seguem estas regras, os utilizadores podem fazer perguntas como “encontrar o total de vendas por cliente em abril de 2025” de forma rápida e fiável. Esta velocidade e precisão tornam os data warehouses ideais para relatórios, dashboards e casos de uso de business intelligence.

Em contraste, os data lakes podem armazenar dados brutos no seu formato original, independentemente de como estão estruturados. Não é necessário um esquema predefinido antecipadamente.

O esquema só é definido quando os dados são consultados, por isso esta abordagem é conhecida como esquema em leitura. Só então os dados brutos são analisados, estruturados e interpretados de acordo com a consulta.

Para resumir, os data warehouses aplicam um esquema antes de armazenar os dados para garantir que todos os dados estejam estruturados e limpos para utilização. Os data lakes aplicam o esquema quando os dados são consultados e podem armazenar qualquer tipo de dados, estruturados ou não, desde o início.

Diferenças entre data lakes e data warehouses

Lagos de dados
Armazéns de dados
Tipo de dados
Armazena dados estruturados, semi-estruturados e não estruturados (por exemplo, registos, vídeos, texto).
Armazena apenas dados estruturados (por exemplo, transações de vendas, dados financeiros).
Esquema
Schema-on-read: o esquema é aplicado quando os dados são consultados.
Schema-on-write: o esquema é aplicado antes de os dados serem armazenados.
Utilizadores
Cientistas de dados, engenheiros e analistas que exploram padrões, treinam modelos ou executam fluxos de trabalho de aprendizagem automática.
Analistas de negócios, executivos e equipas de operações a gerar relatórios e KPIs.
Finalidade
Armazenamento flexível para grandes volumes de dados brutos e diversificados, utilizado para exploração de dados, IA e aprendizagem automática.
Repositório centralizado para dados estruturados e processados, utilizado para relatórios, dashboards e inteligência de negócios.
Custo
Armazenamento de objetos de baixo custo
Custos mais elevados de armazenamento e processamento devido à pré-processamento e otimização.

Escolher entre data lakes e data warehouses

Como os data lakes podem armazenar dados brutos em qualquer formato, são ideais para empresas que necessitam de flexibilidade. Os retalhistas, por exemplo, recolhem grandes quantidades de dados a partir de várias fontes, como websites, aplicações móveis, redes sociais, sistemas de ponto de venda e outras. Como os dados que recolhem não precisam de ser limpos, transformados ou estruturados, podem utilizar sistemas de armazenamento mais económicos que escalam facilmente. No entanto, o custo de processar dados brutos no momento da consulta pode ser mais elevado em comparação com as consultas otimizadas de um data warehouse.

Em comparação, os custos serão mais elevados com os armazéns de dados. Os processos de limpeza, transformação e estruturação antes do carregamento—bem como a indexação e a partição após o carregamento—exigem recursos e armazenamento adicionais para funcionar. No entanto, esta otimização resulta em dados prontos a usar para inteligência empresarial, relatórios e análises operacionais. Com os armazéns de dados, analistas e executivos podem gerar relatórios, monitorizar KPIs e tomar decisões informadas de forma rápida e fácil.

É importante notar que os data lakes abrem novas oportunidades para aplicações de IA e aprendizagem automática. Os vastos e variados conjuntos de dados que armazenam permitem aos cientistas de dados identificar tendências, construir modelos preditivos e executar aplicações de aprendizagem automática. Isto resulta, por exemplo, em sistemas de recomendação que sugerem produtos aos utilizadores com base em interações anteriores ou em ferramentas de processamento de linguagem natural que realizam análises de sentimento sobre avaliações de clientes ou comentários em redes sociais.

Atualmente, muitas empresas modernas utilizam arquiteturas de dados que são, essencialmente, combinações de ambas. Estes data lakehouses têm como objetivo oferecer a flexibilidade de um data lake com a governação e o desempenho de um data warehouse. Embora a adoção esteja a crescer rapidamente, muitas empresas ainda dependem de armazéns tradicionais para relatórios críticos.

Exemplos e casos de uso do mundo real

Aqui estão exemplos de como diferentes setores utilizam data lakes, data warehouses ou uma combinação de elementos de ambos para apoiar as suas necessidades específicas.

Cuidados de saúde: Os hospitais utilizam frequentemente uma arquitetura de data lake para armazenar, gerir e analisar as grandes quantidades e os diversos tipos de dados gerados pelas suas operações. Isto inclui dados não estruturados de dispositivos vestíveis e imagens médicas, dados de pacientes HL7 semi-estruturados e resultados de testes laboratoriais estruturados. Ao consolidar tudo num repositório central, podem aplicar análises avançadas e IA aos dados brutos para, por exemplo, identificar pacientes em risco ou analisar genómica para personalizar planos de tratamento. Com os pacientes agora equipados com dispositivos “inteligentes” vestíveis que transmitem dados sobre sinais vitais, os profissionais de saúde podem até detetar sinais de alerta precoce e intervir mais rapidamente.

Finanças: Os bancos e outras instituições financeiras devem cumprir as regras de prevenção de branqueamento de capitais (AML) e regulamentos rigorosos de reporte financeiro (como o Sarbanes-Oxley nos EUA ou o Basileia III a nível internacional). Ao utilizar armazéns de dados para armazenar dados financeiros estruturados provenientes de vários sistemas, incluindo registos de transações, saldos de contas e dados de negociação, podem gerar relatórios regulamentares que cumprem os requisitos de governação e segurança. Para além do cumprimento das normas, as instituições financeiras também utilizam armazéns de dados para potenciar a sua inteligência empresarial, gerir o risco e detetar fraudes, executando consultas complexas sobre conjuntos de dados históricos e atuais.

Média: Os serviços de streaming de vídeo utilizam uma abordagem de data lakehouse para recolher, armazenar e analisar dados dos utilizadores, de modo a oferecer experiências personalizadas. Eles recolhem diversos tipos de dados de várias fontes, como registos de streaming e feedback das redes sociais, e armazenam-nos num repositório central. Estes dados podem então ser utilizados para criar modelos de aprendizagem automática que recomendam o conteúdo mais relevante. Os mesmos dados também podem ser organizados e estruturados em subconjuntos para necessidades de análise ou relatórios, alimentando painéis sobre taxas de retenção ou informando decisões sobre aquisições de conteúdos.

Tendências emergentes em plataformas de dados

Os data lakehouses estão rapidamente a tornar-se a opção preferida para as empresas que procuram maximizar o valor dos seus dados. Podem suportar tanto casos de uso de business intelligence como de IA e aprendizagem automática numa única plataforma. No entanto, é importante notar que estas ainda estão em evolução e que algumas empresas continuam a depender de armazéns de dados tradicionais para relatórios críticos para o negócio.

O potencial da IA como motor de produtividade e eficiência influenciou especialmente as arquiteturas de dados, com algumas plataformas emergentes de data lake e data lakehouse agora integradas com LLMs. Isto permite que utilizadores sem conhecimentos técnicos explorem e analisem dados fazendo perguntas em linguagem simples. Por exemplo, uma pessoa utilizadora pode pedir “mostra-me as tendências de vendas no segundo trimestre” e o LLM pode gerar SQL que o sistema consegue compreender. Isto democratiza o acesso a informações baseadas em dados.

As arquiteturas serverless também estão a emergir como uma estratégia, onde as empresas contratam um fornecedor de cloud para gerir a sua infraestrutura de dados. Nesta modalidade, uma empresa paga pelo acesso a uma plataforma de dados em vez de criar e gerir a sua própria. As vantagens disto são uma escalabilidade mais fácil e eficiência de custos. O fornecedor de cloud oferece flexibilidade na largura de banda em caso de picos no volume de dados ou na carga de consultas, e a empresa só paga pelo que utiliza. Desta forma, os programadores podem implementar mais rapidamente, pois não têm de se preocupar com questões de infraestrutura.

Algumas empresas optam até por uma estratégia multi-nuvem, distribuindo os seus data lakes e armazéns de dados por vários serviços de cloud. O principal benefício é a resiliência na redundância. Se uma nuvem ficar offline, a empresa pode continuar a funcionar noutra. Também podem otimizar fluxos de trabalho específicos em determinadas clouds, como, por exemplo, se um serviço for especializado em aprendizagem automática. Em alguns setores ou países, os dados sensíveis devem ser armazenados numa região ou fornecedor de cloud que cumpra os requisitos de conformidade locais.

Para ligar, gerir e governar dados em vários ambientes de cloud, as empresas podem implementar arquiteturas de data fabric. Proporcionam acesso em tempo real a dados entre sistemas e aplicações separados mas sincronizados, criando uma visão unificada de todo o panorama.

Para proteger dados sensíveis como registos médicos, números de segurança social e códigos-fonte, as organizações estão também a adotar políticas como controlos de acesso de confiança zero nas suas plataformas de dados. Estes controlos exigem que todos os utilizadores verifiquem a sua identidade para acederem aos dados de que necessitam.

Perguntas frequentes

O que é um data lake?
Um data lake é um sistema de armazenamento concebido para guardar grandes volumes de dados brutos no seu formato original, como números, texto, imagens, vídeos ou registos. Pense nisto como um grande “reservatório digital” onde todo o tipo de informação pode fluir sem ter de ser organizada de imediato.

Os data lakes são úteis para cientistas de dados que pretendem treinar modelos de aprendizagem automática que alimentam sistemas de recomendação de conteúdos.
O que é um data warehouse?

Um armazém de dados é um sistema de armazenamento concebido principalmente para guardar grandes volumes de dados estruturados. Os dados estruturados são limpos, organizados e formatados de uma determinada forma. (Pense nas linhas e colunas definidas de uma folha de cálculo). Armazéns mais modernos também conseguem lidar com certos formatos semi-estruturados, como JSON ou XML.

As empresas utilizam armazéns de dados para responder rapidamente a perguntas, gerar relatórios e acompanhar métricas-chave de desempenho. Estas funções estão categorizadas como inteligência empresarial.

O que é um data lakehouse?
Um data lakehouse é uma plataforma de dados moderna que combina o melhor dos data lakes e dos data warehouses. Pode armazenar todos os tipos de dados—brutos, não estruturados ou semi-estruturados—sem necessidade de os organizar previamente. Permite uma análise e elaboração de relatórios rápida e estruturada quando necessário.
O que é um esquema? Qual é a diferença entre schema-on-read e schema-on-write?

Os esquemas são regras para a forma como os dados são organizados, como por exemplo que tipo de dados podem ser armazenados (números, datas), como os dados são dispostos (tabelas e colunas) e como a informação se relaciona entre si.

Schema-on-write significa que os dados devem encaixar-se numa estrutura predefinida (esquema) antes de serem armazenados. É assim que funcionam os armazéns de dados. Garantem que os dados estão limpos e prontos para análise desde o início.

Schema-on-read significa que a estrutura só é aplicada quando alguém deseja utilizar ou analisar os dados. É assim que funcionam os data lakes. Permitem mais flexibilidade, uma vez que os dados podem ser armazenados em qualquer formato inicialmente, e não é necessário organizá-los de imediato. No entanto, as desvantagens desta abordagem incluem tempos de consulta mais lentos e potencial inconsistência, uma vez que diferentes utilizadores podem interpretar os mesmos dados brutos de forma diferente.

Por contraste, o schema-on-write impõe a consistência desde o início, mas reduz a flexibilidade.

Qual é a diferença entre dados estruturados, não estruturados e semi-estruturados?

Os dados estruturados são altamente organizados, fáceis de pesquisar e geralmente podem ser armazenados em tabelas, como nomes de clientes, números de vendas e datas.

Dados não estruturados não têm um formato fixo e são mais difíceis de organizar, como vídeos, imagens, ficheiros de áudio e publicações em redes sociais.

Os dados semi-estruturados situam-se algures entre os dois. Tem alguma organização, mas não é tão rigorosa como as tabelas. Pense em ficheiros JSON, documentos XML e e-mails.

Logótipo da SAP

Maximize o valor dos seus dados

Reúna tudo com o SAP Business Data Cloud.

Saiba mais