flex-height
text-black

Homem a caminhar por uma sala de servidores

O que é um data lake?

Um data lake é um repositório centralizado de dados que ajuda a resolver problemas de silos de dados.

default

{}

default

{}

primary

default

{}

secondary

O que é um data lake: definição e finalidade

Um data lake é um repositório centralizado que armazena dados estruturados, semi-estruturados e não estruturados nos seus formatos nativos. Ao contrário de outros sistemas de armazenamento, que exigem que os dados sejam organizados antes de serem armazenados (por exemplo, armazéns de dados), um data lake aceita os dados brutos tal como estão, preservando a sua estrutura e formato original até serem necessários para análises avançadas, inteligência artificial (IA) e casos de uso de aprendizagem automática (ML).

O principal objetivo de um data lake é eliminar silos de dados e criar uma fonte única para os ativos de dados de uma organização. Envolve a consolidação de dados provenientes de várias fontes num único local acessível—o data lake—o que significa que cientistas de dados, analistas e engenheiros de aprendizagem automática podem todos explorar, experimentar e extrair valor de informações que, de outra forma, poderiam ter permanecido presas em sistemas distintos. Exemplos de fontes de dados que podem ser armazenados num data lake incluem:

O objetivo de um data lake é fornecer uma solução flexível e escalável para armazenar e analisar dados de todos os tipos. Isto é possível graças à abordagem schema-on-read (vs. schema-on-write, como utilizado em armazéns de dados).

O que significa schema-on-read?

Schema-on-read significa que a estrutura e o significado dos dados—o esquema—são aplicados quando os dados são acedidos, em vez de quando são armazenados. Isto preserva a flexibilidade, permitindo que as organizações armazenem dados sem saber exatamente como serão utilizados no futuro. É por isso que os data lakes são ideais para análises exploratórias, mineração de dados, aprendizagem automática e para descobrir padrões inesperados nos dados.

Arquitetura e componentes de data lake

A arquitetura de data lake é composta por várias camadas e inclui vários componentes-chave que trabalham em conjunto para receber, armazenar, processar e fornecer dados aos utilizadores finais e aplicações. Estes são os principais componentes de um data lake:

Camada de armazenamento

A camada de armazenamento é a base de uma arquitetura de data lake, normalmente construída sobre sistemas de armazenamento de objetos que oferecem armazenamento escalável e económico para volumes massivos de dados. Esta camada armazena dados no seu formato nativo, seja ficheiros CSV, documentos JSON, ficheiros Parquet, imagens, vídeos ou qualquer outro formato.

Ingestão de dados

A camada de ingestão de dados gere o processo de trazer dados para o lago a partir de várias fontes. Isto inclui a ingestão em lote para cargas periódicas de dados e a ingestão em fluxo contínuo para fluxos de dados em tempo real. As ferramentas de ingestão de dados devem lidar com diversos tipos e fontes de dados, garantindo a integridade dos dados e o rastreamento da linhagem dos dados.

Catálogo de dados e gestão de metadados

O componente de catalogação e gestão de metadados mantém um inventário organizado dos dados existentes no lago, incluindo a sua localização, significado e relações com outros dados. Pense nisto como um gestor de catálogo de biblioteca ou arquivo. Um catálogo de dados robusto funciona como um índice pesquisável, permitindo que os utilizadores descubram conjuntos de dados relevantes sem terem de navegar manualmente por todo o repositório.

Camada de processamento

A camada de processamento permite a transformação, limpeza, enriquecimento e análise de dados. Esta camada inclui motores para processamento em lote, processamento em fluxo e consultas interativas, permitindo aos utilizadores prepararem-se para casos de uso específicos ou realizarem análises ad hoc.

Camada de acesso

A camada de acesso fornece interfaces e ferramentas para diferentes tipos de utilizadores: cientistas de dados que utilizam notebooks, analistas que executam consultas SQL ou aplicações que consomem dados através de APIs. Esta camada também impõe políticas de segurança, gerindo quem pode aceder a que dados e em que condições.

Tipos de data lakes: cloud, on-premises, híbrido, multi-cloud

Existem diferentes tipos de data lakes, dependendo da configuração em que a organização os implementa. Cada configuração oferece certas vantagens e compromissos.

Lagos de dados na cloud

Os data lakes na cloud são alojados inteiramente em plataformas na nuvem. Podem oferecer escalabilidade praticamente ilimitada, preços pay-as-you-go e integração fácil com serviços de análise e IA nativos da cloud. Os data lakes na cloud eliminam a necessidade de investimento inicial em infraestruturas, permitindo que as organizações escalem os recursos de armazenamento e computação de forma independente. São particularmente adequados para organizações em crescimento e para quem procura reduzir os custos operacionais, mantendo o acesso a capacidades analíticas de ponta.

Lagos de dados locais

Os data lakes locais são implementados nos próprios centros de dados de uma organização, proporcionando controlo total sobre—e total responsabilidade pela—infrastrutura, segurança e soberania dos dados. Embora por vezes sejam utilizados por organizações com requisitos regulatórios e de segurança muito específicos, os data lakes locais tendem a exigir investimentos de capital significativos, manutenção contínua e um esforço considerável para quaisquer projetos de transformação. Muitas vezes, trata-se de um compromisso: aumentar a granularidade do controlo implica sacrificar a escalabilidade e a eficiência de custos.

Lagos de dados híbridos

Os lagos de dados híbridos combinam armazenamento na cloud e local, permitindo que as organizações mantenham alguns dados localmente enquanto utilizam recursos da cloud para escalabilidade e análises avançadas. Esta abordagem oferece flexibilidade, mas introduz complexidade na sincronização de dados, na governação e na gestão de uma experiência consistente entre ambientes.

Lagos de dados multi-cloud

Os data lakes multi-cloud abrangem vários fornecedores de cloud, ajudando as organizações a evitar o bloqueio de fornecedor, a otimizar custos utilizando os melhores serviços de cada fornecedor e a garantir a continuidade do negócio através da redundância. No entanto, as arquiteturas multi-cloud exigem um planeamento cuidadoso em relação à interoperabilidade dos dados, políticas de segurança consistentes e à gestão dos custos de transferência de dados entre fornecedores de cloud. Podem também tornar a introdução de mudanças ou inovações num processo mais complexo.

Data lake vs. data warehouse vs. data lakehouse

Compreender as diferenças entre estas abordagens de armazenamento de dados é essencial para escolher as soluções certas para os objetivos da sua organização. Vamos comparar lakes de dados, armazéns de dados e lakehouses de dados em vários critérios-chave:

Característica
Data lake
Data warehouse
Data lakehouse
Esquema
Esquema em leitura
Esquema na escrita
Flexível com estrutura opcional
Tipos de dados
Estruturado, semi-estruturado, não estruturado
Principalmente estruturado (ocasionalmente, semi-estruturado)
Todos os tipos com gestão de tabelas
Custo típico de armazenamento
Baixo custo de armazenamento
Custo de armazenamento mais elevado
Custo moderado
Utilizadores principais
Cientistas de dados e engenheiros, engenheiros de ML, analistas
Analistas de negócios, executivos, cientistas de dados
Todos os tipos de utilizadores
Casos de utilização
Exploração, ML, análises avançadas, IA, armazenamento escalável até processamento posterior
Otimizado para consultas e algoritmos específicos
Análise e relatórios unificados
Desempenho
Variável, dependendo do motor de processamento
Otimizado para consultas
Alto desempenho com governação incorporada
Qualidade dos dados
Dados brutos de qualidade variada
Dados limpos e validados
Qualidade garantida com alguma flexibilidade

Como é que isso se apresenta na prática?

Lagos de dados destacam-se por armazenar grandes volumes de dados brutos de forma económica e suportam análises exploratórias e aprendizagem automática. São ideais quando precisa de flexibilidade para trabalhar com diversos tipos de dados e não sabe antecipadamente como os dados serão utilizados. Também podem armazenar dados, que são depois transferidos para armazéns de dados.

Armazéns de dados são concebidos especificamente para inteligência empresarial e relatórios, com esquemas estruturados otimizados para o desempenho das consultas. São mais adequados para necessidades de relatório e modelação bem definidas, onde a qualidade dos dados e a consistência são fundamentais—por exemplo, para utilização em análises preditivas. Na prática, os dados acumulados em data lakes podem até ser processados e transmitidos em fluxo contínuo ou regularmente transferidos para data warehouses, dependendo de como as pipelines de dados estão configuradas.

Data lakehouses representam uma arquitetura mais recente que combina a flexibilidade dos data lakes com as capacidades de gestão e o desempenho dos data warehouses. Permitem que as organizações realizem tanto análises exploratórias como relatórios de negócios na mesma plataforma, reduzindo a duplicação de dados e a complexidade.

Vantagens dos data lakes

Os benefícios dos data lakes são o que os torna uma escolha tão atrativa para as organizações e uma pedra angular da arquitetura de dados moderna. As vantagens da arquitetura de data lake incluem:

Flexibilidade: Os data lakes aceitam qualquer tipo de dados em qualquer formato, eliminando a necessidade de transformar os dados antes de os armazenar ou de lidar com a perda de alguns dados. Isto significa que pode começar a recolher dados imediatamente, sem necessidade de um planeamento prévio extensivo ou de saber como os irá utilizar. A abordagem schema-on-read permite que diferentes equipas utilizem e interpretem os mesmos dados de várias formas, promovendo a inovação e a descoberta.

Escalabilidade: Com os data lakes, o armazenamento pode crescer de gigabytes para petabytes sem necessidade de alterações na arquitetura ou migrações, especialmente com implementações baseadas na cloud. As organizações podem começar de forma modesta e expandir à medida que as suas necessidades de dados aumentam.

Eficiência de custos: Um dos benefícios dos data lakes para armazenamento é que normalmente custam significativamente menos do que os data warehouses tradicionais para a mesma quantidade de armazenamento, tornando economicamente viável reter dados históricos e explorar novas fontes de dados sem ultrapassar os limites orçamentais.

Suporte a análises avançadas: Os data lakes permitem que cientistas de dados e engenheiros de machine learning acedam a dados brutos para construir e treinar modelos, mineração de dados e outras tarefas avançadas. Ao contrário dos dados processados em armazéns, a recolha de dados brutos preserva nuances e detalhes que podem ser cruciais para previsões e insights precisos. Os data lakes também suportam análises em tempo real ao ingerir dados em streaming, permitindo que as organizações ajam com base em informações recentes.

Democratização de dados: Outra vantagem da arquitetura de data lake é que, quando todos os dados da organização estão armazenados num único local acessível, mais pessoas em toda a organização podem descobrir e utilizar os dados, eliminando silos e promovendo a tomada de decisões baseada em dados a todos os níveis.

Desafios comuns dos data lakes

Embora os data lakes ofereçam benefícios enormes, também apresentam desafios que as organizações precisam enfrentar para concretizar plenamente o seu potencial. Os desafios comuns de um data lake incluem:

Governação complexa de data lake

A governação de dados torna-se mais complexa ao armazenar grandes quantidades de dados diversificados. Sem estruturas de governação adequadas, os data lakes podem transformar-se em "pântanos de dados"—repositórios onde os dados são depositados sem qualquer organização, tornando difícil encontrá-los, compreendê-los ou confiar neles. Estabelecer uma propriedade clara, documentar a linhagem dos dados e gerir metadados são essenciais, mas exigem esforço contínuo e disciplina.

Preocupações com a segurança dos dados

A segurança e o controlo de acesso requerem uma atenção cuidadosa. Os data lakes contêm informações sensíveis de toda a organização e garantir que apenas utilizadores autorizados possam aceder a conjuntos de dados específicos, mantendo registos de auditoria, exige políticas e ferramentas de segurança robustas. Encriptação, autenticação, controlos de acesso granulares e mascaramento de dados desempenham papéis importantes na proteção de ambientes de data lake e na prevenção de problemas de gestão de data lake.

Qualidade de dados desigual

A qualidade dos dados não é automaticamente garantida nos data lakes. Como os dados brutos são armazenados tal como estão, podem conter erros, duplicados ou inconsistências. As organizações precisam de processos para validar, limpar e enriquecer estes dados antes de serem utilizados para análises. Sem atenção à qualidade dos dados, as análises e os modelos de ML construídos com base em dados de lago podem produzir resultados pouco fiáveis.

Problemas de gestão de data lake

Os requisitos de complexidade e especialização não devem ser subestimados. Gerir um data lake de forma eficaz requer competências em sistemas distribuídos, engenharia de dados, gestão de metadados e vários frameworks de processamento. As organizações podem precisar investir em formação, contratar talento especializado ou estabelecer parcerias com um fornecedor de serviços especializado para construir e manter a sua infraestrutura de data lake.

Tempos de consulta prolongados

A otimização de desempenho pode ser complicada, especialmente para consultas interativas em grandes conjuntos de dados. Ao contrário dos armazéns de dados com esquemas pré-otimizados, os data lakes exigem uma organização cuidadosa dos dados, estratégias de partição e escolha de formatos de ficheiro para alcançar um desempenho de consulta aceitável. Para simplificar, os data lakes podem conter volumes de dados inconcebivelmente vastos, por isso encontrar o que precisa pode demorar algum tempo.

Exemplos de data lakes e casos práticos de utilização

Exemplos reais de utilização de data lakes demonstram como as organizações utilizam data lakes para enfrentar desafios empresariais e obter vantagens competitivas. Vamos analisar alguns dos casos de uso comuns de data lakes.

Caso de uso de data lakes: Análise de IoT para manutenção preditiva

Uma empresa de manufatura recolhe dados de sensores de milhares de máquinas em várias instalações, gerando terabytes de dados em séries temporais diariamente. Ao transmitir estes dados para um data lake, combinam-nos com registos de manutenção, cronogramas de produção e informações de fornecedores. Os modelos de aprendizagem automática analisam padrões históricos para prever falhas de equipamentos antes que ocorram, reduzindo o tempo de inatividade e poupando milhões em custos de reparação. A capacidade do data lake de lidar com dados em fluxo de alta velocidade provenientes de várias fontes permite este caso de uso.

Caso de uso de data lakes: Customer 360 para marketing personalizado

Uma organização de retalho consolida dados de clientes provenientes do comportamento de navegação online, histórico de compras, interações na aplicação móvel, chamadas e conversas com o serviço de apoio ao cliente, envolvimento nas redes sociais e visitas em loja num data lake. Ao analisar esta visão abrangente de cada cliente, podem criar segmentos detalhados e personalizar campanhas de marketing, recomendações de produtos e experiências do cliente. Isto pode aumentar a eficácia da campanha e melhorar significativamente a satisfação do cliente. Neste exemplo de data lake, a flexibilidade e a capacidade para armazenar tanto dados transacionais estruturados como registos de interações não estruturados permitem esta visão holística do cliente.

Caso de utilização de data lakes: Modelação de risco em serviços financeiros

Uma instituição financeira utiliza um data lake para agregar dados de negociação, feeds de mercado, artigos de notícias, sentimento das redes sociais e declarações regulatórias. Os cientistas de dados constroem modelos de risco sofisticados que consideram tanto os indicadores financeiros tradicionais como fontes de dados adicionais. A abordagem schema-on-read do lago permite-lhes explorar várias fontes de dados e técnicas de modelação sem perturbar os sistemas existentes, ajudando-os a alcançar avaliações de risco mais precisas.

Boas práticas para data lakes

A implementação das seguintes melhores práticas para data lakes pode ajudar as organizações a maximizar o valor dos seus data lakes, evitando ao mesmo tempo erros comuns:

  1. Dê prioridade à gestão de metadados desde o primeiro dia. Crie um catálogo de dados abrangente que documente que dados existem, de onde vieram, o que significam e como se relacionam com outros conjuntos de dados. Metadados de qualidade transformam um data lake num recurso pesquisável e compreensível, em vez de um repositório de dados avassalador—são uma parte essencial da gestão de data lakes.
  2. Assegure a governação do data lake. Implemente estruturas robustas de governação de dados que definam a propriedade dos dados, estabeleçam padrões de qualidade e criem processos claros para a ingestão, classificação e gestão do ciclo de vida dos dados. A governação não deve ser uma reflexão tardia—integre-a na arquitetura do seu data lake desde o início para ajudar a manter a confiança nos seus dados e garantir o cumprimento dos requisitos regulamentares.
  3. Proteja os seus dados. Projete para segurança e conformidade implementando encriptação em repouso e em trânsito, controlos de acesso granulares, registo de auditoria e mascaramento de dados quando necessário. Revise regularmente os padrões de acesso e as permissões para garantir que estejam em conformidade com o princípio do menor privilégio.
  4. Otimize o desempenho. Organize o armazenamento de forma otimizada, particionando os dados logicamente (por data, região ou outras dimensões relevantes), escolhendo formatos de ficheiro eficientes para cargas de trabalho analíticas e implementando políticas de ciclo de vida para arquivar ou eliminar dados desatualizados. Estas escolhas têm um impacto significativo tanto no custo como no desempenho das consultas.
  5. Promova uma cultura orientada por dados. Torne os dados descobertos e acessíveis, fornecendo formação e ferramentas que possibilitam a análise de dados de forma autónoma. Se a sua equipa não tiver a experiência adequada, considere contratar talentos adicionais que possam fazer a ponte entre as partes interessadas do negócio e a tecnologia, garantindo uma gestão ótima do data lake. A infraestrutura técnica só tem valor se as pessoas realmente a utilizarem para tomar melhores decisões.

O futuro dos data lakes

A evolução dos data lakes continua à medida que as organizações exigem tanto flexibilidade como governação, levando ao surgimento de arquiteturas data lakehouse que combinam os melhores aspetos dos lakes e dos warehouses. Esta convergência reflete uma compreensão crescente de que as organizações necessitam de plataformas unificadas que apoiem abordagens diversas, em vez de manterem sistemas separados para diferentes finalidades.

A inteligência artificial e o machine learning estão a tornar-se cada vez mais centrais nas estratégias de data lake. Os data lakes modernos não são apenas repositórios de armazenamento—são plataformas centrais onde modelos de IA são treinados com dados históricos, fazem previsões utilizando dados em streaming e melhoram continuamente através de ciclos de feedback. A integração com plataformas de IA e capacidades automatizadas de ML está a tornar-se a norma em vez da exceção.

À medida que as organizações reconhecem o valor de agir com base em dados recentes, a análise em tempo real e de streaming continua a ganhar destaque. Como resultado, os data lakes estão a evoluir para suportar o processamento e a consulta de dados em subsegundos, esbatendo a linha entre a análise histórica e as operações em tempo real.

Por fim, à medida que os regulamentos de privacidade de dados se expandem e mudam em todo o mundo, os data lakes devem evoluir para suportar a privacidade e proteção de dados desde a conceção, com capacidades como classificação automática de dados, gestão de consentimento e relatórios de conformidade simplificados integrados na plataforma, em vez de serem adicionados posteriormente.

O futuro dos data lakes reside na flexibilidade, acessibilidade e automação: características que facilitam a gestão de volumes crescentes de dados pelas organizações, mantendo a segurança, qualidade e governação. Os data lakes devem ser encarados como um ativo estratégico que requer investimento e atenção contínuos.

Perguntas frequentes

Porque é que se chama "lago de dados"?
O termo "lago de dados" utiliza uma metáfora natural—tal como muitos riachos desaguam num único lago, dados de várias fontes fluem para um repositório centralizado. Tal como um lago natural que armazena água no seu estado original, em vez de filtrada e purificada, um data lake armazena dados no seu formato nativo sem exigir transformação ou estrutura. A metáfora enfatiza a capacidade do lago de armazenar grandes volumes de dados diversificados no seu estado “natural” e de ser utilizado para vários fins, tal como a água de um lago serve para muitos usos. Em comparação, um armazém teria água que foi filtrada, engarrafada e rotulada, possivelmente até organizada por tamanho da garrafa ou equilíbrio de pH.
O que é um data warehouse e em que difere de um data lake?
Um data warehouse é um repositório estruturado, enquanto um data lake é uma abordagem de armazenamento que permite a ingestão e o armazenamento de todos os tipos de dados, sejam eles estruturados ou não estruturados. A principal diferença entre data lakes e data warehouses está na sua abordagem: os data warehouses utilizam schema-on-write (os dados têm de ser estruturados antes do armazenamento), enquanto os data lakes utilizam schema-on-read (a estrutura é aplicada quando os dados são acedidos). Os armazéns de dados são otimizados para necessidades de relatórios e consultas conhecidas, enquanto os data lakes suportam análise exploratória e aprendizagem automática em dados brutos. Pense nos armazéns como especializados em responder rapidamente a questões empresariais específicas, enquanto os lagos de dados são concebidos para flexibilidade, capacidade e para descobrir novas questões a colocar.
O que é a gestão de dados num data lake?
A gestão de dados num data lake abrange várias atividades críticas. A catalogação e a gestão de metadados garantem que os utilizadores possam encontrar e compreender os conjuntos de dados disponíveis. A governação estabelece políticas para a propriedade dos dados, padrões de qualidade e controlos de acesso. A gestão de acessos e o rastreamento de linhagem mostram quem acedeu a que dados e como estes foram transformados ou utilizados. As políticas de ciclo de vida e retenção determinam durante quanto tempo os dados são mantidos e quando devem ser arquivados ou eliminados. Uma gestão eficaz do data lake evita que os data lakes se transformem em "pântanos de dados" desorganizados e reduz os problemas de gestão do data lake.
O que é um data lakehouse?
Um data lakehouse é uma arquitetura moderna que combina a flexibilidade e o custo-eficácia dos data lakes com a estrutura e o desempenho dos data warehouses. Os lakehouses permitem que as organizações armazenem dados brutos no seu formato nativo (como num lago), ao mesmo tempo que suportam estruturas semelhantes a tabelas, aplicação de esquemas e desempenho de consulta otimizado (como num armazém). Esta abordagem unificada elimina a necessidade de duplicar dados entre sistemas separados de data lake e data warehouse, simplificando a arquitetura e reduzindo custos, ao mesmo tempo que suporta tanto análises exploratórias como relatórios de negócios na mesma plataforma.
O que é multi-cloud para data lakes?
Um data lake multi-nuvem abrange dois ou mais fornecedores de serviços em nuvem. As organizações adotam estratégias multi-cloud para evitar o bloqueio de fornecedor, otimizar custos ao aproveitar os melhores serviços de cada fornecedor, garantir a continuidade do negócio através de redundância e cumprir os requisitos de residência de dados em diferentes regiões. No entanto, as arquiteturas multi-cloud introduzem desafios relacionados com a interoperabilidade de dados, a manutenção de políticas de segurança consistentes e a gestão dos custos de transferência de dados entre clouds.
O que é o armazenamento de objetos num data lake?
O armazenamento de objetos é a camada de armazenamento fundamental que guarda os dados num data lake. Ao contrário dos sistemas de ficheiros que organizam os dados em pastas hierárquicas, o armazenamento de objetos guarda os dados como objetos individuais, cada um com identificadores únicos, metadados e os próprios dados. O armazenamento de objetos é altamente escalável e económico, tornando-o ideal para armazenar volumes massivos de dados em formatos nativos.