Ir para o conteúdo
Data lake

O que é data lake?

Em essência, o data lake é um repositório de informações. Confunde-se muito data lake com data warehouse, embora ambos atendam a necessidades de negócios distintas e tenham arquiteturas diferentes. Especificamente, o data lake na nuvem é um componente vital da moderna estratégia de gerenciamento de dados, pois a proliferação de dados sociais, transacionais e da Internet das Coisas (IoT) continua evoluindo. A capacidade de armazenar, transformar e analisar qualquer tipo de dado abre caminho para novas oportunidades de negócios e para a transformação digital – e aí reside a função do data lake.

90

%

das instituições financeiras acreditam que as iniciativas de Big Data determinam o sucesso futuro

64,2

zetabytes de dados digitais foram criados em 2020

17,6

bilhões de dólares é o valor estimado do mercado de data lake até 2026

Definição de data lake

Data lake é um repositório central de dados que ajuda na resolução de problemas de silos de dados. É importante ressaltar que o data lake armazena grande quantidade de dados brutos em formato nativo ou original. Esse formato pode ser estruturado, não estruturado ou semiestruturado. Data lakes, principalmente os da nuvem, são de baixo custo, facilmente escaláveis e muito usados em funções analíticas com aplicação de Machine Learning.

Data lake vs. data warehouse

Ao contrário do data lake, o data warehouse oferece recursos de gerenciamento de dados e armazena dados processados e filtrados já prontos para uso ou para perguntas de negócios predefinidas.

Data lake x data warehouse

Diagrama do data warehouse comparado com o data lake.

Em geral, data lakes e warehouses são complementares. Por exemplo, quando necessários para responder a uma pergunta de negócio, os dados brutos armazenados no data lake podem ser extraídos, limpos, transformados e usados no data warehouse para análise complementar.

 

O “data lakehouse” é um novo conceito em evolução que adiciona recursos de gerenciamento de dados ao data lake tradicional. Em essência, é a combinação do data lake com o data warehouse. 

 

Além do tipo de dado e das diferenças do processo acima mencionados, aqui estão alguns detalhes da comparação do data lake com a solução de data warehouse.

Edit Table Feature Comparison Component

Em última análise, o volume de dados, o desempenho do banco de dados e o custo do armazenamento terão papel importante na escolha da solução de armazenamento correta.

Principais elementos da solução de data lake

  • Movimento dos dados: os data lakes permitem a importação de qualquer tipo de dado de várias fontes no formato nativo. Isso permite que as empresas se ajustem à quantidade de dados como necessário, sem necessidade de definir estruturas, esquemas e transformações de dados, o que resulta em economia de custos indiretos.
  • Armazenar e catalogar os dados com segurança: o data lake armazena dados estruturados, semiestruturados e não estruturados vindos de várias fontes, como dados de negócios de software CRM ou ERP, dispositivos IoT, mídias sociais e até dados históricos de sistemas legados. Também permitem capturar dados em lote e streaming e, ao mesmo tempo, aplicar governança, segurança e controle. Os dados podem ser consultados diretamente ou inseridos em um data warehouse com as ferramentas certas.
  • Funções analíticas e Machine Learning: os data lakes permitem acesso às informações baseadas em cada função para executar atividades analíticas e análises de Machine Learning sem a necessidade de transferir os dados para um banco de dados separado. Além disso, os data lakes permitem que os dados históricos sejam combinados com os dados em tempo real para refinar o Machine Learning ou os modelos de análise preditiva e fornecer resultados novos e/ou melhores.

Como funcionam os data lakes

Data lakes modernos têm três características principais:

  1. Uma landing zone (zona de pouso) para os dados brutos
  2. Uma staging zone (zona preparatória) na qual os dados são transformados tendo em mente um objetivo analítico
  3. Uma data exploration zone (zona de exploração de dados) onde os dados são utilizados por aplicativos e funções analíticas e alimentam os modelos de Machine Learning

A partir do data lake, as informações são fornecidas a várias fontes, como funções analíticas e outros aplicativos de negócios, ou a ferramentas de Machine Learning para análise adicional.

 

Caso de uso de data lake

Temos aqui dois exemplos de uso de data lake no varejo.

 

Os dados de vendas de longo prazo são armazenados em um data lake juntamente com os dados não estruturados, como fluxo de cliques em sites, clima, notícias e dados micro/macroeconômicos. O armazenamento desses dados juntos e acessíveis facilita para o cientista de dados combinar as diversas fontes de informações em um modelo para prever a demanda de um produto ou linha de produtos específica. Essas informações são usadas como entrada no sistema ERP de varejo para promover aumentos e reduções no plano de produção. 

 

Paralelamente, o profissional de marketing pode acessar esse mesmo data lake e fazer uma análise de opinião do site e do engajamento nas mídias sociais com os dados noticiosos, macroeconômicos e do histórico de vendas para determinar em que produto deve se concentrar e qual a melhor forma de maximizar as vendas, o lucro e/ou a adoção.

Tipos de data lake

Os data lakes podem ser on-premise, na nuvem, híbridos dos dois e em vários hyperscalers na nuvem, como o Amazon Web Services (AWS), o Microsoft Azure ou o Google Cloud.

 

De longe, o tipo mais popular é o data lake na nuvem, que oferece todos os recursos usuais do data lake em um serviço totalmente gerenciado na nuvem.

  • Data lake on premise: nele, os recursos internos de engenharia de TI gerenciam o hardware, o software e os processos. Esta abordagem exige maior gasto de capital (CAPEX), e os dados tendem a ficar isolados.
  • Data lake na nuvem: nele, a infraestrutura on-premise é terceirizada. A despesa operacional (OPEX) é mais elevada, mas essa abordagem de implementação facilita o aumento de escala, além de trazer muitos outros benefícios (veja abaixo).
  • Data lake híbrido: em alguns casos, as empresas optam por manter ao mesmo tempo data lakes on-premise e na nuvem. Essa situação é raríssima e, em geral, encontrada durante a migração de on-premise para a nuvem.
  • Data lake multinuvem: nele, combinam-se duas ou mais ofertas de nuvem; por exemplo, uma empresa usa AWS e Azure para gerenciar e manter os data lakes na nuvem. Isso requer mais expertise para garantir que essas plataformas díspares mantenham boa comunicação entre si.

Seis principais benefícios do data lake na nuvem

Por que escolher o data lake na nuvem? Converter dados em ativo de negócio de alto valor promove a transformação digital. Os pontos fortes da nuvem combinados com o data lake fornecem essa base. O data lake na nuvem permite que as empresas apliquem funções analíticas a dados históricos e a novas fontes de dados, como arquivos de log, cliques, mídias sociais, dispositivos conectados à Internet e muito mais, para obter insights práticos.

 

Veja alguns benefícios principais que podemos esperar:

  1. Boa relação custo-benefício: Os fornecedores de armazenamento na nuvem oferecem muitas opções de armazenamento e preços.
  2. Escalonamento automático: Os serviços na nuvem são projetados para fornecer a funcionalidade de escala, que permite às empresas calcular e aproveitar sob demanda a capacidade de armazenamento.
  3. Repositório central de dados: O data lake na nuvem reúne informações e serve de fonte única da verdade, com acesso controlado aos dados que permite a eficiência do processo entre equipes.
  4. Segurança de dados: Os provedores de armazenamento na nuvem garantem a segurança dos dados, com um modelo de responsabilidade compartilhada.
  5. Ferramentas: Os fornecedores de armazenamento na nuvem, além de outros provedores, oferecem ferramentas ETL que rastreiam os dados, criam um catálogo e executam a preparação, transformação e ingestão de dados para serem consultados.
  6. Funções analíticas aprimoradas para novos insights e melhor resultado dos negócios: O data lake na nuvem pode combinar os dados de novas maneiras. Por exemplo, dados de CRM e funções analíticas de mídias sociais oferecem novos insights dos clientes sobre causa da rotatividade ou mostram que promoções aumentam a fidelidade. Além disso, a eficiência operacional pode aumentar com a análise de dados da IoT.  
placeholder

Dê os primeiros passos nas soluções
de data lake

Explore os recursos de data lake do SAP HANA Cloud.

Outros destaques desta série

Perguntas frequentes sobre data lake

Explore abaixo as perguntas frequentes sobre data lakes e veja nosso glossário de gerenciamento de dados para obter mais definições.

O termo “data lake” evoluiu para refletir o conceito de armazenamento de dados maior e mais fluido quando comparado, especificamente, ao data mart, mais definido, estruturado e compartimentalizado.

 

Há mais de uma década, enquanto as fontes de dados cresciam, os data lakes mudaram para atender à necessidade de armazenar petabytes de dados indefinidos para análise posterior. Os primeiros data lakes se baseavam no sistema de arquivos Hadoop (HDFS) e em hardware comum baseado em centros de dados on-premise. No entanto, os desafios inerentes à arquitetura distribuída e a necessidade de transformação e análise de dados personalizados contribuíram para o desempenho abaixo do esperado dos sistemas em Hadoop.

 

Agora, as tecnologias de computação em nuvem e armazenamento de dados são a base principal da moderna pilha de dados e dos data lakes na nuvem.

O data warehouse (DW) é um sistema de armazenamento digital que conecta e harmoniza grandes quantidades de dados estruturados e formatados provenientes de várias fontes. Por outro lado, o data lake armazena dados no formato original e não é estruturado nem formatado.

O gerenciamento de dados é o processo de coletar, organizar e acessar dados para dar apoio à produtividade, eficiência e tomada de decisões.

O data lakehouse acrescenta recursos de gerenciamento de dados e data warehouse aos recursos do data lake tradicional. Essa é uma área nova e em evolução que muda rapidamente. 

Multinuvem é o uso de vários serviços de computação e armazenamento na nuvem em uma única arquitetura heterogênea. Refere-se à distribuição de ativos, software e aplicativos na nuvem, por exemplo, em vários ambientes de hospedagem.

O armazenamento de arquivos organiza e representa os dados em uma hierarquia de pastas; o armazenamento de blocos separa os dados em volumes de tamanho uniforme e arbitrariamente organizados; o armazenamento de objetos administra os dados e os vincula aos metadados. Os sistemas de armazenamento de objetos permitem a retenção de enorme quantidade de dados não estruturados.

Newsletter SAP Insights

placeholder
Assine ainda hoje

Receba insights importantes assinando nossa newsletter.

Leitura adicional

Voltar ao início