Ir para o conteúdo
O que é Big Data?

O que é Big Data?

Big Data é o oceano de informações em que nadamos todos os dias – vastos zetabytes de dados que fluem de nossos computadores, dispositivos móveis e sensores de máquina.

Definição detalhada de Big Data

Big Data é o oceano de informações no qual nadamos todos os dias – vastos zettabytes de dados que fluem de nossos computadores, dispositivos móveis e sensores de máquinas. As organizações usam esses dados para orientar decisões, melhorar processos e políticas e criar produtos, serviços e experiências com foco no cliente. O Big Data é definido como "grande" não somente pelo volume, mas também pela variedade e complexidade de sua natureza. Normalmente, ele excede a capacidade de captura, gerenciamento e processamento dos bancos de dados tradicionais. E o Big Data pode vir de qualquer lugar ou situação do planeta que possamos monitorar digitalmente. Satélites meteorológicos, dispositivos de Internet das Coisas (IoT), câmeras de tráfego, tendências de mídias sociais – são apenas algumas das fontes de dados que estão sendo exploradas e analisadas para tornar as empresas mais resilientes e competitivas.

A importância das funções analíticas de Big Data

O verdadeiro valor do Big Data é medido pela capacidade que as pessoas têm de analisá-lo e entendê-lo. Inteligência artificial (IA), Machine Learning e modernas tecnologias de banco de dados permitem visualizar e analisar o Big Data para fornecer insights práticos em tempo real. As funções analíticas de Big Data ajudam as empresas a colocar os dados em ação – para concretizar novas oportunidades e criar modelos de negócios. Como afirmou Geoffrey Moore, autor e analista de gestão, "sem funções analíticas de Big Data, as empresas são cegas e surdas, vagando pela web como cervos em uma autoestrada".

Big Data e funções analíticas em detalhes

Evolução do Big Data

Por mais inconcebível que pareça, o Apollo Guidance Computer levou a primeira nave espacial para a Lua com menos de 80 kilobytes de memória. Desde então, a tecnologia de computação cresceu em ritmo vertiginoso – e a geração de dados também. De fato, a capacidade tecnológica do mundo para armazenar dados vem dobrando a cada três anos desde a década de 1980. Há pouco mais de 50 anos, quando a Apollo 11 decolou, a quantidade de dados digitais gerados em todo o mundo caberia em um laptop médio. Em 2020, a Statista estima que foram criados ou replicados 64,2 ZB de dados e que "a quantidade de dados digitais criados nos próximos cinco anos será maior que o dobro da quantidade de dados criados desde o início do armazenamento digital." 

64,2

zettabytes

de dados digitais criados em 2020

2

x

o volume de dados a ser criado nos próximos 5 anos

Com o avanço cada vez maior dos softwares e da tecnologia, os sistemas não digitais se tornam comparativamente menos viáveis. Os dados gerados e reunidos digitalmente exigem sistemas de gerenciamento de dados mais avançados para processá-los. Além disso, o crescimento exponencial das plataformas de mídias sociais, tecnologias de smartphone e dispositivos de IoT conectados digitalmente ajudou a criar a atual era do Big Data.

Tipos de Big Data: o que são dados estruturados e não estruturados?

Os conjuntos de dados geralmente são divididos em três categorias com base na estrutura e na simplicidade (ou não) da indexação.

Tipos de Big Data

Os três tipos de Big Data

  1. Dados estruturados: este é o tipo de dados mais simples de organizar e pesquisar, podendo incluir informações como dados financeiros, logs de máquina e detalhes demográficos. Uma planilha do Excel, com o layout de colunas e linhas predefinidas, é uma boa maneira de visualizar dados estruturados. Os componentes são facilmente categorizados, permitindo que designers e administradores de banco de dados definam algoritmos simples para pesquisa e análise. Mesmo quando houver enormes volumes de dados estruturados, eles não se qualificarão necessariamente como Big Data porque os dados estruturados por si só são relativamente simples de gerenciar e, portanto, não atendem aos critérios de definição de Big Data. Tradicionalmente, os bancos de dados têm usado uma linguagem de programação chamada SQL (Structured Query Language, ou consulta de linguagem estruturada) para gerenciar dados estruturados. A SQL foi desenvolvida pela IBM na década de 1970 para permitir que os desenvolvedores criassem e gerenciassem bancos de dados relacionais (estilo planilha) que estavam começando a despontar naquela época. 
  2. Dados não estruturados: esta categoria de dados pode incluir informações como postagens em mídias sociais, arquivos de áudio, imagens e comentários em aberto de clientes. Esse tipo de dado não pode ser facilmente capturado em bancos de dados relacionais de linhas e colunas padrão. Tradicionalmente, as empresas que queriam pesquisar, gerenciar ou analisar grandes volumes de dados não estruturados precisavam usar processos manuais trabalhosos. Nunca houve qualquer dúvida quanto ao valor potencial de analisar e entender esses dados, mas o custo de fazê-lo era, muitas vezes, exorbitante e não valia a pena. Considerando o tempo necessário, os resultados costumavam ficar obsoletos antes mesmo de serem entregues. Em vez de planilhas ou bancos de dados relacionais, os dados não estruturados geralmente são armazenados em data lakes, data warehouses e bancos de dados NoSQL.
  3. Dados semiestruturados: como o nome indica, os dados semiestruturados são uma combinação de dados estruturados e não estruturados. E-mails são um bom exemplo, pois incluem dados não estruturados no corpo da mensagem, além de outras propriedades organizacionais, como remetente, destinatário, assunto e data. Dispositivos que utilizam marcação geográfica, carimbos de data e hora ou tags semânticas também podem fornecer dados estruturados junto com conteúdo não estruturado. Uma imagem de smartphone não identificada, por exemplo, ainda pode dizer a você que se trata de uma selfie, e a hora e o local onde foi tirada. Um banco de dados moderno executando tecnologia de IA não só pode identificar instantaneamente diferentes tipos de dados, mas também gerar algoritmos em tempo real para gerenciar e analisar efetivamente os diferentes conjuntos de dados envolvidos. 

Fontes de Big Data

A amplitude de coisas gerando dados está crescendo em um ritmo fenomenal – de satélites drones a torradeiras. Mas, para fins de categorização, as fontes de dados geralmente são divididas em três tipos:

 

Fontes de Big Data

Dados de mídia social

Como o nome diz, os dados de mídia social são gerados por comentários, posts, imagens e, cada vez mais, por vídeos. E com a crescente onipresença global das redes 4G e 5G de celulares, estima-se que o número de pessoas no mundo que assistem regularmente a conteúdo de vídeo em smartphones subirá para 2,72 bilhões até 2023. Embora as tendências e o uso das mídias sociais costumem mudar de modo rápido e imprevisível, o que não muda é o crescimento constante delas como geradoras de dados digitais.

 

Dados de máquina

As máquinas e os dispositivos de IoT são equipados com sensores e têm a capacidade de enviar e receber dados digitais. Os sensores de IoT ajudam as empresas a coletar e processar dados de máquinas a partir de dispositivos, veículos e equipamentos em toda a empresa. Em todo o mundo, o número de situações geradoras de dados cresce rapidamente – desde sensores de clima e tráfego até vigilância de segurança. A IDC estima que até 2025 haverá mais de 40 bilhões de dispositivos de IoT no planeta, gerando quase metade do total de dados digitais do mundo.

 

Dados transacionais

Essa é a categoria de dados com movimentação e crescimento mais rápidos do mundo. Por exemplo, sabe-se que um grande varejista internacional processa mais de um milhão de transações de clientes a cada hora. E se você adicionar todas as transações bancárias e de compras do mundo, consegue ter um panorama do volume impressionante de dados sendo gerados. Além disso, os dados transacionais são cada vez mais compostos por dados semiestruturados, incluindo informações como imagens e comentários, o que os torna mais complexos em termos de gerenciamento e processamento.  

Os cinco "Vs" que definem o Big Data

Só porque um conjunto de dados é grande, não significa necessariamente que se trata de Big Data. Para receber essa qualificação, os dados devem ter pelo menos as cinco características a seguir:

Os 5Vs do Big Data

As cinco características do Big Data, conhecidas como 5Vs

  1. Volume: embora não seja, de maneira alguma, o único componente que torna o Big Data "grande", o volume certamente é uma característica primordial. Para gerenciar e usar plenamente o Big Data, são necessários algoritmos avançados e funções analíticas orientadas por IA. Mas antes que isso aconteça, deve haver um meio seguro e confiável de armazenar, organizar e recuperar os muitos terabytes de dados que são mantidos por grandes empresas.
  2. Velocidade: no passado, todos os dados gerados precisavam ser inseridos posteriormente em um sistema de banco de dados tradicional – muitas vezes manualmente – antes de serem analisados ou recuperados. Hoje, a tecnologia de Big Data permite que os bancos de dados processem, analisem e configurem dados conforme eles são gerados – às vezes em milissegundos. Para as empresas, isso significa que dados em tempo real podem ser usados para capturar oportunidades financeiras, responder às necessidades de clientes, impedir fraudes e realizar qualquer outra atividade em que a velocidade seja crucial.
  3. Variedade: conjuntos de dados compostos exclusivamente por dados estruturados não são necessariamente Big Data, não importa quão volumosos eles sejam. Big Data geralmente é composto por combinações de dados estruturados, não estruturados e semiestruturados. As soluções tradicionais de gerenciamento de dados e bancos de dados carecem de flexibilidade e escopo para gerenciar os diferentes conjuntos de dados complexos que compõem o Big Data.
  4. Veracidade: embora a moderna tecnologia de banco de dados possibilite que as empresas acumulem e entendam surpreendentes volumes e tipos de Big Data, isso só terá valor se os dados forem precisos, relevantes e oportunos. Nos bancos de dados tradicionais, alimentados apenas com dados estruturados, erros sintáticos e de digitação costumavam ser os culpados por imprecisões nos dados. Com os dados não estruturados, há um conjunto totalmente novo de desafios de veracidade. Tendências humanas, ruído social e problemas de procedência podem ter impacto na qualidade dos dados.
  5. Valor: sem dúvida, os resultados provenientes da análise de Big Data costumam ser fascinantes e inesperados. Mas para as empresas, as funções analíticas de Big Data devem fornecer insights que possam ajudá-las a se tornar mais competitivas e resilientes e a atender melhor os clientes. As modernas tecnologias de Big Data liberam a capacidade de coletar e recuperar dados que possam proporcionar benefícios mensuráveis aos resultados e à resiliência operacional.

Benefícios do Big Data

Soluções modernas de gerenciamento de Big Data permitem que as empresas transformem dados brutos em insights relevantes – com velocidade e precisão sem precedentes.

  • Desenvolvimento de produtos e serviços: funções analíticas de Big Data permitem que os desenvolvedores de produtos analisem dados não estruturados, como avaliações de clientes e tendências culturais, e respondam a tais informações com rapidez.
  • Manutenção preditiva: em uma pesquisa internacional, a McKinsey descobriu que a análise de Big Data de máquinas habilitadas por IoT reduziu os custos de manutenção de equipamentos em até 40%.
  • Experiência do cliente: em uma pesquisa de 2020 com líderes mundiais de negócios, o Gartner verificou que “as empresas em crescimento coletam mais ativamente os dados da experiência do cliente do que as empresas que não crescem”. A análise de Big Data permite que as empresas melhorem e personalizem a experiência dos clientes com sua marca. Além do Big Data, cada vez mais as equipes de CX levam em consideração o "Thick Data". Esses insights qualitativos sobre observações, sentimentos e reações dos clientes aprimoram o Big Data e oferecem às empresas uma compreensão mais abrangente dos clientes.
  • Resiliência e gestão de riscos: a pandemia de COVID-19 foi um despertar súbito para muitos líderes de negócios, pois perceberam o quanto as próprias operações eram vulneráveis à disrupção. Os insights de Big Data podem ajudar as empresas a prever riscos e se preparar para o inesperado.
  • Economia de custos e maior eficiência: ao aplicar funções analíticas avançadas de Big Data em todos os processos, as empresas conseguem não só identificar ineficiências, como também implementar soluções rápidas e eficazes.
  • Melhor competitividade: os insights obtidos com Big Data podem ajudar as empresas a economizar dinheiro, agradar os clientes, fabricar melhores produtos e inovar as operações de negócios.

IA e Big Data

O gerenciamento de Big Data depende de sistemas com o poder de processar e analisar significativamente grandes quantidades de informações diferentes e complexas. Nesse sentido, Big Data e IA têm uma relação bem recíproca. O Big Data não teria muito uso prático sem a IA para organizá-lo e analisá-lo. E a IA depende da amplitude dos conjuntos de dados contidos no Big Data para fornecer funções analíticas robustas o suficiente para serem úteis. Como afirma Brandon Purcell, analista da Forrester Research, “os dados são a força vital da IA. Um sistema de IA precisa aprender com os dados para poder cumprir sua função”.

Os dados são a força vital da IA. Um sistema de IA precisa aprender com os dados para poder cumprir sua função.

– Brandon Purcell, analista, Forrester Research

Além de Big Data, as organizações usam cada vez mais "dados pequenos" para treinar algoritmos de IA e Machine Learning. Muitas vezes, pequenos conjuntos de dados – como pesquisas de marketing, planilhas, e-mails, notas de reuniões e até publicações em mídias sociais – são negligenciados, mas podem conter informações valiosas. Em última análise, quanto mais material os algoritmos tiverem para aprender, melhor será sua produção.

Machine Learning e Big Data

Os algoritmos de Machine Learning definem os dados recebidos e identificam padrões neles. Esses insights são fornecidos para ajudar a fundamentar decisões de negócios e automatizar processos. O Machine Learning é enriquecido com o Big Data, pois quanto mais robustos forem os conjuntos de dados analisados, maior será a oportunidade para o sistema aprender, evoluir e adaptar continuamente seus processos.

Tecnologias de Big Data

Arquitetura de Big Data

 

A exemplo da arquitetura na construção civil, a arquitetura de Big Data fornece um plano gráfico para a estrutura básica do modo como as empresas gerenciarão e analisarão os dados. A arquitetura mapeia os processos necessários para gerenciar Big Data na jornada pelas quatro "camadas" básicas, de fontes a armazenamento de dados, depois para análise de Big Data e, finalmente, pela camada de consumo em que os resultados analisados são apresentados como business intelligence.

 

Funções analíticas de Big Data

 

Esse processo permite a visualização significativa de dados por meio do uso de modelagem e algoritmos específicos das características de Big Data. Em uma  pesquisa e estudos detalhados da MIT Sloan School of Management, mais de 2.000 líderes de negócios foram questionados sobre a experiência da própria empresa em relação à análise de Big Data. Como esperado, aqueles que se engajaram e apoiaram o desenvolvimento das estratégias de gestão de Big Data alcançaram resultados notadamente melhores nos negócios.

 

Big Data e Apache Hadoop

 

Imagine 10 moedas de 10 centavos em uma grande caixa misturadas com 100 moedas de 5 centavos. Em seguida, imagine 10 caixas menores, lado a lado, cada uma com 10 moedas de 5 centavos e apenas uma de 10 centavos. Em qual desses cenários seria mais fácil localizar as moedas de 10 centavos? O Hadoop opera basicamente segundo esse princípio. É uma estrutura de código aberto para gerenciar o processamento de Big Data distribuído em uma rede de muitos computadores conectados. Assim, em vez de usar um computador grande para armazenar e processar todos os dados, o Hadoop agrupa vários computadores em uma rede quase infinitamente escalável e analisa os dados em paralelo. Esse processo normalmente usa um modelo de programação chamado MapReduce, que coordena o processamento de Big Data reorganizando os computadores distribuídos.

 

Data lakes, data warehouses e NoSQL

 

Os bancos de dados tradicionais, estilo planilha SQL, são usados para armazenar dados estruturados. Big Data não estruturados e semiestruturados requerem paradigmas exclusivos de armazenamento e processamento, uma vez que não são passíveis de indexação e categorização. Data lakes, data warehouses e bancos de dados NoSQL são todos repositórios de dados que gerenciam conjuntos de dados não tradicionais. Um data lake é um vasto conjunto de dados brutos que ainda não foram processados. Um data warehouse é um repositório de dados que já foram processados para uma finalidade específica. Bancos de dados NoSQL fornecem um esquema flexível que pode ser modificado para se adequar à natureza dos dados a serem processados. Cada um desses sistemas tem pontos fortes e fracos, e muitas empresas utilizam uma combinação desses diferentes repositórios de dados para melhor atender às suas necessidades.

 

Bancos de dados in-memory

 

Bancos de dados tradicionais baseados em disco foram desenvolvidos para SQL e tecnologias de banco de dados relacionais. Embora consigam processar grandes volumes de dados estruturados, eles simplesmente não são projetados para armazenar e processar dados não estruturados da melhor forma. Com os bancos de dados in-memory, o processamento e a análise ocorrem inteiramente em RAM, em vez de ter que recuperar os dados de um sistema baseado em disco. Os bancos de dados in-memory também são criados em arquiteturas distribuídas. Isso significa que eles podem alcançar velocidades muito maiores usando processamento paralelo, em vez de modelos de banco de dados de um único nó baseados em disco.

Como o Big Data funciona

O Big Data funciona quando a análise fornece insights relevantes e práticos que melhoram significativamente os negócios. Na preparação para a transformação de Big Data, as empresas devem garantir que seus sistemas e processos estejam suficientemente prontos para reunir, armazenar e analisar Big Data.

Como funciona o Big Data

As três principais etapas envolvidas no uso do Big Data

  1. Colete Big Data. Grande parte do Big Data inclui conjuntos massivos de dados não estruturados, provenientes de fontes diferentes e inconsistentes. Os bancos de dados tradicionais baseados em disco e os mecanismos de integração de dados simplesmente não são suficientes para processar todo esse volume. O gerenciamento de Big Data requer a adoção de soluções de banco de dados in-memory e softwares específicos para aquisição de Big Data.
  2. Armazenar o Big Data. Como o próprio nome diz, o Big Data é volumoso. Muitas empresas têm soluções de armazenamento on premise para os dados existentes e esperam economizar, reformulando esses repositórios para atender às necessidades de processamento de Big Data. No entanto, o Big Data funciona melhor quando não tem restrições de tamanho e limitações de memória. As empresas que não incorporam soluções de armazenamento em nuvem em seus modelos de Big Data desde o início das operações muitas vezes se arrependem disso alguns meses depois.
  3. Analise Big Data. Sem a aplicação de tecnologias de IA e Machine Learning na análise de Big Data, simplesmente não é viável aproveitar todo o seu potencial. Um dos cinco Vs do Big Data é “velocidade”. Para que sejam úteis e valiosos, os insights de Big Data devem ser obtidos rapidamente. Os processos analíticos precisam ser otimizados automaticamente e conseguir aprender com a experiência regularmente – um resultado que só pode ser alcançado com a funcionalidade de IA e as modernas tecnologias de banco de dados.

Aplicativos de Big Data


Os insights e a aprendizagem profunda proporcionados pelo Big Data podem oferecer benefícios a praticamente qualquer negócio ou setor. No entanto, grandes organizações com escopo operacional complexo costumam aproveitar mais o Big Data.

  • Finanças
    No Journal of Big Data, um estudo de 2020, aponta que o Big Data "desempenha um papel importante na mudança do setor de serviços financeiros, especialmente em comércio e investimento, reforma tributária, detecção e investigação de fraudes, análise de riscos e automação". O Big Data também ajudou a transformar o setor financeiro analisando dados e feedbacks dos clientes para obter insights valiosos e melhorar a satisfação e a experiência do cliente. Os conjuntos de dados transacionais são alguns dos maiores e mais dinâmicos do mundo. A crescente adoção de soluções avançadas de gestão de Big Data ajudará os bancos e as instituições financeiras a resguardar esses dados e usá-los para beneficiar e proteger tanto o cliente quanto a empresa.
  • Saúde
    A análise de Big Data permite que os profissionais de saúde façam diagnósticos mais precisos e baseados em evidências. Além disso, o Big Data ajuda os administradores de hospitais a identificar tendências, gerenciar riscos e minimizar gastos desnecessários – canalizando o maior valor possível em termos de orçamento para áreas de atendimento ao paciente e pesquisas. Em meio à pandemia, cientistas pesquisadores em todo o mundo estão travando uma batalha contra o tempo na busca de formas mais eficazes de tratar e gerenciar a COVID-19 – e o Big Data está desempenhando um papel gigantesco nesse processo. Um artigo de julho de 2020 no The Scientist descreve como as equipes médicas conseguiram colaborar e analisar Big Data para ajudar a combater o coronavirus: "Podemos transformar o modo como a ciência clínica é feita, aproveitando as ferramentas e os recursos de Big Data e da ciência de dados de maneiras que antes não eram possíveis".
  • Transporte e logística
    O "efeito Amazon" é um termo que descreve como a Amazon estabeleceu o padrão das expectativas de entrega para o dia seguinte, fazendo com que os clientes agora exijam essa velocidade para o envio de todos os pedidos online. A revista Entrepreneur aponta que, como resultado direto do efeito Amazon, “a corrida logística da 'etapa final' se tornará ainda mais competitiva”. As empresas de logística contam cada vez mais com funções analíticas de Big Data para otimizar o planejamento de rotas, a consolidação da carga e as medidas de eficiência de combustível.
  • Educação
    Durante a pandemia, as instituições de ensino ao redor do mundo tiveram que reinventar currículos e métodos de ensino para dar suporte à aprendizagem remota. Um grande desafio neste processo tem sido encontrar maneiras confiáveis de analisar e avaliar o desempenho dos alunos e a eficácia geral dos métodos de ensino online. Um artigo de 2020 sobre o impacto do Big Data na educação e na aprendizagem online faz uma observação sobre os professores: "o Big Data faz com que eles se sintam muito mais confiantes em personalizar a educação, desenvolver aprendizagem mista, transformar sistemas de avaliação e promover o aprendizado para toda a vida".
  • Energia e serviços públicos
    De acordo com o U.S. Bureau of Labor Statistics, empresas de serviços públicos gastam mais de US$ 1,4 bilhão em leitores de medidores e, geralmente, dependem de medidores analógicos e leituras manuais esporádicas. Os leitores de medidores inteligentes fornecem dados digitais muitas vezes ao dia e, com o benefício da análise de Big Data, essa inteligência pode servir de base para uso mais eficiente da energia, bem como maior precisão de preços e previsões. Além disso, quando os trabalhadores externos são liberados da leitura do medidor, a captura e a análise de dados podem ajudar a realocá-los mais rapidamente para onde os reparos e as atualizações são mais urgentes.
placeholder

Explore as soluções de gerenciamento de dados da SAP

Gerencie sua diversificada estrutura de dados e reúna os dados para obter insights de negócios.

Outros destaques desta série

Perguntas frequentes sobre Big Data

O Big Data é composto por todos os dados potencialmente relevantes para os negócios – estruturados e não estruturados – de várias fontes diferentes. Uma vez analisado, o Big Data é usado para fornecer insights mais profundos e informações mais precisas sobre todas as áreas operacionais de uma empresa e seu mercado.   

A tecnologia de Big Data se aplica a todo o conjunto de ferramentas, softwares e técnicas usados para processar e analisar Big Data, incluindo (entre outros aspectos) mineração, armazenamento, compartilhamento e visualização de dados.

O Apache Hadoop é uma solução de software de processamento distribuído de código aberto, usado para acelerar e facilitar o gerenciamento de Big Data, conectando vários computadores e permitindo o processamento de Big Data em paralelo.

O Apache Spark é uma solução de software de processamento distribuído de código aberto, usado para acelerar e facilitar o gerenciamento de Big Data, conectando vários computadores e permitindo o processamento de Big Data em paralelo. Seu antecessor, o Hadoop, é usado com muito mais frequência, mas o Spark está ganhando popularidade pelo uso de Machine Learning e outras tecnologias que aumentam sua velocidade e eficiência.  

Data lake é um repositório no qual grandes volumes de dados brutos e não estruturados podem ser armazenados e recuperados. Os data lakes são necessários porque grande parte do Big Data não é estruturado e não pode ser armazenado em um tradicional banco de dados relacional de linhas e colunas. 

Dados escuros são todos os dados que as empresas coletam como parte de suas operações comerciais regulares (como imagens de vigilância e arquivos de log do site) e salvam para fins de compliance, mas normalmente nunca os utilizam. O custo de armazenamento desses grandes conjuntos de dados é maior do que o valor que eles agregam. 

Infraestrutura de dados é a integração de arquiteturas e tecnologias de Big Data em todo um ecossistema de negócios com o objetivo de conectar Big Data de todas as fontes e de todos os tipos, com quaisquer serviços de gerenciamento de dados em toda a empresa.  

Newsletter SAP Insights

placeholder
Assine ainda hoje

Receba insights importantes assinando nossa newsletter.

Leitura adicional

Voltar ao início