O Big Data é composto por todos os dados potencialmente relevantes para os negócios – estruturados e não estruturados – de várias fontes diferentes. Uma vez analisado, o Big Data é usado para fornecer insights mais profundos e informações mais precisas sobre todas as áreas operacionais de uma empresa e seu mercado.
A tecnologia de Big Data se aplica a todo o conjunto de ferramentas, softwares e técnicas usados para processar e analisar Big Data, incluindo (entre outros aspectos) mineração, armazenamento, compartilhamento e visualização de dados.
O Apache Hadoop é uma solução de software de processamento distribuído de código aberto, usado para acelerar e facilitar o gerenciamento de Big Data, conectando vários computadores e permitindo o processamento de Big Data em paralelo.
O Apache Spark é uma solução de software de processamento distribuído de código aberto, usado para acelerar e facilitar o gerenciamento de Big Data, conectando vários computadores e permitindo o processamento de Big Data em paralelo. Seu antecessor, o Hadoop, é usado com muito mais frequência, mas o Spark está ganhando popularidade pelo uso de Machine Learning e outras tecnologias que aumentam sua velocidade e eficiência.
Data lake é um repositório no qual grandes volumes de dados brutos e não estruturados podem ser armazenados e recuperados. Os data lakes são necessários porque grande parte do Big Data não é estruturado e não pode ser armazenado em um tradicional banco de dados relacional de linhas e colunas.
Dados escuros são todos os dados que as empresas coletam como parte de suas operações comerciais regulares (como imagens de vigilância e arquivos de log do site) e salvam para fins de compliance, mas normalmente nunca os utilizam. O custo de armazenamento desses grandes conjuntos de dados é maior do que o valor que eles agregam.
Infraestrutura de dados é a integração de arquiteturas e tecnologias de Big Data em todo um ecossistema de negócios com o objetivo de conectar Big Data de todas as fontes e de todos os tipos, com quaisquer serviços de gerenciamento de dados em toda a empresa.