O que é Big Data e como tirar proveito dessa tecnologia

20 Jan 2019 Claudio Hernandez

Tivemos 320 milhões novos usuários de mídias sociais entre setembro de 2017 e outubro de 2018. Isso corresponde a um novo usuário a cada 10 segundos.
Uma grande massa de dados é gerada pelos sistemas corporativos, operações financeiras, buscas online e sensores em todo tipo de dispositivo.
Os dados gerados por essa nova sociedade são analisados diariamente para que empresas tenham vantagem competitiva e governos saibam adotar a melhor política pública para cada situação.
É nesse contexto que o Big Data desempenha seu papel. É mais que uma tendência ou apenas um conjunto de ferramentas tecnológicas de pouca relevância, e das quais dependemos pouco. Como diz David Buckingam: "Dado é o novo petróleo. Precisamos encontrá-lo, extraí-lo, refiná-lo, distribuí-lo e monetizá-lo.

O que é Big Data?
Big Data é um grande conjunto de dados que precisamos processar rapidamente para obtermos informações relevantes aos nossos propósitos.

Aplicações
Alguns exemplos de finalidades em sua utilização mundo afora:

Indústria
Aumentar a produtividade através de dados coletados por sensores nas máquinas.
Minimizar o desperdício.
Manter-se dentro da regulamentação ambiental.

Bancos
Criar produtos bancários.
Minimizar riscos e fraudes.
Manter-se dentro das conformidades regulatórias.

Órgãos públicos
Identificar surtos de doenças.
Aprimorar a segurança.
Melhorar o trânsito.

Operadoras de saúde
Definir os planos de saúde oferecidos com base na demanda de seu público-alvo.
Identificar os procedimentos médicos mais efetuados e sua eficácia.

Seguradoras
Prever o tipo de sinistro que ocorrerá em um espaço de tempo futuro definido.

Logística
Aprimorar a trajeto da frota com base nos locais de entrega e o trânsito local.

Meio Ambiente
Análise de dados climáticos.
Aplicação de medidas de prevenção a acidentes ambientais.

Publicidade
Anúncios publicados em sites e redes sociais com base no perfil do usuário.

Esportes
Melhora da performance de atletas.
Análise estatística de adversários.

Entretenimento
Sugestão de: filmes pela Netflix, música pelo Spotify, livros pela Amazon.

Curiosidade: Histórico do termo Big Data
Em 1944, Fremont Rider, um bibliotecário da Wesleyan University de Connecticut, EUA, publicou o livro "The Scholar and the Future of the Research Library", estimando que as bibliotecas americanas dobrariam o número de volumes a cada 16 anos, o que faria a biblioteca da Universidade de Yale ter 200.000.000 de volumes em 2040. Estava previsto o "problema" que viria a ser solucionado tempos depois.
O sociólogo Charles Tilly utilizou o termo pela primeira vez em 1980 em seu artigo "The old new social history and the new old social history".
O termo Big Data foi inserido oficialmente em um dicionário pela 1a vez em 2013, quando o Oxford English Dictionary o introduziu na edição daquele ano.

Conceito
Inicialmente, Big Data era definido por 3 Vs. Mais recentemente foi expandido para 5 Vs. São eles:

Volume: quantidade de dados gerados, normalmente medida em milhares de bytes (megabytes, gigabytes = 1024 megabytes, terabytes = 1024 gigabytes, petabytes = 1024 terabytes, exabytes = 1024 petabytes, ...);
Variedade: como estão "organizados" os dados, ou seja, se estão estruturados, semi-estruturados ou não-estrutrados;
Velocidade: o processamento deve ser ágil para obtermos informações atualizadas e em um tempo razoável;
Veracidade: se a informação contida no dado é verdadeira, ou seja, representa de fato a realidade;
Valor: o quão útil é a informação contida no dado para o propósito em questão. O valor do dado tende a diminuir com o tempo, já que a utilidade e o próprio dado em si podem já estar defasados.

De onde vêm os dados no contexto do Big Data?
Podemos considerar as fontes dos dados envolvidos em projetos de Big Data como: buscas na internet, interações em redes sociais, sistemas corporativos de gestão, sensores em máquinas, nas ruas, nos carros, nos utensílios domésticos, e dados advindos da comunicação entre dispositivos conectados (Internet das Coisas - IoT), entre muitas outras.
Esses dados possuem formatos diversos: registros em bancos de dados, vídeo, imagems, áudio, e-mails, mensagens de texto, documentos, etc.

Números das mídias sociais
Considerando a população mundial atual de 7.655 bilhões de pessoas, os números a seguir são bastante impressionantes:
4.176 bilhões de usuários de internet
3.397 bilhões de usuários ativos de mídeias sociais
5.118 de usuários de dispositivos móveis


Google 1,17 bilhões de usuários únicos fazem buscas todos os dias no Google. Sâo processadas 100 bilhões de buscas todo mês (40.000 buscas a cada segundo).	Facebook 2,27 bilhões de usuários ativos (3o trimestre de 2018). O Facebook gera 4 novos petabytes de dados por dia (4 petabytes = 4,3 bilhões de megabytes). 350 milhões de fotos são carregadas todos os dias.	Whatsapp 1,5 bilhão de usuários ativos. 55 bilhões de mensagens são enviadas por dia; 4,5 bilhões de fotos e 1 bilhão de vídeos são compartilhados diariamente.	YouTube 1,5 bilhões de usuários ativos. 300 horas de vídeo são carregadas no YouTube a cada minuto. 1 bilhão de horas de vídeo são exibidas diariamente.	Twitter 1,3 bilhões de contas, com 326 milhões de usuários ativos. 500 milhões de tweets enviados a cada dia, o que corresponde a 6.000 tweets a cada segundo.	Instagram 1 bilhão de usuários ativos. Mais de 95 milhões de fotos são carregadas a cada dia. O uso do Instagram dobrou entre junho de 2016 e junho de 2018.	LinkedIn 562 milhões de usuários. 106 milhões de pessoas acessam o site mensalmente.

Fontes:
https://zephoria.com/top-15-valuable-facebook-statistics
https://www.statista.com/statistics/260819/number-of-monthly-active-whatsapp-users
https://www.zdnet.com/article/whatsapp-now-one-bilhões-people-send-55-bilhões-messages-per-day
https://www.youtube.com/yt/about/press

Digital 2018 Q4 Global Digital Statshot (October 2018) (v2), de DataReportal

Algumas definições acerca dos dados tratados em projetos de Big Data

Dados estruturados e não-estruturados
Estruturados: contidos em bancos de dados tradicionais, no formato tabular (semelhante a planilhas de excel).
Não-estruturados: documentos de texto, e-mail, vídeo, áudio.
A dificuldade de processar dados não-estruturados levou o Google a criar o MapReduce, em 2004, que é um modelo de programação que permite processar grandes quantidades de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes, geralmente executadas em um cluster (conjunto interligado) de computadores. Posteriormente, foi desenvolvido o Hadoop, criado pelo Yahoo em 2005, que é uma implementação em código aberto do MapReduce.

Tipos de dados
Social data: dados de pessoas com informações de comportamentos. Ex: o que buscas, o que postam, o que curtem.
Enterprise data: dados gerados no meio corporativo.
Personal data: dados obtidos através de aparelhos de uso pessoal ou coletivo. Ex: smartphones, geladeiras, televisões, carros, etc.

Big Data Analytics
O desafio da análise de dados é identificar qual pergunta é possível ser respondida a partir dos dados disponíveis. Às vezes é difícil até definir-se qual é a pergunta que podemos fazer diante dos dados. Os cientistas de dados costumam dizer que "não é somente uma questão de encontrar a agulha no palheiro, mas encontrar o que de fato é agulha".
Isso porque, muitas vezes, uma correlação de dados é apenas uma coincidência, e não uma relação que ocorre sempre, como regra. Então os processos de análise empregados devem ser criteriosos a ponto de saber apontar que tipo de conclusão pode ser tirada de determinada massa de dados, e qual a margem de erro associada a essa conclusão.

80% do processo de análise é gasto preparando os dados: limpeza, filtragem, agregação, normalização, conversão, transformação.

Veja por exemplo a tabela de dados abaixo. São dados no formato tabular, bem estruturados, mas com alguns problemas:
- a célula amarela possui um dado de CEP ao invés de Cidade;
- a célula azul possui um dado literal ao invés de numérico;
- a célula verde possui um dado abreviado, ao invés de completo.

Nome	Idade	Cidade
João	40	São Paulo
Maria	26	01415-000
Pedro	trinta	SP

Esses são problemas comuns que a análise de dados deve endereçar ao tratar os dados a serem processados.

As técnicas de Big Data Analytics podem ser divididas em 4 categorias:

Análise Descritiva: descreve o que aconteceu, ou seja, qual é o histórico dos dados. Ex: para um varejo, seria interessante saber qual foi o produto mais vendido no ano passado, quantas pessoas entraram na loja, quanto gastaram em cada compra. Estamos então descrevendo o passado.
Análise Diagnóstica: descreve porque aconteceu. Ex: porque o produto mais vendido foi o X e não o Y, o que motivou as pessoas a entrarem na loja, porque gastaram o que gastaram (e não mais). Falamos aqui dos porquês.
Análise preditiva: descreve o que poderá acontecer. Há sempre um viés estatístico na análise preditiva. Ex: Qual será o produto mais vendido no próximo ano, qual será o motivo principal para os clientes entrarem na loja, quanto gastarão em cada compra.
Análise prescritiva: descreve o que dever ser feito para acontecer, normalmente buscando melhorar ou garantir os resultados advindos da análise preditiva. Como fazer o produto Y ser o mais vendido, qual procedimento adotar para termos um bom movimento na loja, o que fazer para as pessoas gastarem mais por compra.

Exemplo de aplicação das técnicas acima
Imagine que o sistema de saúde precisa decidir qual parcela da população com pré-diabetes deve receber determinado tipo de tratamento.
A Análise Descritiva trará um perfil da população e os resultados da adoção de diversos tipos de tratamento no passado (pessoas de quais idades, sexo, tempo com os sintomas..., qual tratamento receberam e qual o resultado: eliminaram a pré-diabetes, mantiveram-se pré-diabéticos ou desenvolveram a dibetes).
A Análise Diagnóstica traz a razão do resultado observado na Análise Descritiva: o medicamento X é mais eficaz (tem maior chance de sucesso) que o medicamento Y para homens de meia idade. Já o medicamento Y é mais eficaz para mulheres de qualquer idade.
A Análise Preditiva constrói um modelo preditivo que determina qual perfil da população tem a melhor chance de responder positivamente ao tratamento, e com qual chance.
A Análise Prescritiva determina oferecer o tratamento mais adequado cada parcela da população, obtendo as melhores chances de responderem positivamente ao tratamento.

Análises de Dados de Big Data

Exemplos reais:
A empresa UPS, após análise das rotas de seus motoristas, proibiu os mesmos de virar a esquerda. De acordo com a empresa, isto permitiu economizar por ano cerca de 38 milhões de litros de combustível, deixando de emitir 20 mil toneladas de dióxido de carbono. Além disso, entregam 350 mil pacotes a mais.

Um caso famoso é o da rede de lojas americana Target, que recebeu a reclamação do pai de uma menina por estar recebendo promoções de produtos para grávidas. Como sua filha vinha fazendo compras no site da empresa de produtos para grávidas (loção sem cheiro, suplementos de cálcio e zinco, ...), a empresa realizou uma campanha direcionada. Dessa forma o pai ficou sabendo indiretamente que sua filha estava de fato grávida.

Tecnologias
As tecnologias envolvidas em projetos de Big Data devem ter como características básicas:
Escalabilidade: mantem o desempenho mesmo com o aumento de dados;
Flexibilidade: boa adequação a mudanças;
Desempenho: velocidade de processamento.

Exemplos:

NoSQL = Not Only SQL (não somente SQL, ou não somente relacional). O termo NoSQL foi primeiramente utilizado em 1998 por Carlo Strozzi.
Há 4 modelos distintos de aplicações para atender a objetivos distintos: orientado a chave-valor (DynamoDB, Redis, Riak, Memcached), orientado a colunas (Accumulo, Cassandra, HBase, Hypertable), orientado a documentos (Couchbase, CouchDB, MarkLogic, MongoDB) e orientado a grafos (AllegroGraph, ArangoDB, InfoGrid, Neo4J, Titan).

Hadoop
Solução open source (gratuita) que permite a execução de aplicações de Big Data utilizando milhares de máquinas. Principais características: baixo custo (além de ser open source, é projetado para uso em servidores tradicionais), escalabilidade (permite o uso em milhares de servidores), tolerância a falhas (permanece operando mesmo com falha em alguns servidores). Utilizado por Yahoo!, Ford, Dell, Nokia, Spotify, eBay, Samsung, LinkedIn, VISA, e outras.

Outras tecnologias
Apache Mahout: biblioteca Java que que oferece a base para diversos algoritmos de mineração de dados e aprendizado de máquina, com uma série de implementações prontas para serem utilizadas.
Weka: software que oferece uma interface gráfica para o desenvolvimento de algoritmos de mineração de dados, contando com bibliotecas à parte para integração com Hadoop e Spark. R: linguagem de programação e um ambiente de software gratuito com funcionalidades voltadas à computação estatística e à visualização de dados, contando com a facilidade na manipulação de dados e vasta quantidade de bibliotecas disponíveis.
Python: linguagem de programação de alto nível não voltada especificamente ao tratamento de dados, mas com muitas bibliotecas para tal, como o scikit-learn, voltada à mineração de dados e ao aprendizado de máquinas.

Visualização de dados

Uma etapa essencial em projetos de Big Data é a apresentação dos dados. Nessa etapa, o tipo de visualização escolhido influencia o entendimento dos resultados para quem a apresentação é feita. Assim, algumas visualizações são destacadas abaixo conforme a finalidade da apresentação dos dados:

Para comparar: colunas, barras, áreas circulares, linhas.
Ex: Número de usuários de Whatsapp X Tempo

Fonte: https://www.statista.com/statistics/260819/number-of-monthly-active-whatsapp-users/

Para mostrar a distribução: dispersão, histogramas, 3D:
Ex: Número de usuários do Facebook X País

Fonte: https://www.statista.com/statistics/268136/top-15-countries-based-on-number-of-facebook-users/

Para mostrar a composição: pizza, área, barras empilhadas e colunas empilhadas.
Ex: Populacao de cada país do mundo

Fonte: https://imgur.com/r/vexillology/jZf3wfT

Para mostrar Relacionamentos: bolha, linha ou dispersão
Vendas x Avaliações de clientes

Conforme localizações geográficas - Mapa:
Ex: Matrículas no ensino superior x Estado brasileiro em 2014

Fonte: http://dataviva.info/pt/build_graph/hedu/all/all/all?view=Enrollment%20by%20Municipality&graph=geo_map

Ocorrência de termos ou palavras - Nuvem de palavras

O Cientista de Dados

Eleita a profissão do ano de 2016 pelo site Americano de empregos CareerCast.com, considerando critérios como: ambiente de trabalho, renda, nível de stress e perspectiva de contratação.
Salário médio anual: US$ 128.240.

Formações mais comuns:
- Ciência da computação
- Matemática
- Estatística

Especializações da profissão:
- Captura e armazenamento de dados
- Processamento de dados
- Análise de dados
- Visualização de dados

Características pessoais esperadas: curiosidade, colaboração (aliada à comunicação), criatividade, pensamento analítico.

Curiosidade
O filme "Moneyball" (O homem que mudou o jogo) com o ator Brad Pitt, no qual o gerente de um time de beisebol usa o Big Data para reunir um time de primeira linha sem gastar muito.