Nicolas Cage, big data e data science

Cubo Logo branco Transparente-03

Estatísticas mostram que, quanto mais filmes com Nicolas Cage são lançados em um ano, menos pessoas morrem em acidentes de helicóptero. Este rapaz é realmente impressionante, pois também podemos afirmar que existe uma correlação positiva entre as suas aparições com os afogamentos em piscinas. Ou seja, toda vez que Nicolas Cage aparece em um filme, várias pessoas falecem após cair em piscinas. Similarmente, ainda podemos afirmar que, quanto maior o consumo de queijo muçarela no período de um ano, mais pessoas recebem o título de doutor em engenharia civil nos Estados Unidos. Estas e outras divertidas correlações utilizando dados são apresentadas por Tyler Vigen no seu livro Spurious Correlations.

Correlação entre mortes em piscina com a quantidade de filmes lançados por Nicolas Cage. Fonte: Spurious Correlations, Tyler Vigen, Hachette Books – 2015

Estes são interessantes exemplos sobre as mais diversas informações que podemos obter com dados. Contudo, a informação sem interpretação e investigação gera um desserviço a informação. Nestes casos apresentados, as correlações não implicaram em efeitos de causa e consequência. Por isso é preciso saber tratar, interpretar e analisar para chegar em conclusões realistas e úteis. Quando falamos em ciência de dados, as mais diversas informações podem ser analisadas, tratadas e estudadas com o objetivo de gerar conclusões, auxiliando a tomada de decisões de negócios, empresas, campanhas e projetos.

Como analisar os dados?

Os dados podem se originar de diversas fontes, tais como páginas de cadastros de usuários em plataformas, visualizações de produtos online, check-in em sites, cliques em botões, entre outros. Para esse propósito, as opções de ferramentas para as análises são amplas, desde o bom e velho Excel para algumas análises simples e com pouco limitada, às linguagens de programações bastante conhecidas como Python e R, até instrumentos focados em consultas e filtragens condicionais, tal qual SQL e seus derivados. Além do tratamento e entendimento dos dados, é necessário saber traduzir números em conclusões. Ao passo que apresentar as conclusões de forma concisa e clara é fundamental, independentemente do público e do foco. 

Existem diversas opções de realizar este reporte, sendo o Power BI um software amplamente utilizado para este fim. Nele, é possível a visualização e segmentação de dados de forma simples e direta através da criação de painéis de dados (os famosos dashboards), atualização automática através de diversos conectores com fontes e bancos de dados. Além do seu dinamismo na interação dos usuários com os resultados apresentados.

Big Data

No mundo conectado e cheio de sensores, não faltam dados. Por exemplo, olhe ao redor, é provável que esteja carregando dezenas deles no bolso ou no pulso. Essas informações são geradas em grande volume, com muita variedade e rápida velocidade. Esses 3 V’s iniciaram o conceito de Big Data, termo bastante amplo, utilizado na área de tecnologia da informação. Em passado não muito distante batemos a ordem de zettabytes de informação geradas na internet mundial

Para tentar ter uma ideia do tamanho deste volume de dados, isso é equivalente a 109 terabytes (ou 1.000.000.000 terabytes). Isto é, se os filmes do Nicolas Cage fossem todos na qualidade de 1080p com 2 horas de duração, seriam necessários cerca de um trilhão de filmes para igualar esse volume de dados que a humanidade gera atualmente. Considerando que a idade média de vida no Brasil é de 77 anos (expectativa de vida), seriam necessários um milhão e meio de pessoas para consumir esse volume de dados, assistindo filmes do Nicolas Cage constantemente durante toda as suas vidas.

Existem autores que apresentam mais dois V’s na classificação de Big Data, evidenciando necessidade da análise da veracidade dos dados e do valor destes, basicamente se tais informação são verdadeiras e úteis para a discussão. Lembra daquele exemplo inicial? Então, os dados eram verdadeiros – Nicolas Cage lança filmes, pessoas comem muçarela, se recebem títulos de doutor em engenharia, sofrem acidentes de helicóptero e tem más experiencias em piscinas – mas a correlação entre eles não é verdadeira (e úteis somente se for para dar umas boas risadas lendo o livro do Tyler Vigen).

Em suma, dados são lindos! Existem ferramentas magníficas focadas em analisar e apresentar tais informações. Contudo, investigação e crítica são fundamentais para fazer com que números trabalhem ao favor das necessidades, agregando valor e não gerando confusão e desinformação.

Artigo escrito por:

Vinicius Castro Ferreira

Vinicius Castro Ferreira

Cientista de dados

Gostou do que você leu? Fique a vontade para compartilhar em suas redes sociais: