Transformando perguntas em respostas usando dados

Em um post anterior eu descrevi como é o início do processo de tomada de decisão com dados, e da necessidade de ter dados confiáveis. Se fosse organizar um livro, talvez o artigo abaixo devesse ser um capítulo anterior, pois minha ideia é explicar o fluxo macro do processo de análise de dados.

O propósito da análise de analisar dados é transformar perguntas em respostas. Uma pergunta pode ser desde uma provocação, uma curiosidade científica ou uma necessidade de negócio. A resposta, da mesma maneira, pode variar desde uma declaração curta (mas embasada) até um produto físico ou virtual que responde ao questionamento inicial.

Podemos enxergar o trabalho analítico e de ciência de dados como um ciclo de ações que após algumas iterações nos dará um resultado. A figura abaixo demonstra esse fluxo de trabalho

Começamos, primeiramente, com perguntas do tipo “Por que….?”, “E se….?”, “Como …. ?”, que podem vir tanto de nossa curiosidade como de nossa necessidade. E essas perguntas podem ser vagas ou muito abertas, mas isso não as torna menos importantes.

Como analistas – não no sentido de nome de cargo, mas como indivíduo que irá fazer uma análise – temos que buscar respostas para essas perguntas. E isso pode incluir o detalhamento, refinamento ou releitura completa da pergunta original.

Com uma pergunta na cabeça, vamos à coleta de dados. Coletar dados também pode variar desde o aperto de um botão até um projeto complexo em si. A demanda tão grande por Engenheiros de Dados atualmente é parte desse contexto onde é necessário extrair dados e deixá-los acessíveis para as análises.

Se dados são o novo petróleo, vamos imaginar que primeiramente precisamos extrair o petróleo e refiná-lo para depois vendermos gasolina. Coletar dados, seja com pesquisa de campo, medições, formulários ou extrações de um banco, é dos primeiros e fundamentais passos para uma boa análise.

Mas dados brutos raramente podem ser usando sem um refinamento ou transformação prévia. É necessário organizá-los, filtrá-los, cruzá-los com outros dados, transformá-los para enfim poder utilizá-los.

O resultado desse processo de refinamento é uma base de dados organizada e pronta para a análise. Os dados aqui estão prontos para o que o analista quiser fazer: visualizar, testar hipóteses, criar modelos estatísticos, previsões, etc.

Normalmente você não terá sorte de ter todas as respostas com a base de dados que você montou (ou montaram para você). Você precisará de mais dados – ou talvez menos, transformações diferentes, categorizações diferentes, formatos diferentes. Assim você trabalha para ter uma nova base organizada para reiniciar sua análise.

A interpretação dos resultados é essencial para concluir a análise, ou fazer novas perguntas que reiniciarão o ciclo, até que você esteja satisfeito com os resultados.

Com o resultado completo, é hora de comunicar. Essa etapa, como comentei, também pode variar significativamente de tamanho. Pode ser um relatório ou pode ser um projeto em si, tornando sua análise e seu modelo de machine learning um produto.

Essa estrutura básica é o que forma hoje um ciclo de um projeto de Ciência de Dados, e que permeia tanto a abordagem científica de descoberta e teste de hipóteses quanto a aplicação e comunicação e ação prática que a realidade necessita.

Tomando decisões baseadas em dados: O ponto de partida

Decisões devem basear-se primeiramente em dados verdadeiros e representativos

Muito se fala em tomar decisões baseando-se em fatos e dados, mas o que acontece na prática é que muitas pessoas ainda tomam decisões com vieses. Dá para gastar um bom tempo lendo Daniel Kahnemann e entendendo dessas “falhas” de julgamento, porém vou me ater à decisão racional sobre dados.

O primeiro passo, creio, é saber se os dados são relevantes, se foram coletados da maneira correta e de uma fonte confiável. Utilizar dados socio-econômicos da cidade de São Paulo para definir políticas para o interior do Tocantins pode ser um exemplo desse tipo de erro, assim como utilizar pesquisas de opinião com o público em geral para um produto que é essencialmente consumido por jovens, como um App de compartilhamento de vídeos.

Os dados também deveriam vir de um sistema (seja ele um dispositivo, um banco de dados ou um formulário de pesquisa) devidamente calibrado, ou seja, que fornece um dado exato (ou com uma margem de erro aceitável) sempre que solicitado – pois ninguém gosta de receber uma resposta diferente para a mesma pergunta!

Há uma bibliografia bem extensa sobre MSA (Measurement System Analysis – Análise de Sistemas de Medição), que é uma forma mais científica de analisar o sistema que está sendo utilizado para medição – neste link tem um livro interessante.