Correlações, causalidades e
conclusões espúrias.
Uma boa estratégia para obter
informações sobre o mundo, e se preparar pra enfrentá-lo, é observar.
Dar uma
conferida no tempo e apanhar um guarda-chuva, olhar pros lados antes de
atravessar a rua. Buscamos os dados, analisamos e tomamos decisões.
O processo
parece simples, mas às vezes é bem complicado. Os dados podem ser muitos, são
passíveis de imprecisões, os métodos de análise nem sempre se revelam os mais
adequados e, sobretudo, nossa pergunta pode estar errada.
Afinal, contra dados,
há argumento?
Tales de Mileto, reputado por
inaugurar uma cosmologia independente dos mitos, é também referido como um
ávido observador –segundo a lenda, ele chegou a cair num poço enquanto
caminhava observando as estrelas.
Mas, munido de dados, ele teria previsto um
eclipse e determinado a data dos solstícios. E, segundo Aristóteles, ele teria
prenunciado colheitas favoráveis e até concluído que a Terra era redonda.
Não estava sozinho, Tales. Hiparco,
Eratóstenes e Ptolomeu são apenas alguns que reuniram observações e dados para
responder a perguntas fundamentais sobre o mundo.
A acurácia do modelo
ptolomaico é impressionante, mesmo operando sob a hipótese do geocentrismo.
A
própria queda do paradigma geocêntrico e a revolução copernicana, ou as leis de
Kepler, se beneficiaram dos dados obtidos pelo dinamarquês Tycho Brahe no
complexo situado na ilha de Ven.
Nestes casos, um conjunto de
observações levou a previsões.
Mas não é clara a conexão entre os dados e os
fenômenos previstos. Teria sido causalidade? Será que condições meteorológicas
no inverno causariam boas colheitas nas estações seguintes? Ou apenas haveria
uma forte correlação entre estes fatos?
Causalidade é sutil, e está ligada à
ideia de implicação. Aparece quando um fato leva a outro: uma bola de bilhar se
choca com outra e causa seu movimento; o vapor numa caldeira aciona um
mecanismo.
No universo dos dados a ideia é a mesma. Suponha que aumentos nos
gastos do governo causem aumentos do nível de demanda agregada, e por
consequência do emprego.
Então, sempre que os dados indicarem que houve o
primeiro, podemos esperar pelo segundo. Mais ainda, podemos usar o primeiro
para produzir o segundo.
Causalidade está muito próxima da ideia de uma regra,
ou um modelo.
Correlação é diferente. Pode ser
fruto da causalidade ou mero produto do acaso –e pode ser espúria! No livro
“Spurious Correlations”, Tyler Vigen reúne exemplos divertidos de correlações.
O número de doutores em engenharia civil nos EUA é altamente correlacionado ao
consumo de queijo muçarela. Já o número de doutores em ciência da computação é
fortemente correlacionado às vendas de HQs.
Um favorito: o número de estudantes
matriculados nas universidades norte-americanas corresponde quase perfeitamente
ao número de acidentes domésticos causados por quedas de televisores.
E daí? Ora, correlações elevadíssimas
podem ocorrer mesmo entre fatos não relacionados.
E podem ser úteis: se
soubermos que no próximo ano haverá muitos doutores em engenharia, será que
vale a pena investir em muçarela? E se aumentar o número de calouros nas
universidades, não seria o caso de prestar mais atenção aos televisores em
casa?
Não que exista uma regra que prescreva a relação entre estes fatos. Ainda
assim, olhar pros dados pode nos indicar um caminho.
Até aqui a discussão é, digamos,
platônica; os dados estariam corretos e descreveriam exatamente o que
esperamos.
Na realidade, as coisas não funcionam bem assim. Veja os censos do
IBGE de 1991 e 2000. Os dados de cada questionário (microdados) contêm
informação muito valiosa.
Em particular, nos permitem comparar várias dimensões
da vida econômica e social no país em dois momentos. Mas há alguns detalhes.
A moeda nacional não era a mesma em
1991 e 2000, tampouco o número de municípios no país.
Ou seja, apesar da
correção dos dados e do exame de analistas muito experientes, há sutilezas que
podem levar a imprecisões se os atores do processo não estiverem articulados.
Como no caso recente sobre vacinas
supostamente vencidas, em que um esforço multidimensional para
informar levou profissionais a revisitar dados e conclusões, e a forma como
eles são obtidos.
Do ponto de vista da análise de dados, o aprendizado e o
refinamento que resultam desses processos se tornam patrimônio social e
melhoram a vida das pessoas.
Seja pela causalidade, seja por meio
de correlações inimagináveis, ou até pela estranheza das conclusões, os dados
estão lançados. Basta perguntar.
Edgard Pimentel - matemático e
professor da PUC-Rio.