O Que são e por que importam as correlações?

O Básico da Correlação
A correlação é medida em uma escala de -1 a 1:
+1: Uma correlação perfeita e positiva. Quando uma variável sobe, a outra sobe na mesma proporção.
-1: Uma correlação perfeita e negativa. Quando uma variável sobe, a outra desce na mesma proporção.
0: Nenhuma correlação. As variáveis não têm nenhuma relação previsível.
Por exemplo, se você comparar o consumo de sorvete e a temperatura, é provável que encontre uma correlação positiva. Quanto mais quente, mais sorvete é consumido. Já entre temperatura e venda de aquecedores, a correlação seria negativa.

Três Tipos Principais de Correlação
Existem diferentes maneiras de medir as correlações, dependendo do tipo de relação entre as variáveis e da natureza dos dados. Aqui estão os três métodos mais usados:
Correlação de Pearson - É a mais comum e mede a relação linear entre duas variáveis. Funciona bem para dados contínuos e é sensível à presença de outliers, que podem distorcer a análise.
Exemplo: Altura e peso de pessoas geralmente têm uma correlação positiva, pois pessoas mais altas tendem a pesar mais.
Correlação de Spearman - Baseia-se nos rankings dos valores, e não nos valores originais. É útil para capturar relações monotônicas (em que uma variável aumenta ou diminui consistentemente em relação à outra), mesmo que não sejam lineares. Além disso, é mais robusta a outliers do que Pearson.
Exemplo: O número de horas de estudo e a posição no ranking de uma prova. Mesmo que a relação não seja perfeitamente linear, um maior número de horas estudadas geralmente corresponde a uma melhor posição no ranking.
Correlação de Kendall - Mede a consistência no ranking entre duas variáveis, analisando pares ordenados. Usa as noções de concordância e discordância para medir a força da associação. É mais robusta para lidar com dados categóricos, com empates ou em amostras pequenas.
Exemplo: Avaliar o alinhamento entre dois rankings de filmes, como críticos e público. Se ambos concordam que certos filmes são melhores que outros, haverá alta correlação de Kendall.

Correlação Não É Causalidade
Este é um dos conceitos mais importantes: só porque duas variáveis estão correlacionadas, isso não significa que uma causa a outra. Por exemplo:
O número de pessoas que se afogam e o número de sorvetes vendidos podem ter uma correlação, mas isso não significa que comer sorvete cause afogamentos. O verdadeiro "culpado" aqui é o clima quente.
Portanto, correlação é uma ótima ferramenta para identificar padrões, mas deve ser usada com cuidado para evitar conclusões precipitadas.
Por Que Correlações São Úteis?
Correlação é um ponto de partida poderoso para análise de dados. Aqui estão algumas aplicações práticas:
Finanças: Identificar como o desempenho de ações está relacionado ao câmbio ou a outros índices.
Saúde: Explorar associações entre hábitos de vida (como dieta) e resultados de saúde (como colesterol).
Marketing: Entender como mudanças em preços afetam as vendas de produtos.
Quer conhecer mais?
Acesse nosso material feito em python para aprofundar seu conhecimento.

Escrito por Odemir Depieri Jr
Fundador DataV, Lead Analytics Itaú.
Comments