Análise Exploratória de Dados (EDA)

DataV
13 de jan. de 2025
2 min de leitura

Roteiro Prático para Análise Exploratória de Dados (EDA)

Roteiro para Análise Exploratória de Dados

A EDA é essencial para entender a estrutura dos dados, identificar padrões e preparar informações para as próximas etapas de análise ou modelagem. Este roteiro foi elaborado como um passo a passo prático para conduzir uma análise exploratória eficaz.

Ferramentas e Bibliotecas

Manipulação de Dados: pandas e numpy

Visualização: matplotlib, seaborn e plotly

1. Primeiros Passos: Conheça o Dataset

Objetivo: Entender o formato e a estrutura básica dos dados.
Tarefas:
Carregue o dataset (ex.: CSV, JSON, SQL).
Inspecione o dataset com métodos básicos:
- head(), tail(): Visualize as primeiras e últimas linhas.
- info(): Confira o tipo das colunas e o total de valores não nulos.
- shape: Verifique o número de linhas e colunas.
Identifique duplicatas e remova, se necessário:

df.drop_duplicates(inplace=True)

2. Verificação de Qualidade dos Dados

Objetivo: Garantir que os dados estão prontos para análise.
Tarefas:
- Valores ausentes:
  - Identifique colunas com valores nulos: isnull().sum().
  - Escolha estratégias para lidar com nulos:
    - Preencher com média/mediana para valores numéricos.
    - Remover linhas ou colunas, se necessário.
- Tipos de dados:
  - Confirme se os tipos das colunas estão corretos.
  - Converta tipos de dados, se necessário (ex.: pd.to_datetime() para colunas de data).
- Análise de unicidade:
  - Identifique colunas com valores únicos ou categorias limitadas.

3. Estatísticas Descritivas

Objetivo: Obter uma visão geral das distribuições e medidas básicas.
Tarefas:
- Gere estatísticas descritivas com describe():
  - Média, mediana, desvio padrão, mínimo e máximo.
- Analise variáveis categóricas:
  - Frequência de cada categoria com value_counts().
- Analise variáveis numéricas:
  - Verifique amplitude e valores extremos.

4. Exploração Visual dos Dados

Objetivo: Identificar padrões, tendências e outliers.
Tarefas:
- Distribuições:
  - Use histogramas para variáveis numéricas.
  - Exemplo: sns.histplot(df['coluna'], kde=True).
- Outliers:
  - Utilize boxplots para detectar valores atípicos.
  - Exemplo: sns.boxplot(data=df, x='coluna').
- Relações entre variáveis:
  - Scatterplots para variáveis numéricas.
  - Gráficos de barras para variáveis categóricas.
- Correlação:
- Gere uma matriz de correlação para variáveis numéricas

sns.heatmap(df.corr(), annot=True, cmap='coolwarm')

5. Análise Temporal (Se Aplicável)

Objetivo: Compreender padrões e tendências ao longo do tempo.
Tarefas:
- Converta colunas de data para o formato datetime:

df['data'] = pd.to_datetime(df['data'])

Crie gráficos de linha para analisar tendências:

df.groupby('data')['coluna_interesse'].mean().plot()

6. Identificação de Relações Entre Variáveis

Objetivo: Entender como as variáveis se relacionam.
Tarefas:
- Correlações lineares:
  - Analise com scatterplots e matriz de correlação.
- Relações categóricas vs. numéricas:
  - Use boxplots para comparar categorias em relação a variáveis numéricas.
- Relações temporais:
  - Identifique sazonalidades ou picos inesperados.

Seguindo este roteiro, você conseguirá conduzir uma Análise Exploratória de Dados eficiente, extraindo insights valiosos e preparando os dados para as próximas etapas do projeto.

Download e-book de guia de estudo

Você pode fazer o download do nosso e-book mais detalhado de forma gratuita, acessa o link: https://www.dataviking.com.br/ebookdatascience e faça o download.