Modelo para orientação em projetos de ciência de dados
Bem provável se você trabalhou com dados deve ter ouvindo falar sobre o CRISP-DM. Mas qual a ideia desse modelo?
O que é o CRISP-DM?
O CRISP-DM (Cross-Industry Standard Process for Data Mining) é um modelo muito usado em projetos de ciência de dados. Ele tem seis etapas importantes, todas ligadas entre si, que ajudam a garantir que o projeto seja bem-sucedido.
Esse modelo foi feito para dar uma estrutura clara e flexível. Cada etapa é essencial para guiar os passos do projeto, desde o começo até o fim.
Por mais que parece esse método foi desenvolvido no final dos anos 90 por um consórcio de empresas que buscavam criar um modelo padrão para guiar projetos de mineração de dados.
Como funciona?
1. Compreensão do Negócio
Esta fase marca o início do projeto, onde a equipe busca compreender completamente os objetivos de negócio. Os maiores erros em projetos de dados são a falta de conhecimento de negócio. Não adianta sair analisando dados se não se sabe exatamente o que se está procurando. Nesta fase, é importante incluir metas, requisitos mínimos para começar e a solução que o time precisa construir. Identifique todas as áreas envolvidas no projeto e todas as hipóteses que desejam levantar.
2. Compreensão dos Dados
Nesta fase, a atenção se volta para os dados disponíveis. É crucial identificar as fontes de dados, coletar os conjuntos pertinentes e compreender sua estrutura e qualidade. A limpeza e pré-processamento dos dados são realizados nesta etapa para garantir que estejam prontos para análise. Normalmente, nesta fase, investe-se muito tempo devido às estruturas de dados não estarem 100% disponíveis para consumo. É muito comum pegarmos dados de áreas de negócio que estão em 'Excel', 'txt' e até informações que nem estão em base de dados.
3. Preparação de Dados
Na etapa de Preparação de Dados, trabalhamos neles para garantir que estejam prontos para serem usados em modelos, dashboards ou indicadores. Isso envolve organizar, priorizar o que é relevante e unir diferentes conjuntos de dados.
4. Modelagem
Na fase de modelagem, várias técnicas são aplicadas para construir e avaliar modelos de dados. Isso pode incluir algoritmos de machine learning, estatísticas descritivas, entre outros métodos analíticos. Os modelos são testados e ajustados com base nos resultados obtidos.
5. Avaliação
Após a construção dos modelos, eles são avaliados para determinar sua eficácia em resolver o problema de negócio proposto. Métricas de desempenho são utilizadas para comparar e selecionar o modelo mais adequado.
6. Implantação
Na etapa final, documentamos e mostramos os resultados para todos os envolvidos. Planejamos e colocamos em prática o modelo escolhido, focando em como fazer a solução de ciência de dados funcionar no dia a dia da empresa.
Case real: utlidade
Para aplicar esse método, existem várias formas. Já observei inúmeras metodologias sendo aplicadas, como o Scrum, Kanban, Hackathon, Backlogs e outras. Não quero entrar nessa discussão, já que cada empresa tem sua forma de gerenciar seus projetos.
Nessa fase de controle do projeto, é provável que esse acompanhamento fique sob a responsabilidade de alguém, seja um PM, PO ou líder. Mas o time de dados pode propor as etapas da metodologia para orientar o acompanhamento.
Vamos pensar em um exemplo prático:
Essa forma de acompanhamento é bem simples, mas gera um modelo de como pode ser evoluído. Nesse exemplo, usei 'sprints' para determinar o tempo de cada etapa a ser executada. Como o método é baseado em etapas, acredito que não seja possível pular nenhuma delas, e também não faria sentido fazê-lo. Como implantar um modelo de Machine Learning sem saber quais bases serão usadas?
Cada etapa da metodologia deixei em um quadro macro para ter mais visibilidade de como está progredindo dentro do método. Depois, detalhei cada etapa de execução. Não detalhei cada microprocesso nesse exemplo, mas se o projeto for complexo, sugiro fazer isso para dar visibilidade à complexidade. Depois, apontei cada indivíduo que irá conduzir essa etapa.
Lembre-se de que cada etapa pode exigir um profissional diferente. Por exemplo, criar um ETL talvez precise de um Engenheiro de Dados se as coisas se tornarem complexas. Da mesma forma, criar um modelo de Machine Learning para um algoritmo de Regressão requer um Cientista de Dados ou algum profissional específico.
Esse é um exemplo simples, mas que pode ser evoluído e replicado no seu negócio. Espero que ajude!
Escrito por Odemir Depieri Jr
Fundador Data Viking, Lead Analytics Itaú.
Comments