top of page

Conhecendo serviços de Analytics na AWS

Conheça os serviços de analytics na AWS: Athena, Glue, Sagemarker e Quicksight


Serviços de analytics na AWS
Ilustração dos serviços de analytics

Os serviços de analytics na AWS são um conjunto de ferramentas que ajudam no entendimento dos seus dados. Eles ajudam os negócios a tomar decisões melhores e a serem mais eficientes. Esses serviços são bem amplos e podem usadas em diversas situações além de projetos de analytics.


Lembrando que se for usar algum exemplo desse artigo, os serviços da AWS são pagos, vale estudar o preço do uso de cada serviço para não ter supressas no cartão de crédito.

Cada serviço tem uma forma de tarifa, como: uso por hora, execução, outros.


Athena

O AWS Athena é um serviço de análise interativa da Amazon Web Services (AWS) que permite consultar e analisar dados armazenados no Amazon S3 (Simple Storage Service) usando SQL padrão. Ele é uma ferramenta poderosa que não requer configuração de infraestrutura ou gerenciamento de servidores, pois funciona em um modelo de "serverless"


Com o Athena, você pode executar consultas SQL diretamente nos dados armazenados no S3, sem a necessidade de carregar ou transformar esses dados em um banco de dados tradicional. Isso significa que você pode analisar grandes volumes de dados de forma rápida e flexível, pagando apenas pelo que é processado nas consultas.


No exemplo abaixo vamos:

  • Vamos criar uma tabela chamada "Tabela_Exemplo_Athena";

  • Indicar que os dados no arquivo CSV são delimitados por vírgulas;

  • Especifica o local do arquivo CSV no seu bucket do Amazon S3;

  • Indicar que a primeira linha do arquivo CSV é um cabeçalho e deve ser ignorada na criação da tabela.

Serviço do AWS Athena
Imagem do serviço AWS Athena

Glue

O AWS Glue é um serviço da Amazon Web Services (AWS) usado principalmente para preparar e transformar dados para análise. Ele simplifica e automatiza muitas das tarefas associadas à criação e gerenciamento de pipelines de dados.


Algumas das funcionalidades do AWS Glue:


Catálogo de Dados: O Glue possui um catálogo de metadados que armazena informações sobre os dados e sua estrutura. Isso permite descobrir, catalogar e mapear automaticamente a estrutura de diferentes fontes de dados.


Estruturação de Dados: Ele ajuda na transformação e limpeza de dados, permitindo que você crie scripts de transformação usando uma interface gráfica ou por meio de código Python.


Job Scheduler: Permite criar e gerenciar jobs (processamentos) para extrair, transformar e carregar (ETL) dados em vários formatos e locais.


Suporte a Diversos Dados: É compatível com uma variedade de fontes de dados, incluindo Amazon S3, bancos de dados relacionais e não relacionais, além de ser integrado com outros serviços AWS como o Amazon Redshift, Amazon RDS, entre outros.


Ambiente Serverless: Funciona em um ambiente "serverless", o que significa que você não precisa se preocupar com a infraestrutura subjacente. O AWS Glue dimensiona automaticamente conforme necessário, cobrando apenas pelos recursos utilizados.


No exemplo abaixo vamos:

  • Criar um ETL usando a interface gráfica do AWS Glue Studio para criar um fluxo de processamento;

  • Importar os dados do S3, utilizado uma função retirar valores nulos e depois um função de agregração;

Serviço do AWS GLUE
Imagem do serviço AWS GLUE

SageMarker

O Amazon SageMaker é um serviço voltado para a construção, treinamento e implantação de modelos de machine learning de forma simplificada na nuvem.


Facilita a construção de modelos de machine learning por meio de uma interface integrada que suporta várias bibliotecas populares, como TensorFlow, PyTorch, Pandas, Plolty, além de oferecer suporte a notebooks Jupyter.


Possibilita treinar modelos de machine learning usando recursos escaláveis, permitindo o treinamento distribuído em grandes conjuntos de dados. Esse recurso na minha visão é um diferencial para treinar modelos com alta carga de dados e algoritmos mais complexos como ensembles.


No exemplo abaixo vamos:

  • Criar um ambiente para um notebook Jupyter;

  • Criar um código Python para integrar no s3;

  • Criar um modelo de Machine Learning.

serviço AWS SageMarker
Imagem do serviço AWS SageMarker

QuickSight

O Amazon QuickSight é um serviço de business intelligence (BI) e visualização de dados da AWS. Ele permite que usuários criem, compartilhem e visualizem insights de dados de maneira rápida e fácil, sem a necessidade de habilidades avançadas em análise de dados ou programação.


Oferece uma ampla variedade de opções de visualização, como gráficos interativos, tabelas, dashboards e widgets, para representar dados de maneira compreensível e informativa.


Integra-se facilmente a diversas fontes de dados, incluindo serviços da AWS (como o Amazon Redshift, Amazon RDS, Amazon S3), bancos de dados relacionais, serviços web, entre outros, para acessar e processar informações.


No exemplo abaixo vamos:

  • Importar uma base de dados via 'csv';

  • Criar um gráfico simples para exemplificar todas as possibilidade.

serviço AWS QuickSight
Imagem do serviço QuickSight

Caso de uso

O uso do serviço pode dependente bastante do tipo do seu projeto, mas o grande diferencial de utilizar esses serviços é a possibilidade de integração entre eles.

Vamos imaginar uma situação na qual queira criar um Dashboard.

  1. Preparação dos dados: É possível utilizar o AWS Glue para catalogar os dados no Amazon S3, definindo um esquema e aplicando as transformações necessárias para preparar os dados para análise.

  2. Consulta de Dados: O Athena pode ser usado para consultar os dados preparados no S3.

  3. Treinamento de Modelo: Utilizo o SageMaker para treinar um modelo de machine learning com os dados preparados provenientes do Athena, salvando uma nova tabela com os dados treinados.

  4. Criação do Dashboard: Através do QuickSight, conecto-me ao Athena e obtenho os dados para criar as visualizações.

Vamos criar uma visão dessa arquitetura para exemplificar a solução.

Desenho da arquitetura da solução na AWS
Desenho da arquitetura da solução na AWS

Odemir Depieri Jr

Escrito por Odemir Depieri Jr

Fundador Data Viking, Lead Analytics Itaú.



353 visualizações0 comentário

Comments


bottom of page