David Rodrigues
← Voltar

ETL & Data Quality em Python

Completo2025

Pipeline em Python que lê arquivos CSV, identifica problemas de qualidade nos dados e gera relatórios claros em Excel e HTML.

DadosAutomação
PythonPandasopenpyxlXlsxWriterPytestCLIGitHub Actions
Preview de ETL & Data Quality em Python

Métricas

Validações
9 regras
campos obrigatórios, formato, duplicidade, datas e domínio
Testes
12 testes
cobrindo regras e pipeline
Saída
XLSX + HTML
relatórios prontos para análise
Execução
CLI
rodando por comando simples

Como executar

Headless
python -m pytest -q
UI (visual)
.\run.ps1

Dica: Rode os comandos na raiz do projeto, onde estão o pyproject.toml, requirements.txt e o README.md.

Destaques

  • Lê arquivos CSV e valida automaticamente a qualidade dos dados
  • Identifica problemas como campos vazios, duplicidades, datas inválidas e valores inconsistentes
  • Gera relatórios em Excel e HTML para facilitar revisão e auditoria
  • Conta com 12 testes automatizados para garantir a estabilidade da pipeline

Case Study

Contexto
Context

Em rotinas operacionais/ETL, erros pequenos (tipos, datas, duplicados) viram problemas grandes em relatórios e decisões. O objetivo aqui é reduzir falhas com validações explícitas e rastreabilidade.

In operational ETL routines, small issues (types, dates, duplicates) become big problems in reports and decisions. This project focuses on preventing failures with explicit validations and traceability.

Objetivo
Goal
PT
  • Extrair e padronizar dados de entrada.
  • Aplicar regras de Data Quality e gerar evidência.
  • Entregar um relatório final reutilizável e fácil de auditar.
EN
  • Extract and standardize input data.
  • Apply Data Quality rules and generate evidence.
  • Deliver a reusable final report that is easy to audit.
Abordagem
Approach
PT
  • Pipeline organizada por etapas, com logs e checkpoints para facilitar acompanhamento.
  • Validações separadas por regra, cobrindo obrigatoriedade, formato, duplicidade, datas e domínio.
  • Geração de relatórios em XLSX e HTML com visão executiva e detalhamento por regra.
EN
  • Step-based pipeline with logs and checkpoints for easier monitoring.
  • Validations split by rule, covering required fields, format, duplicates, dates and domain.
  • XLSX and HTML reports with executive summary and rule-by-rule detail.
Resultados
Results
PT
  • Menos retrabalho: os problemas são detectados antes do consumo em relatórios e análises.
  • Mais rastreabilidade: cada inconsistência pode ser explicada com clareza.
  • Saída pronta para revisão em XLSX e HTML, facilitando auditoria da base.
EN
  • Less rework: issues are detected before reporting and downstream analysis.
  • More traceability: each inconsistency can be clearly explained.
  • Output ready for review in XLSX and HTML, making data auditing easier.
Próximos passos
Next steps
PT
  • Adicionar validações por domínio de negócio.
  • Expandir a entrada para formatos como JSON e Parquet.
  • Publicar o relatório HTML como demonstração estática.
EN
  • Add business-domain validations.
  • Expand input support to formats such as JSON and Parquet.
  • Publish the HTML report as a static demo.