ETL & Data Quality em Python
Completo • 2025Pipeline em Python que lê arquivos CSV, identifica problemas de qualidade nos dados e gera relatórios claros em Excel e HTML.
DadosAutomação
PythonPandasopenpyxlXlsxWriterPytestCLIGitHub Actions

Métricas
Validações
9 regras
campos obrigatórios, formato, duplicidade, datas e domínio
Testes
12 testes
cobrindo regras e pipeline
Saída
XLSX + HTML
relatórios prontos para análise
Execução
CLI
rodando por comando simples
Como executar
Headless
python -m pytest -qUI (visual)
.\run.ps1Dica: Rode os comandos na raiz do projeto, onde estão o pyproject.toml, requirements.txt e o README.md.
Destaques
- Lê arquivos CSV e valida automaticamente a qualidade dos dados
- Identifica problemas como campos vazios, duplicidades, datas inválidas e valores inconsistentes
- Gera relatórios em Excel e HTML para facilitar revisão e auditoria
- Conta com 12 testes automatizados para garantir a estabilidade da pipeline
Case Study
Contexto
Context
Em rotinas operacionais/ETL, erros pequenos (tipos, datas, duplicados) viram problemas grandes em relatórios e decisões. O objetivo aqui é reduzir falhas com validações explícitas e rastreabilidade.
In operational ETL routines, small issues (types, dates, duplicates) become big problems in reports and decisions. This project focuses on preventing failures with explicit validations and traceability.
Objetivo
Goal
PT
- Extrair e padronizar dados de entrada.
- Aplicar regras de Data Quality e gerar evidência.
- Entregar um relatório final reutilizável e fácil de auditar.
EN
- Extract and standardize input data.
- Apply Data Quality rules and generate evidence.
- Deliver a reusable final report that is easy to audit.
Abordagem
Approach
PT
- Pipeline organizada por etapas, com logs e checkpoints para facilitar acompanhamento.
- Validações separadas por regra, cobrindo obrigatoriedade, formato, duplicidade, datas e domínio.
- Geração de relatórios em XLSX e HTML com visão executiva e detalhamento por regra.
EN
- Step-based pipeline with logs and checkpoints for easier monitoring.
- Validations split by rule, covering required fields, format, duplicates, dates and domain.
- XLSX and HTML reports with executive summary and rule-by-rule detail.
Resultados
Results
PT
- Menos retrabalho: os problemas são detectados antes do consumo em relatórios e análises.
- Mais rastreabilidade: cada inconsistência pode ser explicada com clareza.
- Saída pronta para revisão em XLSX e HTML, facilitando auditoria da base.
EN
- Less rework: issues are detected before reporting and downstream analysis.
- More traceability: each inconsistency can be clearly explained.
- Output ready for review in XLSX and HTML, making data auditing easier.
Próximos passos
Next steps
PT
- Adicionar validações por domínio de negócio.
- Expandir a entrada para formatos como JSON e Parquet.
- Publicar o relatório HTML como demonstração estática.
EN
- Add business-domain validations.
- Expand input support to formats such as JSON and Parquet.
- Publish the HTML report as a static demo.
