ETL & Data Quality em Python

Completo • 2025

Pipeline em Python que lê arquivos CSV, identifica problemas de qualidade nos dados e gera relatórios claros em Excel e HTML.

DadosAutomação

PythonPandasopenpyxlXlsxWriterPytestCLIGitHub Actions

Repositório Demo

Métricas

Validações

9 regras

campos obrigatórios, formato, duplicidade, datas e domínio

Testes

12 testes

cobrindo regras e pipeline

Saída

XLSX + HTML

relatórios prontos para análise

Execução

CLI

rodando por comando simples

Como executar

Headless

python -m pytest -q

UI (visual)

.\run.ps1

Dica: Rode os comandos na raiz do projeto, onde estão o pyproject.toml, requirements.txt e o README.md.

Destaques

Lê arquivos CSV e valida automaticamente a qualidade dos dados
Identifica problemas como campos vazios, duplicidades, datas inválidas e valores inconsistentes
Gera relatórios em Excel e HTML para facilitar revisão e auditoria
Conta com 12 testes automatizados para garantir a estabilidade da pipeline

Case Study

Contexto

Context

Em rotinas operacionais/ETL, erros pequenos (tipos, datas, duplicados) viram problemas grandes em relatórios e decisões. O objetivo aqui é reduzir falhas com validações explícitas e rastreabilidade.

In operational ETL routines, small issues (types, dates, duplicates) become big problems in reports and decisions. This project focuses on preventing failures with explicit validations and traceability.

Objetivo

Goal

Extrair e padronizar dados de entrada.
Aplicar regras de Data Quality e gerar evidência.
Entregar um relatório final reutilizável e fácil de auditar.

Extract and standardize input data.
Apply Data Quality rules and generate evidence.
Deliver a reusable final report that is easy to audit.

Abordagem

Approach

Pipeline organizada por etapas, com logs e checkpoints para facilitar acompanhamento.
Validações separadas por regra, cobrindo obrigatoriedade, formato, duplicidade, datas e domínio.
Geração de relatórios em XLSX e HTML com visão executiva e detalhamento por regra.

Step-based pipeline with logs and checkpoints for easier monitoring.
Validations split by rule, covering required fields, format, duplicates, dates and domain.
XLSX and HTML reports with executive summary and rule-by-rule detail.

Resultados

Results

Menos retrabalho: os problemas são detectados antes do consumo em relatórios e análises.
Mais rastreabilidade: cada inconsistência pode ser explicada com clareza.
Saída pronta para revisão em XLSX e HTML, facilitando auditoria da base.

Less rework: issues are detected before reporting and downstream analysis.
More traceability: each inconsistency can be clearly explained.
Output ready for review in XLSX and HTML, making data auditing easier.

Próximos passos

Next steps

Adicionar validações por domínio de negócio.
Expandir a entrada para formatos como JSON e Parquet.
Publicar o relatório HTML como demonstração estática.

Add business-domain validations.
Expand input support to formats such as JSON and Parquet.
Publish the HTML report as a static demo.