CAPÍTULO 12: Gobierno de datos - Calidad y trazabilidad¶
Resumen del Capítulo
La calidad de datos es fundamental para tomar decisiones empresariales confiables. Este capítulo explora las dimensiones de calidad, métricas, herramientas y estrategias para implementar un programa completo de Data Quality y trazabilidad.
Contenido¶
- Dimensiones de Calidad de Datos
- Data Quality Assessment
- Trazabilidad y Linaje de Datos
- Herramientas de Data Quality
- Implementación Práctica con Great Expectations
- Monitoreo y Alertas
Dimensiones de calidad de datos¶
Las 6 dimensiones principales:
| Dimensión | Definición | Ejemplo de Problema | Impacto |
|---|---|---|---|
| Exactitud (Accuracy) | Datos representan correctamente la realidad | Email: "usuario@gmial.com" | ❌ Comunicación fallida |
| Completitud (Completeness) | Todos los campos requeridos tienen valor | Dirección sin código postal | ⚠️ Envíos fallidos |
| Consistencia (Consistency) | Mismos datos en múltiples sistemas | Cliente "Juan Pérez" vs "J. Perez" | 🔄 Duplicados |
| Actualidad (Timeliness) | Datos disponibles cuando se necesitan | Precios desactualizados | 💰 Pérdidas |
| Validez (Validity) | Datos cumplen reglas de negocio | Edad = -5 años | 🚫 Análisis erróneo |
| Unicidad (Uniqueness) | Sin duplicados innecesarios | Mismo cliente 3 veces | 📊 Métricas incorrectas |
Diagrama de calidad de datos:
graph TD
A[Datos de Origen] --> B{Validación de Calidad}
B -->|Exactitud| C[Verificación de Formato]
B -->|Completitud| D[Check de Campos Nulos]
B -->|Consistencia| E[Validación Cruzada]
B -->|Actualidad| F[Verificación de Timestamp]
B -->|Validez| G[Reglas de Negocio]
B -->|Unicidad| H[Detección de Duplicados]
C --> I{¿Pasa todas<br/>las validaciones?}
D --> I
E --> I
F --> I
G --> I
H --> I
I -->|Sí| J[Datos de Alta Calidad]
I -->|No| K[Cuarentena/Rechazo]
K --> L[Alerta al Equipo]
K --> M[Log de Errores]
style J fill:#c8e6c9
style K fill:#ffccbc
style L fill:#ffe0b2
Data Quality Assessment¶
Métricas clave:
1. Completitud score:
Salida:
2. Validez score:
3. Unicidad score:
Dashboard de calidad:
Trazabilidad y linaje de datos¶
Data Lineage:
Data Lineage documenta el flujo de datos desde el origen hasta el destino, incluyendo todas las transformaciones.
graph LR
A[CRM Database<br/>customers] --> B[ETL Job 1<br/>Extract & Clean]
C[ERP Database<br/>orders] --> B
B --> D[Data Lake<br/>S3 Trusted]
D --> E[Spark Job<br/>Transform & Enrich]
E --> F[Data Warehouse<br/>Redshift]
F --> G[BI Dashboard<br/>Tableau]
F --> H[ML Model<br/>Churn Prediction]
style A fill:#e3f2fd
style C fill:#e3f2fd
style D fill:#fff9c4
style F fill:#c8e6c9
style G fill:#f8bbd0
style H fill:#d1c4e9
Metadata Management:
Apache Atlas: catálogo de datos:
Herramientas de Data Quality¶
Comparativa de herramientas:
| Herramienta | Vendor | Tipo | Características | Precio |
|---|---|---|---|---|
| Great Expectations | Open Source | Python Library | Validaciones declarativas, Profiling | Gratis |
| Deequ | AWS/Open | Scala (Spark) | Spark-native, métricas, sugerencias | Gratis |
| Monte Carlo | Commercial | SaaS | ML-powered, anomaly detection | $$$$ |
| Datadog | Commercial | SaaS | Monitoring end-to-end, alertas | $$$ |
| Talend | Commercial | Platform | ETL + Data Quality integrado | $$$$ |
| Informatica DQ | Commercial | Platform | Enterprise-grade, MDM integration | $$$$$ |
Great Expectations:
Implementación práctica con Great Expectations¶
Pipeline completo de validación:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 | |
Monitoreo y alertas¶
Sistema de alertas automáticas:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 | |
Resumen y best practices¶
Mejores Prácticas de Data Quality
- Shift Left: Validar datos lo antes posible en el pipeline
- Automatización: Integrar validaciones en CI/CD
- Monitoreo Continuo: Dashboards en tiempo real
- Ownership: Asignar responsables por cada dataset
- Documentación: Mantener catálogo de datos actualizado
- Alertas Inteligentes: No sobrecargar con falsos positivos
- Trazabilidad: Rastrear origen de cada problema
- Remediación: Planes de acción claros para fix
Checklist de implementación:
- Definir dimensiones de calidad críticas
- Establecer métricas y KPIs
- Implementar herramientas (Great Expectations, Atlas)
- Crear dashboards de monitoreo
- Configurar alertas automatizadas
- Documentar ownership y responsabilidades
- Establecer procesos de remediación
- Auditorías periódicas de calidad