CAPÍTULO 12: Gobierno de datos - Anonimización y privacidad¶
Privacidad en la Era del Big Data
En el contexto del Big Data y análisis avanzado de datos, proteger la privacidad individual mientras se preserva la utilidad analítica es un desafío fundamental. La anonimización no es simplemente eliminar nombres, sino aplicar técnicas rigurosas que eviten la re-identificación.
Contexto legal:
- RGPD (2018): Requiere anonimización de datos personales
- LOPDGDD: Normativa española de protección de datos
- HIPAA (USA): Privacidad en datos de salud
- CCPA (California): Derechos de privacidad del consumidor
Contexto legal:
- RGPD (2018): Requiere anonimización de datos personales
- LOPDGDD: Normativa española de protección de datos
- HIPAA (USA): Privacidad en datos de salud
- CCPA (California): Derechos de privacidad del consumidor
12.1. Conceptos fundamentales¶
Anonimización vs pseudonimización:
| Aspecto | Anonimización | Pseudonimización |
|---|---|---|
| Reversibilidad | ❌ Irreversible | ✅ Reversible con clave |
| RGPD | No aplica (datos no personales) | Sigue aplicando |
| Técnica | Generalización, supresión | Hash, cifrado, tokenización |
| Utilidad | Menor (más privado) | Mayor (menos privado) |
| Ejemplo | Edad → "30-40 años" | Email → Token UUID |
Importante
La anonimización verdadera es extremadamente difícil. Estudios demuestran que el 87% de la población de USA puede ser identificada con solo 3 atributos: código postal, género y fecha de nacimiento.
Riesgo de re-identificación:
Salida esperada:
12.2. K-anonimidad¶
Definición:
K-Anonimidad (Sweeney, 2002)
Un dataset satisface k-anonimidad si cada combinación de valores en los quasi-identificadores aparece al menos k veces.
- k=1: Sin protección (registros únicos)
- k=5: Cada persona está "escondida" en un grupo de al menos 5
- k=10: Mayor privacidad, pero menor utilidad
Quasi-identificadores vs identificadores directos:
graph LR
A[Tipos de Atributos] --> B[Identificadores Directos]
A --> C[Quasi-Identificadores]
A --> D[Datos Sensibles]
A --> E[Datos No Sensibles]
B --> B1[DNI, Email, Nombre]
C --> C1[Edad, Código Postal, Profesión]
D --> D1[Enfermedad, Ingresos, Religión]
E --> E1[Color favorito, Marca de coche]
style B fill:#ff6b6b
style C fill:#ffd93d
style D fill:#ff9ff3
style E fill:#6bcb77
Implementación de K-anonimidad:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 | |
Limitaciones de K-anonimidad:
Ataques Conocidos
- Homogeneity Attack: Si todos en un grupo tienen el mismo atributo sensible
-
Grupo con k=5, todos tienen "HIV+" → Se revela información
-
Background Knowledge Attack: Conocimiento externo permite inferencias
-
"María tiene 28 años y vive en 280**" + "Solo hay un hospital en esa zona"
-
Composition Attack: Cruzar múltiples datasets anonimizados
Solución: Evolucionar hacia L-diversidad y T-closeness
12.3. L-diversidad¶
Definición:
L-Diversidad (Machanavajjhala et al., 2007)
Un dataset satisface L-diversidad si cada grupo de k-anonimidad contiene al menos L valores "bien representados" del atributo sensible.
12.4. Differential Privacy (Privacidad Diferencial)¶
Fundamentos matemáticos:
Definición Formal (Dwork, 2006)
Un algoritmo \(M\) satisface \((\varepsilon, \delta)\)-privacidad diferencial si para cualquier par de datasets \(D_1\) y \(D_2\) que difieren en exactamente un registro:
Donde: - \(\varepsilon\) (epsilon): Presupuesto de privacidad (menor = más privacidad) - \(\delta\) (delta): Probabilidad de fallo (típicamente muy pequeña)
Interpretación:
- \(\varepsilon = 0\): Privacidad perfecta, pero sin utilidad
- \(\varepsilon = 0.1\): Privacidad muy fuerte (aplicaciones militares)
- \(\varepsilon = 1\): Privacidad fuerte (recomendado)
- \(\varepsilon > 5\): Privacidad débil (no recomendado)
Mecanismo de Laplace:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 | |
Composición de queries con DP:
Presupuesto de Privacidad
El presupuesto de privacidad (\(\varepsilon\)) es acumulativo: - Query 1 con \(\varepsilon_1 = 0.5\) - Query 2 con \(\varepsilon_2 = 0.5\) - Total: \(\varepsilon_{total} = 1.0\)
Implicación: No se pueden hacer queries infinitas sin degradar la privacidad.
12.5. Técnicas de anonimización complementarias¶
Data Masking (enmascaramiento):
Synthetic Data (datos sintéticos):
12.6. Herramientas y frameworks¶
Google Differential Privacy Library:
Microsoft Presidio (PII Detection & Anonymization):
ARX Data Anonymization Tool:
Características:
- Implementa k-anonimidad, l-diversidad, t-closeness
- Soporta múltiples algoritmos de generalización
- Métricas de utilidad de datos
- Interfaz gráfica intuitiva
12.7. Caso Práctico Integrado: Pipeline Completo¶
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 | |
Salida esperada:
12.8. Best Practices Y Recomendaciones¶
Recomendaciones Empresariales
1. Defensa en profundidad: - No confiar en una sola técnica: Combinar k-anonimidad + differential privacy + cifrado - Evaluar trade-offs: Mayor privacidad = menor utilidad
2. Documentación y auditoría: - Mantener registro de todas las transformaciones - Versionar datasets anonimizados - Generar reportes de cumplimiento RGPD
3. Validación continua: - Testear riesgo de re-identificación periódicamente - Monitorear cambios en datos originales - Actualizar parámetros según nuevos ataques
4. Presupuesto de privacidad: - Definir \(\varepsilon\) máximo por proyecto - Trackear composición de queries - Limitar acceso cuando presupuesto se agote
5. Evaluación de utilidad: - Medir pérdida de información post-anonimización - Validar que análisis sigue siendo posible - Balancear privacidad vs análisis
Métricas de evaluación:
| Métrica | Descripción | Objetivo |
|---|---|---|
| Ratio de supresión | % registros eliminados | < 10% |
| Granularidad | Nivel de generalización | Mínimo necesario |
| Riesgo de re-id | Probabilidad promedio | < 5% |
| Utilidad estadística | Correlación con original | > 0.9 |
| Presupuesto ε | Privacidad diferencial | < 1.0 |
12.9. Casos De Uso Reales¶
Caso 1: Netflix Prize (2006):
Lección Aprendida: Re-identificación
- Netflix publicó dataset "anonimizado" de 480,000 usuarios
- Investigadores re-identificaron usuarios cruzando con IMDB
- Resultado: Demanda colectiva, cancelación de concurso
Error: Solo eliminar nombres no es anonimización.
Caso 2: Censo de USA (2020):
Differential Privacy a Gran Escala
- US Census Bureau aplicó DP a censo nacional
- Epsilon = 17.14 (relaxed para mantener utilidad)
- Protege 330 millones de registros
Resultado: Primera aplicación masiva de DP gubernamental.
Caso 3: Apple - Differential Privacy en iOS:
DP en Producción
- Recolecta datos de uso sin identificar usuarios
- emoji populares, sitios visitados en Safari
- Local DP: ruido agregado en el dispositivo
Resultado: Millones de usuarios protegidos diariamente.
Referencias y recursos¶
Papers fundamentales:
- Sweeney, L. (2002). "k-Anonymity: A Model for Protecting Privacy"
- Dwork, C. (2006). "Differential Privacy"
- Machanavajjhala et al. (2007). "L-Diversity: Privacy Beyond k-Anonymity"
Herramientas:
Estándares y guías:
Conclusión
La anonimización efectiva requiere combinar múltiples técnicas, evaluar riesgos continuamente y mantenerse actualizado con nuevos ataques. No existe una "bala mágica", pero frameworks como k-anonimidad + differential privacy ofrecen protección robusta cuando se aplican correctamente.
Principio fundamental: "La privacidad no es un destino, es un proceso continuo."