CAPÍTULO 10: Fundamentos de Big Data y minería de datos¶
10.1. Introducción a Big Data¶
¿Qué es Big Data?
Definición ONU
Big Data es el "Volumen masivo de datos, tanto estructurados como no-estructurados, los cuales son demasiado grandes y difíciles de procesar con las bases de datos y el software tradicionales" (ONU, 2012)
Big Data no es solo una cuestión de volumen, sino una transformación radical en cómo las organizaciones capturan, almacenan, procesan y extraen valor de los datos.
Importancia de la información en la Industria 4.0:
Relevancia Estratégica
La información es "factor central y estratégico para el progreso social y económico" y "nuevo determinante de competitividad para organizaciones y países" (United Nations Economic and Social Council, 2000)
Dato alarmante:
El 93% de los ejecutivos creen que su organización está perdiendo ingresos como consecuencia de no poder aprovechar al máximo la información que recogen. En promedio, estiman que la pérdida en ingresos mensuales es de un 14% (Gartner)
La información como activo principal:
graph TD
A[Datos Raw] --> B[Información]
B --> C[Conocimiento]
C --> D[Sabiduría]
D --> E[Decisiones Estratégicas]
style A fill:#e3f2fd
style B fill:#bbdefb
style C fill:#90caf9
style D fill:#64b5f6
style E fill:#2196f3
La información es uno de los principales activos de las Compañías, incluso más valioso que activos físicos en muchos casos.
Comparación de activos:
| Activo Tradicional | Activo Digital |
|---|---|
| 💰 Capital financiero | 📊 Datos de clientes |
| 🏭 Infraestructura física | ☁️ Infraestructura cloud |
| 🚗 Equipamiento | 🤖 Algoritmos ML |
| 📦 Inventario | 💡 Conocimiento extraído |
10.2. Las 5 V's de Big Data¶
Big Data se caracteriza por cinco dimensiones fundamentales:
1. Volumen:
Definición: Cantidad masiva de datos generados.
Unidades de medida:
Ejemplos de volumen:
| Fuente | Volumen Diario |
|---|---|
| 4 Petabytes | |
| YouTube | 1 Petabyte (300 horas de video/minuto) |
| 12 Terabytes de tweets | |
| Sensores IoT | Millions de eventos/segundo |
| Secuenciación genoma | 100+ Gigabytes por persona |
Ejemplo: Genoma Humano
- Genoma completo: ~3 mil millones de pares de bases
- Datos crudos: ~100 GB por persona
- Proyecto genoma global: cientos de Petabytes
2. Velocidad:
Definición: Rapidez con la que se generan y procesan los datos.
Tipos de velocidad:
- Procesamiento por lotes
- Frecuencia: horas o días
- Ejemplo: Reportes mensuales de ventas
- Procesamiento en tiempo real
- Latencia: milisegundos
- Ejemplo: Detección fraude tarjetas crédito
- Flujo continuo de datos
- Procesamiento inmediato
- Ejemplo: Análisis de tráfico web en vivo
Ejemplos de velocidad:
- Mercados financieros: Millones de transacciones por segundo
- Redes sociales: 500 millones de tweets por día
- Sensores IoT: Datos cada milisegundo
3. Variedad:
Definición: Diversidad de tipos y fuentes de datos.
Clasificación de datos:
graph LR
A[Variedad de Datos] --> B[Estructurados]
A --> C[Semi-estructurados]
A --> D[No estructurados]
B --> B1[SQL/Tablas]
C --> C1[JSON/XML]
D --> D1[Texto/Imágenes/Video]
| Tipo | Descripción | Ejemplos | % del total |
|---|---|---|---|
| Estructurados | Datos organizados en esquemas fijos | SQL, CSV, Excel | 10% |
| Semi-estructurados | Datos con estructura parcial | JSON, XML, logs | 10% |
| No estructurados | Sin estructura predefinida | Textos, imágenes, videos, audio | 80% |
Dato clave
Los datos NO estructurados representan el 80% del total de datos generados, ofreciendo la mayor oportunidad para extraer nueva información.
Fuentes de datos:
- 📱 Redes sociales: Texto, imágenes, videos, reacciones
- 🌐 Web: Clickstream, logs, formularios
- 📧 Email: Contenido, metadatos, adjuntos
- 🎥 Multimedia: Videos, audio, streaming
- 🤖 IoT: Sensores, dispositivos conectados
- 🏥 Médicos: Imágenes médicas, historias clínicas, genomas
4. Veracidad:
Definición: Confiabilidad y calidad de los datos.
Problemas de calidad:
Desafíos de Veracidad
- Inconsistencias: Múltiples fuentes generan valores diferentes para un mismo atributo
- Subjetividad: Opiniones personales afectan la calidad
- Errores sistemáticos: Controles inadecuados en entrada de datos
- Datos faltantes: Valores nulos o incompletos
- Formatos heterogéneos: Diferentes estructuras dificultan integración
Dimensiones de calidad de datos:
| Dimensión | Descripción | Problema Común |
|---|---|---|
| Exactitud | Datos reflejan la realidad | Valores incorrectos |
| Completitud | Todos los datos requeridos presentes | Campos vacíos |
| Consistencia | Sin contradicciones internas | Duplicados |
| Actualidad | Datos vigentes y actualizados | Datos obsoletos |
| Validez | Cumplimiento de reglas de negocio | Formatos inválidos |
Solución: gobierno de datos (ver sección siguiente)
5. Valor:
Definición: Capacidad de extraer información útil para la toma de decisiones.
graph LR
A[Datos Raw] -- Limpieza --> B[Datos Limpios]
B -- Análisis --> C[Información]
C -- Interpretación --> D[Conocimiento]
D -- Aplicación --> E[Valor de Negocio]
style E fill:#4caf50,color:#fff
Generar valor desde Big Data:
- Identificar preguntas de negocio relevantes
- Explorar y preparar datos (80% del tiempo)
- Aplicar técnicas analíticas (ML, estadística)
- Validar resultados con expertos de negocio
- Implementar insights en procesos operativos
- Medir impacto (ROI, KPIs)
Principio 80-20
El 80% del esfuerzo en proyectos Big Data se dedica a preparación y limpieza de datos. Solo el 20% es modelado y análisis.
10.3. Gobierno de datos¶
Definición:
Gobierno de Datos
El Gobierno de Datos es la asignación de responsabilidades y obligaciones en torno a la toma de decisiones sobre los datos y su administración en una organización.
Diferencia clave:
- Gobierno: Especifica qué decisiones tomar y quién es responsable
- Administración: Se centra en ejecutar las acciones que tales decisiones implican
Objetivos del gobierno de datos:
graph TD
A[Gobierno de Datos] --> B[Estrategia de Gestión]
A --> C[Infraestructura Tecnológica]
A --> D[Política de Calidad]
B --> B1[Alineación con negocio]
C --> C1[Soporte a operaciones]
D --> D1[Estándares de calidad]
Tres objetivos principales:
- Desarrollo de estrategia para gestión de datos alineada con estrategia organizacional
- Implementación de infraestructura tecnológica para que datos brinden soporte al negocio
- Establecimiento de política de calidad con buenas prácticas y estándares
Orientación del gobierno de datos:
El gobierno de datos se orienta a:
✅ Definir decisiones con respecto a los datos en enfoque global de la organización
✅ Definir roles que se deben involucrar en el proceso de toma de decisiones
✅ Determinar participación de cada rol en el proceso decisorio
Marcos de referencia:
1. DMBoK (Data Management Body of Knowledge):
DAMA (Data Management Association) define 11 áreas de conocimiento:
Áreas clave:
- Data Governance (gobernanza de datos)
- Data Architecture (arquitectura de datos)
- Data Modeling & Design (modelado y diseño)
- Data Storage & Operations (almacenamiento y operaciones)
- Data Security (seguridad de datos)
- Data Integration & Interoperability (integración e interoperabilidad)
- Document & Content Management (gestión de documentos y contenido)
- Reference & Master Data (datos de referencia y maestros)
- Data Warehousing & Business Intelligence (almacenes de datos e inteligencia de negocios)
- Metadata Management (gestión de metadatos)
- Data Quality (calidad de datos)
2. ISO 38505 - Gobierno de datos:
La norma ISO 38505 presenta áreas de trabajo clave en el gobierno de datos:
| Área | Descripción |
|---|---|
| Accountability | Definición clara de responsabilidades |
| Strategy | Alineamiento con objetivos de negocio |
| Acquisition | Adquisición y provisioning de datos |
| Performance | Medición y monitoreo de métricas |
| Conformance | Cumplimiento normativo y legal |
| Human Behaviour | Cultura y comportamiento organizacional |
Relación entre gobierno corporativo y gobierno de TI:
Problemas comunes de calidad de datos:
Problemas Típicos
- Múltiples fuentes generan valores diferentes para un mismo atributo
- Subjetividad (opinión del usuario) genera valores inconsistentes
- Errores sistemáticos en controles de entrada
- Volumen creciente dificulta acceso y recuperación
- Sistemas distribuidos producen definiciones y formatos inconsistentes
- Datos no numéricos complejos de indexar, etiquetar y buscar
- Análisis automático de datos distribuidos no produce resultados esperados
- Necesidades cambiantes de usuarios afectan calidad contextual
Solución: Implementar un programa integral de Gobierno de Datos con políticas, procesos, roles y tecnologías adecuadas.
10.4. Small Data vs Big Data¶
¿Qué es Small Data?
Definición
Small Data es un conjunto de datos que poseen un formato y un volumen que lo hacen accesible, informativo y procesable.
Objetivo: Hacer entendible al Big Data, conectando, organizando y empaquetando los datos para facilitar las tareas de todos los miembros de la empresa cada día.
Comparación:
| Aspecto | Small Data | Big Data |
|---|---|---|
| Volumen | GBs - TBs | TBs - PBs - EBs |
| Estructura | Estructurado (SQL) | Estructurado + semi + no estructurado |
| Herramientas | Excel, SQL, R | Hadoop, Spark, NoSQL |
| Análisis | Estadística tradicional | ML, Deep Learning |
| Tiempo de procesamiento | Minutos - Horas | Horas - Días |
| Infraestructura | Servidor único | Cluster distribuido |
| Expertise requerido | Analista de datos | Data Scientist, Data Engineer |
| Casos de uso | Reportes, dashboards | Predicciones, recomendaciones |
Principio
No siempre necesitas Big Data. Muchos problemas de negocio se resuelven efectivamente con Small Data bien gestionado.
10.5. Data Warehouse vs Data Lake¶
Data Warehouse:
Definición William Inmon
Data Warehouse es una colección de datos orientada a un determinado tema, integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones.
Características:
- Orientado a tema: Organizado por áreas de negocio (ventas, finanzas, clientes)
- Integrado: Datos de múltiples fuentes consolidados
- No volátil: Datos históricos, no se modifican
- Variable en el tiempo: Incluye dimensión temporal
Ejemplo de esquema Data Warehouse:
Data Lake:
Definición
Data Lake es un repositorio centralizado diseñado para almacenar, procesar y proteger grandes cantidades de datos estructurados, semiestructurados o no estructurados. Puede almacenar datos en su formato nativo y procesar cualquier variedad de datos, ignorando los límites de tamaño.
Arquitectura típica:
Comparación Data Warehouse vs Data Lake:
| Aspecto | Data Warehouse | Data Lake |
|---|---|---|
| Tipo de datos | Estructurados (SQL) | Todos (estructurados, semi, no estructurados) |
| Esquema | Schema-on-write (definido antes) | Schema-on-read (definido al leer) |
| Procesamiento | SQL, ETL tradicional | Spark, Hadoop, Python |
| Flexibilidad | Baja (esquema rígido) | Alta (cualquier formato) |
| Costo | Alto (storage especializado) | Bajo (storage cloud commodity) |
| Usuarios | Analistas de negocio | Data Scientists, ML Engineers |
| Tiempo de desarrollo | Semanas/meses (modelado dimensional) | Días (ingestar datos directamente) |
| Propósito | Reportes históricos, BI | Exploración, ML, analytics avanzado |
| Madurez | Muy maduro (décadas) | Emergente (última década) |
Ejemplo: Arquitectura híbrida (recomendada)
10.6. Machine Learning vs Deep Learning¶
Machine Learning:
Definición
Machine Learning (ML) son algoritmos matemáticos que permiten a las máquinas aprender imitando la forma en la que aprendemos los humanos, aunque el ML no son solo algoritmos sino también el enfoque desde el que se aborda el problema.
Tipos de algoritmos ML:
- Clasificación: Predecir categorías (spam/no spam, fraude/legítimo)
- Regresión: Predecir valores numéricos (precio casa, ventas)
- Ejemplos: Decision Trees, Random Forest, SVM, Logistic Regression
- Clustering: Agrupar datos similares (segmentación clientes)
- Reducción dimensionalidad: PCA, t-SNE
- Asociación: Reglas de asociación (market basket)
- Ejemplos: K-Means, DBSCAN, Apriori
- Aprender desde interacción con el entorno
- Maximizar recompensas
- Ejemplos: Q-Learning, Deep Q-Network, AlphaGo
Deep Learning:
Definición
Deep Learning (DL) forma parte del aprendizaje automático. Es la nueva evolución del ML. Se trata de un algoritmo automático que imita la percepción humana inspirada en nuestro cerebro y la conexión entre neuronas.
Características:
- Arquitecturas de redes neuronales profundas (múltiples capas)
- Se conoce como "redes neuronales profundas" o "deep neural networks"
- El "deep" se refiere al número de capas ocultas (hidden layers)
- Requiere grandes volúmenes de datos para entrenamiento
Comparación ML vs DL:
| Aspecto | Machine Learning | Deep Learning |
|---|---|---|
| Formato de datos | Datos estructurados | Datos no estructurados (imágenes, texto, audio) |
| Volumen datos requerido | Base de datos típica (miles-millones registros) | Más de un millón de puntos de datos |
| Feature engineering | Manual (se requiere extraer features) | Automático (aprende features) |
| Arquitectura | Algoritmos clásicos (árboles, SVM) | Redes neuronales multicapa |
| Tiempo de entrenamiento | Minutos - Horas | Horas - Días - Semanas |
| Hardware | CPU suficiente | GPU/TPU necesarios |
| Interpretabilidad | Alta (modelos explicables) | Baja ("caja negra") |
| Casos de uso | Tablas, series temporales, predicciones simples | Visión computacional, NLP, voz |
Ejemplo comparativo:
Cuándo usar cada uno:
| Usa Machine Learning si... | Usa Deep Learning si... |
|---|---|
| ✅ Tienes datos estructurados (tablas) | ✅ Tienes imágenes, texto, audio, video |
| ✅ Dataset < 100K registros | ✅ Dataset > 1M registros |
| ✅ Necesitas interpretabilidad | ✅ Precisión es más importante que explicabilidad |
| ✅ Recursos limitados (CPU) | ✅ Tienes GPUs disponibles |
| ✅ Tiempo de desarrollo corto | ✅ Tiempo para investigación y experimentación |
10.7. Relación Entre Big Data, AI Y Data Science¶
Definiciones:
Conceptos Clave
- Big Data: Gran colección de conjuntos de datos que no se pueden almacenar en sistemas tradicionales (BD relacionales)
- Data Science: Herramienta para abordar Big Data y luego extraer información significativa de los mismos
- Artificial Intelligence (AI): Capacidad de las máquinas para imitar el comportamiento inteligente humano
Diagrama de Venn:
Roles y responsabilidades:
| Rol | Descripción | Skills Clave |
|---|---|---|
| Data Engineer | Construye pipelines, infraestructura Big Data | Hadoop, Spark, SQL, Python, Cloud |
| Data Scientist | Analiza datos, crea modelos ML | Statistics, ML, Python/R, Jupyter |
| ML Engineer | Deploya modelos ML a producción | MLOps, Docker, Kubernetes, APIs |
| Data Analyst | Reporting, BI, dashboards | SQL, Excel, Tableau, Power BI |
| AI Researcher | Investiga nuevos algoritmos | Deep Learning, Research, Papers |
Flujo de trabajo integrado:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 | |
Integración completa:
- Data Engineer construye pipeline Big Data (Spark, Data Lake)
- Data Scientist explora datos y entrena modelo ML
- ML Engineer despliega modelo como API REST
- Data Analyst crea dashboard con predicciones para negocio
- AI enables mejora continua con feedback loop
Este capítulo continúa en la próxima sección con Minería de Datos y Metodologías (CRISP-DM, KDD)...