Cloud & Big Data¶
Universidad Internacional de Valencia¶
Visión del Curso
"Del dato al conocimiento: Un viaje desde las fuentes abiertas hasta la generación de insights accionables mediante infraestructuras cloud, análisis multidimensional y minería de datos inteligente."
Contexto histórico de la disciplina¶
La evolución del procesamiento de datos:
La historia del análisis de datos y la computación distribuida es una narrativa fascinante que conecta directamente con los desafíos actuales de Big Data y Cloud Computing.
1960-1970: Los Orígenes de las Bases de Datos
Era Mainframe
- 1970: Edgar F. Codd publica "A Relational Model of Data" - nacimiento de las bases de datos relacionales
- Sistemas OLTP emergen para transacciones bancarias y comerciales
- IBM desarrolla SQL (Structured Query Language)
- Limitación: Procesamiento centralizado, capacidad limitada
1980-1990: Nace el Data Warehousing y OLAP
Revolución Analítica
- 1988: Barry Devlin y Paul Murphy (IBM) introducen el concepto de Data Warehouse
- 1992: Bill Inmon publica "Building the Data Warehouse" - arquitectura formal
- 1992: Ralph Kimball desarrolla el modelado dimensional (Star Schema)
- 1993: Edgar F. Codd define OLAP (Online Analytical Processing)
- 1996: Fayyad, Piatetsky-Shapiro y Smyth formalizan el proceso KDD (Knowledge Discovery in Databases)
Impacto: Separación clara entre sistemas operacionales (OLTP) y analíticos (OLAP)
1995-2005: Data Mining y Descubrimiento de Conocimiento
Era del Descubrimiento
- 1996: Proceso KDD formalizado como metodología científica
- 2000: Metodología CRISP-DM se convierte en estándar de facto
- Algoritmos clásicos: Decision Trees, K-Means, Apriori, SVM
- Desafío: Los datos crecen más rápido que la capacidad de procesamiento
Cronología del Data Mining:
timeline
title Evolución de Data Mining y KDD
1996 : KDD formalizado (Fayyad et al.)
2000 : CRISP-DM se establece
2001 : Metodología SEMMA (SAS)
2015 : ASUM-DM (IBM para Big Data)
2016 : TDSP (Microsoft Azure ML)
2020 : MLOps y DataOps emergen
2003-2010: Nace Big Data
Crisis de Escala
Problema: Los sistemas tradicionales no podían manejar el volumen creciente de datos web.
- 2003: Google publica el paper de GFS (Google File System)
- 2004: Google publica MapReduce - paradigma de procesamiento distribuido
- 2006: Doug Cutting crea Apache Hadoop basado en papers de Google
- 2006: Se acuña el término "Big Data"
- 2008: Artículo "Big Data: The next frontier for innovation" (McKinsey)
- 2010: Las 3 V's se formalizan: Volumen, Velocidad, Variedad
Arquitectura Hadoop - Revolución del Open Source:
graph TB
subgraph "Ecosistema Hadoop"
HDFS[HDFS - Almacenamiento Distribuido]
MapReduce[MapReduce - Procesamiento]
YARN[YARN - Gestión de Recursos]
Hive[Hive - SQL sobre Hadoop]
Pig[Pig - Scripting]
end
style HDFS fill:#4CAF50
style MapReduce fill:#2196F3
style YARN fill:#FF9800
2006-2015: La Revolución Cloud
Computación como Servicio
- 2006: Amazon lanza AWS EC2 - primera infraestructura cloud pública
- 2006: Google CEO Eric Schmidt acuña el término "Cloud Computing"
- 2008: Microsoft lanza Azure
- 2010: OpenStack nace como proyecto open source
- 2011: IBM Watson gana Jeopardy - AI mainstream
- 2014: Apache Spark supera a MapReduce en rendimiento (100x más rápido en memoria)
Cambio de Paradigma: De CAPEX (comprar servidores) a OPEX (pagar por uso)
Evolución de los Modelos Cloud:
| Año | Hito | Impacto |
|---|---|---|
| 2006 | AWS S3 + EC2 | IaaS nace |
| 2008 | Google App Engine | PaaS se populariza |
| 2009 | Salesforce | SaaS se consolida |
| 2014 | AWS Lambda | FaaS (Serverless) emerge |
| 2015 | Kubernetes GA | Contenedores cloud-native |
2010-2020: Big Data + Cloud + AI Convergen
Era de la Convergencia
- 2011: Apache Spark lanzado - supera limitaciones de MapReduce
- 2014: Lambda Architecture (Nathan Marz) - batch + streaming
- 2015: TensorFlow se hace open source
- 2016: AlphaGo vence a campeón mundial de Go
- 2017: Metodología TDSP (Microsoft) para proyectos en cloud
- 2018-2020: MLOps y DataOps emergen como disciplinas
Stack Tecnológico Moderno:
graph LR
subgraph "Generación Actual"
A[Cloud Native] --> B[Contenedores]
B --> C[Kubernetes]
C --> D[Spark/Kafka]
D --> E[ML/AI]
E --> F[AutoML]
end
style A fill:#667eea
style F fill:#764ba2
2020-Presente: Data Mesh y Cloud-Native
Estado Actual
- 2019: Zhamak Dehghani propone Data Mesh - arquitectura descentralizada
- 2020: Lakehouse (Databricks) - fusión de Data Lake y Data Warehouse
- 2021: Cloud-native Big Data se convierte en estándar
- 2022-2024: IA Generativa (GPT, LLMs) transforman el análisis de datos
- 2025: Real-time Everything - streaming como default
- 2026: Sostenibilidad en Cloud - Green Computing es prioridad
Conexión con la historia:
| Fase del Curso | Fundamento Histórico | Tecnologías |
|---|---|---|
| Fuentes de Datos | Datos abiertos (2010s) | APIs REST, Open Data |
| Cloud Computing | AWS (2006), Azure (2008) | IaaS, PaaS, SaaS |
| Data Lake | Hadoop HDFS (2006) | S3, Azure Data Lake |
| OLAP | Codd (1993), Kimball (1996) | Star Schema, Cubos |
| Big Data | MapReduce (2004), Spark (2011) | Hadoop, Spark, Kafka |
| Data Mining | Algoritmos 1990s-2000s | scikit-learn, XGBoost |
| KDD/CRISP-DM | KDD (1996), CRISP-DM (2000) | MLflow, Kubeflow |
¿Por qué esta combinación?¶
Cloud & Big Data:
Visión Integradora
No son tecnologías aisladas, sino capas complementarias de una arquitectura moderna de datos:
- Cloud = Infraestructura elástica y escalable
- Data Lake = Almacenamiento flexible (schema-on-read)
- OLAP = Análisis exploratorio y descriptivo
- Big Data = Procesamiento masivo y distribuido
- Data Mining = Descubrimiento de patrones (predictivo)
- KDD = Metodología end-to-end para generar conocimiento
Caso de uso integrado: salud pública:
Imagina analizar datos epidemiológicos para predecir brotes de enfermedades:
graph TB
subgraph "1. Ingesta"
A[Datos Ministerio Sanidad<br/>API REST] --> B[AWS S3 - RAW Zone]
end
subgraph "2. Procesamiento"
B --> C[Spark en EMR<br/>Limpieza y Transformación]
C --> D[S3 - TRUSTED Zone]
end
subgraph "3. Análisis OLAP"
D --> E[Redshift Data Warehouse<br/>Star Schema]
E --> F[Tableau - Dashboards<br/>Drill-down por Región]
end
subgraph "4. Data Mining"
D --> G[SageMaker<br/>Modelo Predictivo]
G --> H[API REST<br/>Predicción Brotes]
end
subgraph "5. KDD Completo"
I[Metodología CRISP-DM<br/>6 Fases]
end
style A fill:#4CAF50
style E fill:#2196F3
style G fill:#FF5722
style I fill:#9C27B0
Resultado: Un sistema completo que:
✅ Ingesta datos oficiales
✅ Los almacena eficientemente en cloud
✅ Permite análisis exploratorio (OLAP)
✅ Descubre patrones con ML (Data Mining)
✅ Aplica metodología rigurosa (KDD)
✅ Genera conocimiento accionable para salud pública
Estructura del curso: 9 bloques integrados¶
El curso está diseñado con una progresión lógica que reproduce el flujo real de un proyecto de datos desde la fuente hasta el conocimiento accionable.
BLOQUE 1: fundamentos del dato y fuentes reales
Base Conceptual
Comprender el valor estratégico del dato y trabajar con fuentes oficiales reales desde el inicio.
-
Capítulo 1: Economía y Gobierno del Dato
- El dato como activo estratégico
- Calidad y gobierno del dato
- Marcos y estándares (DAMA-DMBoK, DCAM, ISO 38505)
- RGPD y protección de datos
🔑 Concepto clave: El dato es el nuevo petróleo, pero requiere refinamiento
-
Capítulo 2: Fuentes Oficiales y Médicas
- Datos abiertos: datos.gob.es, Instituto Nacional de Estadística (INE)
- Datos sanitarios: Ministerio de Sanidad, Organización Mundial de la Salud (OMS)
- APIs públicas y formatos abiertos (JSON, CSV, XML)
- Problemas de calidad y protección de datos sanitarios
🔑 Concepto clave: Datos reales desde el día 1
BLOQUE 2: Cloud Computing y arquitectura
Infraestructura Escalable
De servidores físicos a infraestructura como código en la nube.
-
Capítulo 3: Fundamentos Cloud Computing
- Modelos de servicio: IaaS, PaaS, SaaS, FaaS
- Modelos de despliegue: Pública, Privada, Híbrida, Multi-cloud
- Características NIST: Elasticidad, auto-servicio, medición
- Regiones, zonas de disponibilidad, escalabilidad
- Comparación CAPEX vs OPEX
🔑 Concepto clave: Pagar por lo que usas, escalar según demanda
-
- Amazon Web Services (AWS): EC2, S3, RDS, EMR, Redshift, SageMaker
- Microsoft Azure: VMs, Blob Storage, SQL Database, Synapse, ML Studio
- Google Cloud Platform (GCP): Compute Engine, Cloud Storage, BigQuery, Vertex AI
- Comparativas de servicios y precios
- Casos de uso y mejores prácticas
🔑 Concepto clave: Cada proveedor tiene fortalezas específicas
-
Capítulo 5: Metodologías DevOps y DataOps
- DevOps: Integración continua (CI), despliegue continuo (CD), infraestructura como código
- DataOps: Orquestación de pipelines de datos, observabilidad, calidad
- Herramientas: Git, Jenkins, GitLab CI/CD, Terraform, Ansible
- Contenedores: Docker, Kubernetes, servicios gestionados (ECS, AKS, GKE)
- Automatización y monitorización de pipelines
🔑 Concepto clave: Automatizar todo el ciclo de vida de datos y aplicaciones
BLOQUE 3: Data Lakes y almacenamiento analítico
Schema-on-Read
Almacenamiento flexible que permite exploración antes de estructura rígida.
-
Capítulo 6: Arquitectura Data Lake
- Concepto: Repositorio centralizado para datos estructurados y no estructurados
- Capas: RAW (crudo) → TRUSTED (validado) → REFINED (procesado)
- Schema-on-read vs Schema-on-write
- Diferencia con Data Warehouse tradicional
- Tecnologías: Amazon S3, Azure Data Lake Storage Gen2
🔑 Concepto clave: Almacena primero, estructura después
📌 Práctica: Crear Data Lake con datos del INE y Ministerio de Sanidad
-
Capítulo 7: Almacenamiento Distribuido
- HDFS (Hadoop Distributed File System) - arquitectura y replicación
- Object Storage en cloud (S3, Blob Storage, GCS)
- Formatos columnares: Parquet, ORC, Avro
- Particionado y compresión para optimización
- Comparación rendimiento y casos de uso
🔑 Concepto clave: Formatos columnares = consultas analíticas 100x más rápidas
BLOQUE 4: sistemas OLTP vs OLAP
Separación de Preocupaciones
Sistemas transaccionales (operaciones) vs analíticos (inteligencia de negocio).
-
- OLTP (Online Transaction Processing): INSERT/UPDATE/DELETE, normalización, ACID
- OLAP (Online Analytical Processing): SELECT complejos, cubos multidimensionales
- Modelado dimensional: Star Schema y Snowflake Schema
- Dimensiones: SCD Type 1, 2, 3 (Slowly Changing Dimensions)
- Medidas y agregaciones: SUM, AVG, COUNT con drill-down/roll-up
- ETL: Extracción, Transformación, Carga de OLTP a OLAP
- Tecnologías: Redshift, Synapse, BigQuery, Snowflake
🔑 Concepto clave: OLTP optimiza escrituras, OLAP optimiza lecturas analíticas
📌 Aplicación: Modelo multidimensional para datos epidemiológicos (Región, Tiempo, Enfermedad, Edad)
BLOQUE 5: Big Data y procesamiento distribuido
Escalabilidad Horizontal
Procesar terabytes/petabytes dividiendo el trabajo entre cientos de nodos.
-
Capítulo 9: Infraestructura Big Data
- Ecosistema Hadoop: HDFS, MapReduce, YARN, Hive, Pig
- Apache Spark: RDDs, DataFrames, Spark SQL, MLlib (100x más rápido que Hadoop)
- Batch vs Streaming: Procesamiento por lotes vs tiempo real
- Apache Kafka: Event streaming, producer/consumer, topics
- Apache Airflow: Orquestación de workflows, DAGs, scheduling
- Arquitectura Lambda y Kappa
- Casos de uso y comparación tecnologías
🔑 Concepto clave: Divide y conquistarás: paralelización masiva
📌 Práctica: Procesar datasets masivos sanitarios o demográficos con Spark
BLOQUE 6: minería de datos
De Descriptivo a Predictivo
Descubrir patrones ocultos, predecir comportamientos, segmentar poblaciones.
-
Capítulo 10: Fundamentos Big Data y Data Mining
Parte 1: Fundamentos Big Data
- Las 5 V's: Volumen, Velocidad, Variedad, Veracidad, Valor
- Small Data vs Big Data vs Data Warehouse vs Data Lake
- Machine Learning vs Deep Learning
- Relación Big Data, AI y Data Science
Parte 2: Técnicas de Data Mining
- Clasificación: Predecir categorías (Decision Trees, Random Forest, SVM, XGBoost)
- Regresión: Predecir valores continuos (Linear, Polynomial, Ridge, Lasso)
- Clustering: Segmentación (K-Means, DBSCAN, Hierarchical)
- Reglas de asociación: Market Basket Analysis (Apriori, FP-Growth)
- Detección de anomalías: Fraude, fallos (Isolation Forest, One-Class SVM)
🔑 Concepto clave: OLAP responde "¿Qué pasó?", Data Mining responde "¿Qué pasará?"
📌 Aplicación: Predicción de incidencia de enfermedades, segmentación poblacional, detección de patrones territoriales
-
Capítulo 10.2: Preprocesamiento y CRISP-DM
- Preprocesamiento: Limpieza, integración, transformación, reducción de dimensionalidad
- Metodología CRISP-DM (6 fases):
- Comprensión del Negocio
- Comprensión de los Datos
- Preparación de los Datos
- Modelado
- Evaluación
- Despliegue
- Proyecto completo: Churn prediction con MLflow, FastAPI deployment
🔑 Concepto clave: El 80% del tiempo se va en preprocesamiento, el 20% en modelado
BLOQUE 7: proceso KDD - marco metodológico global
Conocimiento desde Datos
KDD integra todo: selección, limpieza, transformación, minería, evaluación, interpretación.
-
Capítulo 11: KDD y Metodologías Avanzadas
KDD como Proceso Integrador
- Fases KDD:
- Selección: Elegir fuentes de datos relevantes (← Bloque 1)
- Limpieza: Corregir inconsistencias, valores faltantes
- Transformación: Feature engineering, normalización
- Minería de Datos: Aplicar algoritmos (← Bloque 6)
- Evaluación: Validación de modelos, métricas
- Interpretación: Generar insights accionables
Metodologías Complementarias
- CRISP-DM (2000): Estándar de facto, agnóstico de industria
- ASUM-DM (IBM 2015): Para Big Data y proyectos enterprise
- TDSP (Microsoft 2016): Integrado con Azure ML
- MLOps: Operacionalización de modelos ML
🔑 Concepto clave: KDD es el esqueleto metodológico que conecta todos los bloques del curso
Conexión con curso: - Datos oficiales → Selección (Bloque 1) - Data Lake → Almacenamiento (Bloque 3) - OLAP → Análisis Exploratorio (Bloque 4) - Big Data → Procesamiento (Bloque 5) - Minería → Descubrimiento (Bloque 6) - Cloud → Infraestructura (Bloque 2)
- Fases KDD:
BLOQUE 8: gobierno del dato y ética
Crucial en Datos Médicos
Privacidad, seguridad, trazabilidad, calidad, cumplimiento normativo.
-
Capítulo 12: Protección de Datos
- RGPD (Reglamento General de Protección de Datos)
- Principios: minimización, limitación de finalidad, exactitud
- Derechos: acceso, rectificación, supresión, portabilidad
- Delegado de Protección de Datos (DPO)
- Sanciones y ejemplos reales
-
- Técnicas: k-anonimato, l-diversidad, t-closeness, differential privacy
- Pseudonimización vs Anonimización
- Re-identificación: ataques y defensa
- Aplicación a datos sanitarios
-
Capítulo 12.3: Calidad y Trazabilidad
- Dimensiones de calidad: Completitud, exactitud, consistencia, actualidad
- Data Lineage: Trazabilidad del origen al destino
- Metadata Management
- Herramientas: Apache Atlas, AWS Glue Data Catalog
BLOQUE 9: proyecto final integrador
Arquitectura Cloud para Datos Epidemiológicos
Integrar todos los conocimientos del curso en un caso real.
-
Caso Práctico: Diseñar una arquitectura cloud que permita analizar datos epidemiológicos abiertos y descubrir patrones de riesgo territorial mediante técnicas de minería de datos
Requisitos del Proyecto:
- Arquitectura Cloud: Diseñar stack completo (AWS, Azure o GCP)
- Data Lake: Definir capas RAW/TRUSTED/REFINED con datos del Ministerio de Sanidad
- Modelo OLAP: Dimensiones (Región, Tiempo, Enfermedad, Grupo_Edad), Hechos (Casos, Fallecimientos)
- Proceso KDD: Aplicar fases completas desde selección hasta interpretación
- Minería de Datos: Implementar clasificación, clustering o predicción
- Justificación Técnica: Decisiones de arquitectura, tecnologías, seguridad, costes
Entregables:
- Diagrama de arquitectura cloud completa
- Código ETL (Spark/Python)
- Modelo OLAP (SQL DDL + Star Schema)
- Modelo de Machine Learning (notebook Jupyter)
- Documentación metodológica (CRISP-DM o KDD)
- Informe ejecutivo con insights descubiertos
🎯 Objetivo: Demostrar dominio end-to-end del ciclo de datos
Ruta de aprendizaje: del concepto a la implementación:
graph TD
A[📖 1. Comprende el VALOR del dato] --> B[🗂️ 2. Identifica FUENTES oficiales]
B --> C[☁️ 3. Domina INFRAESTRUCTURA cloud]
C --> D[🏞️ 4. ALMACENA en Data Lake]
D --> E[🎯 5. ANALIZA con OLAP]
E --> F[⚙️ 6. PROCESA masivamente con Big Data]
F --> G[⛏️ 7. DESCUBRE patrones con Data Mining]
G --> H[🧠 8. INTEGRA con metodología KDD]
H --> I[🎯 9. GENERA conocimiento accionable]
style A fill:#e8eaf6
style C fill:#c5cae9
style E fill:#9fa8da
style G fill:#7986cb
style I fill:#3f51b5,color:#fff
Tecnologías cubiertas¶
Cómo usar este sitio¶
Navegación:
Tips de Navegación
- Menú superior (Tabs): Acceso rápido a bloques principales
- Menú lateral izquierdo: Índice detallado de todos los capítulos
- Tabla de contenidos derecha: Navegación interna del capítulo actual
- Buscador (esquina superior derecha): Busca cualquier término en todo el curso
- Temas claro/oscuro: Botón superior derecha para cambiar apariencia
Características interactivas:
Todos los bloques de código tienen un botón Copy en la esquina superior derecha:
Los diagramas Mermaid son interactivos:
- Zoom: Usa scroll del ratón
- Pan: Arrastra con el ratón
- Reset: Doble clic
graph LR
A[Fuente] --> B[Cloud]
B --> C[Data Lake]
C --> D[Analytics]
Contenido organizado en tabs para fácil navegación y comparación:
- AWS vs Azure vs GCP
- OLTP vs OLAP
- Metodologías DS
Mapa del curso¶
mindmap
root((Cloud & Big Data))
[Bloque 1<br/>Fundamentos]
(Economía Dato)
(Fuentes Oficiales)
[Bloque 2<br/>Cloud]
(IaaS/PaaS/SaaS)
(AWS/Azure/GCP)
(DevOps/DataOps)
[Bloque 3<br/>Almacenamiento]
(Data Lake)
(HDFS/S3)
(OLTP vs OLAP)
[Bloque 4<br/>Infraestructura]
(Hadoop/Spark)
(Kafka/Airflow)
[Bloque 5<br/>Análisis]
(Big Data)
(CRISP-DM)
(KDD/ASUM-DM)
[Bloque 6<br/>Gobierno]
(Calidad)
(RGPD)
(Anonimización)
[Proyecto<br/>Final]
(Integración)
(Deployment)
Soporte y recursos¶
¿Necesitas Ayuda?
Durante el Curso:
- Consulta la sección FAQ al final de cada capítulo
- Revisa ejemplos prácticos y casos de uso
- Explora referencias a documentación oficial
Recursos Externos:
Actualizaciones
Este material se actualiza regularmente
Próximos pasos¶
¡Comienzamos!
-
Capítulo 1: Economía y Gobierno del Dato
Entiende por qué el dato es el nuevo petróleo -
Capítulo 2: Fuentes Oficiales
Explora datos reales del INE y Ministerio de Sanidad -
Capítulo 3: Cloud Computing
Domina IaaS, PaaS, SaaS y arquitecturas cloud
Licencia y créditos¶
Información Académica
Copyright © 2026 Universidad Internacional de Valencia Material educativo protegido para uso académico.