Cloud & Big Data¶

Universidad Internacional de Valencia¶

Visión del Curso

"Del dato al conocimiento: Un viaje desde las fuentes abiertas hasta la generación de insights accionables mediante infraestructuras cloud, análisis multidimensional y minería de datos inteligente."

Contexto histórico de la disciplina¶

La evolución del procesamiento de datos:

La historia del análisis de datos y la computación distribuida es una narrativa fascinante que conecta directamente con los desafíos actuales de Big Data y Cloud Computing.

1960-1970: Los Orígenes de las Bases de Datos

Era Mainframe

1970: Edgar F. Codd publica "A Relational Model of Data" - nacimiento de las bases de datos relacionales
Sistemas OLTP emergen para transacciones bancarias y comerciales
IBM desarrolla SQL (Structured Query Language)
Limitación: Procesamiento centralizado, capacidad limitada

1980-1990: Nace el Data Warehousing y OLAP

Revolución Analítica

1988: Barry Devlin y Paul Murphy (IBM) introducen el concepto de Data Warehouse
1992: Bill Inmon publica "Building the Data Warehouse" - arquitectura formal
1992: Ralph Kimball desarrolla el modelado dimensional (Star Schema)
1993: Edgar F. Codd define OLAP (Online Analytical Processing)
1996: Fayyad, Piatetsky-Shapiro y Smyth formalizan el proceso KDD (Knowledge Discovery in Databases)

Impacto: Separación clara entre sistemas operacionales (OLTP) y analíticos (OLAP)

1995-2005: Data Mining y Descubrimiento de Conocimiento

Era del Descubrimiento

1996: Proceso KDD formalizado como metodología científica
2000: Metodología CRISP-DM se convierte en estándar de facto
Algoritmos clásicos: Decision Trees, K-Means, Apriori, SVM
Desafío: Los datos crecen más rápido que la capacidad de procesamiento

Cronología del Data Mining:

timeline
    title Evolución de Data Mining y KDD
    1996 : KDD formalizado (Fayyad et al.)
    2000 : CRISP-DM se establece
    2001 : Metodología SEMMA (SAS)
    2015 : ASUM-DM (IBM para Big Data)
    2016 : TDSP (Microsoft Azure ML)
    2020 : MLOps y DataOps emergen

2003-2010: Nace Big Data

Crisis de Escala

Problema: Los sistemas tradicionales no podían manejar el volumen creciente de datos web.

2003: Google publica el paper de GFS (Google File System)
2004: Google publica MapReduce - paradigma de procesamiento distribuido
2006: Doug Cutting crea Apache Hadoop basado en papers de Google
2006: Se acuña el término "Big Data"
2008: Artículo "Big Data: The next frontier for innovation" (McKinsey)
2010: Las 3 V's se formalizan: Volumen, Velocidad, Variedad

Arquitectura Hadoop - Revolución del Open Source:

graph TB
    subgraph "Ecosistema Hadoop"

        HDFS[HDFS - Almacenamiento Distribuido]
        MapReduce[MapReduce - Procesamiento]
        YARN[YARN - Gestión de Recursos]
        Hive[Hive - SQL sobre Hadoop]
        Pig[Pig - Scripting]
    end

    style HDFS fill:#4CAF50
    style MapReduce fill:#2196F3
    style YARN fill:#FF9800

2006-2015: La Revolución Cloud

Computación como Servicio

2006: Amazon lanza AWS EC2 - primera infraestructura cloud pública
2006: Google CEO Eric Schmidt acuña el término "Cloud Computing"
2008: Microsoft lanza Azure
2010: OpenStack nace como proyecto open source
2011: IBM Watson gana Jeopardy - AI mainstream
2014: Apache Spark supera a MapReduce en rendimiento (100x más rápido en memoria)

Cambio de Paradigma: De CAPEX (comprar servidores) a OPEX (pagar por uso)

Evolución de los Modelos Cloud:

Año	Hito	Impacto
2006	AWS S3 + EC2	IaaS nace
2008	Google App Engine	PaaS se populariza
2009	Salesforce	SaaS se consolida
2014	AWS Lambda	FaaS (Serverless) emerge
2015	Kubernetes GA	Contenedores cloud-native

2010-2020: Big Data + Cloud + AI Convergen

Era de la Convergencia

2011: Apache Spark lanzado - supera limitaciones de MapReduce
2014: Lambda Architecture (Nathan Marz) - batch + streaming
2015: TensorFlow se hace open source
2016: AlphaGo vence a campeón mundial de Go
2017: Metodología TDSP (Microsoft) para proyectos en cloud
2018-2020: MLOps y DataOps emergen como disciplinas

Stack Tecnológico Moderno:

graph LR
    subgraph "Generación Actual"
        A[Cloud Native] --> B[Contenedores]
        B --> C[Kubernetes]
        C --> D[Spark/Kafka]
        D --> E[ML/AI]
        E --> F[AutoML]
    end

    style A fill:#667eea
    style F fill:#764ba2

2020-Presente: Data Mesh y Cloud-Native

Estado Actual

2019: Zhamak Dehghani propone Data Mesh - arquitectura descentralizada
2020: Lakehouse (Databricks) - fusión de Data Lake y Data Warehouse
2021: Cloud-native Big Data se convierte en estándar
2022-2024: IA Generativa (GPT, LLMs) transforman el análisis de datos
2025: Real-time Everything - streaming como default
2026: Sostenibilidad en Cloud - Green Computing es prioridad

Conexión con la historia:

Fase del Curso	Fundamento Histórico	Tecnologías
Fuentes de Datos	Datos abiertos (2010s)	APIs REST, Open Data
Cloud Computing	AWS (2006), Azure (2008)	IaaS, PaaS, SaaS
Data Lake	Hadoop HDFS (2006)	S3, Azure Data Lake
OLAP	Codd (1993), Kimball (1996)	Star Schema, Cubos
Big Data	MapReduce (2004), Spark (2011)	Hadoop, Spark, Kafka
Data Mining	Algoritmos 1990s-2000s	scikit-learn, XGBoost
KDD/CRISP-DM	KDD (1996), CRISP-DM (2000)	MLflow, Kubeflow

¿Por qué esta combinación?¶

Cloud & Big Data:

Visión Integradora

No son tecnologías aisladas, sino capas complementarias de una arquitectura moderna de datos:

Cloud = Infraestructura elástica y escalable
Data Lake = Almacenamiento flexible (schema-on-read)
OLAP = Análisis exploratorio y descriptivo
Big Data = Procesamiento masivo y distribuido
Data Mining = Descubrimiento de patrones (predictivo)
KDD = Metodología end-to-end para generar conocimiento

Caso de uso integrado: salud pública:

Imagina analizar datos epidemiológicos para predecir brotes de enfermedades:

graph TB
    subgraph "1. Ingesta"
        A[Datos Ministerio Sanidad<br/>API REST] --> B[AWS S3 - RAW Zone]
    end

    subgraph "2. Procesamiento"
        B --> C[Spark en EMR<br/>Limpieza y Transformación]
        C --> D[S3 - TRUSTED Zone]
    end

    subgraph "3. Análisis OLAP"
        D --> E[Redshift Data Warehouse<br/>Star Schema]
        E --> F[Tableau - Dashboards<br/>Drill-down por Región]
    end

    subgraph "4. Data Mining"
        D --> G[SageMaker<br/>Modelo Predictivo]
        G --> H[API REST<br/>Predicción Brotes]
    end

    subgraph "5. KDD Completo"
        I[Metodología CRISP-DM<br/>6 Fases]
    end

    style A fill:#4CAF50
    style E fill:#2196F3
    style G fill:#FF5722
    style I fill:#9C27B0

Resultado: Un sistema completo que: ✅ Ingesta datos oficiales
✅ Los almacena eficientemente en cloud
✅ Permite análisis exploratorio (OLAP)
✅ Descubre patrones con ML (Data Mining)
✅ Aplica metodología rigurosa (KDD)
✅ Genera conocimiento accionable para salud pública

Estructura del curso: 9 bloques integrados¶

El curso está diseñado con una progresión lógica que reproduce el flujo real de un proyecto de datos desde la fuente hasta el conocimiento accionable.

BLOQUE 1: fundamentos del dato y fuentes reales

Base Conceptual

Comprender el valor estratégico del dato y trabajar con fuentes oficiales reales desde el inicio.

Capítulo 1: Economía y Gobierno del Dato
- El dato como activo estratégico
- Calidad y gobierno del dato
- Marcos y estándares (DAMA-DMBoK, DCAM, ISO 38505)
- RGPD y protección de datos
🔑 Concepto clave: El dato es el nuevo petróleo, pero requiere refinamiento
Capítulo 2: Fuentes Oficiales y Médicas
- Datos abiertos: datos.gob.es, Instituto Nacional de Estadística (INE)
- Datos sanitarios: Ministerio de Sanidad, Organización Mundial de la Salud (OMS)
- APIs públicas y formatos abiertos (JSON, CSV, XML)
- Problemas de calidad y protección de datos sanitarios
🔑 Concepto clave: Datos reales desde el día 1

BLOQUE 2: Cloud Computing y arquitectura

Infraestructura Escalable

De servidores físicos a infraestructura como código en la nube.

Capítulo 3: Fundamentos Cloud Computing
- Modelos de servicio: IaaS, PaaS, SaaS, FaaS
- Modelos de despliegue: Pública, Privada, Híbrida, Multi-cloud
- Características NIST: Elasticidad, auto-servicio, medición
- Regiones, zonas de disponibilidad, escalabilidad
- Comparación CAPEX vs OPEX
🔑 Concepto clave: Pagar por lo que usas, escalar según demanda
Capítulo 4: Proveedores Cloud
- Amazon Web Services (AWS): EC2, S3, RDS, EMR, Redshift, SageMaker
- Microsoft Azure: VMs, Blob Storage, SQL Database, Synapse, ML Studio
- Google Cloud Platform (GCP): Compute Engine, Cloud Storage, BigQuery, Vertex AI
- Comparativas de servicios y precios
- Casos de uso y mejores prácticas
🔑 Concepto clave: Cada proveedor tiene fortalezas específicas
Capítulo 5: Metodologías DevOps y DataOps
- DevOps: Integración continua (CI), despliegue continuo (CD), infraestructura como código
- DataOps: Orquestación de pipelines de datos, observabilidad, calidad
- Herramientas: Git, Jenkins, GitLab CI/CD, Terraform, Ansible
- Contenedores: Docker, Kubernetes, servicios gestionados (ECS, AKS, GKE)
- Automatización y monitorización de pipelines
🔑 Concepto clave: Automatizar todo el ciclo de vida de datos y aplicaciones

BLOQUE 3: Data Lakes y almacenamiento analítico

Schema-on-Read

Almacenamiento flexible que permite exploración antes de estructura rígida.

Capítulo 6: Arquitectura Data Lake
- Concepto: Repositorio centralizado para datos estructurados y no estructurados
- Capas: RAW (crudo) → TRUSTED (validado) → REFINED (procesado)
- Schema-on-read vs Schema-on-write
- Diferencia con Data Warehouse tradicional
- Tecnologías: Amazon S3, Azure Data Lake Storage Gen2
🔑 Concepto clave: Almacena primero, estructura después

📌 Práctica: Crear Data Lake con datos del INE y Ministerio de Sanidad
Capítulo 7: Almacenamiento Distribuido
- HDFS (Hadoop Distributed File System) - arquitectura y replicación
- Object Storage en cloud (S3, Blob Storage, GCS)
- Formatos columnares: Parquet, ORC, Avro
- Particionado y compresión para optimización
- Comparación rendimiento y casos de uso
🔑 Concepto clave: Formatos columnares = consultas analíticas 100x más rápidas

BLOQUE 4: sistemas OLTP vs OLAP

Separación de Preocupaciones

Sistemas transaccionales (operaciones) vs analíticos (inteligencia de negocio).

Capítulo 8: OLTP vs OLAP
- OLTP (Online Transaction Processing): INSERT/UPDATE/DELETE, normalización, ACID
- OLAP (Online Analytical Processing): SELECT complejos, cubos multidimensionales
- Modelado dimensional: Star Schema y Snowflake Schema
- Dimensiones: SCD Type 1, 2, 3 (Slowly Changing Dimensions)
- Medidas y agregaciones: SUM, AVG, COUNT con drill-down/roll-up
- ETL: Extracción, Transformación, Carga de OLTP a OLAP
- Tecnologías: Redshift, Synapse, BigQuery, Snowflake
🔑 Concepto clave: OLTP optimiza escrituras, OLAP optimiza lecturas analíticas

📌 Aplicación: Modelo multidimensional para datos epidemiológicos (Región, Tiempo, Enfermedad, Edad)

BLOQUE 5: Big Data y procesamiento distribuido

Escalabilidad Horizontal

Procesar terabytes/petabytes dividiendo el trabajo entre cientos de nodos.

Capítulo 9: Infraestructura Big Data
- Ecosistema Hadoop: HDFS, MapReduce, YARN, Hive, Pig
- Apache Spark: RDDs, DataFrames, Spark SQL, MLlib (100x más rápido que Hadoop)
- Batch vs Streaming: Procesamiento por lotes vs tiempo real
- Apache Kafka: Event streaming, producer/consumer, topics
- Apache Airflow: Orquestación de workflows, DAGs, scheduling
- Arquitectura Lambda y Kappa
- Casos de uso y comparación tecnologías
🔑 Concepto clave: Divide y conquistarás: paralelización masiva

📌 Práctica: Procesar datasets masivos sanitarios o demográficos con Spark

BLOQUE 6: minería de datos

De Descriptivo a Predictivo

Descubrir patrones ocultos, predecir comportamientos, segmentar poblaciones.

Capítulo 10: Fundamentos Big Data y Data Mining

Parte 1: Fundamentos Big Data
- Las 5 V's: Volumen, Velocidad, Variedad, Veracidad, Valor
- Small Data vs Big Data vs Data Warehouse vs Data Lake
- Machine Learning vs Deep Learning
- Relación Big Data, AI y Data Science
Parte 2: Técnicas de Data Mining
- Clasificación: Predecir categorías (Decision Trees, Random Forest, SVM, XGBoost)
- Regresión: Predecir valores continuos (Linear, Polynomial, Ridge, Lasso)
- Clustering: Segmentación (K-Means, DBSCAN, Hierarchical)
- Reglas de asociación: Market Basket Analysis (Apriori, FP-Growth)
- Detección de anomalías: Fraude, fallos (Isolation Forest, One-Class SVM)
🔑 Concepto clave: OLAP responde "¿Qué pasó?", Data Mining responde "¿Qué pasará?"

📌 Aplicación: Predicción de incidencia de enfermedades, segmentación poblacional, detección de patrones territoriales
Capítulo 10.2: Preprocesamiento y CRISP-DM
- Preprocesamiento: Limpieza, integración, transformación, reducción de dimensionalidad
- Metodología CRISP-DM (6 fases):
  1. Comprensión del Negocio
  2. Comprensión de los Datos
  3. Preparación de los Datos
  4. Modelado
  5. Evaluación
  6. Despliegue
- Proyecto completo: Churn prediction con MLflow, FastAPI deployment
🔑 Concepto clave: El 80% del tiempo se va en preprocesamiento, el 20% en modelado

BLOQUE 7: proceso KDD - marco metodológico global

Conocimiento desde Datos

KDD integra todo: selección, limpieza, transformación, minería, evaluación, interpretación.

Capítulo 11: KDD y Metodologías Avanzadas

KDD como Proceso Integrador
- Fases KDD:
  1. Selección: Elegir fuentes de datos relevantes (← Bloque 1)
  2. Limpieza: Corregir inconsistencias, valores faltantes
  3. Transformación: Feature engineering, normalización
  4. Minería de Datos: Aplicar algoritmos (← Bloque 6)
  5. Evaluación: Validación de modelos, métricas
  6. Interpretación: Generar insights accionables
Metodologías Complementarias
- CRISP-DM (2000): Estándar de facto, agnóstico de industria
- ASUM-DM (IBM 2015): Para Big Data y proyectos enterprise
- TDSP (Microsoft 2016): Integrado con Azure ML
- MLOps: Operacionalización de modelos ML
🔑 Concepto clave: KDD es el esqueleto metodológico que conecta todos los bloques del curso

Conexión con curso: - Datos oficiales → Selección (Bloque 1) - Data Lake → Almacenamiento (Bloque 3) - OLAP → Análisis Exploratorio (Bloque 4) - Big Data → Procesamiento (Bloque 5) - Minería → Descubrimiento (Bloque 6) - Cloud → Infraestructura (Bloque 2)

BLOQUE 8: gobierno del dato y ética

Crucial en Datos Médicos

Privacidad, seguridad, trazabilidad, calidad, cumplimiento normativo.

Capítulo 12: Protección de Datos
- RGPD (Reglamento General de Protección de Datos)
- Principios: minimización, limitación de finalidad, exactitud
- Derechos: acceso, rectificación, supresión, portabilidad
- Delegado de Protección de Datos (DPO)
- Sanciones y ejemplos reales
Capítulo 12.2: Anonimización
- Técnicas: k-anonimato, l-diversidad, t-closeness, differential privacy
- Pseudonimización vs Anonimización
- Re-identificación: ataques y defensa
- Aplicación a datos sanitarios
Capítulo 12.3: Calidad y Trazabilidad
- Dimensiones de calidad: Completitud, exactitud, consistencia, actualidad
- Data Lineage: Trazabilidad del origen al destino
- Metadata Management
- Herramientas: Apache Atlas, AWS Glue Data Catalog

BLOQUE 9: proyecto final integrador

Arquitectura Cloud para Datos Epidemiológicos

Integrar todos los conocimientos del curso en un caso real.

Capítulo 13: Proyecto Final

Caso Práctico: Diseñar una arquitectura cloud que permita analizar datos epidemiológicos abiertos y descubrir patrones de riesgo territorial mediante técnicas de minería de datos

Requisitos del Proyecto:
1. Arquitectura Cloud: Diseñar stack completo (AWS, Azure o GCP)
2. Data Lake: Definir capas RAW/TRUSTED/REFINED con datos del Ministerio de Sanidad
3. Modelo OLAP: Dimensiones (Región, Tiempo, Enfermedad, Grupo_Edad), Hechos (Casos, Fallecimientos)
4. Proceso KDD: Aplicar fases completas desde selección hasta interpretación
5. Minería de Datos: Implementar clasificación, clustering o predicción
6. Justificación Técnica: Decisiones de arquitectura, tecnologías, seguridad, costes
Entregables:
- Diagrama de arquitectura cloud completa
- Código ETL (Spark/Python)
- Modelo OLAP (SQL DDL + Star Schema)
- Modelo de Machine Learning (notebook Jupyter)
- Documentación metodológica (CRISP-DM o KDD)
- Informe ejecutivo con insights descubiertos
🎯 Objetivo: Demostrar dominio end-to-end del ciclo de datos

Ruta de aprendizaje: del concepto a la implementación:

graph TD
    A[📖 1. Comprende el VALOR del dato] --> B[🗂️ 2. Identifica FUENTES oficiales]
    B --> C[☁️ 3. Domina INFRAESTRUCTURA cloud]
    C --> D[🏞️ 4. ALMACENA en Data Lake]
    D --> E[🎯 5. ANALIZA con OLAP]
    E --> F[⚙️ 6. PROCESA masivamente con Big Data]
    F --> G[⛏️ 7. DESCUBRE patrones con Data Mining]
    G --> H[🧠 8. INTEGRA con metodología KDD]
    H --> I[🎯 9. GENERA conocimiento accionable]

    style A fill:#e8eaf6
    style C fill:#c5cae9
    style E fill:#9fa8da
    style G fill:#7986cb
    style I fill:#3f51b5,color:#fff

Tecnologías cubiertas¶

☁️ AWS ☁️ Azure ☁️ GCP 🐘 Hadoop ⚡ Spark 📊 Kafka 🔄 Airflow 🐍 Python 💾 SQL 🔢 Parquet 📈 scikit-learn 🤖 TensorFlow ⚙️ MLflow 🐳 Docker ☸️ Kubernetes

Cómo usar este sitio¶

Navegación:

Tips de Navegación

Menú superior (Tabs): Acceso rápido a bloques principales
Menú lateral izquierdo: Índice detallado de todos los capítulos
Tabla de contenidos derecha: Navegación interna del capítulo actual
Buscador (esquina superior derecha): Busca cualquier término en todo el curso
Temas claro/oscuro: Botón superior derecha para cambiar apariencia

Características interactivas:

📝 Código Copiable📊 Diagramas Interactivos⚡ Tabs y Acordeones🔗 Enlaces Cruzados

Todos los bloques de código tienen un botón Copy en la esquina superior derecha:

# Ejemplo: Este código es copiable con un clic
import pandas as pd

df = pd.read_csv('datos_ine.csv')
print(df.head())

Los diagramas Mermaid son interactivos:

Zoom: Usa scroll del ratón
Pan: Arrastra con el ratón
Reset: Doble clic

graph LR
    A[Fuente] --> B[Cloud]
    B --> C[Data Lake]
    C --> D[Analytics]

Contenido organizado en tabs para fácil navegación y comparación:

AWS vs Azure vs GCP
OLTP vs OLAP
Metodologías DS

Enlaces internos entre capítulos para profundizar:

Ver Data Lake para más detalles
Conexión con OLAP

Mapa del curso¶

mindmap
  root((Cloud & Big Data))
    [Bloque 1<br/>Fundamentos]
      (Economía Dato)
      (Fuentes Oficiales)
    [Bloque 2<br/>Cloud]
      (IaaS/PaaS/SaaS)
      (AWS/Azure/GCP)
      (DevOps/DataOps)
    [Bloque 3<br/>Almacenamiento]
      (Data Lake)
      (HDFS/S3)
      (OLTP vs OLAP)
    [Bloque 4<br/>Infraestructura]
      (Hadoop/Spark)
      (Kafka/Airflow)
    [Bloque 5<br/>Análisis]
      (Big Data)
      (CRISP-DM)
      (KDD/ASUM-DM)
    [Bloque 6<br/>Gobierno]
      (Calidad)
      (RGPD)
      (Anonimización)
    [Proyecto<br/>Final]
      (Integración)
      (Deployment)

Soporte y recursos¶

¿Necesitas Ayuda?

Durante el Curso:

Consulta la sección FAQ al final de cada capítulo
Revisa ejemplos prácticos y casos de uso
Explora referencias a documentación oficial

Recursos Externos:

Actualizaciones

Este material se actualiza regularmente

Próximos pasos¶

¡Comienzamos!

Capítulo 1: Economía y Gobierno del Dato
Entiende por qué el dato es el nuevo petróleo
Capítulo 2: Fuentes Oficiales
Explora datos reales del INE y Ministerio de Sanidad
Capítulo 3: Cloud Computing
Domina IaaS, PaaS, SaaS y arquitecturas cloud

Licencia y créditos¶

Información Académica