Base sólida en deep learning 10 min 8 semanas

Deep Reinforcement Learning en Entornos Complejos

Reinforcement learning es diferente. No tienes etiquetas, solo recompensas dispersas. El agente explora, falla mucho, eventualmente aprende. Cuando funciona, es increíble.

Markov Decision Processes y Bellman

Todo empieza con MDPs: estados, acciones, transiciones, recompensas. La ecuación de Bellman no es solo teoría, es cómo el agente piensa sobre el futuro. Implementarás value iteration y policy iteration en grids simples para entender la base.

Q-learning básico funciona en espacios discretos pequeños. Cuando las dimensiones crecen, necesitas aproximación de funciones. Deep Q-Networks usan redes neuronales para aproximar Q-values. Experience replay y target networks: sin estos, el entrenamiento diverge.

Policy Gradients y métodos Actor-Critic

En vez de value functions, optimiza la política directamente. REINFORCE es simple pero tiene varianza alta. Actor-Critic reduce varianza usando un crítico para estimar ventajas. A3C paralleliza el entrenamiento con múltiples agentes explorando simultáneamente.

PPO es el estándar actual: estable, sample-efficient, funciona en muchos entornos. Clipped surrogate objective evita updates demasiado grandes. Implementarás PPO desde cero y lo compararás con TRPO.

Los proyectos incluyen: agente que domina juegos Atari usando solo píxeles como input, brazo robótico que aprende a alcanzar objetivos en PyBullet, agente de trading que aprende estrategias en datos históricos del mercado.

Curriculum learning: el agente empieza con tareas fáciles y progresa. Reward shaping cuando la señal es demasiado dispersa. Hyperparameter tuning específico para RL donde pequeños cambios rompen todo.

Estructura de aprendizaje

Bloque 1: Fundamentos de RL: Markov Decision Processes y notación; Value iteration y policy iteration; Temporal Difference learning y Q-learning tabular
Bloque 2: Deep Q-Networks: Aproximación de Q-function con redes neuronales; Experience replay y target networks; Double DQN y Dueling DQN
Bloque 3: Policy Gradient methods: REINFORCE y varianza en gradientes de política; Baseline y advantage functions; Actor-Critic y A3C
Bloque 4: Algoritmos modernos: Proximal Policy Optimization en detalle; Trust Region Policy Optimization; Soft Actor-Critic para continuous control
Bloque 5: Proyectos aplicados: Agente para juegos Atari con CNN; Control robótico en simulación PyBullet; Trading agent con datos financieros reales

Precio del masterclass

647€

Entornos de simulación incluidos

Reservar plaza

Licencias de software de simulación y acceso prioritario a recursos de cómputo

Duración total

8 semanas

Nivel requerido

Base sólida en deep learning

Plazas restantes

709

Deep Reinforcement Learning en Entornos Complejos

Markov Decision Processes y Bellman

Policy Gradients y métodos Actor-Critic

Estructura de aprendizaje

Configuración de cookies