Base sólida en deep learning 10 min 8 semanas

Deep Reinforcement Learning en Entornos Complejos

Deep Reinforcement Learning en Entornos Complejos

Reinforcement learning es diferente. No tienes etiquetas, solo recompensas dispersas. El agente explora, falla mucho, eventualmente aprende. Cuando funciona, es increíble.

Markov Decision Processes y Bellman

Todo empieza con MDPs: estados, acciones, transiciones, recompensas. La ecuación de Bellman no es solo teoría, es cómo el agente piensa sobre el futuro. Implementarás value iteration y policy iteration en grids simples para entender la base.

Q-learning básico funciona en espacios discretos pequeños. Cuando las dimensiones crecen, necesitas aproximación de funciones. Deep Q-Networks usan redes neuronales para aproximar Q-values. Experience replay y target networks: sin estos, el entrenamiento diverge.

Policy Gradients y métodos Actor-Critic

En vez de value functions, optimiza la política directamente. REINFORCE es simple pero tiene varianza alta. Actor-Critic reduce varianza usando un crítico para estimar ventajas. A3C paralleliza el entrenamiento con múltiples agentes explorando simultáneamente.

PPO es el estándar actual: estable, sample-efficient, funciona en muchos entornos. Clipped surrogate objective evita updates demasiado grandes. Implementarás PPO desde cero y lo compararás con TRPO.

Los proyectos incluyen: agente que domina juegos Atari usando solo píxeles como input, brazo robótico que aprende a alcanzar objetivos en PyBullet, agente de trading que aprende estrategias en datos históricos del mercado.

Curriculum learning: el agente empieza con tareas fáciles y progresa. Reward shaping cuando la señal es demasiado dispersa. Hyperparameter tuning específico para RL donde pequeños cambios rompen todo.

Estructura de aprendizaje

Bloque 1: Fundamentos de RL
Markov Decision Processes y notación
Value iteration y policy iteration
Temporal Difference learning y Q-learning tabular
Bloque 2: Deep Q-Networks
Aproximación de Q-function con redes neuronales
Experience replay y target networks
Double DQN y Dueling DQN
Bloque 3: Policy Gradient methods
REINFORCE y varianza en gradientes de política
Baseline y advantage functions
Actor-Critic y A3C
Bloque 4: Algoritmos modernos
Proximal Policy Optimization en detalle
Trust Region Policy Optimization
Soft Actor-Critic para continuous control
Bloque 5: Proyectos aplicados
Agente para juegos Atari con CNN
Control robótico en simulación PyBullet
Trading agent con datos financieros reales