Deep Reinforcement Learning en Entornos Complejos
Reinforcement learning es diferente. No tienes etiquetas, solo recompensas dispersas. El agente explora, falla mucho, eventualmente aprende. Cuando funciona, es increíble.
Markov Decision Processes y Bellman
Todo empieza con MDPs: estados, acciones, transiciones, recompensas. La ecuación de Bellman no es solo teoría, es cómo el agente piensa sobre el futuro. Implementarás value iteration y policy iteration en grids simples para entender la base.
Q-learning básico funciona en espacios discretos pequeños. Cuando las dimensiones crecen, necesitas aproximación de funciones. Deep Q-Networks usan redes neuronales para aproximar Q-values. Experience replay y target networks: sin estos, el entrenamiento diverge.
Policy Gradients y métodos Actor-Critic
En vez de value functions, optimiza la política directamente. REINFORCE es simple pero tiene varianza alta. Actor-Critic reduce varianza usando un crítico para estimar ventajas. A3C paralleliza el entrenamiento con múltiples agentes explorando simultáneamente.
PPO es el estándar actual: estable, sample-efficient, funciona en muchos entornos. Clipped surrogate objective evita updates demasiado grandes. Implementarás PPO desde cero y lo compararás con TRPO.
Los proyectos incluyen: agente que domina juegos Atari usando solo píxeles como input, brazo robótico que aprende a alcanzar objetivos en PyBullet, agente de trading que aprende estrategias en datos históricos del mercado.
Curriculum learning: el agente empieza con tareas fáciles y progresa. Reward shaping cuando la señal es demasiado dispersa. Hyperparameter tuning específico para RL donde pequeños cambios rompen todo.
Estructura de aprendizaje
- Bloque 1: Fundamentos de RL
- Markov Decision Processes y notación
- Value iteration y policy iteration
- Temporal Difference learning y Q-learning tabular
- Bloque 2: Deep Q-Networks
- Aproximación de Q-function con redes neuronales
- Experience replay y target networks
- Double DQN y Dueling DQN
- Bloque 3: Policy Gradient methods
- REINFORCE y varianza en gradientes de política
- Baseline y advantage functions
- Actor-Critic y A3C
- Bloque 4: Algoritmos modernos
- Proximal Policy Optimization en detalle
- Trust Region Policy Optimization
- Soft Actor-Critic para continuous control
- Bloque 5: Proyectos aplicados
- Agente para juegos Atari con CNN
- Control robótico en simulación PyBullet
- Trading agent con datos financieros reales