Redes Neuronales Convolucionales para Visión por Computadora
Las CNN no son magia. Son capas de operaciones matemáticas que extraen patrones de píxeles, desde bordes simples hasta formas complejas. Este masterclass te muestra exactamente cómo.
Empezamos con la convolución básica: qué hace un kernel de 3x3, por qué el padding importa, cómo el stride afecta las dimensiones de salida. Construirás cada capa manualmente antes de usar frameworks.
Lo que realmente vas a hacer
Implementarás LeNet desde cero para clasificar dígitos. Después pasas a ResNet y entiendes por qué las conexiones residuales resuelven el problema del gradiente que desaparece en redes profundas. Trabajarás con ImageNet, aprenderás transfer learning con modelos preentrenados.
La parte de detección de objetos cubre YOLO y Faster R-CNN. Verás las diferencias entre detección en una etapa y dos etapas, cuándo usar cada una. Entrenarás un detector personalizado en tu propio dataset.
Técnicas de optimización
Data augmentation que funciona: rotaciones, recortes, normalización. Batch normalization y cuándo aplicarla. Learning rate schedules y por qué importan más de lo que piensas. Regularización con dropout específicamente en capas convolucionales.
El proyecto final es un sistema de clasificación de imágenes médicas con explicabilidad usando Grad-CAM para visualizar qué partes de la imagen influyen en las predicciones.
Incluye debugging de redes que no convergen, análisis de curvas de pérdida, y cómo interpretar métricas más allá de accuracy cuando tienes clases desbalanceadas.
Estructura del programa
- Semana 1: Fundamentos de convolución
- Operaciones de convolución y pooling desde cero
- Implementación manual de forward y backward pass
- Arquitecturas clásicas: LeNet, AlexNet, VGGNet
- Semana 2: Arquitecturas modernas
- ResNet y conexiones residuales
- Inception modules y eficiencia computacional
- MobileNet para dispositivos con recursos limitados
- Semana 3: Transfer learning y fine-tuning
- Uso de modelos preentrenados en ImageNet
- Estrategias de congelación de capas
- Feature extraction versus fine-tuning completo
- Semana 4: Detección de objetos
- YOLO: arquitectura y entrenamiento
- Faster R-CNN y Region Proposal Networks
- Métricas: mAP, IoU, precisión-recall curves
- Semana 5: Proyecto final
- Dataset médico con imágenes de rayos X
- Implementación de Grad-CAM para explicabilidad
- Optimización y deployment del modelo