Desarrolladores con Python básico 8 min 5 semanas

Redes Neuronales Convolucionales para Visión por Computadora

Redes Neuronales Convolucionales para Visión por Computadora

Las CNN no son magia. Son capas de operaciones matemáticas que extraen patrones de píxeles, desde bordes simples hasta formas complejas. Este masterclass te muestra exactamente cómo.

Empezamos con la convolución básica: qué hace un kernel de 3x3, por qué el padding importa, cómo el stride afecta las dimensiones de salida. Construirás cada capa manualmente antes de usar frameworks.

Lo que realmente vas a hacer

Implementarás LeNet desde cero para clasificar dígitos. Después pasas a ResNet y entiendes por qué las conexiones residuales resuelven el problema del gradiente que desaparece en redes profundas. Trabajarás con ImageNet, aprenderás transfer learning con modelos preentrenados.

La parte de detección de objetos cubre YOLO y Faster R-CNN. Verás las diferencias entre detección en una etapa y dos etapas, cuándo usar cada una. Entrenarás un detector personalizado en tu propio dataset.

Técnicas de optimización

Data augmentation que funciona: rotaciones, recortes, normalización. Batch normalization y cuándo aplicarla. Learning rate schedules y por qué importan más de lo que piensas. Regularización con dropout específicamente en capas convolucionales.

El proyecto final es un sistema de clasificación de imágenes médicas con explicabilidad usando Grad-CAM para visualizar qué partes de la imagen influyen en las predicciones.

Incluye debugging de redes que no convergen, análisis de curvas de pérdida, y cómo interpretar métricas más allá de accuracy cuando tienes clases desbalanceadas.

Estructura del programa

Semana 1: Fundamentos de convolución
Operaciones de convolución y pooling desde cero
Implementación manual de forward y backward pass
Arquitecturas clásicas: LeNet, AlexNet, VGGNet
Semana 2: Arquitecturas modernas
ResNet y conexiones residuales
Inception modules y eficiencia computacional
MobileNet para dispositivos con recursos limitados
Semana 3: Transfer learning y fine-tuning
Uso de modelos preentrenados en ImageNet
Estrategias de congelación de capas
Feature extraction versus fine-tuning completo
Semana 4: Detección de objetos
YOLO: arquitectura y entrenamiento
Faster R-CNN y Region Proposal Networks
Métricas: mAP, IoU, precisión-recall curves
Semana 5: Proyecto final
Dataset médico con imágenes de rayos X
Implementación de Grad-CAM para explicabilidad
Optimización y deployment del modelo