Arquitectura Transformer y Modelos de Lenguaje
Transformer es diferente a todo lo anterior en NLP. Nada de recurrencia, solo atención. Suena simple pero la implementación tiene detalles que rompen todo si no los entiendes.
Attention is all you need
Ese paper cambió todo. Vas a implementar self-attention desde cero: queries, keys, values. Por qué necesitas múltiples cabezas de atención. Cómo positional encoding da sentido de orden en una arquitectura sin recurrencia.
Construirás un transformer completo para traducción. Encoder-decoder, masked attention en el decoder, teacher forcing durante entrenamiento. Los problemas que encontrarás: gradientes explosivos, inestabilidad numérica en softmax, memory issues con secuencias largas.
BERT y modelos preentrenados
Masked language modeling: tapas tokens y el modelo aprende a predecirlos. Next sentence prediction y por qué terminó siendo menos útil de lo esperado. Fine-tuning para clasificación, NER, question answering.
GPT funciona diferente: causal attention, generación autorregresiva. Prompting y por qué la forma de hacer preguntas cambia completamente los resultados. Few-shot learning sin actualizar pesos.
Trabajarás con datasets reales: sentiment analysis en reseñas, clasificación de noticias, extracción de entidades en textos médicos. Nada de ejemplos de juguete.
Optimización específica para transformers: learning rate warmup, gradient clipping, mixed precision training. Cómo evitar overfitting cuando fine-tuneas modelos gigantes en datasets pequeños.
Contenido detallado
- Módulo 1: Attention mechanisms
- Self-attention: implementación matemática completa
- Multi-head attention y por qué funciona
- Positional encoding: sinusoidal versus learned
- Módulo 2: Arquitectura Transformer completa
- Encoder stack: layer normalization, residual connections
- Decoder stack: masked attention y cross-attention
- Proyecto: traductor inglés-español desde cero
- Módulo 3: BERT y variantes
- Pretraining: MLM y NSP
- Fine-tuning para tareas downstream
- RoBERTa, ALBERT, DistilBERT: diferencias prácticas
- Módulo 4: Modelos generativos
- GPT architecture y causal masking
- Estrategias de generación: greedy, beam search, sampling
- Prompting efectivo y in-context learning
- Módulo 5: Aplicaciones prácticas
- Sentiment analysis con BERT fine-tuning
- Named Entity Recognition en textos especializados
- Generación de texto controlada con GPT