Conocimientos de NLP básico requeridos 7 min 6 semanas

Arquitectura Transformer y Modelos de Lenguaje

Transformer es diferente a todo lo anterior en NLP. Nada de recurrencia, solo atención. Suena simple pero la implementación tiene detalles que rompen todo si no los entiendes.

Attention is all you need

Ese paper cambió todo. Vas a implementar self-attention desde cero: queries, keys, values. Por qué necesitas múltiples cabezas de atención. Cómo positional encoding da sentido de orden en una arquitectura sin recurrencia.

Construirás un transformer completo para traducción. Encoder-decoder, masked attention en el decoder, teacher forcing durante entrenamiento. Los problemas que encontrarás: gradientes explosivos, inestabilidad numérica en softmax, memory issues con secuencias largas.

BERT y modelos preentrenados

Masked language modeling: tapas tokens y el modelo aprende a predecirlos. Next sentence prediction y por qué terminó siendo menos útil de lo esperado. Fine-tuning para clasificación, NER, question answering.

GPT funciona diferente: causal attention, generación autorregresiva. Prompting y por qué la forma de hacer preguntas cambia completamente los resultados. Few-shot learning sin actualizar pesos.

Trabajarás con datasets reales: sentiment analysis en reseñas, clasificación de noticias, extracción de entidades en textos médicos. Nada de ejemplos de juguete.

Optimización específica para transformers: learning rate warmup, gradient clipping, mixed precision training. Cómo evitar overfitting cuando fine-tuneas modelos gigantes en datasets pequeños.

Contenido detallado

Módulo 1: Attention mechanisms: Self-attention: implementación matemática completa; Multi-head attention y por qué funciona; Positional encoding: sinusoidal versus learned
Módulo 2: Arquitectura Transformer completa: Encoder stack: layer normalization, residual connections; Decoder stack: masked attention y cross-attention; Proyecto: traductor inglés-español desde cero
Módulo 3: BERT y variantes: Pretraining: MLM y NSP; Fine-tuning para tareas downstream; RoBERTa, ALBERT, DistilBERT: diferencias prácticas
Módulo 4: Modelos generativos: GPT architecture y causal masking; Estrategias de generación: greedy, beam search, sampling; Prompting efectivo y in-context learning
Módulo 5: Aplicaciones prácticas: Sentiment analysis con BERT fine-tuning; Named Entity Recognition en textos especializados; Generación de texto controlada con GPT

Precio del masterclass

547€

Incluye acceso a modelos preentrenados

Reservar plaza

Créditos de API para experimentar con modelos grandes

Duración total

6 semanas

Nivel requerido

Conocimientos de NLP básico requeridos

Plazas restantes

455

Arquitectura Transformer y Modelos de Lenguaje

Attention is all you need

BERT y modelos preentrenados

Contenido detallado

Configuración de cookies