Tarea 4: Ejercicios sobre transformers
Ejercicio 1:
Considera un mecanismo de atención basado en producto punto (dot product attention). Dados los siguientes elementos:
-
Vector de consulta
-
Vectores clave
y
-
Vectores de valor
, y
Realiza lo siguiente:
- Calcula el producto punto de
con cada vector clave
- Aplica la función softmax para obtener los puntajes de atención (attention scores).
-
Calcula la salida final como una suma ponderada de los vectores de valor.
-
¿Cómo afectaría a los resultados el uso de scaled dot product attention (es decir, dividir los puntajes de atención entre
)? Explica brevemente.
Ejercicio 2:
Los Transformers utilizan mecanismos de atención en lugar de recurrencia o convoluciones.
-
¿Por qué la autoatención (self-attention) es más paralelizable que las RNN?
-
¿Cómo maneja la atención las dependencias de largo alcance mejor que las CNN?
-
¿Cuáles son algunas posibles desventajas de los mecanismos de atención?
Ejercicio 3:
Supongamos que tenemos un transformer con dos cabezas de atención, cada una aprendiendo distintos aspectos de las relaciones entre palabras.
-
¿Por qué múltiples cabezas mejoran el rendimiento?
-
¿En qué se diferencia la atención multi-cabeza de simplemente ejecutar un único mecanismo de atención dos veces?
-
Dada la oración The cat lay on the couch, explica cómo una cabeza de atención podría capturar relaciones sintácticas mientras otra captura relaciones semánticas dentro de la oración.
Ejercicio 4:
Dada la oración: The cat sat on the mat, imagina que un mecanismo de autoatención asigna los siguientes pesos para la palabra cat:
| Palabra | Puntaje de atención |
|---|---|
| The | 0.1 |
| cat | 0.4 |
| sat | 0.3 |
| on | 0.1 |
| the | 0.05 |
| mat | 0.05 |
-
Interpreta qué significan estos pesos.
-
¿Cuáles podrían ser las razones por las que sat recibe un puntaje alto?
Ejercicio 5:
Dadas las puntuaciones de atención para dos cabezas diferentes en un mecanismo de atención multi-cabeza, la siguiente tabla muestra los puntajes asignados por cada cabeza a la palabra jumps en la oración:
The quick brown fox jumps over the lazy dog
| Palabra | Head 1 | Head 2 |
|---|---|---|
| The | 0.1 | 0.05 |
| quick | 0.1 | 0.05 |
| brown | 0.1 | 0.05 |
| fox | 0.4 | 0.1 |
| jumps | 0.2 | 0.3 |
| over | 0.05 | 0.1 |
| the | 0.05 | 0.15 |
| lazy | 0.05 | 0.2 |
| dog | 0.05 | 0.05 |
Responde lo siguiente:
-
¿Cómo reflejan estas distribuciones de atención los diferentes roles de cada cabeza de atención? ¿En qué se enfoca la primera cabeza y qué enfatiza la segunda?
-
¿Cómo podrían los puntajes de atención de estas dos cabezas ayudar a mejorar la capacidad del modelo para capturar tanto relaciones locales como globales en la oración?
Indicaciones:
La actividad deberá entregarse en formato PDF.
El archivo debe cumplir con lo siguiente:
-
Incluir nombre completo del alumno(a).
-
Incluir fecha de entrega.
-
Presentar todos los procedimientos y resultados claramente justificados.
-
Subirse a la plataforma en un único archivo en formato .pdf.