PLN-AVZ-LCD: Tarea 4: Ejercicios sobre transformers

Abrió: lunes, 3 de marzo de 2026, 00:00

Cierre: martes, 10 de marzo de 2026, 12:00

Ejercicio 1:

Considera un mecanismo de atención basado en producto punto (dot product attention). Dados los siguientes elementos:

Vector de consulta $q igual no elástico paréntesis izquierdo 1 coma 2 no elástico paréntesis derecho$
Vectores clave $k subíndice 1 igual no elástico paréntesis izquierdo 1 coma 1 no elástico paréntesis derecho$ $k subíndice 2 igual no elástico paréntesis izquierdo 2 coma 2 no elástico paréntesis derecho$ y $k subíndice 3 igual no elástico paréntesis izquierdo 3 coma 1 no elástico paréntesis derecho$
Vectores de valor $v subíndice 1 igual no elástico paréntesis izquierdo 2 coma 0 no elástico paréntesis derecho$ $v subíndice 2 igual no elástico paréntesis izquierdo 0 coma 2 no elástico paréntesis derecho$ , y $v subíndice 3 igual no elástico paréntesis izquierdo 1 coma 1 no elástico paréntesis derecho$

Realiza lo siguiente:

Calcula el producto punto de $q$ con cada vector clave $k subíndice i$
Aplica la función softmax para obtener los puntajes de atención (attention scores).
Calcula la salida final como una suma ponderada de los vectores de valor.
¿Cómo afectaría a los resultados el uso de scaled dot product attention (es decir, dividir los puntajes de atención entre $raíz cuadrada de d subíndice k fin raíz$ )? Explica brevemente.

Ejercicio 2:

Los Transformers utilizan mecanismos de atención en lugar de recurrencia o convoluciones.

¿Por qué la autoatención (self-attention) es más paralelizable que las RNN?
¿Cómo maneja la atención las dependencias de largo alcance mejor que las CNN?
¿Cuáles son algunas posibles desventajas de los mecanismos de atención?

Ejercicio 3:

Supongamos que tenemos un transformer con dos cabezas de atención, cada una aprendiendo distintos aspectos de las relaciones entre palabras.

¿Por qué múltiples cabezas mejoran el rendimiento?
¿En qué se diferencia la atención multi-cabeza de simplemente ejecutar un único mecanismo de atención dos veces?
Dada la oración The cat lay on the couch, explica cómo una cabeza de atención podría capturar relaciones sintácticas mientras otra captura relaciones semánticas dentro de la oración.

Ejercicio 4:

Dada la oración: The cat sat on the mat, imagina que un mecanismo de autoatención asigna los siguientes pesos para la palabra cat:

Palabra	Puntaje de atención
The	0.1
cat	0.4
sat	0.3
on	0.1
the	0.05
mat	0.05

Interpreta qué significan estos pesos.
¿Cuáles podrían ser las razones por las que sat recibe un puntaje alto?

Ejercicio 5:

Dadas las puntuaciones de atención para dos cabezas diferentes en un mecanismo de atención multi-cabeza, la siguiente tabla muestra los puntajes asignados por cada cabeza a la palabra jumps en la oración:
The quick brown fox jumps over the lazy dog

Palabra	Head 1	Head 2
The	0.1	0.05
quick	0.1	0.05
brown	0.1	0.05
fox	0.4	0.1
jumps	0.2	0.3
over	0.05	0.1
the	0.05	0.15
lazy	0.05	0.2
dog	0.05	0.05

Responde lo siguiente:

¿Cómo reflejan estas distribuciones de atención los diferentes roles de cada cabeza de atención? ¿En qué se enfoca la primera cabeza y qué enfatiza la segunda?
¿Cómo podrían los puntajes de atención de estas dos cabezas ayudar a mejorar la capacidad del modelo para capturar tanto relaciones locales como globales en la oración?

Indicaciones:

La actividad deberá entregarse en formato PDF.

El archivo debe cumplir con lo siguiente:

Incluir nombre completo del alumno(a).
Incluir fecha de entrega.
Presentar todos los procedimientos y resultados claramente justificados.
Subirse a la plataforma en un único archivo en formato .pdf.