Saltar al contenido principal
TAV
  • Inicio
  • Calendario
  • Más
Español - México ‎(es_mx)‎
Deutsch ‎(de)‎ English ‎(en)‎ Español - Internacional ‎(es)‎ Español - México ‎(es_mx)‎ Esperanto ‎(eo)‎ Français ‎(fr)‎ Italiano ‎(it)‎ Latin ‎(la)‎ Português - Brasil ‎(pt_br)‎ Português - Portugal ‎(pt)‎ Română ‎(ro)‎ Ελληνικά ‎(el)‎ Русский ‎(ru)‎ العربية ‎(ar)‎ 日本語 ‎(ja)‎ 简体中文 ‎(zh_cn)‎
En este momento está usando el acceso para invitados
Ingresar
TAV
Inicio Calendario
Expandir todo Colapsar todo
  1. PLN-AVZ-LCD
  2. Mecanismo de Atención - Transformers
  3. Tarea 4: Ejercicios sobre transformers

Tarea 4: Ejercicios sobre transformers

Requisitos de finalización
Abrió: lunes, 3 de marzo de 2026, 00:00
Cierre: martes, 10 de marzo de 2026, 12:00
Ejercicio 1:

Considera un mecanismo de atención basado en producto punto (dot product attention). Dados los siguientes elementos:

  • Vector de consulta q igual no elástico paréntesis izquierdo 1 coma 2 no elástico paréntesis derecho

  • Vectores clave k subíndice 1 igual no elástico paréntesis izquierdo 1 coma 1 no elástico paréntesis derecho k subíndice 2 igual no elástico paréntesis izquierdo 2 coma 2 no elástico paréntesis derecho y k subíndice 3 igual no elástico paréntesis izquierdo 3 coma 1 no elástico paréntesis derecho

  • Vectores de valor v subíndice 1 igual no elástico paréntesis izquierdo 2 coma 0 no elástico paréntesis derechov subíndice 2 igual no elástico paréntesis izquierdo 0 coma 2 no elástico paréntesis derecho, y v subíndice 3 igual no elástico paréntesis izquierdo 1 coma 1 no elástico paréntesis derecho

Realiza lo siguiente:

  1. Calcula el producto punto de q con cada vector clave k subíndice i
  2. Aplica la función softmax para obtener los puntajes de atención (attention scores).
  3. Calcula la salida final como una suma ponderada de los vectores de valor.

  4. ¿Cómo afectaría a los resultados el uso de scaled dot product attention (es decir, dividir los puntajes de atención entre raíz cuadrada de d subíndice k fin raíz ​)? Explica brevemente.

Ejercicio 2:

Los Transformers utilizan mecanismos de atención en lugar de recurrencia o convoluciones.

  1. ¿Por qué la autoatención (self-attention) es más paralelizable que las RNN?

  2. ¿Cómo maneja la atención las dependencias de largo alcance mejor que las CNN?

  3. ¿Cuáles son algunas posibles desventajas de los mecanismos de atención?

Ejercicio 3: 

Supongamos que tenemos un transformer con dos cabezas de atención, cada una aprendiendo distintos aspectos de las relaciones entre palabras.

  1. ¿Por qué múltiples cabezas mejoran el rendimiento?

  2. ¿En qué se diferencia la atención multi-cabeza de simplemente ejecutar un único mecanismo de atención dos veces?

  3. Dada la oración The cat lay on the couch, explica cómo una cabeza de atención podría capturar relaciones sintácticas mientras otra captura relaciones semánticas dentro de la oración.

Ejercicio 4:

Dada la oración: The cat sat on the mat, imagina que un mecanismo de autoatención asigna los siguientes pesos para la palabra cat:

Palabra Puntaje de atención
The 0.1
cat 0.4
sat 0.3
on 0.1
the 0.05
mat 0.05
  1. Interpreta qué significan estos pesos.

  2. ¿Cuáles podrían ser las razones por las que sat recibe un puntaje alto?

Ejercicio 5:

Dadas las puntuaciones de atención para dos cabezas diferentes en un mecanismo de atención multi-cabeza, la siguiente tabla muestra los puntajes asignados por cada cabeza a la palabra jumps en la oración:
The quick brown fox jumps over the lazy dog

Palabra Head 1 Head 2
The 0.1 0.05
quick 0.1 0.05
brown 0.1 0.05
fox 0.4 0.1
jumps 0.2 0.3
over 0.05 0.1
the 0.05 0.15
lazy 0.05 0.2
dog 0.05 0.05

Responde lo siguiente:

  1. ¿Cómo reflejan estas distribuciones de atención los diferentes roles de cada cabeza de atención? ¿En qué se enfoca la primera cabeza y qué enfatiza la segunda?

  2. ¿Cómo podrían los puntajes de atención de estas dos cabezas ayudar a mejorar la capacidad del modelo para capturar tanto relaciones locales como globales en la oración?

Indicaciones:

La actividad deberá entregarse en formato PDF.

El archivo debe cumplir con lo siguiente:

  • Incluir nombre completo del alumno(a).

  • Incluir fecha de entrega.

  • Presentar todos los procedimientos y resultados claramente justificados.

  • Subirse a la plataforma en un único archivo en formato .pdf.

Logotipo de la DGTIC

Dirección de Innovación en
Tecnologías para la Educación - EDUCATIC - DGTIC - UNAM

  • Aviso de privacidad simplificado
  • Avisos de privacidad de la DGTIC
  • Código de ética de la UNAM

Atención a usuarios de Tu Aula Virtual

Chat del centro de atención a usuarios xm.manu.citacude@aduya 55 5622 8595 55 5622 8855


Ubicación

Circuito exterior s/n, Ciudad Universitaria,
Alcaldía Coyoacán, Ciudad de México, México, C.P. 04510.
Mapa de ubicación.
475 años, Universidad de México

Hecho en México, Universidad Nacional Autónoma de México (UNAM). Todos los derechos reservados © 2010-2025. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma, requiere permiso previo por escrito de la institución.

Sitio web administrado en la Dirección de Innovación en Tecnologías para la Educación (DITE) de la DGTIC - UNAM.

En este momento está usando el acceso para invitados (Ingresar)
Resumen de conservación de datos