Saltar al contenido principal
TAV
  • Inicio
  • Calendario
  • Más
Español - México ‎(es_mx)‎
Deutsch ‎(de)‎ English ‎(en)‎ Español - Internacional ‎(es)‎ Español - México ‎(es_mx)‎ Esperanto ‎(eo)‎ Français ‎(fr)‎ Italiano ‎(it)‎ Latin ‎(la)‎ Português - Brasil ‎(pt_br)‎ Português - Portugal ‎(pt)‎ Română ‎(ro)‎ Ελληνικά ‎(el)‎ Русский ‎(ru)‎ العربية ‎(ar)‎ 日本語 ‎(ja)‎ 简体中文 ‎(zh_cn)‎
En este momento está usando el acceso para invitados
Ingresar
TAV
Inicio Calendario
Expandir todo Colapsar todo
  1. PLN-AVZ-LCD
  2. Embeddings, representaciones contextualizadas del lenguaje
  3. Tarea 2: Evaluación de similitud semántica con WordNet y modelos de embeddings

Tarea 2: Evaluación de similitud semántica con WordNet y modelos de embeddings

Requisitos de finalización
Abrió: miércoles, 12 de febrero de 2026, 00:00
Cierre: jueves, 19 de febrero de 2026, 14:00

Instrucciones

Trabajarán con pares de palabras tomados de:

  • Miller-Charles (1998)

  • WordSimilarity-353 (2001)

Cada par cuenta con una puntuación de similitud humana (gold standard), la cual deberán usar para evaluar sus resultados.

Parte 1: Similitud usando WordNet

Para cada uno de los pares de palabras:

  1. Calcular la similitud semántica utilizando WordNet en inglés.

  2. Utilizar al menos una de las siguientes métricas:

    • Path similarity

    • Wu & Palmer

    • Leacock-Chodorow

    • (Opcional) Resnik

  3. Explicar brevemente:

    • Cómo resolvieron la ambigüedad léxica (por ejemplo: primer sentido, máximo valor entre sentidos, promedio, etc.).

    • Qué librerías utilizaron.


Parte 2: Similitud usando modelos de vectores (Embeddings)

Calcular la similitud coseno entre cada par de palabras usando al menos dos modelos distintos. Pueden elegir entre:

  • Word2Vec

  • GloVe

  • fastText

  • ELMo

  • BERT

Indicaciones:

  • En modelos estáticos (Word2Vec, GloVe, fastText), usar directamente el vector de la palabra.

  • En modelos contextualizados (ELMo, BERT), deben definir una estrategia clara (por ejemplo: embedding en una oración plantilla).

  • Especificar:

    • Modelo exacto utilizado

    • Librería empleada

    • Estrategia de extracción del vector


Parte 3: Evaluación

Evaluar el rendimiento de cada método utilizando la correlación de Pearson entre:

  • Las similitudes calculadas por su método

  • Las puntuaciones humanas del dataset

Reportar:

  • Una tabla con los valores de correlación para cada método

  • Comparación entre:

    • WordNet

    • Cada modelo de embeddings

Entregables

  1. Notebook en Python (comentado y reproducible).

  2. Reporte en PDF (2–4 páginas) que incluya:

    • Tabla con los 20 pares y todas las similitudes calculadas

    • Tabla resumen con correlaciones

    • Análisis crítico comparando los métodos

  3. Archivo CSV con los resultados finales.


Análisis esperado

Discutir brevemente:

  • ¿Qué método se aproxima mejor a los juicios humanos?

  • Diferencias entre métodos basados en recursos léxicos y embeddings.

  • Diferencias entre modelos estáticos y contextualizados.

  • Limitaciones del experimento.

  • CLSR-EK-2.zip CLSR-EK-2.zip
    12 de febrero de 2026, 07:50
  • D09-1124-1.pdf D09-1124-1.pdf
    12 de febrero de 2026, 07:50

Logotipo de la DGTIC

Dirección de Innovación en
Tecnologías para la Educación - EDUCATIC - DGTIC - UNAM

  • Aviso de privacidad simplificado
  • Avisos de privacidad de la DGTIC
  • Código de ética de la UNAM

Atención a usuarios de Tu Aula Virtual

Chat del centro de atención a usuarios xm.manu.citacude@aduya 55 5622 8595 55 5622 8855


Ubicación

Circuito exterior s/n, Ciudad Universitaria,
Alcaldía Coyoacán, Ciudad de México, México, C.P. 04510.
Mapa de ubicación.
475 años, Universidad de México

Hecho en México, Universidad Nacional Autónoma de México (UNAM). Todos los derechos reservados © 2010-2025. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma, requiere permiso previo por escrito de la institución.

Sitio web administrado en la Dirección de Innovación en Tecnologías para la Educación (DITE) de la DGTIC - UNAM.

En este momento está usando el acceso para invitados (Ingresar)
Resumen de conservación de datos