PLN-AVZ-LCD: Tarea 2: Evaluación de similitud semántica con WordNet y modelos de embeddings | TAV

TAV

Inicio Calendario

Abrió: miércoles, 12 de febrero de 2026, 00:00

Cierre: jueves, 19 de febrero de 2026, 14:00

Instrucciones

Trabajarán con pares de palabras tomados de:

Cada par cuenta con una puntuación de similitud humana (gold standard), la cual deberán usar para evaluar sus resultados.

Parte 1: Similitud usando WordNet

Para cada uno de los pares de palabras:

Calcular la similitud semántica utilizando WordNet en inglés.
Utilizar al menos una de las siguientes métricas:
- Path similarity
- Wu & Palmer
- Leacock-Chodorow
- (Opcional) Resnik
Explicar brevemente:
- Cómo resolvieron la ambigüedad léxica (por ejemplo: primer sentido, máximo valor entre sentidos, promedio, etc.).
- Qué librerías utilizaron.

Parte 2: Similitud usando modelos de vectores (Embeddings)

Calcular la similitud coseno entre cada par de palabras usando al menos dos modelos distintos. Pueden elegir entre:

Word2Vec
GloVe
fastText
ELMo
BERT

Indicaciones:

En modelos estáticos (Word2Vec, GloVe, fastText), usar directamente el vector de la palabra.
En modelos contextualizados (ELMo, BERT), deben definir una estrategia clara (por ejemplo: embedding en una oración plantilla).
Especificar:
- Modelo exacto utilizado
- Librería empleada
- Estrategia de extracción del vector

Parte 3: Evaluación

Evaluar el rendimiento de cada método utilizando la correlación de Pearson entre:

Las similitudes calculadas por su método
Las puntuaciones humanas del dataset

Reportar:

Una tabla con los valores de correlación para cada método
Comparación entre:
- WordNet
- Cada modelo de embeddings

Entregables

Notebook en Python (comentado y reproducible).
Reporte en PDF (2–4 páginas) que incluya:
- Tabla con los 20 pares y todas las similitudes calculadas
- Tabla resumen con correlaciones
- Análisis crítico comparando los métodos
Archivo CSV con los resultados finales.

Análisis esperado

Discutir brevemente:

¿Qué método se aproxima mejor a los juicios humanos?
Diferencias entre métodos basados en recursos léxicos y embeddings.
Diferencias entre modelos estáticos y contextualizados.
Limitaciones del experimento.

CLSR-EK-2.zip
12 de febrero de 2026, 07:50
D09-1124-1.pdf
12 de febrero de 2026, 07:50