Ir al contenido

Agrupación de documentos basada en embeddings

Gráfico tridimensional generado con t-SNE

Explicación de la Visualización: Document Clusters for FVI

Esta imagen representa una agrupación de documentos basada en embeddings utilizando un gráfico tridimensional generado con t-SNE y técnicas de clustering. El objetivo es visualizar cómo se agrupan documentos según su similitud semántica.

1. Estructura del Gráfico

  • Eje X, Y y Z:
    • Representan dimensiones reducidas a través de t-SNE (t-distributed Stochastic Neighbor Embedding).
    • Cada punto es un documento y su posición indica su relación con otros documentos cercanos.
  • Colores de los puntos:
    • Cada color representa un cluster de documentos con características similares.
  • Tooltip (Información emergente):
    • Al pasar el cursor sobre un punto, se muestra información clave del documento.
    • En este caso, el documento pertenece a la dimensión "Gobernanza: Transparencia cuentas" y menciona la entidad Felipe VI.

2. Información en la Derecha: Descripción de los Clusters

Se presentan cuatro clusters principales, cada uno con:

  1. Cantidad de documentos en el cluster.
  2. Dimensión principal que define el grupo.
  3. Entidades más mencionadas en los documentos.

Ejemplo de clusters:

  • Cluster 0 (110 documentos)
    • Dimensión principal: Desempeño - Asunción del papel de la monarquía.
    • Entidades principales: Rey Juan Carlos I (40 menciones), Felipe VI (32 menciones), Reina Sofía (26 menciones).
  • Cluster 2 (43 documentos)
    • Dimensión principal: Gobernanza - Transparencia cuentas.
    • Entidades principales: Felipe VI (30 menciones), Reina Sofía (7 menciones), Rey Juan Carlos I (7 menciones).

📌 Interpretación:

  • Algunos clusters están fuertemente relacionados con la monarquía (Felipe VI, Juan Carlos I, Leonor de Borbón).
  • Otros clusters están más orientados a dimensiones de gobernanza y transparencia.

3. ¿Qué nos dice esta visualización?

  • Los documentos se agrupan según similitudes en su contenido, reflejando patrones en los datos.
  • Los clusters muestran qué dimensiones temáticas son más relevantes (ej. transparencia, desempeño monárquico).
  • Permite detectar qué entidades dominan en cada grupo de documentos.

🔍 Uso práctico:

  • Identificar patrones en grandes volúmenes de texto.
  • Analizar tendencias en discursos políticos o mediáticos.
  • Segmentar información basada en contexto y relevancia.
Diagrama de dispersión
Diagrama de dispersión de términos en documentos