Ir al contenido

Similitud de documentos

Mapa de calor de similitud de documentos

1. Estructura del Heatmap

  • Eje Y (izquierda): Representa los documentos, que han sido agrupados (clustered), lo que significa que documentos similares están cerca unos de otros.
  • Eje X (inferior): Representa los mismos documentos, formando una matriz cuadrada donde cada celda indica la similitud entre dos documentos.
  • Colores: La barra de colores a la derecha indica el grado de similitud del coseno:
    • Amarillo → Similitud alta (~1.0, documentos casi idénticos)
    • Verde → Similitud moderada (~0.7-0.8)
    • Azul/Púrpura → Similitud baja (~0.2-0.4)
  • La diagonal amarilla indica que cada documento tiene similitud 1 consigo mismo.

2. Leyenda y Distribución de Documentos

  • A la derecha hay un recuadro con categorías y su distribución:
    • Se mencionan temas como Gobernanza, Ciudadanía, Innovación, Productos y Servicios, con un número asociado (cantidad de documentos en cada categoría).
    • Algunos temas tienen un número alto, lo que indica que hay muchas menciones en esos grupos.

3. Interpretación

  • Se observan zonas de alta similitud (amarillo) donde hay documentos muy relacionados entre sí.
  • Otras zonas tienen similitud más baja, lo que indica que ciertos grupos de documentos son diferentes.
  • Esto puede ser útil para detectar patrones en textos, encontrar agrupaciones de noticias o documentos, o analizar reputación y discursos en temas específicos.
ONTOLOGIAS HOY
Clasificación ampliada de ontologías