Logo de La Coctelera

Categoría: Arquitectura de la Información

Que las nubes de tags son un sistema de representación algo limitado es algo que todos sabemos:

  • problemas cuando el número de datos crece en exceso (tags de adastra, tags de andalucia)
  • problemas con las soluciones propuestas para paliar el problema anterior: se filtra tanto que podemos estar ocultando información al usuario
  • etcétera

Dos propuestas que encontré en la red prácticamente a la vez:

In search of perfect tag cloud es el título de un paper de Kevin Hoffman (también disponible en PDF) en donde se analiza la problemática de la repsentación de nubes de tags, explica algún altgorimo y propone alternativas.

Cómo mejorar los Tag-Clouds es un paper de Yusef Hassan-Monteroa y Víctor Herrero-Solanaa (también disponible en PDF) en el que se propone un sistema alternativo para representar nubes de tags (ver imagen inferior).

Lo bueno es que ambos artícules concluyen que en hacer conjuntos de tags (o clusters) está la solución. Lo malo es que es una solución difícil de implementar.

Ventajas:

  • una forma más natural de recuperar la información
  • es mucho más fácil y rápido encontrar lo que buscamos o incluso encontrar tags nuevos

Inconvenientes:

  • coste computacional: sólo los grandes se pueden permitir implementar y mantener on-line un sistema así
  • número de datos necesario: el número de datos que hace falta para conseguir unos buenos clusters es elevado
  • 2 comentarios compártelo favorito
  • Tags:

Una de las facetas más atractivas de los sistemas de tagging es ver cómo los distintos tags se relacionan entre sí y van formando redes.

Dichas redes son aún más interesantes cuando vemos que tienen cierto "sentido" y que, por ejemplo, ocurre lo que podemos ver en la siguiente imagen, que muestras los tags relacionados al tag 'css':

¿Cómo obtener estos tags?

Todo depende de la situación a la que nos enfrentemos. Vamos a plantear dos escenarios: el primero lo llamaremos escenario del.icio.us y al segundo escenario coctelera.

Ambos escenarios tienen en común la tripleta (usuario, recurso, tag), pero con un sutil matiz que cambia por completo la situación.

En el escenario del.icio.us los usuarios etiquetan URLs (no sólo webs, sino enlaces a documentos PDF, doc, imágenes o MP3). Sobre dichas URLs un usuario aplica un tag, su tag.

Otros usuarios también pueden taggear dicha URL con independencia de cómo lo haya hecho el resto.

Es decir, tenemos 3 dimensiones: muchos usuarios que etiquetan muchas URLs mediante muchos tags.

Por otro lado tenemos el escenario coctelera, en el cuál un usuario taggea sus posts y sólo los suyos. La diferencia es que no puede etiquetar el contenido de nadie más.

Es decir, un post sólo estará etiquetado por un usuario. O lo que es lo mismo, sólo podrá estar relacionado con los tags del usuario y los de nadie más.

¿Y qué supone esta diferencia?

El escenario coctelera resultará en relaciones menos ricas entre los recursos taggeados por disponer de menos variabilidad (un recurso posiblemente tendrá asociados entre 1 y 4 tags, siendo optimista).

En el otro escenario, dicho número de etiquetas se repetiría tantas veces como usuarios hayan etiquetado el mismo recurso, con lo cuál tendremos más tags por recurso, y lo más importante, más tags relacionados con el tag en cuestión, creciendo exponencial y abrumadoramente la información de la que podemos sacar partido.

Dos métodos para extraer tags relacionados

El menos sofisticado y más inmediato es extraer todos los tags que comparten recurso con el tag en cuestión. Dicha lista puede ser o no, semánticamente relevante porque no hay ningún tipo de proceso que dote de semántica a la relación.

Aun así se obtienen resultados bastante aceptables:

Tags relacionados con el tag 'futbol':

Tags relacionados con el tag 'antena 3':

El otro método sería utilizar alguna técnica de clustering, que requiere muchos datos y mucho tiempo de proceso. Sin embargo los resultados que se obtendrían serían mucho más relevantes, semánticamente hablando: Relaciones entre conceptos.

Y si os interesa el tema, un artículo muy gráfico y clarito: Automated Tag Clustering: Improving search and exploration in the tag space

Busca el tag que sobra:

acb antena3 caja san fernando cuatro lasexta serie telecinco tve

Sin embargo este no está mal:

alemania futbol humor juegos mundial

Ni este:

guerra israel libano palestina papa religion

Este muestra un grupo de tags irrelevantes:

a con el en granada julio las los mas o que ser un y

Pero también nos hacemos "la picha un lío":

actualidad iglesia libertad silvio rodriguez windows yo

¿Y a qué viene este post? Está a medias entre esto y esto.

Un tema interesante: ¿cómo representar visualmente un conjunto grande de datos y las relaciones establecidas entre dichos elementos?

Por ejemplo, pensad en una red (o grafo, mejor dicho) donde los nodos son personas, y están unidas unas con otras si se tienen enlazadas en su blog. Visualmente, esta estructura representaría las relaciones que existen entre tu blog y otros blogs.

En electroduendes vienen ya tiempo hablando del tema, a raíz también de un curso de Sistemas de representación de redes sociales y de información en los talleres Subflash 2006 (en breve se podrá descargar el material del curso).

Y en uno de sus últimos posts enlazan a Visual Complexity, una galería de páginas, categorizada, en donde podremos encontrar ejemplos de representación visual de información. Algunos tan espectaculares como estos:

Una representación de las relaciones entre amigos del colegio:

Una muestra de los caminos generados en una web:

Una representación de todos los tags generados a partir del tag "Trafalgar" en Flickr (el tag Trafalgar es lo que se ve en el centro en pequeño):

Sobre in web we trust

Avatar de Fernando
Valencia y Madrid, España
ver perfil »
contacto »
Blog personal de Fernando Blat, desarrollador en The Cocktail, sobre programación web y Ruby on Rails. Puedes seguir a "mi otro yo" en blat.