Que las nubes de tags son un sistema de representación algo limitado es algo que todos sabemos:
- problemas cuando el número de datos crece en exceso (tags de adastra, tags de andalucia)
- problemas con las soluciones propuestas para paliar el problema anterior: se filtra tanto que podemos estar ocultando información al usuario
- etcétera
Dos propuestas que encontré en la red prácticamente a la vez:
In search of perfect tag cloud es el título de un paper de Kevin Hoffman (también disponible en PDF) en donde se analiza la problemática de la repsentación de nubes de tags, explica algún altgorimo y propone alternativas.
Cómo mejorar los Tag-Clouds es un paper de Yusef Hassan-Monteroa y Víctor Herrero-Solanaa (también disponible en PDF) en el que se propone un sistema alternativo para representar nubes de tags (ver imagen inferior).
Lo bueno es que ambos artícules concluyen que en hacer conjuntos de tags (o clusters) está la solución. Lo malo es que es una solución difícil de implementar.
Ventajas:
- una forma más natural de recuperar la información
- es mucho más fácil y rápido encontrar lo que buscamos o incluso encontrar tags nuevos

Inconvenientes:
- coste computacional: sólo los grandes se pueden permitir implementar y mantener on-line un sistema así
- número de datos necesario: el número de datos que hace falta para conseguir unos buenos clusters es elevado

9 Sep 2006 | 08:43 AM
...popular-tags-vs-recomended-tags">Enseñaría qué hacen los grandes
Mostraría algunas ideas para cambiar el mundo
Y, finalmente, <a href="http...
12 Sep 2006 | 04:59 PM
Hola,
(aprovecho que nos conocemos para hacer de comentarista plasta)
solo un par de comentarios.
En las desventajas es verdad que el número de datos necesarios debe ser grande, pero no tanto el coste computacional.
Yo no soy un crack de mysql y por eso supongo que me costó más obtener los datos de co-ocurrencias simples entre tags, pero si esa operación se va realizando conforme se alimenta la base de datos creo que no es tan costosa (de hecho en delicious tienen esos datos porque ofrecen tags relacionados).
El clustering es un proceso pesado, pero en este caso sólo es necesario hacerlo sobre los 90 tags seleccionados (y no sobre el total), así que resulta un proceso de muy poco coste computacional (tampoco es necesario hacer el clustering por petición, sino que se puede generar previamente).
pues nada, era solo eso. saludos!