Logo de La Coctelera

Google "libera" su base de datos de n-gramas

12 Oct 06

En el blog de investigación de Google acaban de anunciar que sus n-gramas ahora son nuestros, eso sí, previo pago de 150 dólares según el catálogo.

Y es que el corpus se compone de 1,024,908,267,229 tokens (o palabras, vaya), 95,119,665,584 de frases y llega hasta los 5-gramas con un número más que respetable: 1,176,470,663.

Esos números tan desproporcionados me han "obligado" a mirar mis trabajos de doctorado por curiosidad, porque recuerdo que trabajamos con un corpus también muy grande, la tarea Penn Treebank, pero que sólo tiene 1 millón de palabras diferentes.

Además, recuerdo las largas horas esperando porque el ordenador ya no podía procesar algo tan pesado, así que no quiero ni pensar qué pasaría trabajando con una cantidad de datos así de grande. Ya me gustaría ver a más de uno pasarle el SLM.

Tags: ,
6 comentarios

6 comentarios

  1. 14 Oct 2006 | 10:07 PM # meneame.net dice:

    En el blog de investigación de Google acaban de anunciar que sus n-gramas ahora son nuestros, eso sí, previo pago de 150 dólares según el catálogo.

  2. 14 Oct 2006 | 10:17 PM # Diego dice:

    Hubieses esperado menos si hubieses utilizado Grid Computing :P

    ¿Qué aplicaciones directas puede tener acceder a toda esta información?

  3. 15 Oct 2006 | 07:33 PM # Fernando dice:

    ¿Te refieres a qué se podría hacer con esa información o en qué se va a beneficiar el mundo y va a repercutir a Google?

  4. 16 Oct 2006 | 02:22 AM # Diego dice:

    Ambas.

    Por investigación, me gustaría programar algo que requiriese de una gran potencia de cálculo y tuviese utilidad.

  5. 18 Oct 2006 | 11:15 PM # Fernando dice:

    Bueno, si has leído el post de Google, habrás visto qué cosas hacen ellos: traducción automática, corrección de sintaxis, etc.

    Por otro lado los N-gramas son muy útiles para realizar modelos de lenguaje. Un modelo de lenguaje es, justamente lo que su nombre indica: un modelo de un lenguaje (castellano, inglés, chino, ...).

    Los modelos de lenguaje se utilizan muchísimo en reconocimiento de formas, sobretodo trabajando con modelos probabilísticos, en los que la probabilidad a priori de un texto se puede obtener a partir de las probabiliades individuales de cada palabra que nos indica el modelo de lenguaje.

    Es decir, son la base para realizar muchísimas aplicaciones.

  6. 1 Abr 2007 | 06:23 PM # Sergio dice:

    Interesante, parece que poco a poco tenemos disponible más información para realizar mejores buscadores, como los que usan procesamiento del lenguaje natural para la recuperación de información.

    (Hablo de ello en mi página
    http://procesamientolenguajerecuperacion.50webs.org/

Escriba un comentario: