Google "libera" su base de datos de n-gramas
12 Oct 06
En el blog de investigación de Google acaban de anunciar que sus n-gramas ahora son nuestros, eso sí, previo pago de 150 dólares según el catálogo.
Y es que el corpus se compone de 1,024,908,267,229 tokens (o palabras, vaya), 95,119,665,584 de frases y llega hasta los 5-gramas con un número más que respetable: 1,176,470,663.
Esos números tan desproporcionados me han "obligado" a mirar mis trabajos de doctorado por curiosidad, porque recuerdo que trabajamos con un corpus también muy grande, la tarea Penn Treebank, pero que sólo tiene 1 millón de palabras diferentes.
Además, recuerdo las largas horas esperando porque el ordenador ya no podía procesar algo tan pesado, así que no quiero ni pensar qué pasaría trabajando con una cantidad de datos así de grande. Ya me gustaría ver a más de uno pasarle el SLM.

6 comentarios