Esto está muy bien, pues permite hacer búsquedas desde un mismo sitio en muchos libros a la vez, lo cual proporciona un acceso a una base de conocimiento inmensa. Por otro lado, también se le han hecho críticas en relación con la infracción de derechos de autor. Pero no entraré hoy en ese tema.
Resulta que en su afán de llamar nuestra atención dándonos herramientas interesantes, Google creó hace algunos años Google Books Ngram Viewer. ¿Y esto "qué es lo que es"? Pues una forma de comparar el uso de ciertas palabras y expresiones dentro de los libros que tienen escaneados en Google Books. Así, por ejemplo, pongamos que quiero comparar la aparición en esos libros de las palabras siguientes:
- Einstein
- Dios
- Juan
Pues lo que hago es ir a la web del servicio y lo primero que veremos es que tenemos una búsqueda ya realizada, con las "palabras" Albert Einstein,Sherlock Holmes,Frankenstein, lo cual ya da una idea de la utilidad del servicio. El uso es muy intuitivo: en el cuadro de texto tecleo las palabras que quiero comparar, separadas por comas, y pulso ENTER. En mi caso, quedaría algo así:
Fig. 1. Parece que Juan es más famoso que Einstein y que Dios. Al menos, en los libros.
Podéis abrir esa búsqueda concreta pulsando aquí. También se puede especificar si se quiere buscar en un idioma u otro. Como podéis ver, antes de la década de 1910 no se hablaba prácticamente de Einstein, lo cual es lógico, dado que éste publicó sus teorías a partir de 1905. De Dios se ha venido hablando más o menos igual a lo largo de los dos últimos siglos. Juan está "on fire" y subiendo. ¿Lo conocéis?
Imaginemos que quiero saber si en los libros escritos en español se utiliza más la palabra "oliva" o la palabra "aceituna", que es una discusión que hemos tenido a veces en el curro: si son o no verdaderos sinónimos (sí, durante los cafés hablamos "de tó", somos así de frikis...). Hacemos la búsqueda et... voilà!
Fig. 2. Parece que oliva gana a aceituna.
Por cierto, ¿qué diantres pasó entre 1920-1930 para ese subidón? ¿Se inventaron las olivas rellenas de anchoa o qué?
Al parecer, los datos están normalizados (cosa muy lógica, ya que no hay la misma cantidad de libros digitalizados de 1850 que de 1950, por ejemplo). No obstante, siempre hay que tomar las cosas con un poco de precaución. Por ejemplo, en español tenemos las tildes. Así, he comprobado que no es lo mismo "Jesús" que "Jesus", como se puede ver en los resultados siguientes:
Fig. 3. El uso de "Dios" ha bajado hasta estabilizarse, mientras "Jesús" está en alza
¿Y por qué se habla de n-gramas y no de palabras? Pues porque no sólo podemos buscar palabras sueltas, sino expresiones también que incluyan dos palabras (2-gramas), tres palabras (3-gramas) y así hasta cinco palabras (5-gramas).
Por ejemplo, ¿qué se usa más (en los libros escritos en español) para decir que uno está muy cabreado: "echar humo" o "echar chispas"? Veamos:
Fig. 4. "Echar humo" gana a "echar chispas". Ojo con los datos de 1800 a 1840, un poco raros...
Concluyendo, me parece una herramienta muy interesante para poder ver, entre otras cosas, cómo ha ido evolucionando la aparición de ciertos términos en los últimos dos siglos. Y seguro que si os decidís a pasar por la página, os va a tener un buen rato entretenidos.
No hay comentarios:
Publicar un comentario
Si tienes algo que decir, aquí puedes hacerlo