Google Ngrams, una herramienta para analizar los trending topics de la literatura

Books Ngram Viewer es una aplicación lanzada por Google en 2010 de la que sorprendentemente se ha hablado muy poco en todo este tiempo. La aplicación utiliza una base de datos compuesta por más de 500 mil millones de palabras sacadas de más de 5,2 millones de libros digitalizados entre 1500 y 2008 en algunos de los idiomas más habituales. Funciona a modo de buscador, informando del número de veces que una palabra ha sido utilizada en la literatura ‒en los libros escaneados‒ en un año en concreto. También es posible realizar gráficas con la evolución del uso de una palabra a lo largo de un período de tiempo o comparar la cantidad de veces que se han utilizado varias palabras.

Esta aplicación puede ser una herramienta muy valiosa para realizar análisis históricos, lingüísticos o literarios. Si se saben interpretar los datos, el tipo de palabras que utilizan los libros puede darnos información muy útil sobre el momento histórico en que fueron escritos. Por ejemplo, los libros usan un vocabulario distinto si están escritos en época de crisis. Además, es posible hacer búsquedas concretas, como las referencias que se hacen de un escritor alemán judío antes, durante y después de la Alemania nazi; o se puede determinar, con relativa certeza, la aparición de determinados conceptos, como por ejemplo la malaria. También se pueden analizar los trending topics de la literatura, los temas que se ponen de moda y que innevitablemente están relacionados con el contexto histórico.



 Ahora bien, el uso de Google Ngrams presenta varios problemas. El primero y más evidente es que, como todos los análisis estadísticos, trabaja con un corpus cerrado de datos, es decir, que no tiene en cuenta todo lo escrito sino solamente lo escaneado por Google. 

Resulta cuanto menos curioso que no ofrezca resultados en relación con la búsqueda «Harry Potter». Por otra parte, mientras que en inglés es posible afinar un poco más las búsquedas ‒permite cerrarlas a libros escritos en inglés americano, en inglés británico o libros de ficción‒, en español y en el resto de idiomas de momento ofrece los datos de todos los libros escaenados, sin que exista la posibilidad de descartar géneros, variantes geográficas u obras concretas ‒piénsese en cómo pueden elevar las estadístias de un personaje histórico dos o tres obras biográficas‒. Por último, hay que tener cierto cuidado con las búsquedas. Si se quieren comparar el uso de varias palabras hay que tener la precaución de que ninguna de esas palabras se utilice en contextos distintos. Por ejemplo, si se hace una comparativa con escritores hay que tener en cuenta que no tengan un apellido común o que al nombrarlos no se suela hacer con el nombre y uno o dos apellidos.


Generación del 27

Generación del 27

   En una comparativa de los autores del 27 uno espera encontrarse en los primeros puestos a Lorca y a Alberti, como efectivamente ocurre en la actualidad, pero llama sobre todo llama la atención el pico de referencias a Dámaso Alonso durante la etapa franquista. El escritor empieza a despuntar en 1944, sin duda por la publicación de Hijos de la ira, y las menciones caen en picado con el principio de la transición. Vicente Aleixandre está siempre en un lugar discreto, aunque su popularidad sube en la década de los 70, seguramente por la concesión del Nobel. Lorca, del que nunca dejó de hablarse, alcanza su punto máximo en los últimos años del siglo XX, coincidiendo con el aniversario de su nacimiento. Alberti también se hace más popular en los años posteriores a su muerte.


Generación perdida

Generación perdida

   Al trabajar con los autores que generalmente se incluyen dentro de la generación perdida se empiezan a percibir posibles fallos en la aplicación. En la medida de lo posible he tratado de incluir los escritores en dos formas, con apellido y con nombre y apellido. Con Ezra Pound no me parece justo y con Fitzgerald los resultados varían mucho si se añade solo este último apellido ‒de otro modo no me creo que haya quedado tan abajo‒. William Faulkner parte con ventaja desde 1900 a pesar de que empezó a escribir en la década de los 20. De cualquier modo, sirve para comprobar la manera en la que Faulkner y Hemingway se desmarcan del resto de escritores. Curiosamente, entre 1970 y 1990 Hemingway se puso más de moda que Faulkner, pero con posterioridad a esas fechas se han igualado hasta el extremo de que hoy en día Faulkner es más popular que Hemingway.


Boom hispanoamericano

   Si comparamos a algunas de las figuras más representativas del boom latinoamericano, en un amplio sentido, introduciendo también a algunos escritores que sin pertenecer en sentido estricto al boom son precursores, vemos que gana con diferencia Jorge Luis Borges. Todos empiezan a despuntar en la década de los 60, incluso aquellos autores que tienen obras publicadas con anterioridad, como Alejo Carpentier o Juan Carlos Onetti. En el caso significativo de Juan Rulfo ‒que sale bastante bien parado‒ casi la totalidad de su obra es anterior a los 60, y que tiene un ascenso en 1980 coincidiendo con la publicación de El gallo de oro. Vemos que los escritores se dividen en dos grandes grupos, dependiendo del número de menciones que se haga de ellos. Quizá sea por gustos personajes, pero sorprende ver el discreto lugar que ocupa Gabriel García Márquez, seguramente el primer autor en el que pensarán muchos lectores al oír hablar del boom.



Monstruos de la literatura


   He querido hacer una última búsqueda con personajes y se me ha ocurrido utilizar algunos de los más habituales en el género de terror. Los resultados de la momia habría que tomarlos con cautela, ya que esta palabra no se utiliza únicamente en literatura. Por lo demás, está claro que el personaje de terror más popular de la literatura es el vampiro, sobre todo a partir de los 80. El hombre lobo y el zombi son monstruos cuya existencia casi no se documenta hasta los 80. Concretamente, el zombi ha alcanzado una mayor popularidad en los últimos años ‒y hoy en día sigue a la alza‒. Con lo que respecta a Frankestein, a pesar de lo que pudiera parecer, prácticamente no tiene menciones.