Sabina en corpus presente (I): creación

Esta es la primera parte de un artículo sobre la creación y análisis básico de un corpus de letras de canciones. El artículo está planteado desde un punto de vista no técnico para un grupo de lectores amplio. La segunda parte aún no está publicada.

El pasado viernes me desperté con ganas de trastear un poco con corpus. Sin más razón que encontrármelo en los trending topic de Twitter, la pieza elegida para el despiece fueron las letras de la discografía de Sabina: en esta entrada explico el proceso de caza y los pasos que seguí hasta tener al mito preparado para ser abierto en canal.

Según el DLE1, y sin que sirva de precedente, un corpus es un «conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación». Esencialmente, un corpus es una carpeta llena de archivos del bloc de notas ordenados y preparados para ser analizados posteriormente. Algo así:

Hasta aquí la complejidad es la misma que la del mecanismo de un botijo. El único requisito es tener archivos .txt —y, si están en otro formato, convertirlos con cualquiera de los miles de conversores que existen— ya sean letras de canciones, un diálogo socrático o los subtítulos de Star Wars. Este hilo de tuits es maravilloso y tiene mucha culpa de que esté empleando en esto mi fin de semana:

Volviendo a Sabina, los pasos para obtener los .txt estaban claros:

  1. Buscar qué discos ha publicado Joaquín Sabina.
  2. Buscar qué canciones tiene cada disco.
  3. Buscar la letra de cada canción.
  4. Crear un archivo .txt para cada letra y guardarlo con el número y nombre de la canción.

El problema de estos puntos no es la dificultad, sino el tiempo. Crear 200 archivos .txt con sus correspondientes 200 búsquedas e ir renombrándolos y guardándolos uno a uno se hace más largo de lo deseable (en serio, no se sabe hasta que no se empieza). Por fortuna, hay bastantes los atajos que quitan bastante trabajo y, con ellos, los cuatro pasos estuvieron completados en algo más de una hora.

El fundamento de los siguientes puntos son pequeños trucos para ser algo más productivo en el caso de querer elaborar un corpus a partir de letras de canciones, y probablemente no resulte útil a quien conozca web scraping o prefiera utilizar otra fuente textual. En cualquier caso, estaré encantadísimo de recibir cualquier duda o sugerencia en comentarios o en Twitter.

1. ¿Qué discos ha publicado Sabina?

La primera fue fácil: «discos Sabina» en Google.Y con el primer punto, el primer inconveniente: Google no hace distinciones entre álbumes de estudio, en directo, recopilatorios, colaboraciones, etc., provocando una sobrerrepresentación falsa de las canciones más famosas sobre el total… Pero Wikipedia sí la hace:

Apañao. Eliminando de esa lista Ciento volando de catorce, la lista de álbumes originales estaba preparada.

2. ¿Qué canciones tiene cada disco?

Aquí entra en juego el primer atajo. Aunque la lógica internetera lleva a hacer clic en la lista anterior, esto es poco útil: tendríamos, de haberla, otra lista más de canciones cuyos títulos habría que copiar para buscar las letras más tarde. Sin embargo, al buscar en Google de nuevo, la búsqueda enriquecida deja las cosas hechas:

La consulta (autor + álbum + “canciones”) ofrece las canciones como enlaces de búsqueda individuales, pudiendo entrar en cualquiera de ellos con un clic:

Abriendo cada uno de estos enlaces en una nueva pestaña (normalmente haciendo clic en ellos con la rueda del ratón) tendríamos realizada una búsqueda individual para cada canción, facilitando mucho el siguiente punto.

3. ¿Cuál es la letra de la canción?

Al buscar una canción en Google su letra aparece, en la mayoría de los casos, justo después de un vídeo con la canción. Bastaría bajar un poco y hacer clic en alguno de los enlaces para consultarla.

Con estos pasos, una sola búsqueda mediante teclado y un par de clics de ratón por canción habrían sido suficientes para tener todas las letras de un mismo álbum abiertas en diferentes pestañas.

4. La creación de los archivos .txt

Cuando se realiza de forma manual, este paso es el más tedioso. Consiste en abrir un documento de Notepad (o TextEdit, o WordPad, o cualquier editor de archivos .txt), pegar la canción y guardarlo con el título. Pero hay otra opción: aquí tengo que recomendar —de nuevo—, la extensión Save Text to File.

Con la extensión instalada en Firefox, el proceso se reduce a seleccionar el texto que queremos guardar primero, clic derecho > Guardar texto en archivo después. El archivo en formato .txt está ya creado y guardado donde hayamos definido en las preferencias de la extensión, a falta de cambiar el nombre y meterlo en la carpeta correspondiente para ser analizado.

Tras esto, el corpus ya está preparado tal y como aparece en la primera captura de la entrada. Ahora empieza lo interesante.

La segunda parte del artículo, aún no publicado, será enlazado aquí en cuanto esté disponible.


[Imagen original de la cabecera Joaquín Sabina durante un concierto de la gira “Vinagre y rosas” en Madrid, de Juan Tamargo. Bajo licencia CC BY 2.0]

  1. Corpus. (2017). En Asociación de Academias de la Lengua Española (ASALE): Diccionario de la Lengua Española (DLE)

Un comentario en “Sabina en corpus presente (I): creación”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *