El Corpus Escolar Sincrónico de Madrid (CESM) nace del trabajo final de la asignatura Herramientas Informáticas Orientadas al Conocimiento y Enseñanza del Español, impartida en el curso 2015/2016 como parte del programa de grado de Filología Hispánica en la Universidad Complutense de Madrid por Irene Gil Laforga.
Yo he venido a hablar de mi libro, que diría aquel (y, quince días después, ya iba siendo hora). Esta entrada es una breve introducción al mío. Se llama CESM, y pretende ir un poco más allá: al menos, tanto como dure la paciencia.
El Corpus Escolar Sincrónico de Madrid es un proyecto personal de investigación orientado al análisis de la expresión escrita en la educación secundaria obligatoria de la Comunidad de Madrid que busca definir las dificultades que presentan los estudiantes en el aprendizaje de la lengua y los errores más frecuentes en su redacción. Una de las pocas referencias útiles del CESM es el Michigan Corpus of Upper-Level Students Papers (MICUSP).
El CESM nace como una escisión del proyecto original, más ambicioso y de ámbito nacional. Sin embargo, el tamaño inicial de aquella muestra resultó inasumible para una sola persona, aun reduciendo las pocas variables: en el primer documento se proyectaron unas estimaciones mínimas para no comprometer el estudio comparativo de más de 6.000 registros.1 Tras esto, el proyecto se limitó a asentar las bases necesarias para un desarrollo a largo plazo en el que solo hubiera que aumentar progresivamente el tamaño del corpus inicial. Los objetivos actuales son dos:
- Construir un conjunto digital de textos etiquetados accesible, expansible y analizable de forma semiautomática.
- Documentar públicamente el proceso de creación del corpus y de su análisis posterior.
La metodología utilizada en la elaboración del corpus se irá publicando en este blog de forma regular, atendiendo al segundo objetivo de publicidad de la investigación. El resultado será una memoria sobre los procesos seguidos desde la obtención de la muestra hasta el procesamiento digital de los textos, donde se ofrecerá suficiente información para poder trabajar en proyectos similares. La guía se dividirá en cinco bloques: definición del corpus, obtención de la muestra, transcripción de los textos y etiquetado, procesamiento de los datos y obtención de las estadísticas finales, cada uno de los cuales podrá tener varias entradas.
Cualquier indicación o sugerencia será bienvenida en los comentarios, en Twitter o en el correo. Vamos a ello.
[Imagen original de la cabecera Al final de la clase…, de Juan Carlos Mejía. Bajo licencia CC BY-NC 2.0]
- Loz C. (2015) “Proyecto para la investigación sobre corpus de la expresión escrita en educación secundaria obligatoria” No publicado.
Planteamiento estándar
Planteamiento de máximos
Planteamiento de mínimos
Provincias (y ci. aut.)
52
Colegios por provincia
2 (104 tot.)
3 (156 tot.)
1 (52 tot.)
Cursos participantes
4
6 (ESO + bach.)
4
Muestras por curso y colegio (aprox.)
30
Muestras por colegio
120
180
120
Total de muestras
12.480
28.080
6.240
Este es el relevo generacional que necesitamos, un lingüista DE VERDAD que aún no ha terminado el Grado frente al inmovilismo de muchos departamentos universitarios. Espero que este corpus y sus posibilidades crezcan y que sirva de ejemplo para jóvenes y de tirón de orejas para apoltronados. Enhorabuena a su brillante autor.
Me sacas los colores, Diego. Mil gracias por el comentario, pero de brillante nada: la idea no fue mía y el trabajo solo es tiempo.
Un abrazo.