El Corpus Escolar Sincrónico de Madrid (CESM)

El Corpus Escolar Sincrónico de Madrid (CESM) nace del trabajo final de la asignatura Herramientas Informáticas Orientadas al Conocimiento y Enseñanza del Español, impartida en el curso 2015/2016 como parte del programa de grado de Filología Hispánica en la Universidad Complutense de Madrid por Irene Gil Laforga.

Yo he venido a hablar de mi libro, que diría aquel (y, quince días después, ya iba siendo hora). Esta entrada es una breve introducción al mío. Se llama CESM, y pretende ir un poco más allá: al menos, tanto como dure la paciencia.

El Corpus Escolar Sincrónico de Madrid es un proyecto personal de investigación orientado al análisis de la expresión escrita en la educación secundaria obligatoria de la Comunidad de Madrid que busca definir las dificultades que presentan los estudiantes en el aprendizaje de la lengua y los errores más frecuentes en su redacción. Una de las pocas referencias útiles del CESM es el Michigan Corpus of Upper-Level Students Papers (MICUSP).

El CESM nace como una escisión del proyecto original, más ambicioso y de ámbito nacional. Sin embargo, el tamaño inicial de aquella muestra resultó inasumible para una sola persona, aun reduciendo las pocas variables: en el primer documento se proyectaron unas estimaciones mínimas para no comprometer el estudio comparativo de más de 6.000 registros.1 Tras esto, el proyecto se limitó a asentar las bases necesarias para un desarrollo a largo plazo en el que solo hubiera que aumentar progresivamente el tamaño del corpus inicial. Los objetivos actuales son dos:

  • Construir un conjunto digital de textos etiquetados accesible, expansible y analizable de forma semiautomática.
  • Documentar públicamente el proceso de creación del corpus y de su análisis posterior.

La metodología utilizada en la elaboración del corpus se irá publicando en este blog de forma regular, atendiendo al segundo objetivo de publicidad de la investigación. El resultado será una memoria sobre los procesos seguidos desde la obtención de la muestra hasta el procesamiento digital de los textos, donde se ofrecerá suficiente información para poder trabajar en proyectos similares. La guía se dividirá en cinco bloques: definición del corpusobtención de la muestra, transcripción de los textos y etiquetado, procesamiento de los datos y obtención de las estadísticas finales, cada uno de los cuales podrá tener varias entradas.

Cualquier indicación o sugerencia será bienvenida en los comentarios, en Twitter o en el correo. Vamos a ello.


[Imagen original de la cabecera Al final de la clase…, de Juan Carlos Mejía. Bajo licencia CC BY-NC 2.0]

  1. Loz C. (2015) “Proyecto para la investigación sobre corpus de la expresión escrita en educación secundaria obligatoria” No publicado.
    Planteamiento estándar
    Planteamiento de máximos
    Planteamiento de mínimos

    Provincias (y ci. aut.)

    52

    Colegios por provincia

    2 (104 tot.)

    3 (156 tot.)

    1 (52 tot.)

    Cursos participantes

    4

    6 (ESO + bach.)

    4

    Muestras por curso y colegio (aprox.)

    30

    Muestras por colegio

    120

    180

    120

    Total de muestras

    12.480

    28.080

    6.240

2 opiniones en “El Corpus Escolar Sincrónico de Madrid (CESM)”

  1. Este es el relevo generacional que necesitamos, un lingüista DE VERDAD que aún no ha terminado el Grado frente al inmovilismo de muchos departamentos universitarios. Espero que este corpus y sus posibilidades crezcan y que sirva de ejemplo para jóvenes y de tirón de orejas para apoltronados. Enhorabuena a su brillante autor.

    1. Me sacas los colores, Diego. Mil gracias por el comentario, pero de brillante nada: la idea no fue mía y el trabajo solo es tiempo.

      Un abrazo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *