2.4.2.2 Proyectos de creación de corpus en lengua española

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.4.2.2 Proyectos de creación de corpus en lengua española

En lo que se refiere a los córpora disponibles en lengua española, o a las iniciativas de creación de córpora, la situación dista mucho de ser la ideal. Existen algunos córpora disponibles, aunque como según recogía el informe sobre recursos lingüísticos para el español preparado por el Instituto Cervantes (1996), actualizado dos años después, la mayoría de los proyectos están aún en fase de desarrollo. Sin embargo, del estudio realizado por Llisterri & Garrido (1998) se desprende que la participación española en proyectos de ingeniería lingüística e industrias de la lengua es cada vez mayor. Nombramos a continuación los más destacados:

El corpus ENTREVIS contiene aproximadamente 800.000 palabras y está compuesto por entrevistas realizadas a hablantes nativos de español publicadas en dos revistas españolas (Tiempo y Cambio16) durante el año 1990 (Jensen 1991 describe con detalle el proceso de compilación del corpus y su composición).

El Corpus Oral del Español Peninsular (1.100.000 palabras aprox.) consiste en la transcripciones de textos grabados en cintas de audio de registro oral. Está codificado y etiquetado, con información muy completa sobre el contexto situacional y los hablantes (Marcos Marín 1994: 110 y ss. detalla el sistema de codificación). Desarrollado en la Universidad Autónoma de Madrid bajo la dirección de F. Marcos Marín, este corpus es accesible mediante FTP a través de Internet.

El Instituto de Lexicografía de la Real Academia de la Lengua ha desarrollado el Corpus de Referencia del Español Actual (CREA) de 100 millones de palabras, que cuenta con textos literarios, periodísticos, científicos y técnicos, así como transcripciones de lengua oral. También han desarrollado el Corpus Diacrónico del Español (CORDE), de unos 70 millones de palabras, que incluye textos de lengua española desde sus orígenes hasta 1975. Ambos córpora están siendo codificados (siguiendo los estándares propuestos por TEI) y etiquetados con información morfosintáctica (Pino 1996). Está proyectado el acceso al corpus vía Internet en un futuro inmediato.

Corpus CUMBRE: Sánchez (1995) detalla el proceso de compilación y el uso de este corpus, un proyecto llevado a cabo por la editorial SGEL, S.A. bajo la supervisión de A. Sánchez (U. de Murcia). Contiene 8 millones de palabras (su tamaño final será de 30 millones) y está formado por una gran variedad de textos tanto orales como escritos de español peninsular e hispanoamericano.

El Archivo de Textos Hispánicos de la Universidad de Santiago es un corpus que incluye textos de lenguaje oral y escrito de diferentes etapas de la historia del español. Comprende 1.500.000 de palabras de español contemporáneo y 1.063.969 de español medieval. Se puede encontrar más información y una lista detallada de los textos que ambos córpora contienen en la sede web del grupo de investigación de sintaxis del español de la Universidad de Santiago (http://www.usc.es/~sintx/).

Índice General I Índice Capítulo 2 I Siguiente