2.3.2 Tipología de córpora

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.3.2 Tipología de córpora

Un aspecto íntimamente relacionado con el de la representatividad es el de la tipología de los córpora. En el apartado anterior veíamos los criterios mínimos definidos por EAGLES que un conjunto de textos en formato electrónico debe cumplir para que pueda ser considerado un corpus. Estos criterios son relativos a la cantidad, la calidad, la simplicidad y la documentación de los textos, aunque, como mencionábamos en el apartado anterior, no todos los corpus que hoy en día se usan se ajustan a estos criterios. Por otra parte, el breve repaso a los proyectos de creación de corpus en lengua inglesa y española que incluimos en el apartado 2.4.2 pondrá de manifiesto que, de hecho, existe una gran variedad de tipos de córpora y que éstos difieren bastante entre sí tanto en cantidad como en calidad, simplicidad o documentación disponible sobre los textos contenidos en el corpus.

Atkins, Clear & Ostler (1992: 1) distinguen cuatro tipos fundamentales de lo que ellos denominan genéricamente colecciones textuales (text collections):

Archivos (archives): un repositorio de textos en formato magnético en el que los textos no están relacionados ni coordinados de forma alguna, como por ejemplo el Oxford Text Archive (ver § 2.4.2.1).
Bibliotecas de texto en formato magnético (ETL: electronic text library): una colección de textos en formato magnético que poseen un formato estandarizado y siguen ciertas convenciones en cuanto al contenido, pero sin rigurosas limitaciones de selección.
Corpus: una sección de una ETL, creada siguiendo unos criterios de selección explícitos y con un propósito específico, por ejemplo, el Corpus de Cobuild o el Corpus de Longman/Lancaster.
Subcorpus: una porción de un corpus, ya sea un componente estático de un corpus mayor o más complejo, o una selección que se haga de forma dinámica "on-line" (mientras se está consultando el corpus).

La distinción propuesta por Atkins, Clear & Ostler puede usarse para diferenciar un corpus de otras colecciones genéricas de texto en formato magnético, basándonos en la aplicación de unos criterios rigurosos en la selección de los textos. Aún así, esta definición no puede usarse para clasificar la gran variedad de córpora existente, variedad que en la mayoría de las ocasiones viene dada por otra de las características que ellos asignan al corpus: éste ha de ser creado con una finalidad precisa.

En EAGLES (1996b) encontramos una tipología de córpora más específica en la que se distinguen los siguientes tipos de corpus:

Corpus de referencia (Reference corpus): creado para que sea una muestra representativa de las variedades más importantes de una lengua, así como de sus estructuras y vocabulario generales, de forma que ofrezca información lo más amplia posible sobre una lengua y pueda servir de base en la construcción de gramáticas, diccionarios y obras de referencia. El British National Corpus, el Bank of English y el CREA son ejemplos de córpora de referencia (ver § 2.4.2).

Corpus monitor (Monitor corpus): éste es un nuevo tipo corpus que se ha hecho posible gracias a los inmensos avances realizados en los últimos años tanto en la capacidad de almacenamiento de texto en formato magnético, como en lo que se refiere a su procesamiento. En el primer modelo de corpus monitor, Clear (1987) propone la creación de un corpus con un tamaño constante, en el que se fuera añadiendo constantemente materiales nuevos a la vez que se iban eliminando cantidades equivalentes de material antiguo y ofrecer así al lingüista la posibilidad de observar cambios recientes en el uso de la lengua. A la vez que la capacidad de los ordenadores aumentaba, la idea de flujo de circulación (rate of flow) fue tomando forma, y en la actualidad, no se considera necesario poner límite al tamaño del corpus, siempre que crezca con una constitución que pueda considerarse equivalente a la de estadios anteriores y posteriores.

Corpus oral (Spoken corpus): el informe EAGLES pone de manifiesto que no existe consenso sobre lo que debe considerarse un corpus oral. Para algunos académicos, es un corpus en el que se recogen conversaciones informales y espontáneas, que han tenido lugar sin la intervención de ningún medio de comunicación. En otros casos, el uso del término se amplía para referirse a cualquier tipo de lengua en la que los hablantes se comportan de forma oral, como por ejemplo en los textos escritos para ser hablados.

Corpus de fragmentos textuales (Sample corpus): puede hacerse una distinción entre córpora en los que se incluyen textos completos (whole text corpus) y aquellos en los que se incluyen fragmentos de textos, normalmente para que todos los textos que componen el corpus posean el mismo tamaño. En la actualidad, casi todos los córpora de nueva construcción incluyen textos completos, y la práctica de incluir fragmentos de textos puede que sea sólo un vestigio de tiempos pasados, en los que las limitaciones de capacidad de almacenamiento de los ordenadores obligaba a tomar decisiones de ese tipo en el diseño de los córpora (como por ejemplo el caso del corpus Brown o el LOB, compuestos por 500 fragmentos textuales de 2.000 palabras cada uno, dando un total de un millón de palabras, ver 2.4.2.1).

Córpora especiales, especializados y córpora diseñados con fines especiales: Pearson (1998: 45) pone de manifiesto que en ocasiones los términos corpus especial y corpus especializado se usan indistintamente, o no se hace distinción entre corpus especializado y subcorpus, (término usado por Atkins, Clear & Ostler (1992) al que hacíamos referencia anteriormente), aunque es necesario hacer una distinción clara entre estos tipos de córpora. Para estos autores, un subcorpus es cualquier porción seleccionada de un corpus mayor, sea éste del tipo que sea. Sinclair, por otra parte, usa el término subcórpora en EAGLES (1994) para referirse a las partes en las que puede dividirse un corpus, de forma que estas partes sigan manteniendo las características propias de un corpus, aunque formen parte de un corpus mayor. El término corpus especial (special corpus) suele usarse para describir córpora (normalmente pequeños) que han sido diseñados con algún propósito específico, como por ejemplo, los que contienen lenguaje infantil o de hablantes no nativos. Este tipo de corpus es claramente diferente al subcorpus, ya que no poseen las características propias de un corpus general o de referencia, ni tienen la finalidad de ser representativos del uso lingüístico general, sino del uso lingüístico de un grupo específico de hablantes, normalmente seleccionados por poseer unas características o particularidades que los alejan del uso general. Si definimos un corpus especial como aquel que representa el uso lingüístico de un grupo específico de hablantes, los córpora especializados constituyen un tipo de corpus especial, ya que éste es el término con el que se suele hacer referencia a los córpora que se construyen para que sean representativos de una variedad lingüística específica o de algún tipo de sublenguaje o lengua especializada. Los córpora especializados que se crean para el estudio de la lengua usada para fines específicos y de la terminología usada en sublenguajes poseen características similares a las de los córpora de referencia (en cuanto a cantidad, calidad, simplicidad y documentación), aunque es indudable que el criterio de representatividad debe restringirse a la del dominio de estudio específico para el que son creados. Nos ocuparemos con detalle de este tipo de córpora y de su creación y composición en el apartado 4.3.

Córpora bilingüe (o multilingüe): también existe cierta divergencia en el uso de este término y otros relacionados con él en la comunidad científica. Como ya mencionábamos en la sección 2.2, los córpora bilingües han sido usados con frecuencia en los últimos años, sobre todo en proyectos de traducción automática basada en métodos estocásticos y desambiguación contextual de significado. Actualmente se suele hacer una distinción entre dos tipos de córpora bilingüe: córpora paralelo y córpora comparable. Los córpora paralelos (también llamados en ocasiones bi-texts) están compuestos por un texto y su traducción a una o varias lenguas, mientras que los córpora comparables (también denominados paired texts) son aquellos que poseen características y composiciones similares, es decir, tipos similares de textos en más de una lengua, de forma que es posible establecer comparaciones interlingüísticas. Los córpora paralelos más usados hoy día proceden de organismos oficiales de comunidades bilingües, donde gran parte de los documentos publicados deben aparecer en todas las lenguas oficiales de la comunidad, como es el caso del Parlamento Canadiense, donde, por ley, las intervenciones de los representantes pueden hacerse indistintamente en inglés o en francés, pero las transcripciones de las sesiones (Canadian Hansards) han de conservarse en ambas lenguas, de modo que un equipo de traductores se encarga al final de cada sesión de traducir las intervenciones de uno a otro idioma. Un ejemplo de corpus comparable puede encontrarse en el proyecto NERC (Network of European Reference Corpora), una iniciativa europea de construcción de córpora de idénticas características y composición en todas las lenguas de la UE. A pesar de que los córpora paralelos han sido muy usados en los últimos años en proyectos de traducción automática con resultados bastante alentadores (ver, por ejemplo Brown et al. 1990 y Church & Gale 1991), plantean varios problemas metodológicos que han sido señalados en varias publicaciones. Por una parte, ofrecen la posibilidad de alinear el texto original y su traducción de forma que pueden extraerse equivalentes de traducción de forma (semi)-automática pero, por otra, el hecho de que una parte de los textos que contiene sea una traducción de la otra lengua, puede presentar múltiples problemas lingüísticos, ya que la lengua de traducción puede en muchos casos verse influenciada o distorsionada por la estructura de la lengua de origen. Teubert (1996) discute en profundidad las ventajas y desventajas de ambos tipos de córpora y en Pérez Hernández (1994) se analiza la utilidad potencial que ambos tipos de córpora poseen para la lexicografía bilingüe.

Como vemos, la variedad de córpora existentes se debe en la mayoría de los casos a una de las características que Atkins, Clear & Ostler (1992) señalaban como fundamental en un corpus: el hecho de que son creados para un propósito específico, ya sea éste de carácter general (córpora de referencia) o mucho más restringido (córpora especial, por ejemplo, del lenguaje de los afásicos).

Índice General I Índice Capítulo 2 I Siguiente