2.3.1 Recopilación y diseño: representatividad del corpus

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.3.1 Recopilación y diseño: representatividad del corpus

Uno de los mayores caballos de batalla en lo que se refiere a la creación de un corpus son los criterios que deben guiar su diseño para que sea realmente representativo de la lengua que, valga la redundancia, representa. ¿Qué variedades de uso de la lengua debe incluir? ¿En qué proporción? ¿Cuál debe ser el tamaño de un corpus para que, realmente, represente una lengua, o mejor dicho, el uso que sus hablantes hacen de ella?

Este tipo de consideraciones son las que deben guiar los criterios de recopilación de los textos incluidos en el corpus. Aunque la literatura sobre este campo es extensa (ver referencias más adelante), la realidad es que hasta la fecha, casi todos los córpora se han diseñado con criterios internos al proyecto en cuestión, y sólo en determinados casos (British National Corpus, Birmingham Collection of English Text, Corpus CUMBRE, Corpus ARTHUS, ver § 2.4.2) se han hecho públicos los criterios de selección de los textos incluidos en el corpus.

Representatividad, estandarización y tipología de los córpora han sido tres de los temas más debatidos entre la comunidad científica, con opiniones diversas recogidas en varios artículos y propuestas, algunas de ellas hechas en el seno de importantes proyectos europeos (Atkins, Clear & Ostler 1992; Biber 1993; Quirk 1992; Hockey & Walker 1993; EAGLES 1994, 1996a, 1996b). En EAGLES (1996b: 4), por ejemplo, Sinclair define unos criterios mínimos que deben cumplirse para que un conjunto de textos en formato electrónico pueda ser considerado un corpus (cantidad, calidad, simplicidad¹³ y documentación), y clasifica los diferentes tipos de córpora que pueden existir, para así diferenciarlos de las colecciones de textos o los archivos (archives), ya que estos últimos no cumplen alguna de ellas:

The corpus should be as large as could possibly be envisaged with the technology of the time [...]

It should include samples from a broad range of material in order to attain some sort of representativeness.

There should be an intermediate classification into genres between the corpus in total and the individual samples.

The samples should be of an even size.

The corpus as a whole should have a declared provenance.

La mayoría de los córpora usados por la comunidad científica no se ajustan a alguna de estas recomendaciones, aunque existen ya muchos proyectos que siguen las líneas de trabajo marcadas por EAGLES. Las dos primeras recomendaciones hechas por EAGLES recogen la polémica suscitada hace unos años a la que muchos se referían como calidad vs. cantidad, es decir, aquellos que daban más importancia al hecho de que el corpus fuera representativo y equilibrado y aquellos que, además, destacaban la importancia de que el corpus fuera lo más cuantioso posible.

Por obvias razones de espacio no podemos profundizar en esta polémica, pero parece claro que, aunque ambas argumentaciones tienen parte de razón, ninguna postura debe ser llevada a extremos. Se ha hecho mucho énfasis en la representatividad del corpus, y a sus expensas se ha de decidir qué textos o partes de textos han de incluirse o excluirse y los criterios que deben guiar la composición y el diseño del corpus, pero la representatividad sigue siendo, hasta ahora, un concepto bastante vago. Los estudiosos no parecen ponerse de acuerdo en cuáles son los rasgos (o los tipos de textos) que representan una lengua, ni qué proporción o que variables (número de lectores/ oyentes, amplitud geográfica de distribución, etc.) deben guiar la inclusión o exclusión de textos.

Por otra parte, la postura contraria (expresada coloquialmente con la divisa "more data is better data" o "there is no text like more text") puede ser, siempre que se lleve a cabo basándose en unos criterios delimitados, mucho más realista y ajustada a nuestro grado de conocimiento del uso de la lengua y a la realidad tecnológica y económica en la que vivimos, ya que no siempre es posible encontrar texto en formato electrónico de todos los tipos deseables.

Lo ideal es que un corpus sea grande y representativo, aunque, si nos centramos sólo en la representatividad, puede que tengamos que desdeñar grandes cantidades de texto que contengan importantes datos sobre el lenguaje, o que al final no sepamos con qué textos quedarnos o no podamos usar ninguno, ya que todos y cada uno de los córpora que podamos diseñar carecerán de algún tipo de texto particular.

Por otra parte, cuanto mayor sea el corpus, más posibilidades tendremos de que nos ofrezca información sobre un espectro más amplio de fenómenos lingüísticos. Esto último puede ser determinante en algunos casos, por ejemplo, la lexicografía: un diccionario como el OED contiene 250.000 entradas y un diccionario medio para estudiantes una media de 50.000 palabras, por lo que acumular evidencias lingüísticas (al menos las suficientes como para poder guiar al lexicógrafo en el proceso de compilación) sobre un numero tan elevado de entradas requiere, sin duda, que el corpus sea, por decirlo de alguna forma, cuanto más grande mejor. Si pensamos por ejemplo en el estudio de los hábitos colocacionales de determinadas palabras, cuanto mayor sea el volumen de texto que procesemos, más representativos serán los índices estadísticos de frecuencia que aparezcan, al ser relativos a una mayor cantidad de texto.

Biber (1993: 243) define la representatividad como "the extent to which a sample includes the full range of variability in a population", identificando a continuación una serie de criterios externos e internos para la compilación de un corpus, criterios que también han sido señalados por otros autores como Hofland & Johansson (1982), Sinclair (1987b), Atkins, Clear & Ostler (1992) y Nakamura (1993).

Los primeros (criterios externos) son esencialmente criterios no lingüísticos que determinan el tipo de género, modalidad, origen y finalidad de los textos que han de incluirse. Éstos pueden identificarse con relativa facilidad antes de la construcción del corpus y son los que se encargan de que el corpus represente una variedad suficiente de contextos situacionales, por lo que se consideran externos. Un segundo grupo de criterios identifican tipos diferentes de textos, de acuerdo con una serie de categorías lingüísticas (distribución de pronombres, proposiciones o tiempos verbales, por ejemplo). Estos criterios son internos a los textos que componen el corpus.

El proceso de compilación debe, según Biber (1993: 256), ser cíclico, de forma que primero se debe construir un corpus piloto para estudiar su composición y decidir qué parámetros del diseño deben ser modificados:

A pilot corpus should be compiled first, representing a relatively broad range of variation but also representing a depth in some registers and texts. Grammatical tagging should be carried out on these texts, as a basis for empirical investigations. Then empirical research should be carried out on this pilot corpus to confirm or modify the various design parameters. Parts of this cycle could be carried out in an almost continuous fashion, with new texts being analyzed as they become available, but there should also be discrete stages of extensive empirical investigation and revision of the corpus design.

Esta misma concepción cíclica en la compilación del corpus aparece reflejada en el trabajo de Tognini-Bonelli (1996b: 73), en el que señala que el diseño del corpus debe ser revisado continuamente y los resultados del análisis de los datos evaluados de forma que puedan modificarse algunos de los criterios de diseño, si el lingüista lo considera necesario.

Notas

¹³ "Simplicidad" hace referencia a la cantidad y el tipo de información que se añade al texto, tanto etiquetas morfológicas, sintácticas o semánticas como información relacionada con el origen, autor, fecha y medio de publicación, etc. del texto.

Índice General I Índice Capítulo 2 I Siguiente