ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.3 El concepto de corpus y su definición

Definir el concepto de corpus, tal y como se usa hoy en día en el ámbito de la lingüística o lexicografía de corpus, o en la lingüística computacional en general, no es tan sencillo como podría parecer a primera vista.12 En principio, se puede llamar corpus a cualquier colección que contenga más de un texto (corpus como cuerpo textual). Sin embargo, cuando este término se usa en la lingüística actual, al igual que cuando nosotros lo hemos usado en las secciones anteriores, posee una serie de implicaciones que van más allá del análisis de cualquier cuerpo textual (por ejemplo, dos novelas de un autor o un artículo de un periódico).

Estas implicaciones se hacen patentes en las diferentes definiciones de corpus propuestas en los últimos años. Leech (1992:106), por ejemplo, introduce el concepto de corpus de la siguiente forma:

On the face of it, a computer corpus is an unexciting phenomenon: a helluva lot of text, stored on a computer.

Donde se refleja que, aunque sea de un modo bastante simplista, podemos considerar que un corpus no es más que una colección de texto en formato magnético, aunque Leech completa su definición recalcando que la habilidad que poseen los ordenadores para buscar, recuperar, ordenar y hacer cálculos sobre cantidades masivas de texto nos ha brindado la oportunidad de comprender y de explicar el contenido de esos córpora de formas que no eran imaginables en la era que él denomina "pre-computacional". De hecho, dado que los avances tecnológicos van tan unidos al desarrollo de la lingüística de corpus tal y como hoy en día la conocemos, Leech argumenta que debe denominarse Computer Corpus Linguistics, ya que el término "lingüística de corpus" se usaba antes del advenimiento de los ordenadores digitales (Leech ibid).

Existe también cierto consenso en el seno de la comunidad científica relativo al hecho de que un corpus no sólo ofrece información sobre sí mismo, es decir, sobre lo que contiene, sino que representa una sección más amplia de la lengua seleccionada de acuerdo a una tipología específica:

[...] a corpus is a collection of texts assumed to be representative of a given language, dialect, or other subset of a language to be used for linguistic analysis.

Francis (1982: 17)

Volveremos sobre la característica de la representatividad del corpus en el apartado 2.3.1, ya que aparece en otras definiciones recogidas, por ejemplo, en Tognini-Bonelli (1996b: 45):

[...] a corpus is a collection of naturally-occurring language text, chosen to characterize a state or variety of a language.

Sinclair (1991: 171)

La definición que ofrecen Atkins, Clear y Ostler (1992:1 ) añade otro aspecto esencial en la creación de un corpus: éste debe ser construido de acuerdo a una serie de criterios explícitos:

[a corpus is] a subset of an ETL (Electronic Text Library) built according to explicit design criteria for a specific purpose.

Quizá la definición más estandarizada la ofrece el grupo de trabajo dedicado a los córpora textuales de EAGLES (Expert Advisory Group on Language Engineering Standards) (1996a:4):

Corpus: A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.

En esta definición se recogen tres aspectos fundamentales que deben ser tenidos en cuenta en la definición de los córpora: un corpus debe estar compuesto por textos producidos en situaciones reales ("pieces of language") y la inclusión de los textos que componen el corpus debe estar guiada por una serie de criterios lingüísticos explícitos para asegurar que pueda usarse como muestra representativa de una lengua. Todos los estudiosos dedicados al corpus están de acuerdo en que éstos son aspectos fundamentales en la creación y definición de los córpora, aunque no por ello dejan de ser aspectos controvertidos y que en ocasiones han dado lugar a posturas diferentes. Pasamos a considerar estos aspectos en las secciones que siguen.


Notas

12 De hecho, este recurrente tema se ha vuelto a suscitar recientemente (Febrero del 2000) en uno de los foros de discusión más activos sobre el uso de corpus, la lista de distribución moderada CORPORA (véase sección 2.4.1).


Índice General I Índice Capítulo 2 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez