ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2 Estudios basados en corpus: la necesidad de estudiar la lengua en uso

Los editores del volumen especial dedicado al uso de los córpora publicado por la prestigiosa revista Computational Linguistics señalan que los años noventa han traído consigo el resurgimiento de los métodos empíricos y estadísticos de análisis lingüístico típicos de la década de los cincuenta (Church & Mercer 1993). En aquellos años era práctica común, por ejemplo, el estudio de las unidades léxicas basándose no sólo en su significado sino también en su co-ocurrencia con otras palabras2.

También en los años cincuenta, J. R. Firth, figura eminente dentro de la tradición lingüística británica, publicaba Papers in Linguistics, donde este enfoque al estudio del lenguaje se resumía con la famosa frase "you shall know a word for the company it keeps" (Firth 1957b: 11). Este interés empírico se desvaneció a finales de los años cincuenta, debido sobre todo a las críticas que Chomsky realizó a los métodos empíricos e inductivos, dando paso a un largo periodo de estudios lingüísticos de carácter mentalista3.

Sin lugar a dudas, la razón más poderosa para el actual resurgimiento de los estudios de corte empírico es la disponibilidad creciente de cantidades masivas de datos en formato magnético. Hasta hace sólo diez años, el corpus de un millón de palabras creado por Francis y Kucera en la Universidad de Brown parecía enorme. Hoy por hoy, muchos centros de investigación poseen córpora que contienen cientos o incluso miles de millones de palabras.

La investigación basada en corpus ha supuesto el nacimiento de nuevos métodos de estudio en áreas de estudio tan diversas como la adquisición de conocimiento léxico, la construcción de gramáticas, los estudios socioculturales, la estilística, la traducción automática, el reconocimiento del habla, la recuperación de información, la lexicografía monolingüe y bilingüe, la construcción de diccionarios electrónicos o la compilación de lexicones computacionales y repositorios de información terminológica.

La investigación lingüística basada en corpus se ha desarrollado en las últimas décadas de forma tal que se considera una disciplina de estudio en sí misma, conocida como Lingüística de Corpus4. En el estadio en el que se encuentra hoy, existen aún algunos académicos que se muestran reticentes a considerarla como una disciplina de estudio autónoma:

[...] but is corpus linguistics really comparable with these other hyphenated branches of linguistics? (socio-linguistics, psycholinguistics, text linguistics) No, because "corpus linguistics" refers not to a domain of study, but rather to a methodological basis for pursuing linguistic research.

Leech (1992: 105)

Lo cierto es que no es una disciplina unitaria, cuyos fines y métodos se presten a un fácil acotamiento. El hecho de que disciplinas tan variadas como las citadas anteriormente se sirvan de un corpus lingüístico informatizado para sus fines particulares ha llevado a algunos investigadores a considerar el corpus como una herramienta de apoyo o como una simple metodología de análisis. Esta argumentación puede ser apropiada en algunos casos, como por ejemplo la traducción automática basada en el ejemplo, donde un corpus (normalmente de textos paralelos5, es decir, un texto y su traducción) se usa para obtener equivalentes de traducción de forma (semi-)automática (véase, por ejemplo los trabajos realizados por Brown et al. 1990; Gale & Church 1993 y Klavans & Tzoukermann 1990). Sin embargo, existe un ámbito de estudio en el que sí nos parece justificado hablar de lingüística de corpus. Nos referimos a aquellos casos en los que el corpus se usa para derivar de su estudio descripciones lingüísticas detalladas, ya sean con fines computacionales, teóricos o lexicográficos.

Considerándola como disciplina unitaria o no, es indudable que existen muchas publicaciones destacadas que nos animan a pensar que se encuentra en proceso de establecerse como disciplina independiente, por ejemplo la revista International Journal of Corpus Linguistics. Se cuenta también, por otra parte, con publicaciones orientadas a asentar los presupuestos teóricos y metodológicos de la lingüística de corpus (Tognini-Bonelli 1996b; Lager 1995; Kennedy 1998 y Biber et al. 1998) y se han publicado en los últimos diez años numerosos libros en los que se recogen artículos y actas de congresos que muestran las líneas de investigación basadas en corpus más destacadas, llevadas a cabo tanto en diversas universidades a ambos lados del océano, como en importantes centros de investigación, como por ejemplo IBM o AT&T.

Entre estas publicaciones cabe destacar, por ejemplo, las actas de las conferencias organizadas anualmente desde 1985 por el Centre for the NEW OED and Text Research en la Universidad de Waterloo (Ontario, Canadá), las actas de la conferencia sobre lexicografía computacional Complex (Kiefer, F., G. Kiss & J. Pajzs (eds.) 1992), o los volúmenes especiales dedicados al corpus de las revistas Literary and Linguistic Computing (Ostler 1993), Computational Linguistics (Church & Mercer 1993), y el International Journal of Lexicography (Sinclair, Payne & Pérez 1996). Merecen ser destacadas también las numerosas recopilaciones en forma de libro que recogen contribuciones de diversos autores publicadas en los últimos años, como por ejemplo Baker, Francis & Tognini-Bonelli (1993); Hoey (1993); Svartvik (1992); Aarts, de Haan & Oostdijk (1993); Oostdijk & de Haan (1994); Boguraev & Pustejovsky (1996), o las publicaciones de carácter pedagógico, como por ejemplo McEnery & Wilson (1996), Stubbs (1996) y Kennedy (1998).

Las investigaciones basadas en el corpus se han centrado mayoritariamente en la lengua inglesa, aunque en los últimos años se han promovido varias iniciativas para la construcción y el uso del corpus de otras lenguas, sobre todo las pertenecientes a la Unión Europea y a algunos de los países del Este. De las publicaciones dedicadas al uso de corpus en lengua española cabe destacar Alvar & Villena (1994), Sánchez (1995) y los informes llevados a cabo por el Observatorio Español de Industrias de la Lengua del Instituto Cervantes sobre recursos lingüísticos del español (Instituto Cervantes 1996 y Llisterri & Garrido (1998).

Se debe tener en cuenta también que un corpus se puede usar de formas muy diferentes: para validar, para ejemplificar o para construir una teoría de la lengua y los diferentes aspectos que ésta implica. Este hecho se hace patente en las diferentes denominaciones acuñadas para hacer referencia al uso de los córpora en la investigación lingüística: corpus-based, corpus-driven, data-driven y text-analysis, por nombrar sólo las más comunes.6 Estas diferencias en cuanto a su uso traen consigo que también existan posturas diferentes en lo que se refiere a la creación y diseño de corpus, al tipo y la forma de análisis, a la explotación y desarrollo de herramientas que lo manejan, al tipo y cantidad de información extra-textual que el corpus debe contener y, sobre todo, al grado de compromiso con la información que se deriva del corpus.


Notas

2 Tanto McEnery & Wilson (1997) como Tognini-Bonelli (1996b) hacen un repaso extenso de los estudios de carácter empírico realizados desde finales del siglo XIX hasta los años cincuenta, en lo que se conoce como "Early Corpus Linguistics". Estos estudios se encuadran en áreas tales como la adquisición del lenguaje, la lingüística comparativa e histórica, la dialectología o la enseñanza de la lengua. Dentro de esta tendencia empirista pre-chomskiana destacan los trabajos realizados por lingüistas de la talla de Z. Harris, A. Hill o C. Fries, para los que el uso de un corpus (es decir, una colección lo suficientemente amplia de texto producido de forma espontánea) era condición suficiente y necesaria para el estudio lingüístico.

3 En el apartado 2.1 nos ocuparemos de las críticas chomskianas al uso de los córpora y trataremos la oposición entre empirismo y mentalismo.

4 También puede denominarse Lingüística del Corpus, ya que en español no parece existir consenso sobre su denominación.

5 En el apartado 2.3 nos ocuparemos de los diferentes tipos de córpora existentes. Definimos, por el momento, un corpus paralelo como aquél que contiene un texto y su traducción o traducciones a otras lenguas.

6 Tognini-Bonelli (1996b: 54 y ss.) define estos términos, explicando las diferencias que implican en cuanto al uso y explotación del corpus en la investigación lingüística.


Índice General I Índice Capítulo 2 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez