2.2 El corpus en los estudios lingüísticos

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.2 El corpus en los estudios lingüísticos

Cuando hablamos de estudiar los diferentes aspectos una lengua (ya sea con fines lingüísticos, lexicológicos o terminológicos) a partir de la evidencia que encontramos en los córpora, nos referimos a grandes (en ocasiones inmensas) colecciones de texto en formato electrónico que se guardan en medios de almacenamiento masivo, como el disco duro de un ordenador o el CD-ROM, al que el lingüista o lexicógrafo tiene acceso a través de varios programas que procesan el corpus de diferentes formas, llamados genéricamente herramientas de recuperación de información (information retrieval (IR) software o IR tools), de las que trataremos en el apartado 2.5, y que pueden estar orientadas tanto al estudio cuantitativo como cualitativo de los datos.

Desde que la lingüística de corpus y el estudio del lenguaje tal y como se usa ha empezado a ganar más y más adeptos, se han hecho una gran cantidad de observaciones nuevas sobre la naturaleza del lenguaje y muchos postulados lingüísticos que se habían sostenido durante años han empezado a cuestionarse. Sinclair (1991), por ejemplo, demuestra de forma muy convincente, que en ocasiones, formas diferentes de un mismo lema deben considerarse como unidades léxicas independientes, ya que su comportamiento sintáctico o su significado es diferente. La tradicional noción de forma canónica a la que se asigna un significado (o significados) para todas sus formas posibles no se corresponde a veces con la frecuencia y distribución que se encuentra en un corpus.

También se hace patente que no es posible separar el estudio léxico del estudio gramatical, ya que en la mayoría de los casos las estructuras sintácticas y las léxicas son interdependientes, de forma que no es posible separar el estudio léxico del sintáctico. En esta línea son de especial importancia los trabajos realizados sobre marcos colocacionales (collocational frameworks), concepto propuesto originalmente en Renouf & Sinclair (1991) y ampliamente desarrollado y aplicado al español por Butler (1997; 1998a y en prensa). Por otra parte, los estudios realizados por Louw (1993) sobre semantic prosodies indican que también es necesario replantearnos el uso tradicional de la palabra como unidad básica de significado.

Los trabajos sobre equivalencia de traducción contenidos en Sinclair, Payne & Pérez (1996), Pérez (1994) y en Tognini-Bonelli (1996a b) muestran que, con más frecuencia de lo que un diccionario bilingüe parece indicar, no es posible asignar un equivalente de traducción apropiado sin tener en cuenta el contexto situacional y el co-texto lingüístico en el que las palabras aparecen, por lo que es necesario ampliar la noción tradicional de equivalencia de traducción.

En el estudio de la gramática de las lenguas, el trabajo realizado en la Universidad de Birmingham (véase Francis 1993 y Hunston & Francis 1999), conocido como corpus-driven approach to grammar, ofrece una perspectiva bastante diferente a la se encuentra en las gramáticas tradicionales, sobre todo en lo referente al estudio léxico, su interrelación con los patrones sintácticos y la fraseología. Siguiendo esta misma orientación, la editorial Longman ha publicado hace poco la gramática Longman Grammar of Spoken and Written English (LGSWE), en la que, según se puede leer en la introducción, se hace una descripción detallada del "actual use of grammatical features in different varieties of English" (LGSWE 1998: 4).

Como vemos, lo más importante que el uso de los córpora computacionales está aportando a la lingüística es que ha demostrado que las intuiciones del hablante nativo sobre determinados aspectos del uso de su propia lengua no son siempre correctas, o al menos no siempre corresponden a lo que los demás hablantes de la lengua en realidad usan. Más importante aún nos parece el hecho de que los estudios lingüísticos basados en corpus no sólo pueden demostrar que, en muchas ocasiones, los hablantes nativos estamos confundidos en lo que respecta al significado o el uso de una palabra, sino que también nos pueden revelar muchas regularidades (o irregularidades) en nuestro uso del lenguaje que antes no habíamos observado, o pueden ayudarnos a verlas de forma diferente.

Stubbs (1996:23) formula una serie de principios que son comunes a todos los académicos que pueden encuadrarse dentro de la tradición británica de análisis textual a los que hemos hecho reiteradas referencias en esta sección, desde Firth hasta Sinclair, pasando por Halliday, Quirk, Leech o Biber. Reproducimos estos principios a continuación porque resumen la esencia de la gran mayoría de las investigaciones lingüísticas basadas en corpus:

The nature of linguistics: that it is essentially a social science, with practical implications, especially in education.

The nature of data for linguistics: the language should be studied in attested, authentic instances of use (not as intuitive, invented sentences): that language should be studied as whole texts (not as isolated sentences or text fragments); and that texts must be studied comparatively across text corpora.

The essential subject of linguistics: that linguistics should study meaning; that form and meaning are inseparable, and that lexis and grammar are interdependent.

The nature of linguistic behaviour: that language in use involves both routine and creation; and that language in use transmits culture.

Existen otras importantes áreas de estudio en los que la investigación basada en corpus está ofreciendo nuevas perspectivas y resultados prometedores, por ejemplo los estudios sociolingüísticos y culturales (Kjellmer 1986, Leech & Fallon (1992) y las diversas aplicaciones hechas a la enseñanza de la lengua (véase, por ejemplo, los materiales pedagógicos publicados por COBUILD en la Universidad de Birmingham y el trabajo crítico realizado por Holmes (1988), Kennedy (1987) y Sánchez et al. (1995).

Otra de las áreas en las que la lingüística de corpus está ofreciendo grandes resultados es el estudio de las variedades lingüísticas y la tipología textual, sobre todo porque facilita la comparación de diferentes aspectos léxicos, gramaticales o textuales en tipos diferentes de registros, tipos de textos o géneros. En este aspecto destacan los trabajos realizados por Biber (1988) y Biber y Finegan (1991).

En el ámbito de la teoría y la praxis lexicográfica, el uso de los córpora informatizados cuenta ya con dos décadas de historia, comenzando con el proyecto Collins COBUILD, llevado a cabo de forma conjunta por la editorial Harper Collins y la Universidad de Birmingham. Su uso se ha extendido de tal forma que hoy por hoy, casi todas la editoriales se han implicado activamente en la creación y uso de córpora con fines lexicográficos.

Aunque nos ocuparemos con detalle del uso de los córpora en la lexicografía en el apartado 2.7, es importante destacar ahora que los córpora se han convertido en una herramienta lexicográfica fundamental para el estudio de las diferentes acepciones de las entradas léxicas y para el estudio de las colocaciones y la fraseología (Baugh, Harley & Jellis 1996; Sánchez et al. 1995; Sinclair 1987b, 1992a; Sinclair & Kirby 1990, Moon 1998). También ofrecen información decisiva sobre las diferencias de uso entre la lengua oral y la escrita, los rasgos prosódicos y la frecuencia relativa de uso, tanto de determinadas palabras, como de determinados significados de una palabra, información clave para la inclusión (o exclusión) de una acepción o una palabra en un diccionario.

Índice General I Índice Capítulo 2 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez