ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.7.1 Los córpora textuales informatizados como fuente de información lexicográfica

Con la introducción del uso de los córpora textuales informatizados, las posibilidades de análisis lingüístico que los lexicógrafos pueden llevar a cabo en el proceso de compilación de las entradas se han multiplicado de forma magnífica. La lingüística de corpus ha hecho patente la importancia de derivar la descripción lingüística de un análisis detallado de la lengua usada de forma natural, ya que este estudio puede ayudar a revelar muchas regularidades (e irregularidades) en nuestro uso de la lengua que antes no se habían observado, o pueden ayudarnos a verlas de forma más uniforme, con una perspectiva más amplia y con índices de frecuencia relativa más fiables.

De hecho, la introducción del uso del corpus en la praxis lexicográfica tiene ya una historia de casi veinte años, compartiendo en muchos casos recursos informáticos, técnicas y proyectos de investigación con la lingüística de corpus,24 ya que las necesidades de los lexicógrafos como estudiosos de la lengua y su uso no difieren, al menos en los aspectos más básicos, de las de los lingüistas, sobre todo en lo que respecta a las fuentes de información para la extracción de conocimiento lingüístico.

La iniciativa pionera en la introducción del uso del corpus en la compilación de diccionarios fue la formada por la Universidad de Birmingham y la editorial Collins (en la actualidad Harper-Collins), conocida como COBUILD (Collins Birmingham University International Language Database, ver § 2.4.2.1). El diccionario Collins Cobuild Dictionary of English Language supuso, sin duda alguna, una revolución no sólo en el mundo editorial, sino que tuvo además una gran repercusión en otros ámbitos del estudio lingüístico y lexicológico. Las contribuciones recogidas en Sinclair (1987b) detallan varios aspectos del proceso de construcción del corpus, la creación de la base de datos y la posterior compilación del diccionario.

Lo más destacable e innovador de ese proyecto fue que, por primera vez, un diccionario se compilaba por medio del examen detallado de un corpus representativo de textos ingleses, orales y escritos (de 20 millones de palabras). Esto significaba, en palabras de su editor jefe, John Sinclair, que además de las herramientas con las que los lexicógrafos han contado durante años, es decir, un profundo conocimiento de la lengua y muchas lecturas, otros diccionarios y por supuesto ojos y oídos, este diccionario está basado en evidencia mensurable (Sinclair 1987a: XV).

Los lexicógrafos de Cobuild trabajaron durante siete años analizando el corpus para extraer de él información sobre el significado de las palabras, su uso, los patrones sintácticos que caracterizaban cada una de las diferentes acepciones y para estudiar las colocaciones más frecuentes y que, por tanto, debían ser incluidas en un diccionario dirigido a los estudiantes de inglés. Este diccionario fue innovador en otros muchos aspectos, ya que la estructura de las definiciones y la organización de las entradas se aparta bastante de la praxis lexicográfica tradicional y la estructura de las entradas también es diferente.

Los lexicógrafos de Cobuild fueron los pioneros en el uso de los córpora textuales informatizados aunque hoy en día, casi todas la editoriales importantes también han adoptado su uso, en mayor o menor medida, en el proceso de compilación de los diccionarios. Tanto Oxford University Press como Addison-Wesley Longman y Larousse Kingsfisher Chambers han colaborado activamente en la creación del BNC (ver § 2.4.2.1), Cambridge University Press ha basado su nuevo diccionario CIDE (Cambridge International Dictionary of English) en un corpus de 100 millones de palabras (Baugh, Harley & Jellis 1996), y en España, varias editoriales también cuentan con córpora de diferentes tamaños y características: Vox Bibliograf posee un corpus de 10 millones de palabras, la editorial SM uno de 60.000 y la editorial SGEL posee el corpus CUMBRE, de 8 millones de palabras, cuya creación y uso se detalla en Sánchez et al. (1995).

Esta inversión, tanto de recursos económicos como humanos, nos parece muy significativa del esfuerzo realizado por diversas editoriales, encaminado a extraer la información de sus diccionarios de córpora textuales informatizados. Su utilidad se hace patente en el hecho de que sus editores incluyan en las introducciones frases como "This magnificent new resource [BNC] has enabled us as never before ... to present a wholly accurate picture of the syntactic patterns of today’s English" (Jonathan Crowther, introducción a la edición de 1995 del Oxford Advanced Learner’s Dictionary) o "the larger corpus [The Bank of English] enables us to make statements about the meanings, patterns, and uses of words with much greater confidence and accuracy of detail" (John M. Sinclair, introducción de la edición de 1995 del Collins Cobuild English Dictionary).

Para la mayoría de los lexicógrafos, los córpora se han convertido en una herramienta lexicográfica fundamental para el estudio de las diferentes acepciones de una palabra que han de incluirse en las entradas léxicas y para el estudio de las colocaciones y la fraseología (véase, por ejemplo, los estudios contenidos en Baugh, Harley & Jellis 1996; Sánchez et al. 1995; Sinclair 1987b, 1992; Sinclair & Kirby 1990, Clear 1993, 1994, Moon 1998). También ofrecen información decisiva sobre las diferencias de uso entre la lengua oral y la escrita y la frecuencia relativa de uso tanto de determinadas palabras, como de determinadas acepciones de una palabra, información clave para la inclusión (o exclusión) de una entrada o una acepción en un diccionario. Las referencias a estudios y artículos sobre estos aspectos son innumerables, destacamos algunas fundamentales, como Hanks (1987, 1993); Atkins (1987, 1992, 1993); Atkins, Kelg & Levin (1986, 1988); Moon (1987b) y Rayson, Leech & Hodges (1997).

A través del análisis exhaustivo de grandes cantidades de texto computerizado, los lexicógrafos pueden también obtener información indispensable sobre la gramática, las relaciones semánticas, la aceptabilidad de determinados usos, usos innovadores u obsoletos de palabras, palabras o expresiones de nueva creación, e incluso aspectos pragmáticos (véase Aarts 1991; Hanks 1996; Moon 1994). En este sentido, la macroestructura de los diccionarios ha cambiado notablemente en los últimos diez años. Cada vez se incluye más información sobre la lengua y su uso mientras que otro tipo de información que, quizás por tradición lexicográfica, seguía incluyéndose, como los libros de la Biblia, etimologías o tablas de conversión de monedas y mapas están empezando a desaparecer.

En cualquier caso, un corpus no es de gran utilidad si el lexicógrafo no cuenta con las herramientas de análisis adecuadas, que le permitan procesar los textos de formas diferentes y le ofrezcan un alto nivel de flexibilidad en el tipo de búsquedas que pueda realizar. Hacíamos referencia al uso de algunas de estas herramientas en el apartado 2.5 y analizaremos su utilidad en el ámbito de la terminología, mostrando el uso concreto en el apartado 6.1 y siguientes.

Antes de finalizar este apartado dedicado al uso de los córpora en la compilación de diccionarios nos gustaría destacar el hecho de que, al igual que en la lexicografía monolingüe, el uso del corpus es determinante para la creación de mejores, más completos y más útiles diccionarios bilingües, ya que la información incluida en este tipo de diccionarios se basa en el difícil proceso de establecimiento de equivalencia entre dos lenguas. Este proceso debe estar basado en un estudio profundo del comportamiento lingüístico de las unidades léxicas en ambas lenguas, estudio que debe llevarse a cabo, sin lugar a dudas, a través del análisis de grandes cantidades de textos (tanto orales como escritos), producidos por hablantes nativos de ambas lenguas, de forma espontánea.


Notas

24 Véase, por ejemplo, los numerosos proyectos de investigación e iniciativas conjuntas que aparecen reflejadas en las actas de las conferencias anuales llevadas a cabo en el University of Waterloo Centre for the New OED and Text Research, o los artículos e informes contenidos en Walker, Zampolli & Calzolari (1995), Wilks et al. (1996), Boguraev & Briscoe (1989) y Kiefer, Kiss & Pajzs (1992).


Índice General I Índice Capítulo 2 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez