ISSN: 1139-8736
Depósito Legal: B-35510-2000

2.4.4 COBUILD

Para terminar este apartado sobre lexicones computacionales describiremos la implementación de una base de datos creada con fines puramente lexicográficos, la Collins-Birmingham University International Database, más conocida como el proyecto COBUILD. Nuestro interés en este proyecto radica precisamente en su uso lexicográfico y en los claros planteamientos iniciales de sus creadores, quienes diseñaron esta base de datos para que contuviera la información necesaria para crear un diccionario que revolucionó el campo de TEFL y, que hoy por hoy, es uno de los diccionarios monolingües más populares y de mayor venta de los últimos años: el Collins Cobuild English Language Dictionary.

El proyecto COBUILD se creó a principio de los años ochenta y en él participan la Universidad de Birmingham y la editorial Collins, con la finalidad de investigar y describir la lengua inglesa por medio de técnicas computacionales. Para esto se creó un corpus inicial de siete millones de palabras (que luego se ampliaron a 20 y que hoy día alcanza la cifra de 200 millones de palabras) procedente de varias fuentes, tanto escritas como orales, de inglés contemporáneo.

Así mismo, se contrató a un equipo de lexicógrafos para la creación de una base de datos en la que se vieran reflejadas las observaciones de carácter semántico y sintáctico extraídas de la observación exhaustiva del comportamiento de palabras individuales en el corpus.

El rasgo más destacable del proyecto COBUILD es quizás el desarrollo y el uso de herramientas computacionales y su integración en la práctica lexicográfica. Los miembros integrantes del equipo han ido publicando, a través de los años, diversos artículos e informes concernientes a la creación y manejo del corpus, técnicas de recuperación de información, evidencias lingüísticas nuevas extraídas del corpus, etc., por lo que no nos detendremos aquí en estos aspectos30, sino que nos centraremos en el diseño de la base de datos original que ha servido (con posteriores ampliaciones y modificaciones) como soporte para la publicación de seis diccionarios diferentes (uno de ellos en formato CD-ROM), una serie completa de materiales para EFL, una guía de uso del inglés, varias guías sobre áreas problemáticas para hablantes no nativos, como por ejemplo las preposiciones, los artículos o las palabras compuestas y una serie de gramáticas para extranjeros.

Los recursos computacionales que el proyecto COBUILD ha desarrollado a través de los años pueden dividirse en tres áreas fundamentales:

Estos recursos estaban integrados de manera que la información extraída del corpus por medio del software puediera ser incluida en la base de datos diseñada para la creación de diccionarios, de modo que el lexicógrafo podía moverse de uno a otro para modificar la información contenida en la base de datos en caso de encontrar información lingüística nueva en el corpus o comprobar inconsistencias en la información ya incluida.

La base de datos permitía a los lexicógrafos, por ejemplo, copiar texto (oraciones o frases) directamente del corpus, para ser insertado en el diccionario como ejemplos de uso y cada una de las observaciones incluidas acerca del comportamiento sintáctico, semántico o léxico de una palabra estaban también ejemplificadas en la base de datos con texto extraído del corpus.

El diseño de la base de datos ha sufrido numerosas modificaciones a lo largo de los años, aunque el proyecto se ha mantenido fiel a una serie de principios que guiaron su diseño inicial (Clear 1987):

Al inicio del proyecto, la compilación de la base de datos no se hizo electrónicamente, ya que la tecnología informática de entonces (hemos de remontarnos al año 1981) no ofrecía un sistema competitivo de comunicación de redes y microordenadores que permitiera a un grupo de lexicógrafos compilar las entradas directamente en el ordenador. La solución que adoptaron fue el diseño de dos tipos de hojas de papel, unas de color blanco y otras rosas (pink y white slips). El diseño de estas hojas estaba basado en la estructura tradicional de un diccionario de papel, ya que se usaba una hoja rosa para cada uno de los significados de una entrada del diccionario, y contenía la definición e información sintáctica, léxica y semántica. Cada una de estas hojas rosas estaba seguida de un número de hojas blancas que contenían los ejemplos relevantes extraídos del corpus.

Lo llamativo de este diseño (aún siendo en papel) es que se correspondía con el concepto de registros lógicos de un ordenador en el sentido de procesamiento de datos. De este modo, era posible comenzar el proceso de compilación sin tener que decidir cuál iba a ser la implementación computacional de la base de datos. Los medios que usaron entonces para almacenar computacionalmente esta información fue un programa escrito en BASIC, que permitía la entrada de la información contenida en las hojas de papel de manera muy simple. Esta información se guardaba como ficheros de registros secuenciales, y cada registro estaba formado por un código de dos caracteres, un espacio en blanco y un máximo de 77 caracteres más de datos. Los códigos identificaban el campo al que pertenecían los caracteres que seguían al espacio en blanco. La información contenida identificaba primero el número del significado de la entrada, su categoría gramatical y el número de hoja de papel a la que hacían referencia. El código siguiente (00) correspondía a la definición, el siguiente (11) a las formas flexivas, el (22) a la sintaxis y los sucesivos (33), (44), (55), etc., se referían a aspectos léxicos, semánticos y colocacionales de ese significado de la entrada. Cuando el proyecto COBUILD instaló un sistema operativo UNIX, estos ficheros de texto fueron transferidos y pudieron así manejarse algo más cómodamente gracias a las facilidades que este sistema operativo ofrece para la manipulación de texto (editores de líneas, comandos de indexación, formateadores de texto etc.).

Después de evaluar varias alternativas, el sistema gestor de base de datos que el proyecto COBUILD usó para su implementación original (en el año 1983) fue MRDS (Multics Relational Database System), una base de datos relacional que tiene una herramienta adicional, LINUS (Logical Inquiry and Update System), que permite crear un interfaz de usuario. En Clear (1987) se detallan las razones de dicha elección, entre las que destacan su carácter relacional y las múltiples ventajas que esto supone en cuanto diseño y funcionamiento. También tuvieron en cuenta el hecho de que el lenguaje de programación que este sistema usa, LP/1, es más útil para diversas tareas de procesamiento de texto que otros sistemas, como por ejemplo COBOL o FORTRAN, lenguajes utilizados por otros sistemas gestores candidatos. Además, para los encargados de los aspectos informáticos de COBUILD, el hecho de adoptar una base de datos relacional era una decisión importante, ya que les permitía mantener un alto nivel de compatibilidad con otros muchos sistemas, no estando así atados a ningún proveedor y suponía un sistema más sencillo en cuanto a su mantenimiento y que no requería la presencia de un equipo de programadores que se ocupara del sistema.

La estructura de la base de datos MRDS se creó de manera que diera cabida a la información contenida en las hojas de papel y en los ficheros de registros secuenciales, de manera que consistía básicamente en tres tablas que expresaban las relaciones básicas de la base de datos: Categorías, Ejemplos y Referencias Cruzadas. Esta última tabla se añadió para facilitar la recuperación de información referente no sólo a la entrada en sí, sino también referente a sus características léxicas y semánticas. De este modo era posible, por ejemplo, ver todas las entradas que compartían el mismo hiperónimo, la misma colocación, o el mismo sinónimo.

La base de datos que contenía la información del diccionario se enlazó a otra base de datos diferente en la que se guardaba información administrativa sobre el proceso de compilación. Esta segunda base de datos contenía detalles sobre quien y cuando se había compilado cada una de las entradas, así como sobre la extensión de cada una de ellas, es decir, lo que en el ámbito de las bases de datos se denomina "servicios de auditoría". De este modo, era posible controlar el porcentaje de compilación que se había completado en cada momento y se podía planificar el trabajo del equipo de lexicógrafos.

En fases posteriores del proyecto se desarrollaron programas que permitían la búsqueda y recuperación de información contenida en la base de datos de forma más sofisticada, así como la edición de entradas ya contenidas para su modificación y actualización, aunque el hecho de que los lexicógrafos pudieran manipular la información libremente causó bastantes "incidentes", que pusieron en peligro la integridad de los datos (Clear 1987:58).

Después de cuatro años de trabajo en la compilación, la fase final del proyecto consistía en convertir la información contenida en la base de datos en un diccionario para estudiantes de inglés. Para ello fue necesario un proceso de edición completo de todas la entradas, para adaptar esta información al formato específico del diccionario. Se insertaron los códigos apropiados en los diferentes registros de datos para marcar los rasgos tipográficos que debían aparecer en el diccionario (y poder convertirlos semi-automáticamente), y se revisaron tanto las definiciones como el orden de los significados de cada una de las entradas. Este proceso se llevó a cabo en el texto extraído de la base de datos, y no en la información contenida en la base de datos en sí, ya que ésta era más detallada que la que aquel diccionario en particular requería (aunque esta información detallada sí fue de gran utilidad, por ejemplo, en la gramática del inglés que se publicó unos años después).

Sería muy largo explicar aquí todo el proceso de conversión de la base de datos al formato de diccionario en papel y en cualquier caso nuestra intención era mostrar el trabajo previo realizado a la publicación del diccionario. Existen también ciertos aspectos de este proceso, así como de la conversión del diccionario a formato magnético que no se han hecho públicos debido a razones comerciales.

Este proyecto es un muy buen ejemplo de las posibilidades que la utilización de técnicas computacionales tiene para la lexicografía moderna. Se trata de un proyecto con una concepción y una ejecución que son hoy un punto de referencia para cualquier trabajo lexicográfico. La adopción temprana de un sistema gestor de bases de datos relacional fue sin duda una elección adecuada, porque permitió una serie de facilidades de cara a los compiladores y lexicógrafos en general, además de asegurar la coherencia interna de los datos.

 


NOTAS

  1. Véase, por ejemplo, Sinclair (1987, 1991), Baker et al. (1993) y Hoey (1993).

 

Anterior  I  Siguiente  I  Índice capítulo 2  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz