2.3 Adquisición de conocimiento léxico

ISSN: 1139-8736
Depósito Legal: B-35510-2000

2.3 Adquisición de conocimiento léxico

El lexicón, como ya hemos reiterado en numerosas ocasiones, ha llegado a ocupar un lugar central en muchas corrientes lingüísticas actuales y también lo es hoy día en el procesamiento del lenguaje natural. Sin embargo, ha demostrado ser un cuello de botella en el diseño de sistemas de lenguaje natural a gran escala, debido al gran número de unidades léxicas de las lenguas naturales, así como a la constante incursión de palabras o nuevas o nuevas acepciones de palabras existentes existentes. La adquisición de la información léxica necesaria para popular lexicones computacionales plantea serios problemas, tanto en lo que se refiere a la efectividad de los diferentes métodos que se han empleado como a la inversión de tiempo, dinero y recursos humanos y computacionales que estos métodos requieren.

Se puede considerar que existen tres métodos o fuentes principales para la adquisición de conocimiento léxico:

adquisición manual de información léxica
diccionarios en formato magnético (MRDs)
los córpora textuales informatizados

Los tres métodos plantean ventajas y desventajas, tanto en lo que se refiere a los recursos que requieren como a la efectividad que han demostrado hasta ahora. Debemos advertir, sin embargo, que la adquisición de conocimiento léxico es un área de estudio vasta en sí misma, y nuestro interés en este trabajo de investigación se centra en los aspectos de diseño e implementación de lexicones computacionales, así como en lo que concierne a la representación de la información léxica. Por ello, sólo haremos un breve repaso a las técnicas más usadas en el proceso de adquisición de ésta, para justificar y razonar nuestra postura ante este aspecto, ya que aunque no lo tratemos en profundidad por encontrarse fuera del ámbito estricto de nuestra investigación, nos parece un aspecto determinante en la construcción de un lexicón para NLP.

Como hemos dicho antes, la tarea de adquirir información léxica para popular un lexicón computacional es enorme, y por ello ha existido tradicionalmente un gran interés en el estudio de las posibilidades de construcción automática (o semi-automática) de bases de datos a partir de una o varias fuentes en formato magnético, tales como los diccionarios electrónicos (MRDs: Machine Readable Dictionaries), o los córpora textuales informatizados.

Aunque en principio las fuentes electrónicas (on-line resources) pueden aportar una gran cantidad de información lingüística muy valiosa, que puede servir como punto de partida para la creación de una base de datos léxica (LDB: Lexical Data Base), en la práctica es difícil aprovechar toda la información que esas fuentes electrónicas contienen. Los diccionarios en formato electrónico, por ejemplo, parecen particularmente apropiados como base para la construcción de lexicones automáticos⁹, ya que la información que en ellos se encuentra está estructurada en cada una de las entradas, y parece posible extraer cierta información con bastante facilidad. Sin embargo, después de muchos años de investigación y de multitud de proyectos dedicados a ello, los resultados obtenidos en la adquisición de información léxica a partir de MRDs están lejos de ser satisfactorios.

El problema fundamental es que los diccionarios están diseñados por humanos para ser usados por humanos. Los usuarios (humanos) son hablantes nativos de una lengua, que saben, al menos implícitamente, cómo está estructurado el lexicón de su lengua. Los lexicógrafos, a la hora de compilar un diccionario, explotan el conocimiento lingüístico de sus usuarios potenciales, de modo que las entradas de un diccionario contienen sólo la información necesaria para que un hablante de una lengua sea capaz de conectarla con su conocimiento lingüístico general. Incluso los diccionarios diseñados especialmente para los estudiantes de una lengua (learners’ dictionaries) tienen en cuenta las propiedades generales del lenguaje, aunque contengan información mucho más detallada (sobre todo a nivel sintáctico y de uso) que cualquier otro tipo de diccionario.

Tal y como reconoce Levin (1991), el valor que posee el uso de los diccionarios electrónicos en la construcción de una base de conocimiento léxico se ve limitado, en muchas ocasiones, por la esencia misma del arte de la lexicografía: los diccionarios están elaborados por lexicógrafos, que son "seres humanos" (y no "máquinas"), que trabajan bajo grandes presiones de tiempo y espacio.

Esto provoca que la mayoría de ellos sean inconsistentes e incompletos (cf. Atkins, Kelg & Levin 1988; Boguraev & Briscoe 1989), y que, por ejemplo, palabras que tienen un comportamiento similar (morfológico, sintáctico, semántico, etc.) no reciban un tratamiento homogéneo en los diccionarios, ya sea por falta de tiempo, por haber sido compiladas por diferentes lexicógrafos, o simplemente por que el lexicógrafo no fue capaz de reconocer las similitudes¹⁰.

Han sido numerosos los proyectos orientados a la extracción de información de versiones electrónicas de diccionarios impresos en papel. Si atendemos a la cantidad de bibliografía que se puede encontrar relativa a este tema, puede parecer a primera vista que un gran número de diccionarios han sido usados con este propósito, aunque en realidad no es así, puesto que casi todos los proyectos en este área se han centrado en un número reducido de diccionarios, bien por problemas con los derechos de publicación o bien por la falta de las cintas magnéticas correspondientes a las versiones publicadas en papel.

De hecho, los diccionarios usados se reducen a los siguientes: Oxford Advanced Learner’s Dictionary of Current English (OALD), The Collins Cobuild English Language Dictionary (COBUILD), Longman Dictionary of Contemporary English (LDOCE), Webster’s Seventh Collegiate Dictionary (W7), Merriam-Webster Pocket Dictionary (MWPD). Las diferencias que se puede apreciar en las entradas léxicas de estos diccionarios han sido ya analizadas en diversas publicaciones (Boguraev & Briscoe 1989; Boguraev 1991a; Atkins 1991), por lo que no nos detendremos a hacerlo aquí.

Existe, sin embargo, una distinción común a todos ellos, la que se hace entre los "datos" (el contenido léxico propiamente dicho) y la "estructura" (el formato, los códigos y las distinciones tipográficas dentro de cada entrada). Esta distinción es muy relevante, ya que los "datos" constituyen una fuente de información "explícita" que se pensaba que podía ser extraída con facilidad, y de hecho la mayoría de los proyectos iniciales estaban orientados a obtener información de la parte de las entradas que contenía los datos léxicos. En estos proyectos no se hacía uso del potencial de información que la "estructura" de una entrada léxica también ofrece.

Posteriormente, algunos investigadores observaron que hay muchos aspectos en la estructura de las entradas (tanto a nivel individual como en su interrelación al formar parte de la macroestructura del diccionario) que contienen, de forma "implícita", información que puede ser muy relevante, ya que los códigos que controlan el formato de la entrada, así como los diferentes tipos de letra y otros caracteres especiales son siempre significativos a la hora de leer una entrada en un diccionario. Un lector humano se acostumbra a ellos con rapidez y es capaz de darles el significado que tienen, aunque este significado esté implícito en la forma en la que la información aparece. En este sentido, algunos proyectos orientados a la extracción de información de MRDs han intentado dar cuenta tanto de la información explícita en las entradas como de la implícita, aunque esto último es bastante más complejo de lo que a priori puede parecer. Los primeros trabajos realizados con los diccionarios electrónicos se dedicaron a estudiar frecuencias de palabras en las definiciones, una tarea muy costosa en términos computacionales, sobre todo si tenemos en cuenta los recursos informáticos de la época.

Al mismo tiempo, y quizás influenciados por las investigaciones llevadas a cabo en el ámbito de la IA relativas a las redes semánticas¹¹, se estaban empezando a estudiar los "enlaces" (links), "cadenas" (chains) y "círculos" (circles) que se forman en un diccionario a través de las palabras que se usan en sus definiciones, con vistas a la construcción automática de taxonomías.

En esta línea de investigación, el trabajo de una investigadora que aún hoy (veinte años después) sigue liderando la comunidad lexicográfica computacional, Karen Sparck-Jones, demostró que la "circularidad" debe, en principio, existir en un diccionario, ya que cada palabra usada en las definiciones ha de ser, a su vez, definida en el diccionario. Algunas de estas circularidades mantienen una distancia semántica reducida, como por ejemplo las definiciones mutuas de "good" y "excellent", y son por tanto fáciles de observar y asimilar por un lector humano, pero son muy difíciles de localizar a nivel formal y esto puede dificultar enormemente la labor de extracción de información de las definiciones, sobre todo si se aplican nociones empíricas de derivación circular.

A partir de la segunda mitad de los años ochenta se puede apreciar un cambio en las investigaciones relacionadas con los diccionarios en formato magnético, cambio que vino precedido por la sucesiva publicación de diccionarios especializados para estudiantes de inglés. La estructura de estos diccionarios parecía a priori muy adecuada para su uso en NLP, ya que cuentan con una formalización interna mucho mayor que otros diccionarios y son mucho más explícitos en lo que se refiere a las características sintácticas, morfológicas y semánticas de cada una de las entradas. De entre estos diccionarios, los que han recibido una mayor atención han sido, sin lugar a dudas, los diccionarios LDOCE y COBUILD y en menor medida el OALD.

La versión magnética del LDOCE contiene 41.000 entradas, con información adicional a la que se encuentra en la edición en papel. Sus autores defienden que las entradas han sido definidas usando un vocabulario "controlado" de 2.000 palabras y que las entradas tienen una sintaxis simple, lo que parece reducir la circularidad en las definiciones a la que hacíamos referencia en el apartado anterior. Esto ha causado que un gran número de investigadores hayan dedicado sus esfuerzos al estudio de las definiciones, empleando métodos muy diversos que van desde la aplicación de análisis estadísticos para la asignación de significado a técnicas para la localización del genus y la diferencia específica de las definiciones.

Sin embargo, tal y como se demuestra en estos estudios¹², las palabras que integran el vocabulario controlado son seis veces más ambiguas que las demás palabras que aparecen en el diccionario, ya que cada una de estas palabras tiene una media de 12 significados diferentes, frente a una media de 2 en el resto de las palabras. Además, este tipo de definiciones con vocabulario controlado hace que éstas sean más largas y que las referencias cruzadas entre definiciones (tanto explícitas como implícitas) sean mucho más frecuentes.

Debido a estas dos características, sólo un sistema de NLP con una capacidad de comprensión lingüística muy sofisticada podría hacer uso de la información contenida en las definiciones; paradójicamente, conseguir un sistema con esta capacidad nos hace volver a los problemas iniciales que hacían de los MRDs herramientas de posible utilidad en los sistemas de NLP.

El LDOCE también cuenta con un sistema de 110 códigos gramaticales, junto con un grupo de identificadores, tales como "abstracto", "concreto", "animado", etc., que se usan para asignar restricciones de selección a los argumentos de los verbos. El sistema de codificación gramatical usado deriva de un modelo lingüístico específico (basado en Quirk et al. 1972), lo que ha provocado que no sea apropiado (o incluso incompatible) con los parsers automáticos de algunos sistemas de NLP (Boguraev & Briscoe 1989).

Uno de los problemas más serios que ha planteado el uso del LDOCE es que los códigos, en algunos casos, mezclan información sintáctica y semántica, mientras que en otros sólo ofrecen información sintáctica superficial y en otros casos estos códigos han sido modificados por el lexicógrafo para hacer que el aspecto visual de la entrada sea más claro o más compacto. Es necesario analizar los códigos con rutinas informáticas muy complejas para poder separar la información semántica de la sintáctica y aun así los procesos que se han desarrollado hasta la fecha no han alcanzado resultados demasiado satisfactorios, incluso en aquellos casos en los que las rutinas automatizadas se han combinado con procesos manuales.

Hemos nombrado ya algunos de los problemas y desventajas que los MRDs plantean, en cuanto a la falta de consistencia e inexactitud de la información que contienen (sea ésta sintáctica, semántica, morfológica o de uso), pero aún nos parece más importante la falta de aquella información detallada que no aparece en ningún diccionario y que un lexicón diseñado para un sistema de NLP necesita, por no mencionar aquellas unidades léxicas que, por falta de espacio o por motivos editoriales, no aparecen en el diccionario. Otro problema destacable son los errores tipográficos contenidos en las cintas originales de los MRDs: corregir estos errores es muy costoso tanto en tiempo como en recursos humanos¹³.

También hemos de destacar, sin embargo, que no todas las investigaciones realizadas con MRDs han sido infructuosas. No nos parece apropiado detenernos aquí a hacer un repaso exhaustivo de los numerosos proyectos llevados a cabo para la extracción de información de MRDs, puesto que nuestra intención inicial era sólo destacar los inconvenientes y las ventajas que éstos ofrecen en cuanto a la adquisición de conocimiento léxico, por lo que, para ofrecer una visión equilibrada de las investigaciones llevadas a cabo con MRDs, debemos también nombrar algunas iniciativas en las que el uso de diccionarios electrónicos ha dado resultados positivos.

Boguraev & Briscoe (1989), por ejemplo, implementaron con éxito un algoritmo para convertir a formato PATR¹⁴ los códigos gramaticales que el LDOCE asigna a los verbos según los complementos que seleccionan. Usando las definiciones del LDOCE, por ejemplo, Pustejovsky (1987) ha diseñado un sistema capaz de construir entradas verbales de forma semi-automática. Por otro lado, el proyecto Acquilex (del que nos ocuparemos en el apartado 2.4.1) también ha ofrecido resultados bastante satisfactorios en cuanto a la construcción de redes semánticas extraídas de diccionarios.

Éstos son sólo algunos ejemplos de investigaciones cuyos resultados pueden considerarse bastante satisfactorios, aunque analizándolos cuantitativamente debamos plantearnos si el tiempo empleado en construir sus lexicones con esos métodos no es muy similar al tiempo que se emplearía en construir un lexicón manualmente. También debemos destacar otro problema (que es uno de los principios por los que abogamos en el presente trabajo de investigación): la excesiva dependencia teórica que estos lexicones plantean, ya que el formato PATR sólo permite su conversión posterior a gramáticas basadas en formalismos de unificación¹⁵ o en el caso de Pustejovsky (1987) las entradas verbales en el lexicón son construidas (o mejor dicho, traducidas) a fórmulas complejas de lógica de primer orden.

En términos generales, la mayoría de los problemas que el uso de MRDs ha planteado en la construcción de lexicones computacionales parecen derivarse no sólo de su condición de producto realizado por y para los humanos, sino también de la gran diversidad de teorías, tanto sintácticas como de otro tipo, que pueden subyacer a la construcción de cada sistema para el que se han intentado usar. Cada una de estas teorías puede representar información similar de manera muy diferente o puede incluso trazar una línea divisoria diferente entre la información que ha de aparecer en el lexicón y la información que debe aparecer en otros componentes del sistema.

Otra de las razones que se han esgrimido en contra del uso de diccionarios electrónicos para la adquisición de conocimiento léxico es el hecho bien conocido y estudiado de que, mientras que el lenguaje es un objeto dinámico que evoluciona constantemente, los diccionarios son, por definición, objetos estáticos. El lapso de tiempo que transcurre entre el proceso de compilación y la edición, publicación y distribución de un diccionario, hace imposible que pueda ser un reflejo totalmente actualizado de una lengua, situación que se va agravando cuanto más tiempo ha pasado desde su publicación.

Éste, junto con alguno de los problemas que ya hemos señalado anteriormente, ha provocado que en los últimos diez años se haya considerado en algunos proyectos de enorme magnitud (como por ejemplo WordNet, o Cyc, de los que nos ocuparemos más adelante) la entrada manual de datos como el método más económico y seguro de adquisición de conocimiento léxico, aunque consideraciones de este tipo también han llevado a contemplar los córpora textuales informatizados como fuentes potenciales para la adquisición de información léxica actualizada.

Esta tendencia a considerar los córpora textuales como fuentes de información léxica en sistemas de NLP es consecuencia del reciente resurgimiento de la aplicación de métodos empíricos y estadísticos al análisis lingüístico, que ha desarrollado una corriente propia en el ámbito de la lexicografía comercial que se conoce como Lexicografía de Corpus.

Debido al carácter dinámico y evolutivo del lenguaje al que hacíamos referencia antes, la lexicografía de corpus considera que el proceso de compilación de un nuevo diccionario debe derivarse del estudio y análisis exhaustivo de la lengua, tal y como ésta es usada por sus hablantes en situaciones reales, es decir, a través del estudio de un corpus representativo de textos, tanto orales como escritos, de una lengua. Las crecientes posibilidades de obtener y almacenar enormes cantidades de texto informatizado han hecho posible que algunas editoriales hayan usado intensivamente los córpora textuales en el proceso de compilación de sus diccionarios, tanto en la creación de las entradas léxicas del diccionario como en la división de significados de las entradas, la selección de los ejemplos de uso o la información gramatical y colocacional que se incluye en las entradas.

No sólo se ha avanzado, en términos computacionales, en lo que se refiere al poder de almacenamiento de textos; también se ha avanzado enormemente en el desarrollo de herramientas computacionales que facilitan el manejo y estudio de los córpora textuales, aunque ésta siga siendo, en muchos aspectos, un área bastante controvertida¹⁶, sobre todo en lo que concierne a sus aspectos teóricos y metodológicos.

La mayoría de los experimentos llevados a cabo para la adquisición de información léxica a través de córpora se hallan aún en fase experimental, por lo que quizás sea aún pronto para extraer conclusiones definitivas sobre su utilidad¹⁷. En el momento presente, los córpora textuales han demostrado ser de gran utilidad en el ámbito de la lexicografía comercial y están siendo aplicados con éxito a otras áreas del procesamiento de lenguaje natural, como por ejemplo en la categorización de nombres propios o en la desambiguación léxica por medio de la aplicación de métodos estadísticos.

Aunque ésta es un área en la que se está avanzando con gran rapidez, parece claro que queda aún un largo camino por recorrer, ya que la información que se puede obtener hoy día de los córpora a través de análisis cuantitativos representa sólo una parte de la que un lexicón computacional requiere, y la extracción automática de información es aún muy costosa en lo que respecta a recursos computacionales y humanos.

Tal y como ya señalamos en referencia al uso de diccionarios en formato electrónico, la extracción automática de información léxica de un corpus textual informatizado requiere de antemano la capacidad de analizar automáticamente el texto de diversas maneras, para lo que se necesita un sistema de procesamiento de lenguaje natural con unas capacidades de comprensión lingüística muy sofisticadas.

Por estas razones, un gran número de investigadores (Hindle & Rooth 1991; Boguraev & Pustejovsky 1996) apuntan al uso conjunto de varias fuentes para la adquisición de conocimiento léxico, puesto que en ninguna de ellas aisladamente se puede encontrar toda la que un lexicón requiere. Nuestra línea de investigación también apunta en esta dirección, ya que estamos convencidos de que los córpora pueden ofrecer información léxica muy relevante, sobre todo en aspectos relativos a los hábitos colocacionales de las unidades léxicas o sus propiedades combinatorias, y son una herramienta de gran utilidad para la extracción de ejemplos reales de uso, así como en el enriquecimiento y refinamiento de la información ya contenida en un lexicón computacional (Moreno Ortiz 1996).

Un caso interesante de uso conjunto de varias fuentes es la investigación llevada a cabo por Hearst y Schüetze (1996), ya que usan una base de datos construida manualmente, WordNet (de la que nos ocuparemos en el apartado 2.4.2), y aplican métodos estadísticos a un corpus para mejorar la clasificación semántica y las relaciones que aparecen en la misma. Su intención es adaptar el contenido de WordNet para que sea capaz de asignar una etiqueta que caracterice documentos de acuerdo al tema del que tratan. En su trabajo, ellos explican el proceso mediante el que se obtienen representaciones semánticas de un gran número de palabras extrayéndolas de cálculos estadísticos de co-ocurrencia léxica, aumentando y reubicando los elementos del lexicón, y haciéndolo más apropiado para otras tareas específicas a un dominio determinado (domain-specific task), como por ejemplo la recuperación de información (information retrieval).

Este tipo de investigación se puede considerar un claro ejemplo del concepto de reutilización al que aludíamos en el apartado 2.2.2, a la vez que una combinación de adquisición de información léxica vertida a mano en un lexicón (en este caso particular, WordNet) con conocimiento sobre uso derivado estadísticamente de corpus textual.

Otro ejemplo de entrada manual de conocimiento léxico lo encontramos en la creación de la herramienta Ontos, que tenía la finalidad de desarrollar motores de traducción automática basada en el conocimiento, ya que sus investigadores están convencidos de que la información léxica que un sistema de traducción automática robusto requiere no puede encontrarse en fuentes disponibles en formato electrónico (Brown & Nirenburg 1990); en el apartado 3.3.3 mostraremos esta herramienta dentro del proyecto de TA en el que se creó, KBMT-89.

En conclusión, hemos visto en este apartado que las fuentes electrónicas (los MRDs y los córpora textuales) están lejos aún de ofrecer la información léxica detallada que un lexicón computacional requiere y que, en la mayoría de los casos, el esfuerzo y dinero que se debería invertir para extraer de ellos una cantidad mínima de tal información puede ser bastante mayor a la que supondría la populación manual de un lexicón computacional. Los problemas que plantean el uso de tales fuentes han llevado a que proyectos de gran magnitud se hayan llevado a cabo por medio de métodos manuales. Por ejemplo el proyecto Cyc (Guha & Lenat 1990), que está aún en fase inicial, está orientado a la construcción de una base de conocimiento que contenga el conocimiento humano necesario para hacer inferencias, por lo que sus investigadores están vertiendo manualmente lo que ellos consideran que conforma la información morfológica, sintáctica, semántica y pragmática que los hablantes asociamos con una palabra.

NOTAS

De hecho, los primeros intentos de usar diccionarios electrónicos en el proceso de construcción de bases de conocimiento léxico se remontan a finales de los años 60.
También podríamos detenernos a considerar las importantes diferencias que se observan si consultamos la misma entrada léxica en varios diccionarios, no sólo en cuanto a la división de los significados de una palabra, sino también en cuanto a su comportamiento sintáctico, colocacional, etc. Esta diferencia se hace mayor si la información contenida en las entradas se compara con la que se podría extraer de las ocurrencias de esa palabra en un corpus textual informatizado. No ahondaremos en esos aspectos aquí, aunque un punto de referencia muy interesante en este sentido, con especial énfasis en la construcción de MRDs válidos para NLP, se encuentra en Atkins (1991).
De nuevo vuelve a aparecer este término, muy relevante para nuestro trabajo, como se hará evidente en el siguiente capítulo. Sin embargo, no ofreceremos una descripción detallada del mismo hasta el apartado 4.3.2.
Cf. Wilks et al. (1996), Boguraev & Briscoe (1989) y las referencias que allí se encuentran.
Por ejemplo, se tardó casi un año en comprobar y corregir la cinta magnética que contenía el OALD ya que un elevado número de errores fueron introducidos en el proceso de teclear en el ordenador la información contenida en el diccionario en papel.
Describimos este formalismo en el apartado 4.4.3.
Los formalismos basados en unificación serán tratados en el apartado 4.4.
Tanto la Lingüística de Corpus como su disciplina "hermana", la Lexicografía de Corpus, son ámbitos de estudio de reciente creación, cuyos principios teóricos y metodológicos están aún en proceso de definición, tarea que, debido a su carácter eminentemente aplicado y experimental, no resulta una tarea nada fácil. No podemos detenernos aquí a analizar estos aspectos pero baste señalar que los investigadores pioneros en este área mantienen posturas diferentes en aspectos tan importantes como el diseño de un corpus representativo de una lengua, la explotación probabilística o no-probabilística del corpus, relación (o elección) entre la calidad o la cantidad de texto a utilizar, etc. (cf. Aarts & Oostdijk 1993; Baker et al. 1993; Sinclair 1991).
Boguraev & Pustejovsky (1996) ofrecen una colección muy ilustrativa de proyectos que se están llevando a cabo actualmente en esta línea.

Anterior I Siguiente I Índice capítulo 2 I Índice General