2.4.2 WordNet

El sistema de representación léxica WordNet²⁰ merece especial atención por varias razones. En primer lugar, aunque su implementación y objetivos son muy diferentes a los nuestros, ofrece numerosos puntos de convergencia con el sistema que nosotros proponemos en cuanto a fundamentos teóricos. Cabe destacar además que fue uno de los primeros intentos serios de desarrollar un lexicón multipropósito en forma de aplicación informática. Los investigadores que desarrollaron WordNet, liderados por el eminente psicolingüista George A. Miller, han publicado varios informes detallados sobre el diseño y la implementación de la base de datos léxica y sobre la información contenida en ella. Información relativa a WordNet puede ser encontrada en Miller (1986, 1990) y Miller et. al (1993).

WordNet es un sistema electrónico de referencia léxica, desarrollado en forma de base de datos léxica. Tal y como adelantábamos en el apartado 2.1, el diseño de WordNet está en consonancia con teorías psicolingüísticas relativas a la organización de la información léxica en la mente del hablante (Miller 1986). WordNet constituye un intento de reflejar el modelo de memoria léxica basado en redes semánticas propuesto por Collins y Quillian en un modelo lexicográfico de organización léxica.

En el apartado 2.2.1 hacíamos referencia a las bases administrativas y académicas sentadas en los últimos quince años para apoyar la construcción de lexicones computacionales de gran envergadura. En este sentido, WordNet puede considerarse un ejemplo representativo de los puntos a los que hacíamos referencia en ese apartado y en el siguiente, relativos al concepto de reutilización. WordNet es un proyecto que estuvo respaldado desde el principio por diversas instituciones tanto gubernamentales como privadas norteamericanas: el Departamento de Investigación Naval, la Fundación James S. McDonnell y la Universidad de Princeton. Aparte de constituir un ejemplo de cooperación gubernamental y pública, también es un proyecto cuyos resultados (en consonancia con lo propuesto en Marina di Grosseto) se han hecho públicos y pueden distribuirse libremente para fines académicos.

WordNet está disponible para cualquier usuario que desee consultar sus recursos a través de la red Internet, y el sistema puede ser usado en modo on-line desde la máquina remota o recuperar la aplicación completa que podrá ser instalada y ejecutada en una máquina con un SO UNIX (existen versiones para AIX de IBM, estaciones Sun de Sun Microsystems y máquinas Hewlett-Packard.), MS-DOS, MS Windows y Mac OS²¹.

La diferencia básica entre éste y otros proyectos de implementación de lexicones computacionales es que es el único proyecto a relativamente gran escala en el que se ha tenido como idea fundamental la organización del léxico en campos semánticos. De hecho, la motivación principal para su realización ha sido la idea de poner a prueba, mediante su implementación directa en un ordenador digital, teorías psicolingüísticas y lexicológicas relativas a la estructura del lexicón mental.

Siguiendo un modelo de redes semánticas de organización del lexicón mental (ver apartado 2.1), el grupo de investigadores que componía WordNet se propuso en 1985 crear una herramienta que permitiera moverse por la estructura de un diccionario conceptualmente y no sólo alfabéticamente.

Las diferencias con un diccionario tradicional son obvias: WordNet divide el lexicón en cinco categorías: nombres, verbos, adjetivos, adverbios y elementos funcionales. El precio que WordNet ha tenido que pagar por esta organización es la considerable cantidad de información redundante que no aparecería en un diccionario tradicional, en aquellos casos en que una palabra pertenezca a más de una categoría.

Por otra parte, este tipo de organización, facilita enormemente el análisis de las diferencias de organización semántica que existen entre esas cinco categorías sintácticas²³, y también es importante destacar que, al no tener que forzar las diferentes categorías en un mismo esquema representacional, se puede buscar la forma más adecuada para cada una de ellas por separado²⁴.

La fundamentación teórica del sistema tiene su origen la idea de la "matriz de vocabulario" ("vocabulary matrix") (Miller 1986; Miller et al. 1993). Miller usa el término forma léxica ("word form") para referirse a la expresión física que se escribe o se pronuncia y significado léxico ("word meaning") para referirse al concepto lexicalizado que se expresa por medio de una forma léxica.

También argumenta que cualquier diccionario impreso puede ser reducido a la proyección de los significados sobre las formas (entradas léxicas), y esto puede a su vez ser reducido a una matriz. Propone, por tanto, un concepto abstracto que es la matriz de vocabulario. Las columnas de una matriz contendrían todas las palabras (formas léxicas) de un idioma, mientras que las filas contendrían todos los significados. Una entrada de una celda de la matriz implica que la forma léxica de una columna puede usarse (en el contexto apropiado) para expresar el significado de esa fila.

En la Tabla 2.1, adaptada de Miller (1993), la entrada E_1.1 implica que la forma léxica F₁ puede usarse para expresar el significado M₁. En el caso de que haya dos entradas en la misma columna, la forma léxica es polisémica; si hay dos entradas en la misma fila, las dos formas léxicas son sinónimas.

Las consecuencias teóricas de este sistema (no olvidemos que en definitiva se trata de un concepto abstracto) son ciertamente interesantes. En primer lugar, la matriz daría acceso a la información de dos maneras: se podría acceder a una columna e ir bajando hasta el final, de esta forma obtendríamos todos los sentidos que una palabra puede tener en diversos contextos. También podríamos acceder por una fila y seguirla hasta el final, de este modo obtendríamos todas las maneras posibles de expresar un determinado concepto. Así, la matriz de vocabulario contempla dos de los principales problemas de la semántica léxica, la polisemia y la sinonimia, como dos aspectos complementarios de una única estructura abstracta.

Significados
Léxicos

Formas Léxicas

F₁

F₂

F₃

.......

F_n

M₁

M₂

M₃

M_n

E_1.1

E_1.2

E_2.2

E_3.3

.....

E_m.n

La matriz de vocabulario, como representación de la estructura del lexicón mental, plantea algunos problemas a la hora de diseñar su versión electrónica. En primer lugar, el hecho evidente de que mientras la mente del hablante puede trabajar directamente con conceptos, la matriz no puede escapar al ámbito de las palabras. Este problema, por supuesto, no escapó a Miller cuando en 1986 ya hablaba de "that wordy feeling".

La respuesta que WordNet propone para la representación de los conceptos, está basada en la matriz de vocabulario y se les denomina "synonym sets". Un "synonym set", abreviado "synset", no es más que el resultado de cruzar una fila de la matriz de un lado a otro y asignar un número arbitrario al conjunto de palabras obtenido. Este número actuaría a modo de identificador del concepto abstracto representado por el conjunto de elementos léxicos que lo designan. Esta solución nos parece elegante a nivel conceptual, ya que el resultado es tan abstracto como "el concepto de concepto" mismo que se trata de "atrapar". Los "synonym sets" no explican lo que son los conceptos, simplemente "significan" que un determinado concepto existe. Además, al contrario de lo que ocurre con los diccionarios de sinónimos o thesauros tradicionales, un "synonym set" no tiene una palabra clave (headword), que usualmente es usada por el lexicógrafo como representativa del conjunto. Este sistema obviamente conlleva altos niveles de redundancia en cuanto representación se refiere.

La sinonimia es por tanto la relación léxica primordial en WordNet, pero no es la única. Aparte de la relación léxica básica de sinonimia, WordNet ofrece las de antonimia, superordinación (hiperonimia), subordinación (hiponimia), meronimia y relaciones morfológicas.

WordNet está organizado en base a estas relaciones semánticas. Puesto que las relaciones semánticas son relaciones de significados, y los significados están representados por medio de "synsets", WordNet expresa las relaciones semánticas como punteros (pointers) entre "synsets". Veamos cómo funciona esto en cada una de las categorías sintácticas en las que está estructurado WordNet.

Sustantivos

WordNet contiene aproximadamente 57.000 formas nominales organizadas en unos 48.000 significados ("synsets"). Las definiciones de los nombres están organizadas en jerarquías semánticas, construidas en base a los términos superordinados que aparecen en las definiciones de los sustantivos, junto con los rasgos distintivos que diferencian un sustantivo de su hiperónimo. Esta relación de superordinación genera una organización semántica jerárquica que WordNet duplica por medio del uso de punteros entre "synsets". Esta jerarquía es limitada en cuanto a su profundidad y en la mayoría de los casos no contiene más de doce niveles de organización. Los rasgos distintivos se introducen de manera que se crea un sistema de herencia léxica en el que cada palabra hereda los rasgos distintivos de su término superordinado²⁵, creándose una jerarquía que va desde los términos inferiores o subordinados de los niveles inferiores hacia un número de términos genéricos en la parte superior de la jerarquía.

el símbolo "@ ->" representa una relación semántica transitiva y asimétrica de los tipos IS-A o AKO ("es un" o "es un tipo de"). Ya mencionamos este tipo de relación en el apartado 2.1 en referencia a su fundamentación psicolingüística y volveremos sobre ella en el Capítulo 4 en lo que toca a su formalización, por lo que sólo nos detendremos aquí a ver cómo se ha implementado este tipo de relación en los sustantivos contenidos en WordNet.

En el sistema de herencia léxica de WordNet los hipónimos (o términos subordinados) están conectados a sus hiperónimos y viceversa. Por ejemplo, la entrada de la forma tree contiene una referencia, o un puntero del tipo "@->" hacia la entrada de la forma plant. De este modo, el "synset" de tree sería algo parecido a

donde los puntos suspensivos representan los demás posibles punteros a otros hipónimos. En la base de datos, el puntero "@" hacia el término superordinado plant contaría con el puntero " ~ " que indicaría la relación inversa (hiponimia), hacia tree en el "synset" de plant.

Los sustantivos de WorNet no están estructurados en torno a una jerarquía única que contenga un término superordinado general del tipo {entity}²⁶ que englobe a todos los demás. Al contrario que en otras jerarquías, los sustantivos se han agrupado en torno a un conjunto de "primitivos semánticos", un grupo de conceptos genéricos, de forma que cada uno de ellos es el término superior de una jerarquía separada. Estas jerarquías se corresponden , sugún sus autores, con campos léxicos relativamente bien definidos, cada uno de los cuales cuenta con su propio vocabulario.

El mayor problema que esta estructuración plantea es el estatus de estos primitivos. En algunos casos, se corresponden con elementos léxicos, y sus autores parece que los tratan como tales. En otros casos, los denominan "componentes semánticos primitivos" (primitive semantic components), y los consideran conceptos a los que adscribe un campo léxico y los lexemas que en él se contienen (Miller 1993:5). Hemos de añadir que se considera que estos componentes son los necesarios para dar cabida tanto a dominios conceptuales como léxicos y esta mezcla entre el dominio conceptual y el léxico puede provocar serios problemas en cuanto a la implementación computacional, ya que la línea divisoria entre lexemas y conceptos está lejos de quedar bien definida.

Otro problema de este tipo de jerarquías múltiples es, por supuesto, decidir cuáles han de ser esos conceptos genéricos que actúen como términos superiores en las jerarquías. En WordNet, el criterio seguido ha sido eminentemente práctico: se han incluido los que consideran necesarios para dar cabida a todos los sustantivos del inglés.

La Tabla 2.2 muestra el conjunto de 25 componentes semánticos primitivos que WordNet contiene:

{act, action, activity
{animal, fauna}
{artifact}
{attribute, property}
{body, corpus}
{cognition,knowledge}
{communication}
{event, happening}
{feeling, emotion}
{food}
{group, collection}
{location, place}
{motive}

{natural object}
{natural phenomenon}
{person, human being}
{plant, flora}
{possession}
{process}
{quantity, amount}
{relation}
{shape}
{state, condition}
{substance}
{time}

Aunque estos veinticinco componentes se consideran como independientes (pero no mutuamente exclusivos), se han agrupado en categorías más generales (al igual que antes, sin explicitar si estas categorías hacen referencia a conceptos o a lexemas), por medio de relaciones hiponímicas. La Tabla 2.3, por ejemplo, muestra la forma en que se pueden agrupar los componentes que hacen referencia a las cosas tangibles:

Tabla 2.3 Relaciones hiponímicas entre los conceptos primitivos en WordNet

Gran parte de la estructuración de los sustantivos de WordNet se ha generado por medio de las relaciones de hiponimia, aunque también se incluyen detalles sobre los rasgos que distinguen un concepto de otro. También en este caso nos parece bastante confuso el uso que los autores hacen del término "concepto", ya que a la hora de ejemplificar estos rasgos, parece que tanto los rasgos en sí, como los elementos a los que se adscriben se identifican como elementos léxicos y no como conceptos. Veamos un ejemplo:

En este ejemplo, los rasgos distintivos que Miller propone parece que deban ser tratados como conceptos, ya que son los que distinguen canary de bird. Sin embargo, Miller identifica a continuación los atributos con los adjetivos contenidos en WordNet, las partes con los nombres y las funciones con los verbos, de modo que parece que en realidad sean elementos léxicos a los que la descripción de canary deba dirigir punteros.

Por el momento, WordNet ha implementado sólo las rasgos distintivos que indican relaciones de meronimia (partes), ya que éstas van de sustantivos a sustantivos, dejando las relaciones de modificación o atributivas y las de funcionalidad para etapas posteriores del proyecto.

Adjetivos

WordNet divide los adjetivos en dos clases principales: descriptivos y relacionales. WordNet contiene aproximadamente 19.000 formas adjetivales, organizadas en unos 10.000 synsets o significados léxicos. Además de adjetivos relacionales y descriptivos, también contiene un grupo cerrado de adjetivos como former o alleged, que se consideran como adjetivos de modificación de referencia (reference-modifying adjectives).

Los investigadores encargados de la estructuración de esta parte de WordNet (Fellbaum et al. 1993) consideran como adjetivos descriptivos aquellos que adscriben a los sustantivos valores de atributos bipolares, y por tanto están organizados en base a oposiciones binarias (antonimia) o similitud de significado (sinonimia). Se considera que aquellos adjetivos que no poseen antónimos directos tienen antónimos indirectos en virtud a su similitud semántica con otros adjetivos que sí poseen antónimos directos. WordNet contiene punteros entre los adjetivos que expresan el valor de un atributo y el synset de sustantivos que hace referencia al atributo en cuestión.

Los adjetivos relacionales son aquéllos que significan algo parecido a "relativo a/asociado con" el sustantivo al que modifican. Se consideran como variantes estilísticas de modificadores nominales, como por ejemplo en el caso de dental hygiene, donde el adjetivo dental está asociado al sustantivo tooth o en casos donde tanto un adjetivo como un modificador nominal es aceptable como en atomic bomb y atom bomb. En WordNet, estos adjetivos relacionales tienen adscritos punteros que hacen referencia a los sustantivos con los que están relacionados. Por ejemplo, la entrada {stellar, astral, sidereal, noun.object:star} indica que stellar, astral, sidereal están relacionados con el nombre star.

La antonimia es la relación semántica básica de los adjetivos descriptivos. Esta relación está estructurada de forma que la función de estos adjetivos es expresar los valores opuestos de atributos que en la mayoría de los casos son bipolares. Esta estructuración ha planteado serios problemas, que los autores reconocen y han discutido ampliamente (Fellbaum et al. 1993:3; Gross & Miller 1990:267). Los problemas se plantean, por ejemplo, en el caso de dos adjetivos que poseen un significado muy parecido, pero que tienen antónimos diferentes, o en aquellos casos en los que el adjetivo no tiene ningún antónimo, y no se le puede asignar el de otro adjetivo de significado similar.

Este problema radica en el hecho que ya hemos señalado en varias ocasiones en relación a la estructuración de los sustantivos: la falta de una separación clara entre conceptos y unidades léxicas. No se puede equiparar la relación de antonimia que existe (o puede existir) entre conceptos con la que puede existir entre unidades léxicas. Por ejemplo, la mayoría de los antónimos de adjetivos ingleses se construyen por medio de procesos morfológicos (añadiendo un prefijo negativo al adjetivo), y las reglas morfológicas se aplican a las unidades léxicas, no a sus significados. Es bien cierto que estas unidades léxicas habrán de contar con un "reflejo" semántico, pero no nos parece muy clara la forma en que una relación antonímica entre formas léxicas se puede representar por medio punteros entre "synsets", que son, se supone, significados léxicos o conceptos.

Verbos

WordNet contiene más de 21.000 verbos (formas verbales) y aproximadamente 8.400 significados léxicos ("synsets"). Las relaciones semánticas que se habían usado en la construcción de las redes de sustantivos y adjetivos no eran válidas a la hora de organizar los verbos ingleses, ya que la naturaleza de las relaciones semánticas existentes entre verbos difieren las que han observado entre las otras categorías.

Los verbos están divididos en 15 archivos diferentes, en base a criterios semánticos. Esos ficheros se corresponden con dominios semánticos, como por ejemplo verbs of bodily care and functions, change, cognition, communication, competition, consumption, contact, creation, emotion, etc. Todos estos verbos denotan acciones o eventos, a excepción de un archivo que contiene verbos que se refieren a estados como por ejemplo suffice, belong o resemble, aunque éstos no forman un dominio semántico ni comparten otra propiedad semántica que no sea la de referirse a estados.

Si el principio de herencia léxica servía para organizar las relaciones semánticas entre sustantivos y el de oposiciones bipolares las de adjetivos, las diferentes relaciones que organizan los verbos en WordNet se aglutinan en torno al principio de implicación léxica (lexical entailment). Este principio, tomado de la lógica proposicional, se refiere a la relación que existe entre dos verbos V₁ y V₂ cuando la oración Alguien V₁ implica lógicamente la oración Alguien V₂. Por ejemplo, snore implica léxicamente a sleep porque la oración He is snoring implica he is sleeping. La relación de implicación léxica es una relación unilateral, es decir si el verbo V₁ implica otro verbo V₂, no puede darse el caso de que V₂ implique V₁, a no ser que los dos verbos sean mutuamente implicantes, es decir sinónimos.

La relación semántica de hiponimia considerada entre sustantivos, se denomina en el caso de los verbos "troponimia" (troponymy), ya que se considera que las distinciones de "modo" son las más importantes a la hora de diferenciar un hipónimo verbal de su hiperónimo. La relación de troponimia entre dos verbos se expresa mediante la fórmula To V₁ is to V₂ in some particular manner. La troponimia se considera como un tipo de implicación léxica, ya que cada tropónimo V₁ de un verbo más general V₂, también implica V_2.

Las otras dos relaciones de implicación consideradas en WordNet son la relación de oposición y la de relación causal. La relación de oposición entre verbos es bastante compleja, ya que al igual que ocurría con los adjetivos, la oposición entre verbos está basada en muchos casos en un proceso morfológico que se aplica a uno de los miembros de la oposición (como en el caso de tie/untie o appear/disappear), planteando problemas similares a los que comentamos en referencia a los adjetivos.

La relación causativa se compone de dos conceptos, uno causativo (como por ejemplo give) y otro resultativo (como por ejemplo have). WordNet incluye aquellos pares causativo-resultativos que están lexicalizados, de modo que los sinónimos de los términos de cada par heredan la relación causativa, indicando en este caso, que la relación se sostiene entre el concepto y no entre las palabras. Por ejemplo, los sinónimos {teach, instruct, educate} se consideran todos causativos del concepto {learn, acquire knowledge}.

Estos cuatro tipos de implicaciones se ajustan mejor para organizar unos tipos de verbos que otros. Las relaciones de troponimia, por ejemplo, se usan en los verbos de creación, comunicación, competición, movimiento y consumo. La relación de oposición sirve para organizar verbos de estado y verbos de cambio, mientras que la relación causativa se encuentra frecuentemente en los verbos de movimiento.

La finalidad principal de WordNet era convertirse en un reflejo computacional de la memoria léxica y no la representación del conocimiento léxico, por lo que no incluye mucha de la información que un hablante nativo posee acerca de las propiedades semánticas y sintácticas de los verbos. Según sus autores, no existe evidencia de que el comportamiento sintáctico de los verbos (o de cualquier otra categoría léxica) sirva para organizar la memoria léxica (Fellbaum et al. 1993:11), por lo que sólo en la última fase del proyecto se ha empezado a incluir información sobre los aspectos sintácticos más importantes de los verbos (sobre todo aspectos relativos a la estructura argumental), y aun esto se ha hecho porque existen experimentos que indican que los aspectos semántico-sintácticos de los verbos pueden influenciar la adquisición infantil de conocimiento léxico.

Para concluir diremos que el resultado de WordNet es impresionante en cuanto a la cantidad de información que contiene, sobre todo si tenemos en cuenta que toda esta información fue incluida manualmente por el grupo de lexicógrafos del proyecto. Las ventajas de contar con toda esta información en formato electrónico son muchas, aunque los mayores problemas que se plantean son prácticos ya que las operaciones realizables con el conjunto de herramientas informáticas implementadas hasta el momento son ciertamente limitadas (básicamente, ordenación y comparación de los elementos contenidos con los elementos de otros conjuntos).

La información que contienen los diferentes ficheros es ciertamente valiosa, lo que hace que futuros proyectos que tomen WordNet como base puedan realmente sacar partido de ella si se integra en un sistema computacional apropiado²⁷, aunque debemos tener en cuenta también que no puede considerarse como un repositorio de conocimiento léxico detallado, sino como una interesante representación de las diferentes relaciones semánticas que existen entre elementos léxicos, en un intento de capturar la organización de la memoria léxica.