ISSN: 1139-8736
Depósito Legal: B-35510-2000

5.5 El campo léxico de los verbos de sonido en la LDB y la ontología

Como ya hemos apuntado, hemos utilizado el campo léxico de los verbos de sonido, estructurado y analizado mediante el FLM, en inglés y en español, para demostrar la validez del sistema de representación propuesto¹².

Los resultados han sido enormemente interesantes, aun cuando no hemos explotado todas las posibilidades que, pensamos, nuestro sistema de representación tiene. El análisis completo de estos dos campos lo ofrecemos en los Apéndices I y II, por lo que en este apartado nos concentraremos en los efectos de la interacción de la información contenida en la LDB y la contenida en la ontología.

El concepto "hiperónimo" de todos los verbos que constituyen este campo en la ontología es EMIT_SOUND. La Figura 5.31 muestra esta sección concreta de la ontología mediante un gráfico de Flex.

Figura 5.31

Figura 5.31 Sección de la ontología para "EMIT_SOUND"

La sección de la ontología hasta llegar a este marco es la siguiente: ALL EVENT PHYSICAL_EVENT WAVE_ENERGY_EVENT EMIT_SOUND.

Los marcos hijos de EMIT_SOUND existentes en la ontología original de Mikrokosmos se reducían a los tres siguientes: BANG, BARK, ECHO. Algunos otros, como LAUGH, EXPEL_GAS o BREATHE sí estaban incluidos en la ontología, pero no estaban caracterizados como EMIT_SOUND, sino como EMOTIONAL_EVENT el primero y LIVING_EVENT el segundo y el tercero. Este caso nos puede servir para mostrar la potencia y versatilidad del mecanismo de herencia múltiple que tanto hemos comentado. La única acción necesaria para hacer que estos tres conceptos sean caracterizados como eventos que producen un sonido (además de ser un evento emocional en el caso de LAUGH y una función física en el caso de EXPEL_GAS y BREATHE), es añadir el segundo marco de donde han de heredar estos conceptos (EMIT_SOUND), de forma que queden especificados los dos marcos de donde estos conceptos deben heredar sus propiedades.

La Figura 5.34 muestra la información de la base de conocimiento para el concepto LAUGH tras la asignación de la herencia múltiple. Los conceptos EXPEL_GAS y BREATHE se muestran en las Figuras 5.32 y 5.33 respectivamente. En todos ellos podemos observar cómo los "padres" en la jerarquía son dos y los valores heredados provienen de esos dos marcos.

Figura 5.32

Figura 5.32. Información de marco para "EXPEL_GAS"

En el caso de LAUGH, existe incluso un nivel inferior (un "hijo"), MOCK, que heredará tanto de LAUGH, como de EMIT_SOUND y EMOTIONAL_EVENT.

Figura 5.33

Figura 5.33. Información de marco para "BREATHE"

Otros conceptos existentes en la ontología original bajo el marco de EMIT_SOUND eran MURMUR, PEEP, SCREAM y SNORE. Sin embargo, el análisis léxico realizado siguiendo los parámetros del FLM demuestra que existen lexemas más generales que engloban el significado tanto de estos conceptos como de otros, y hemos usado éstos como conceptos en lugar de los mencionados (ver Apéndices I y II).

Como se puede ver en los ejemplos que hemos mostrado para describir el sistema de herencia múltiple, los conceptos ontológicos a los que referimos los objetos léxicos contenidos en la LDB contienen ya información léxica (agent, theme, location, etc.). Es importante recordar que tanto estos atributos como sus valores (ANIMAL, PLACE, PHYSICAL_OBJECT, etc.) son a su vez conceptos de la ontología por lo que este repositorio es calificado de "autosuficiente".

Esta característica tiene como resultado la existencia de cierta redundancia con respecto a la información semántica de la LDB. Para describir el tipo de interacción entre los dos repositorios de información mostraremos algún ejemplo concreto. Tomaremos el verbo "roar" y compararemos la información sintáctico-semántica que obtenemos de la LDB de forma aislada, con la información disponible mediante los enlaces con la ontología. Mostraremos sólo "parte" de la información porque, como veremos, es muy difícil mostrar todos los caminos que se pueden seguir en una taxonomía compleja como es ésta, sobre todo en un medio lineal.

El predicado verbal "roar" tiene, según nuestro análisis, cinco acepciones diferentes dentro del campo léxico de sonido, que son las siguientes:

roar 1 Frame: ROAR
Dimension: to make a sound like an angry or wild animal
Parent: SOUNDS PRODUCED BY ANIMALS (To make a sound like an animal)
Definition: to make a very loud noise like a lion
CP #1        SVAM

S +Animal Ag BIG_FELINE
AM +Percep Man PERCEPTUAL_ATTRIBUTE
e.g. The lion was roaring triumphally

roar 2 Frame: SHOUT
Dimension: to make a loud sound by speaking
Parent: t o make a sound by speaking
Definition: to shout in a very loud deep voice for a long time.

CP #1      SVOd

S +Hum Ag Sp HUMAN
Od -Conc Go Mess COMMUNICATIVE_CONTENT
e.g. The boss roared out his orders
CP #2       SV(AM)

S +Hum Ag HUMAN
AM +Percep Man PERCEPTUAL_ATTRIBUTE
e.g. The supporters roared loudly all through the football game

CP #3     SV(AdM)

S +Hum Ag HUMAN
AdM in with +Percep Man NEGATIVE_STATE
e.g. He roared with rage when he heard that the battle had been lost

CP #4     SV

S +Hum Ag HUMAN
e.g. He used to kick, scream and roar if he didn't get what he wanted

CP #5    SVOd-DQ

S +Hum Ag Sp HUMAN
Od-D Direct Speech Act Go Mess SPOKEN_WORDS
e.g. "I demand to be treated with respect!" he roared

roar 3 Frame: LAUGH

Dimension: to make a sound expressing happiness
Parent: to make a sound indicating an emotion
Definition: to laugh loudly and noisily.

CP #1    SV(AdM)

S +Hum Ag HUMAN
AdM with -Conc Eff POSITIVE_STATE
e.g. He threw back his head and roared with laughter.

roar 4 Frame: RUMBLE

Dimension: sounds produced by nature
Parent: sound : to make a particular noise
Definition: to make a very loud, continuous noise (e.g. very strong blowing wind, ocean waves)

CP #1        SV

S +Nfo Fo NATURAL_EVENT
e.g. The wind roared in the forest

roar 5 Frame: BANG

Dimension: to make a durative sound
Parent: sounds produced by objects
Definition: to make a make very loud, durative noise (e.g. traffic, explosions, etc)

CP #1       SV

S +Conc Fo ARTIFACT
e.g. The cars roared down the freeway

Excepto por la información añadida concerniente a los enlaces a los conceptos de la ontología (que se han señalado tipográficamente con letras mayúsculas), el resto de la información es la obtenida mediante un análisis típico del FLM. Por sí misma, esta información caracteriza suficientemente las entradas léxicas en cuanto a sintaxis y semántica se refiere. Ya hemos mostrado el modo en que hemos modelado la información fonológica y morfológica en la LDB, que ha sido omitida en este informe.

En primer lugar analizaremos la caracterización ontológica de los predicados verbales y después la de sus argumentos. Todos los marcos a los que las distintas acepciones de este verbo (y las de todos los verbos de sonido), pertenecen, como ya hemos mencionado, al marco EMIT_SOUND. Una caracterización parecida también se consigue, como vemos, mediante la asignación a una dimensión determinada del campo léxico. Cada una de las acepciones está asignada a una dimensión distinta y a un marco distinto:

roar 1
Dimension: to make a sound like an angry or wild animal
Frame: ROAR

roar 2
Dimension: to make a loud sound by speaking
Frame: SHOUT

roar 3
Dimension: to make a sound expressing happiness
Frame: LAUGH

roar 4
Dimension: sounds produced by nature
Frame: RUMBLE

roar 5
Dimension: to make a durative sound
Frame: BANG

Si reducimos al mínimo computable esta información, se trata en los dos casos de un átomo, es decir, la dimensión "to make a loud sound by speaking" se reduce al par atributo:valor [Dim_ID:10] (la cadena de caracteres es válida únicamente para el usuario humano). Del mismo modo, el marco ROAR, se reduce, según la información de la LDB al par [Frame_ID:2433].

Sin embargo, existen diferencias significativas entre estas dos caracterizaciones. Para empezar, una dimensión es una descripción que demarca de forma aproximada un grupo de lexemas que comparten determinadas características semánticas dentro de un campo léxico. Ningún tipo de propiedades son asignadas a la dimensión, pues su información se reduce únicamente a la definición en lenguaje natural, es decir, la cadena de caracteres, que, de todos modos, no es computable. Lo único que podríamos aprovechar para un análisis automatizado sería precisamente su localización en la "jerarquía" de dimensiones. El problema es que el tipo de jerarquía que se crea mediante un análisis estructural de un campo léxico no contempla las relaciones entre una dimensión determinada y las dimensiones contenidas en otros campos léxicos, por lo que su utilización para tareas de desambiguación léxica, sin duda la aplicación más deseable de este tipo de información, queda imposibilitada.

Es precisamente en este tipo de tareas donde la caracterización ontológica muestra su potencia. Según se muestra en la Figura 5.34, el marco LAUGH, dentro de la ontología nos aporta, para empezar, la información de que este concepto implica, además de una emisión de sonido, un suceso relacionado con las emociones humanas.

Por tanto, además de los valores locales para este marco, tenemos todos los valores heredados de los dos marcos padres, EMIT_SOUND y EMOTIONAL_EVENT. Pero lo realmente importante es su localización concreta dentro de una estructura autónoma que describe un universo determinado. A partir de esta localización es posible hacer que un analizador semántico pueda establecer mediciones y llegar a determinadas conclusiones¹³.

Figura 5.43

Figura 5.34. Información de marco para "LAUGH"

Más interesantes son el tipo de repercusiones que la introducción de la ontología tiene con respecto a la caracterización semántica de los argumentos de los predicados verbales, pues es aquí donde un analizador semántico se basa, en conjunción con el análisis sintáctico, para llevar a cabo la mayoría de los procesos de desambiguación.

Como mencionamos en el Capítulo 1, la carencia de mecanismos formales descriptivos para delimitar de forma muy concreta los argumentos de los predicados verbales fue uno de los principales motivos que nos empujaron a la realización de este trabajo. Es decir, los medios que el FLM nos ofrece para describir los argumentos no son tan "afinados" como sería deseable, como lo demuestra el hecho de que, en muchas ocasiones, los lexicógrafos que integran el proyecto en el que el presente trabajo se enmarca, decidan incluir información complementaria para la que el modelo original no contempla un mecanismo formal.Siguiendo con el verbo que nos viene sirviendo de ejemplo, es usual encontrarnos con lo siguiente:

roar-1 to make a very loud noise like a lion

SV(AM)

(a) S = +animal (Ag) <protoyp. lions>
(b) Adverbial of Manner = <adverbial description of the way the sound is made/ perceived> (manner)
e.g. The lion was roaring fiercely

Obviamente, la información contenida entre corchetes angulares, de vital importancia para la lexicografía, no es codificable salvo como una cadena de caracteres no computable. Los enlaces con la ontología aportan una solución excelente a este problema.

Esta información ha sido reemplazada en la LDB por los enlaces ontológicos, que sí aportan un mecanismo formal para representarla. En lugar de la cadena de caracteres, los enlaces ontológicos BIG_FELINE y PERCEPTUAL_ATTRIBUTE son, como ya hemos visto, conceptos que poseen una definición concreta y guardan unas relaciones taxonómicas, formalmente representadas, con el resto de los conceptos contenidos en la ontología. Esto implica que un analizador semántico puede hacer un uso apropiado de esta información que, de otro modo, se perdería.

Por supuesto, para que el analizador semántico pueda llevar a cabo su trabajo, los sustantivos y adjetivos deberían también contener una descripción ontológica correcta. Lexemas como "lion", "tiger", "jaguar" o "leopard" deberían estar ontológicamente adscritos al marco BIG_FELINE, o a alguno de sus marcos hijos¹⁴. Este ejemplo nos puede para demostrar, una vez más, la versatilidad de la ontología. Los conceptos BIG_FELINE y SMALL_FELINE no formaban parte de la ontología de Mikrokosmos, sino que han sido introducidos por nosotros, de modo que esta sección de la jerarquía queda tal y como refleja la Figura 5.35.

Figura 5.35

Figura 5.35. Sección de la ontología para "FELINE"

Lo interesante es el hecho de que la introducción de estas dos subcategorías no repercuten de ningún modo en la ontología en general. Las hemos añadido simplemente porque las hemos considerado necesarias para la descripción de algunos verbos de sonido, y porque pensamos que existe una diferencia conceptual entre estos dos tipos de felinos, independientemente de la realidad biológica de estos mamíferos. Esto es un signo evidente de que este tipo de ontologías está enfocada al análisis léxico, ya que están lingüísticamente motivadas, sin pretender ser un compendio de conocimiento objetivo del mundo. La ontología es versátil porque, dependiendo del lexema que pretendamos describir, podemos asignarlo a una u otra categoría según nos convenga. Por ejemplo, en el caso de los verbos de sonido, la distinción entre felinos grandes y pequeños es relevante porque el tipo de sonido que emiten es muy diferente, existiendo verbos que reflejan esta distinción: "roar / rugir", "meow / maullar". Sin embargo, en el caso de verbos que se refieran a capacidades comunes a todos los felinos, podemos asignar el lexema o argumento al marco FELINE.

También es posible el caso contrario, lexemas que requieran una caracterización ontológica más concreta; por ejemplo, para describir el sustantivo colectivo "pride", que únicamente se aplica a leones, utilizaríamos el marco, aún más abajo en la jerarquía, LION. Más aun, la representación ontológica es muy valiosa en casos como éste, en los que no existe un equivalente de traducción específico para el español, donde el sustantivo "manada" podría asignarse a un marco englobador de felinos y otros animales salvajes.

Una situación parecida se da con dos de los patrones de complementación de roar-2. La información original para el patrón número 1 era la siguiente:

roar-2 to shout in a very loud deep voice for a long time.

SV (out) O
(a) S= human (Ag/Sp.)
(b) O= -concrete (Go/Mess) < verbal expression that the S roars >
e.g. The boss roared out the orders.

En esta ocasión, el marco asignado a la expresión entre paréntesis angulares es la de COMMUNICATIVE_CONTENT, que sin duda refleja lo que se pretendía designar originalmente. Por otra parte, el patrón de complementación número 5 era descrito del modo siguiente:

roar-2 to shout in a very loud deep voice for a long time.

SV O-Direct Quote
(a) S= human (Ag/Sp)
(b) O= "Direct Speech Act" (Go/Mess)
e.g. "I demand to be treated with respect!" he roared.

En este caso la descripción del objeto se lleva a cabo mediante un SoA, ya que sintácticamente se realiza en una frase subordinada de sustantivo. Aunque esta caracterización es perfectamente válida, no deja de ser una forma muy poco específica de describir un concepto, que creemos queda mejor reflejado mediante el marco ontológico SPOKEN_WORDS. Para apoyar esta afirmación vamos a mostrar cómo está caracterizado este concepto. La Figura 5.36 muestra una de las secciones de la ontología donde se enmarca este concepto. Decimos que se muestra sólo una de las secciones porque, según se muestra en la información de marco, que también se incluye en la captura de pantalla, este concepto hereda propiedades de dos conceptos padre: COMMUNICATIVE_CONTENT y AUDITORY_OBJECT. La Figura 5.37 muestra la segunda sección relevante.

Figura 5.36

Figura 5.36 Sección de la ontología para "COMMUNICATIVE_CONTENT"

fIGURA 5.37

Figura 5.37 Sección de la ontología para "AUDITORY_OBJECT"

Los valores heredados, junto con los locales, de estos dos marcos padre para el marco SPOKEN_WORDS recrean un perfil muy concreto del concepto que este marco pretende representar y, en el caso del predicado verbal que venimos estudiando como ejemplo, una representación muy detallada del tipo de argumento.

Existen más características interesantes respecto a este marco. Éste debería heredar por omisión el par atributo:valor container:MANUFACTURED_CONTAINER, puesto que al ser hijo de AUDITORY_OBJECT, es también hijo de PHYSICAL_OBJECT, donde se encuentra la aseveración de este hecho. Sin embargo, gracias a la herencia negativa hemos impedido que este valor se herede, de ahí que el valor no aparezca en la información de marco (ver Figura 5.36).

Como podemos ver, la ontología es un recurso tremendamente versátil, que permite especificar tipos de información tan detallada o tan general como deseemos, según sea necesario en la práctica lexicográfica enfocada al análisis automático de textos. Intuimos que las aplicaciones de tal repositorio de información son otras muchas además de las que hemos tratado de mostrar aquí de forma muy sucinta y es nuestra intención continuar en el futuro esta línea de investigación.

A lo largo de nuestro análisis hemos estudiado otros muchos casos interesantes que no podemos exponer aquí porque resultaría demasiado extenso. Pensamos que los ejemplos expuestos son significativos del tipo de ventajas que ofrece la representación de información léxica mediante ontologías.

Remitimos a los Apéndices I y II, donde exponemos la caracterización ontológica de todos los predicados verbales y de sus argumentos.

Para concluir este apartado, y a modo de resumen de todo lo expuesto en él, diremos que los dos tipos de caracterizaciones semánticas que hemos comparado, la descripción estructural mediante dimensiones y la descripción ontológica, poseen incuestionables ventajas para distintos tipos de aplicaciones. La caracterización mediante conceptos ontológicos, representados mediante un esquema de marcos, estructurados dentro de una jerarquía formalizada, con propiedades y métodos anexados y herencia múltiple no-monotónica ofrece un entorno apropiado para el análisis semántico automatizado del lenguaje natural, especialmente para la desambiguación léxica, que, como hemos mostrado en el Capítulo 3, es uno de los problemas más acuciantes en el proceso de traducción automática. Por otra parte, la estructuración de la semántica léxica de los lexemas mediante el mediante dimensiones, tal y como propone el FLM, genera sin duda descripciones adecuadas a las necesidades de la lexicografía, pero sobre todo, y mucho más importante que esto, ofrece un excelente método de análisis y marco de trabajo con el que analizar detalladamente la semántica léxica de las entradas de un diccionario.

NOTAS

Debemos agradecer, una vez más, la colaboración prestada por los miembros del grupo de investigación DGICYT PB94-0437, al habernos facilitado la información léxica original que hemos representado en la LDB.
En el apartado 3.3.6 mostrábamos una analizador semántico de este tipo, por lo que no volveremos a describir este complejo proceso.
De hecho, existen los marcos LION y TIGER en la ontología original de Mikrokosmos.

Anterior I Siguiente I Índice capítulo 5 I Índice General