Como ya hemos apuntado, hemos utilizado el campo léxico de los verbos de sonido, estructurado y analizado mediante el FLM, en inglés y en español, para demostrar la validez del sistema de representación propuesto12.
Los resultados han sido enormemente interesantes, aun cuando no hemos explotado todas las posibilidades que, pensamos, nuestro sistema de representación tiene. El análisis completo de estos dos campos lo ofrecemos en los Apéndices I y II, por lo que en este apartado nos concentraremos en los efectos de la interacción de la información contenida en la LDB y la contenida en la ontología.
El concepto "hiperónimo" de todos los verbos que
constituyen este campo en la ontología es EMIT_SOUND
. La Figura 5.31
muestra esta sección concreta de la ontología mediante un gráfico de Flex.
Figura 5.31 Sección de la ontología para "EMIT_SOUND"
La sección de la ontología hasta llegar a este marco es la
siguiente: ALL EVENT PHYSICAL_EVENT
WAVE_ENERGY_EVENT EMIT_SOUND.
Los marcos hijos de EMIT_SOUND
existentes en la
ontología original de Mikrokosmos se reducían a los tres siguientes: BANG, BARK,
ECHO
. Algunos otros, como LAUGH, EXPEL_GAS o BREATHE
sí estaban
incluidos en la ontología, pero no estaban caracterizados como EMIT_SOUND
,
sino como EMOTIONAL_EVENT
el primero y LIVING_EVENT
el segundo y
el tercero. Este caso nos puede servir para mostrar la potencia y versatilidad del
mecanismo de herencia múltiple que tanto hemos comentado. La única acción necesaria
para hacer que estos tres conceptos sean caracterizados como eventos que producen un
sonido (además de ser un evento emocional en el caso de LAUGH
y una función
física en el caso de EXPEL_GAS y BREATHE
), es añadir el segundo marco de
donde han de heredar estos conceptos (EMIT_SOUND
), de forma que queden
especificados los dos marcos de donde estos conceptos deben heredar sus propiedades.
La Figura 5.34 muestra la
información de la base de conocimiento para el concepto LAUGH
tras la
asignación de la herencia múltiple. Los conceptos EXPEL_GAS
y BREATHE
se muestran en las Figuras 5.32 y 5.33 respectivamente. En todos ellos
podemos observar cómo los "padres" en la jerarquía son dos y los valores
heredados provienen de esos dos marcos.
Figura 5.32. Información de marco para "EXPEL_GAS"
En el caso de LAUGH
, existe incluso un nivel
inferior (un "hijo"), MOCK
, que heredará tanto de LAUGH
,
como de EMIT_SOUND
y EMOTIONAL_EVENT
.
Figura 5.33. Información de marco para "BREATHE"
Otros conceptos existentes en la ontología original bajo el
marco de EMIT_SOUND
eran MURMUR
, PEEP
, SCREAM
y SNORE
. Sin embargo, el análisis léxico realizado siguiendo los
parámetros del FLM demuestra que existen lexemas más generales que engloban el
significado tanto de estos conceptos como de otros, y hemos usado éstos como conceptos en
lugar de los mencionados (ver Apéndices I y II).
Como se puede ver en los ejemplos que hemos mostrado para
describir el sistema de herencia múltiple, los conceptos ontológicos a los que referimos
los objetos léxicos contenidos en la LDB contienen ya información léxica (agent,
theme, location
, etc.). Es importante recordar que tanto estos atributos como sus
valores (ANIMAL, PLACE, PHYSICAL_OBJECT
, etc.) son a su vez conceptos de la
ontología por lo que este repositorio es calificado de "autosuficiente".
Esta característica tiene como resultado la existencia de cierta redundancia con respecto a la información semántica de la LDB. Para describir el tipo de interacción entre los dos repositorios de información mostraremos algún ejemplo concreto. Tomaremos el verbo "roar" y compararemos la información sintáctico-semántica que obtenemos de la LDB de forma aislada, con la información disponible mediante los enlaces con la ontología. Mostraremos sólo "parte" de la información porque, como veremos, es muy difícil mostrar todos los caminos que se pueden seguir en una taxonomía compleja como es ésta, sobre todo en un medio lineal.
El predicado verbal "roar" tiene, según nuestro análisis, cinco acepciones diferentes dentro del campo léxico de sonido, que son las siguientes:
1 Frame: ROARroar
CP #1 SVAM
S +Animal Ag BIG_FELINE
AM +Percep Man PERCEPTUAL_ATTRIBUTE
e.g. The lion was roaring triumphally
roar 2 Frame: SHOUT
Dimension: to make a loud sound by speaking
Parent: t o make a sound by speaking
Definition: to shout in a very loud deep voice for a long time.
CP #1 SVOd
S +Hum Ag Sp HUMAN
Od -Conc Go Mess COMMUNICATIVE_CONTENT
e.g. The boss roared out his orders
CP #2 SV(AM)
S +Hum Ag HUMAN
AM +Percep Man PERCEPTUAL_ATTRIBUTE
e.g. The supporters roared loudly all through the football game
CP #3 SV(AdM)
S +Hum Ag HUMAN
AdM in with +Percep Man NEGATIVE_STATE
e.g. He roared with rage when he heard that the battle had been
lost
CP #4 SV
S +Hum Ag HUMAN
e.g. He used to kick, scream and roar if he didn't get what he
wanted
CP #5 SVOd-DQ
S +Hum Ag Sp HUMAN
Od-D Direct Speech Act Go Mess SPOKEN_WORDS
e.g. "I demand to be treated with respect!" he roared
roar 3 Frame: LAUGH
Dimension: to make a sound expressing happiness
Parent: to make a sound indicating an emotion
Definition: to laugh loudly and noisily.
CP #1 SV(AdM)
S +Hum Ag HUMAN
AdM with -Conc Eff POSITIVE_STATE
e.g. He threw back his head and roared with laughter.
roar 4 Frame: RUMBLE
Dimension: sounds produced by nature
Parent: sound : to make a particular noise
Definition: to make a very loud, continuous noise (e.g. very strong blowing
wind, ocean waves)
CP #1 SV
S +Nfo Fo NATURAL_EVENT
e.g. The wind roared in the forest
roar 5 Frame: BANG
Dimension: to make a durative sound
Parent: sounds produced by objects
Definition: to make a make very loud, durative noise (e.g. traffic,
explosions, etc)
CP #1 SV
S +Conc Fo ARTIFACT
e.g. The cars roared down the freeway
Excepto por la información añadida concerniente a los enlaces a los conceptos de la ontología (que se han señalado tipográficamente con letras mayúsculas), el resto de la información es la obtenida mediante un análisis típico del FLM. Por sí misma, esta información caracteriza suficientemente las entradas léxicas en cuanto a sintaxis y semántica se refiere. Ya hemos mostrado el modo en que hemos modelado la información fonológica y morfológica en la LDB, que ha sido omitida en este informe.
En primer lugar analizaremos la caracterización
ontológica de los predicados verbales y después la de sus argumentos. Todos los
marcos a los que las distintas acepciones de este verbo (y las de todos los verbos de
sonido), pertenecen, como ya hemos mencionado, al marco EMIT_SOUND
. Una
caracterización parecida también se consigue, como vemos, mediante la asignación a una
dimensión determinada del campo léxico. Cada una de las acepciones está asignada a una
dimensión distinta y a un marco distinto:
roar 1
Dimension: to make a sound like an angry or wild animal
Frame: ROARroar 2
Dimension: to make a loud sound by speaking
Frame: SHOUTroar 3
Dimension: to make a sound expressing happiness
Frame: LAUGHroar 4
Dimension: sounds produced by nature
Frame: RUMBLEroar 5
Dimension: to make a durative sound
Frame: BANG
Si reducimos al mínimo computable esta información, se trata en los dos casos de un átomo, es decir, la dimensión "to make a loud sound by speaking" se reduce al par atributo:valor [Dim_ID:10] (la cadena de caracteres es válida únicamente para el usuario humano). Del mismo modo, el marco ROAR, se reduce, según la información de la LDB al par [Frame_ID:2433].
Sin embargo, existen diferencias significativas entre estas dos caracterizaciones. Para empezar, una dimensión es una descripción que demarca de forma aproximada un grupo de lexemas que comparten determinadas características semánticas dentro de un campo léxico. Ningún tipo de propiedades son asignadas a la dimensión, pues su información se reduce únicamente a la definición en lenguaje natural, es decir, la cadena de caracteres, que, de todos modos, no es computable. Lo único que podríamos aprovechar para un análisis automatizado sería precisamente su localización en la "jerarquía" de dimensiones. El problema es que el tipo de jerarquía que se crea mediante un análisis estructural de un campo léxico no contempla las relaciones entre una dimensión determinada y las dimensiones contenidas en otros campos léxicos, por lo que su utilización para tareas de desambiguación léxica, sin duda la aplicación más deseable de este tipo de información, queda imposibilitada.
Es precisamente en este tipo de tareas donde la
caracterización ontológica muestra su potencia. Según se muestra en la Figura 5.34,
el marco LAUGH
, dentro de la ontología nos aporta, para empezar, la
información de que este concepto implica, además de una emisión de sonido, un suceso
relacionado con las emociones humanas.
Por tanto, además de los valores locales para este marco,
tenemos todos los valores heredados de los dos marcos padres, EMIT_SOUND
y EMOTIONAL_EVENT
.
Pero lo realmente importante es su localización concreta dentro de una estructura
autónoma que describe un universo determinado. A partir de esta localización es posible
hacer que un analizador semántico pueda establecer mediciones y llegar a determinadas
conclusiones13.
Figura 5.34. Información de marco para "LAUGH"
Más interesantes son el tipo de repercusiones que la introducción de la ontología tiene con respecto a la caracterización semántica de los argumentos de los predicados verbales, pues es aquí donde un analizador semántico se basa, en conjunción con el análisis sintáctico, para llevar a cabo la mayoría de los procesos de desambiguación.
Como mencionamos en el Capítulo 1, la carencia de mecanismos formales descriptivos para delimitar de forma muy concreta los argumentos de los predicados verbales fue uno de los principales motivos que nos empujaron a la realización de este trabajo. Es decir, los medios que el FLM nos ofrece para describir los argumentos no son tan "afinados" como sería deseable, como lo demuestra el hecho de que, en muchas ocasiones, los lexicógrafos que integran el proyecto en el que el presente trabajo se enmarca, decidan incluir información complementaria para la que el modelo original no contempla un mecanismo formal.Siguiendo con el verbo que nos viene sirviendo de ejemplo, es usual encontrarnos con lo siguiente:
roar-1 to make a very loud noise like a lion
SV(AM)
(a) S = +animal (Ag) <protoyp. lions>
(b) Adverbial of Manner = <adverbial description of the way the sound is made/ perceived> (manner)
e.g. The lion was roaring fiercely
Obviamente, la información contenida entre corchetes angulares, de vital importancia para la lexicografía, no es codificable salvo como una cadena de caracteres no computable. Los enlaces con la ontología aportan una solución excelente a este problema.
Esta información ha sido reemplazada en la LDB por los
enlaces ontológicos, que sí aportan un mecanismo formal para representarla. En lugar de
la cadena de caracteres, los enlaces ontológicos BIG_FELINE
y PERCEPTUAL_ATTRIBUTE
son, como ya hemos visto, conceptos que poseen una definición concreta y guardan unas
relaciones taxonómicas, formalmente representadas, con el resto de los conceptos
contenidos en la ontología. Esto implica que un analizador semántico puede hacer un uso
apropiado de esta información que, de otro modo, se perdería.
Por supuesto, para que el analizador semántico pueda llevar
a cabo su trabajo, los sustantivos y adjetivos deberían también contener una
descripción ontológica correcta. Lexemas como "lion", "tiger",
"jaguar" o "leopard" deberían estar ontológicamente adscritos al
marco BIG_FELINE
, o a alguno de sus marcos hijos14.
Este ejemplo nos puede para demostrar, una vez más, la versatilidad de la ontología. Los
conceptos BIG_FELINE
y SMALL_FELINE
no formaban parte de la
ontología de Mikrokosmos, sino que han sido introducidos por nosotros, de modo que esta
sección de la jerarquía queda tal y como refleja la Figura 5.35.
Figura 5.35. Sección de la ontología para "FELINE"
Lo interesante es el hecho de que la introducción de estas
dos subcategorías no repercuten de ningún modo en la ontología en general. Las hemos
añadido simplemente porque las hemos considerado necesarias para la descripción de
algunos verbos de sonido, y porque pensamos que existe una diferencia conceptual entre
estos dos tipos de felinos, independientemente de la realidad biológica de estos
mamíferos. Esto es un signo evidente de que este tipo de ontologías está enfocada al
análisis léxico, ya que están lingüísticamente motivadas, sin pretender ser un
compendio de conocimiento objetivo del mundo. La ontología es versátil porque,
dependiendo del lexema que pretendamos describir, podemos asignarlo a una u otra
categoría según nos convenga. Por ejemplo, en el caso de los verbos de sonido, la
distinción entre felinos grandes y pequeños es relevante porque el tipo de sonido que
emiten es muy diferente, existiendo verbos que reflejan esta distinción: "roar /
rugir", "meow / maullar". Sin embargo, en el caso de verbos que se refieran
a capacidades comunes a todos los felinos, podemos asignar el lexema o argumento al marco FELINE
.
También es posible el caso contrario, lexemas que requieran
una caracterización ontológica más concreta; por ejemplo, para describir el sustantivo
colectivo "pride", que únicamente se aplica a leones, utilizaríamos el marco,
aún más abajo en la jerarquía, LION
. Más aun, la representación
ontológica es muy valiosa en casos como éste, en los que no existe un equivalente de
traducción específico para el español, donde el sustantivo "manada" podría
asignarse a un marco englobador de felinos y otros animales salvajes.
Una situación parecida se da con dos de los patrones de complementación de roar-2. La información original para el patrón número 1 era la siguiente:
roar-2 to shout in a very loud deep voice for a long time.
SV (out) O
(a) S= human (Ag/Sp.)
(b) O= -concrete (Go/Mess) < verbal expression that the S roars >
e.g. The boss roared out the orders.
En esta ocasión, el marco asignado a la expresión entre
paréntesis angulares es la de COMMUNICATIVE_CONTENT
, que sin duda refleja lo
que se pretendía designar originalmente. Por otra parte, el patrón de complementación
número 5 era descrito del modo siguiente:
to shout in a very loud deep voice for a long time.roar-2
SV O-Direct Quote
(a) S= human (Ag/Sp)
(b) O= "Direct Speech Act" (Go/Mess)
e.g. "I demand to be treated with respect!" he roared.
En este caso la descripción del objeto se lleva a cabo
mediante un SoA, ya que sintácticamente se realiza en una frase subordinada de
sustantivo. Aunque esta caracterización es perfectamente válida, no deja de ser una
forma muy poco específica de describir un concepto, que creemos queda mejor reflejado
mediante el marco ontológico SPOKEN_WORDS
. Para apoyar esta afirmación
vamos a mostrar cómo está caracterizado este concepto. La Figura 5.36 muestra una
de las secciones de la ontología donde se enmarca este concepto. Decimos que se muestra
sólo una de las secciones porque, según se muestra en la información de marco, que
también se incluye en la captura de pantalla, este concepto hereda propiedades de dos
conceptos padre: COMMUNICATIVE_CONTENT
y AUDITORY_OBJECT
. La Figura
5.37 muestra la segunda sección relevante.
Figura 5.36 Sección de la ontología para "COMMUNICATIVE_CONTENT"
Figura 5.37 Sección de la ontología para "AUDITORY_OBJECT"
Los valores heredados, junto con los locales, de estos dos
marcos padre para el marco SPOKEN_WORDS
recrean un perfil muy concreto del
concepto que este marco pretende representar y, en el caso del predicado verbal que
venimos estudiando como ejemplo, una representación muy detallada del tipo de argumento.
Existen más características interesantes respecto a este
marco. Éste debería heredar por omisión el par atributo:valor container:MANUFACTURED_CONTAINER
,
puesto que al ser hijo de AUDITORY_OBJECT
, es también hijo de PHYSICAL_OBJECT
,
donde se encuentra la aseveración de este hecho. Sin embargo, gracias a la herencia
negativa hemos impedido que este valor se herede, de ahí que el valor no aparezca en la
información de marco (ver Figura 5.36).
Como podemos ver, la ontología es un recurso tremendamente versátil, que permite especificar tipos de información tan detallada o tan general como deseemos, según sea necesario en la práctica lexicográfica enfocada al análisis automático de textos. Intuimos que las aplicaciones de tal repositorio de información son otras muchas además de las que hemos tratado de mostrar aquí de forma muy sucinta y es nuestra intención continuar en el futuro esta línea de investigación.
A lo largo de nuestro análisis hemos estudiado otros muchos casos interesantes que no podemos exponer aquí porque resultaría demasiado extenso. Pensamos que los ejemplos expuestos son significativos del tipo de ventajas que ofrece la representación de información léxica mediante ontologías.
Remitimos a los Apéndices I y II, donde exponemos la caracterización ontológica de todos los predicados verbales y de sus argumentos.
Para concluir este apartado, y a modo de resumen de todo lo expuesto en él, diremos que los dos tipos de caracterizaciones semánticas que hemos comparado, la descripción estructural mediante dimensiones y la descripción ontológica, poseen incuestionables ventajas para distintos tipos de aplicaciones. La caracterización mediante conceptos ontológicos, representados mediante un esquema de marcos, estructurados dentro de una jerarquía formalizada, con propiedades y métodos anexados y herencia múltiple no-monotónica ofrece un entorno apropiado para el análisis semántico automatizado del lenguaje natural, especialmente para la desambiguación léxica, que, como hemos mostrado en el Capítulo 3, es uno de los problemas más acuciantes en el proceso de traducción automática. Por otra parte, la estructuración de la semántica léxica de los lexemas mediante el mediante dimensiones, tal y como propone el FLM, genera sin duda descripciones adecuadas a las necesidades de la lexicografía, pero sobre todo, y mucho más importante que esto, ofrece un excelente método de análisis y marco de trabajo con el que analizar detalladamente la semántica léxica de las entradas de un diccionario.
NOTAS
Anterior I Siguiente I Índice capítulo 5 I Índice General