ISSN: 1139-8736
Depósito Legal: B-14103-2000


 

4. Relaciones de predicación e información textual

Las relaciones de predicación (tal como se manifiestan en las construcciones oracionales) vehiculan la información en las lenguas naturales (Harris 1991). En consecuencia, para procesar automáticamente la información textual, es necesario detectar de forma no ambigua las relaciones de predicación.

Las relaciones de predicación se pueden detectar de forma análoga a cómo se realiza un análisis léxico:

El proceso de conversión de una construcción sintáctica tal como aparece en un texto a su correspondiente construcción canónica no ambigua implica, en general, una reorganización masiva del AFD que formaliza su etiquetación. Este proceso de conversión implica, en general, destruir o crear transiciones (o caminos) en los AFD que formalizan la etiquetación de una oración, lo cual se puede llevar a cabo realizando transducciones sobre dichos AFD. En consecuencia, nuestra sistema se fundamenta en:

(1) algoritmos de intersección de autómatas que realizan las transducciones que requiere el tratamiento automático de la información textual.

(2) bases de información lingüística (sintáctica y semántica), que utilizan los algoritmos de intersección para determinar el contenido informativo de las oraciones.  

 

4.1 Algoritmos de intersección de autómatas

El proceso de transducción de un AFD mediante su intersección con un transductor consiste en una búsqueda de todas las subcadenas del AFD que coinciden con las palabras que acepta el transductor. En el marco de la aplicación que hemos desarrollado (cf. 3.2), la intersección de dos autómatas, como p. ej., T y M en la Fig. 6.1, se realiza recorriendo el autómata T, aplicando cada uno de sus estados  a los estados del autómata M: esta forma de llevar a cabo la intersección de T y M permite identificar el subautómata M’ (o los subautómatas M’), M’ Í M, que tiene una intersección con T. Para identificar dicho subautómata, se aplica el estado inicial 0 de T al estado inicial 0 de M; como esta aplicación no da lugar a una intersección, se aplica de nuevo el estado 0 de T al estado 1 de M. A partir de esta segunda aplicación, el algoritmo puede realizar la intersección de T con M, puesto que el lenguaje que reconoce T y el que reconoce el subautómata de M, que está compuesto por los estados 1, 2 y 3, contienen la misma palabra ab. En el proceso de intersección de T con el subautómata de M,  se eliminan las transiciones que no coinciden con el autómata T; así, la transducción elimina en M la transición etiquetada con el símbolo b, que va del estado 1 al estado 3. Para que se puedan detectar todas las posibles intersecciones que se puedan dar en M (aunque en el ejemplo de la Fig. 6.1 no se dé más que una), es necesario aplicar T a los restantes estados de M, es decir, a 2, a 3 y a 4.

 

Fig. 6.1. AFD y AFD con transiciones-l y transiciones-?  

 

En el marco del tratamiento automático de la información textual que  proponemos, los transductores tienen que aceptar construcciones sintácticas que, en general, no coinciden con la extensión de las oraciones procesadas y, por ello, es necesario que se puedan realizar transducciones de subcadenas dentro de la cadena procesada, que, en general, coincide con una oración. Para que un transductor pueda transducir las subcadenas que forman parte de una cadena y pertenecen al lenguaje que acepta dicho transductor, es necesario ampliar los transductores con transiciones-? y transiciones-l (Roche y Shabes 1995). Sin embargo, dado que los análisis léxicos de las oraciones se tienen que representar con AFD, -puesto que las cadenas no pueden formalizar las ambigüedades de dichos análisis léxicos (cf. 3.1)-, nuestra aplicación transduce AFD y no cadenas, concretamente, transduce un AFD, mediante su intersección con transductores con transiciones-? y transiciones-l, de forma tal que la intersección y la transducción se realicen conjuntamente.

Así p. ej., si el autómata T de la Fig. 6.1, que reconoce el lenguaje L(T) = {ab}, se ampliara con una transición-? y una transición-l, convirtiéndolo en T', podríamos detectar todos los M’, M’ Í M, resultantes de la intersección de T' con M, aplicando una sola vez el estado inicial de T al estado inicial de M; asimismo, si se amplía el algoritmo de intersección para que pueda operar con autómatas que posean transiciones-? y transiciones-l, dicho algoritmo resultaría más robusto. En efecto, al aplicar el estado inicial de T' al estado inicial de M, el algoritmo detectaría que la transición que está etiquetada con el símbolo c no pertenece al lenguaje aceptado por T' y, en lugar de volver a aplicar el estado inicial de T' al estado 1 de M (tal como se hacía al intersectar T con M), la transición-? de T’, situaría el estado inicial de T' en el estado 1 de M, con lo cual sería el propio transductor T' el que se desplazaría por los estados de M; de este modo, en el siguiente estado, se daría una intersección, ya que la subcadena ab de M pertenece al lenguaje aceptado por T'. Al realizar la intersección, la transducción suprimiría en M la transición etiquetada con el símbolo b y la transición-l situaría a T' en su estado inicial para que pudiera encontrar eventuales nuevas intersecciones (que no se dan en el ejemplo de la Fig. 6.1).

Los algoritmos que utilizan transductores con transiciones-? y transiciones-l permiten crear aplicaciones más robustas y también más rápidas, lo cual constituye un aspecto crucial para una propuesta como la nuestra, que se propone tratar la información textual a partir transducciones cíclicas, que tienen que ser necesariamente complejas tanto desde el punto de formal como lingüístico.

Algunas transducciones introducen códigos específicos en el AFD de salida, los cuales constituyen identificadores inequívocos de su aplicación. Así p. ej., las transducciones que van a permitir identificar los tiempos verbales compuestos y/o continuos, introducirán un código, como p. ej., _COMP, _CONT o _COMP_CONT, que irá asociado a la especificación del tiempo  del lema verbal del AFD; dicho lema podrá ser:

Por el contrario, las transducciones que conviertan una construcción sintáctica en otra construcción sintáctica distinta, como p. ej., las transducciones que conviertan una oración pasiva en una activa, no podrán dejar una huella de su aplicación en el AFD de salida. De hecho, la huella de su aplicación es la diferencia entre el AFD de entrada y el de salida, pero con los transductores ampliados con transiciones-l y transiciones-? dicha diferencia no se puede especificar en el AFD de salida. Sin embargo, esta huella puede resultar crucial para poder restituir la oración en su forma original, lo cual puede ser necesario en sistemas de tratamiento automático de la información textual, en los que el usuario no solo desee recuperar la información, sino además consultar el texto en su estado original.

Para poder etiquetar las oraciones con marcas que especifiquen la transducción aplicada es necesario utilizar transductores subsecuenciales (con transiciones-l y transiciones-?). Los transductores subsecuenciales tienen las siguientes características:

Los transductores subsecuenciales se pueden ampliar de forma tal que, en cada estado final, se produzcan p salidas adicionales (como p. ej., cadenas, etc.), que se pueden concatenar con la salida generada por el transductor. Estos transductores subsecuenciales ampliados10 se denominan transductores p-subsecuenciales (Mohri 1997). La utilización de transductores p-subsecuenciales permite dejar una huella de las transducciones aplicadas a una oración y ofrecen así la posibilidad de restituir el AFD de la oración original a partir del AFD de la oración transducida.  

 

4.2 Conversión de un diccionario electrónico en un transductor

En el marco de la creación de las aplicaciones que gestionan las bases de información lingüística, hemos desarrollado sistemas que agilizan el acceso a su información, ya que ello es crucial para procesar la información de grandes volúmenes de textos. Por ello, hemos desarrollado:

Esta aplicación permite acelerar enormemente la velocidad de acceso a la información del diccionario expandido, lo cual resulta crucial para los objetivos globales de esta propuesta.  

 

4.3 Bases de información sintáctica

Nuestro sistema realiza cinco procesos claramente diferenciados:

(1) Representación de la etiquetación de un texto en un AFD minimizado, utilizando para ello la información de un diccionario electrónico expandido (cf. 3.1).

(2) Desambiguación del AFD resultante de la etiquetación, intersectándolo con un transductor, que formaliza restricciones léxicas contextuales asociadas a elementos léxicos específicos (cf. 3.2).

(3) identificación de los tiempos verbales compuestos;

(4) detección de todas las locuciones predicativas (verbales, nominales y adjetivas);

(5) detección de las relaciones entre predicados y argumentos.

La identificación de los tiempos verbales compuestos (tanto verbos predicativos como verbos de soporte) se lleva a cabo mediante una aplicación (cf. 4.1), que transduce el AFD resultante del análisis léxico de una oración (eventualmente desambiguada con la aplicación descrita en 3.2) mediante su intersección con los transductores correspondientes a las configuraciones sintácticas de las formas verbales compuestas del español: la transducción elimina en el AFD de salida las formas auxiliares de los tiempos compuestos y asocia al lema verbal correspondiente el código de su tiempo  verbal compuesto y/o continuo. El objetivo de este proceso es detectar los núcleos verbales para posibilitar la identificación de:

La detección de las locuciones predicativas, tanto verbales, nominales como adjetivas, se lleva a cabo con una aplicación -descrita en 4.1-, que intersecta el AFD resultante del proceso (3) con  transductores procedentes de gramáticas electrónicas de locuciones, que especifican:

La caracterización sistemática de los aspectos léxico-sintácticos de las locuciones mediante transductores permite identificar los predicados locutivos de forma inequívoca. Para ello:

Las relaciones de predicación constituyen el soporte formal que permite vehicular la información en las lenguas naturales. En consecuencia, la detección de dichas relaciones permite identificar el contenido de la información textual. En el marco de nuestro sistema, la identificación de las relaciones entre predicados y argumentos se realiza intersectando el AFD resultante de (4) con transductores creados automáticamente a partir de gramáticas electrónicas. Para ello, es necesario:

Fig. 6.2. Transductor, que permitirá reconocer la locución verbal poner a prueba, cuando entre su núcleo verbal poner y su parte conexa a prueba existan pronombres clíticos y/o adverbios (simples o compuestos):

200           Separación entre el núcleo verbal y la(s) parte(s) conexa(s) de la locución
201           Selección del primer argumento: N1 humano
202           Selección del primer argumento: N1 nohumano
203           Selección del primer argumento: N1 agente
204           Selección del primer argumento: N1 noagente
205           Selección del segundo argumento: N2 humano
206                       Selección del segundo argumento: N2 nohumano
207           Pasiva ser: N1 LocV N2 à N2 ser LocVpp por N1
208           Pasiva estar: N1 LocV N2 à N2 estar LocVpp por N1
209           Pasiva se: Alguien LocV a N2 à Se LocV a N2
210           Se medio: (Alguien + algo) LocV a N2 à N2 se LocV
211           Adjetivación: Alguien LocV a N2 à N2 (ser + estar) LocVa
212           Nominalización con Vsop: N1 LocV a N2 à N1 Vsop LocVn  N2
213           Nominalización sin Vsop: N1 LocV a N2 à LocVn de N1 a N2
214           Reduccion N1: (Alguien + algo) LocV a N2 à LocV a N2
215           Reducción N2: N1 LocV (algo + alguien) à N1 LocV
216                       Reducción de N1 y N2: (Alguien + algo) LocV (alguien + algo) à LocV  

Fig. 6.3. Propiedades sintácticas y semánticas de las locuciones verbales pertenecientes a la clase de dependencia N1 LocV N2, a la que pertenece la locución verbal poner a prueba (cf. Fig. 6.4)

00000 LocVpred 1N N1_LocV_a_N2 { poner a prueba } { retar, comprobar la eficacia }

200
( <poner.V:INF\1> + <poner.V:GER\1> + <poner.V:IIMPE:VAR-1\1> )
( <E> + <la.CLI\2> + <las.CLI\2> + <lo.CLI\2> + <los.CLI\2> + <se.CLI\2> +
   <me.CLI\2> + <te.CLI\2> + <le.CLI\2> + <nos.CLI\2> + <os.CLI\2> + <les.CLI\2> )
( <D\3> + <PALABRA\3> * )
<a> <prueba>[&poner/a/prueba.LOCVPRED:,1-3,VAR-1 | 2 | 3 ]
+
 <poner.V:VAR-1:VAR-2:VAR-3>
( <D\3> + <PALABRA\3> * )
 <a> <prueba> [&poner/a/prueba.LOCVPRED:,VAR-1,VAR-2,VAR-3 | 2 | 3 ]

201    +     00    { Max puso a prueba la resistencia de la cuerda. }
202    +     00    { El fuerte viento puso a prueba la solidez del tejado. }
203    +     00    { }
204    +     00    { }
205    +     00    { El presentador del concurso puso a prueba a Max. }
206    +     00    { }
207    +     00    { La solidez del tejado fue puesta a prueba por la tormenta. }
208    +     ??    { La paciencia de Max está puesta a prueba por sus alumnos. }  
209    +     00    { Si no se pone a prueba la cuerda antes de empezar el traslado, luego pueden producirse accidentes. }
210    -      0*    { }
211    +     ??    { La solidez del tejado está puesta a prueba. }
212    -      0*    { }
213    -      0*    { la puesta a prueba de la paciencia de Max }
214    +     00    { }
215    -      0*    { Max puso a prueba. }
216    -      0*    { }

Fig. 6.4. Gramática electrónica de la locución verbal poner a prueba (Bobes 2000); en la Fig. 6.3, se ofrece la descripción de las propiedades sintácticas y semánticas estudiadas; en la Fig. 6.2, podemos observar la representación gráfica del transductor correspondiente a la propiedad 200, que, en esta figura, se representa en forma de expresión regular

 

4.4 Conversión de redes de relaciones semánticas en autómatas finitos deterministas (AFD)11

En el marco de nuestra propuesta, el estudio del significado consiste en integrar las bases de información semántica en las relaciones de predicación, tal como se estructuran en el modelo de la sintaxis léxica (Subirats 2000). Para ello, nos proponemos reutilizar la parte española de las redes semánticas multilingües, que han sido creadas en el marco de un proyecto europeo EuroWordNet12. Las bases de información semántica se utilizarán para explorar las posibilidades de organizar las redes de relaciones semánticas del español en autómatas finitos deterministas (AFD) semánticos, que puedan ser utilizadas  por las mismas aplicaciones que utilizan los transductores sintácticos.

Las relaciones de inclusión de significado (hiponimia/hiperonimia) que existen entre elementos léxicos, como p. ej., matar, asesinar y cometer un genocidio, se puede definir en función de una clase de predicados, como p. ej., ser (con valor ecuativo) y ser una forma de, y del conjunto ordenado de sus argumentos:

    un argumento cualquiera Arg1 es un hipónimo de Arg2:

  1. si Arg1 puede ser el primer argumento de ser y ser una forma y Arg2 , su segundo argumento, pero no a la inversa, es decir, si {Arg1, Arg2} constituye el conjunto ordenado de argumentos sobre el que opera ser y ser una forma;

  2. si Arg1 y Arg2 pertenecen a la misma clase de dependencia.

A partir de esta definición podemos integrar las relaciones de hiponimia/hiperonimia de cometer un genocidio, asesinar y matar en el marco de las relaciones de predicación:

Asesinar es matar. ???Matar es asesinar

Asesinar es una forma de matar. ???Matar es una forma de asesinar

Cometer un genocidio es matar, ?*Matar es cometer un genocidio

Cometer un genocidio es una forma de matar, ???Matar es una forma de cometer un genocidio.

También las relaciones de meronimia (Díez Orzas 1999) se pueden sistematizar en el marco de las relaciones de predicación:

    Arg1 es un  merónimo de Arg2:

  1. si {Arg1, Arg2} es el conjunto ordenado de argumentos de la locución verbal predicativa formar parte;

  2. si {Arg2, Arg1} es el conjunto ordenado de argumentos del verbo predicativo tener;

  3. si Arg1 y Arg2 pertenecen a la misma clase de dependencia.

Así p. ej.:

(1) dedo es un merónimo de mano y mano es el holónimo de dedo,

(2) mano es un merónimo de brazo y brazo un holónimo de mano, y

(3) codo es un merónimo de brazo, que es un holónimo de mano

porque, en las siguientes oraciones, se cumplen las relaciones de predicación que definen la meronimia y porque dedo, mano y codo pertenecen a la misma clase de argumentos:

Los dedos forman parte de la mano. *La mano forma parte de los dedos

La mano tiene dedos, *Los dedos tienen mano;

La mano forma parte del brazo. *El brazo forma parte de la mano

El brazo tiene una mano. *La mano tiene un brazo

El codo forma parte del brazo. ???El brazo forma parte del codo

El brazo tiene un codo. *El codo tiene un brazo.

Así, en el marco de nuestra propuesta, el significado se estudia como una proyección de una red de relaciones que se establecen entre elementos léxicos, en el marco de relaciones de predicación determinadas por un subconjunto de predicados, cuyos miembros definen clases de relaciones semánticas. La inclusión de la semántica en las relaciones de predicación permite prescindir de los “marcos de diagnóstico”  (Climent, Rodríguez y Gonzalo 1996:8 y Cruse 1986:13-14) y de los “tests de sustitución" (Climent, Rodríguez y Gonzalo 1996:8), que están fundamentados en conceptos distribucionales, que resultan difícilmente formalizables. Por el contrario, en el marco de nuestra propuesta, en la medida en que el estudio del significado se establezca y se sistematice en  el marco de relaciones de predicación, la semántica se podrá formalizar en autómatas finitos deterministas (AFD), cuya función de transición (la función que permite pasar de un estado a otro) lea los símbolos que etiqueten la transición y, además, el símbolo que determinan la relación semántica del AFD. Así p. ej., en el autómata semántico de la Fig. 7(a), la función de transición lee el símbolo que etiqueta la transición y, además, los símbolos correspondientes a los predicados ser y ser una forma, que son los que determinan la relación de hiponimia; análogamente, en los AFD de la Fig. 7(b) y 7(c), la función de transición lee el símbolo que etiqueta la transición y, además, formar parte y tener, respectivamente, que son los predicados que determinan la relación de meronimia y holonimia.

La inversión de determinadas relaciones semánticas, como p. ej., la meronimia o la hiponimia (en contraposición con otras relaciones, como p. ej., la sinonimia o la antonimia) determinan nuevas relaciones, concretamente, la holonimia y la hiperonimia. A partir de la formalización en un AFD de una relación semántica reversible, se podrá obtener el inverso de dicha relación mediante una función de inversión del AFD correspondiente:

Así p. ej., en la Fig. 7, 7(b) y 7(c) son autómatas inversos, ya que uno se puede obtener a partir del otro y a la inversa, mediante una inversión del autómata correspondiente. En consecuencia, sólo 7(b) o sólo 7(c) resulta necesario, pero no ambos, ya que (c) se puede generar a partir de (b) y a la inversa. En consecuencia, la generación de relaciones semánticas reversibles a partir de la inversión de un AFD permitirá reducir el número de autómatas que se va a requerir para formalizar las relaciones semánticas que se dan en el léxico.

En la medida en la que en el marco de nuestra propuesta, las oraciones se representan por medio de AFD, la representación de las relaciones que configuran el significado en AFD, que formalizan las relaciones de predicación que configuran el significado, permitirá integrar la semántica y la sintaxis en un formalismo único. Nuestro objetivo es explorar las posibilidades y las características  que debe tener la integración de los AFD semánticos y sintácticos en un único AFD sintáctico-semántico.

Desde el punto de vista del tratamiento automático de la información, la unificación de los formalismos de representación de las construcciones sintácticas y del significado de los elementos léxicos que las integran permitirá operar sobre ellos, utilizando los mismos algoritmos. Dado que es posible desarrollar transductores que incorporen tanto información sintáctica como semántica, queremos explorar las posibilidades de que se pueda operar simultánea o alternativamente sobre las relaciones sintácticas y/o semánticas de un autómata oracional. Ello permitirá integrar la sintaxis y la semántica en un lenguaje formal único desde el punto de vista de su representación y podrá tener una incidencia crucial en el tratamiento automático de la información textual, en la medida en que supondrá una integración real del tratamiento del significado de los elementos léxicos, de la información oracional y de las formas sintácticas que la vehiculan.  

            

 

Fig. 7. Autómatas semánticos que representan: (a) una relación de hiponimia (ser y ser una forma), (b) una relación de meronimia (formar parte) y (c) una relación de holonimia (tener); (b) y (c) son autómatas inversos.  

 


Notas

10 Un transductor 1-subsecuencial se puede considerar como un transductor subsecuencial.

11 Cf. Subirats (2000:76-84).

12 http://www.hum.uva.nl/~ewn.

 

Anterior  I  Siguiente  I  Índice capítulo 4  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-14103-2000

© 2000 Subirats y Ortega