ISSN: 1139-8736
Depósito Legal: B-14103-2000


 

3. Herramientas de tratamiento automático de la información textual

Las herramientas de tratamiento automático de la información textual que se han desarrollado en el LaLI para el tratamiento de textos se caracterizan por:

(1)   expresar la etiquetación de un texto en un autómata finito determinista (AFD), con objeto de:

(2)   desambiguar una parte de las ambigüedades del AFD que formaliza la etiquetación mediante una aplicación, que intersecta el AFD resultante de la etiquetación con transductores que formalizan determinadas restricciones distribucionales del español.  

 

3.1 Conversión de un texto en un autómata finito determinista (AFD) minimizado, etiquetado con la información de un diccionario electrónico

El formato de los ficheros resultantes de las etiquetaciones, que podemos observar en la Fig. 2.1, 2.2 y 2.3, resulta cómodo para la consulta humana, pero plantea múltiples problemas, si lo que se desea es reprocesar dichos ficheros para tratar automáticamente su información (Subirats y Ortega 2000, Subirats 1998):

(1) Las ambigüedades asociadas a formas simples, como p. ej. la en la Fig. 2.1 y 2.2, que es a la vez, un nombre, un determinante y un pronombre clítico, no están formalizadas: el etiquetador se limita a separar con comas las formas canónicas (junto con su correspondiente información categorial y morfológica) a las que está asociada la forma del texto.

(2) No se puede formalizar la ambigüedad que plantean locuciones, como p. ej., ministra de educación en la Fig. 2.2, que, en determinados contextos, se pueden interpretar además como una concatenación de formas simples.

(3) Tampoco es posible formalizar las ambigüedades que plantean las locuciones que incluyen otras locuciones (cf. Fig. 5.1). Los casos más comunes de inclusión de locuciones son los siguientes:

(4) Tampoco se pueden formalizar las ambigüedades provocadas por la intersección de locuciones, que pueden surgir en algunos grupos nominales, preposicionales, etc. Así p. ej., en el grupo nominal agua de riego por aspersión, se da una ambigüedad provocada por la intersección de las locuciones nominales agua de riego y riego por  aspersión. Análogamente, en el grupo preposicional a la fuerza aérea se da otra ambigüedad, que está provocada por la intersección entre la locución adverbial a la fuerza y la locución nominal fuerza aérea.

 

de                                               de.PREP
de/una/vez   
                             de/una/vez.D
de/una/vez/para/siempre   
    de/una/vez/para/siempre.D
una                                            unir.V17:SPRES:1s:3s:IIMPE:2s,un.DET:fs,uno.PRON:fs
una/vez   
                                  una/vez.D
vez                                             
vez.N27:fs
para                                           para.PREP,parar.V1:IPRES:3s:IIMPE:2s,
                                                   
parir.V17:SPRES:1s:3s:IIMPE:2s
para/siempre                           para/siempre.D
siempre                                    siempre.ADV

Fig. 5.1. Etiquetación de la locución adverbial de una vez para siempre, la cual incluye las locuciones adverbiales de una vez, una vez y para siempre.  

 

Dado que el etiquetador que genera una salida en columnas no puede sistematizar la información léxica relacionada con las ambigüedades señaladas anteriormente en (1-4), es necesario desarrollar un etiquetador que genere la misma información en un lenguaje formal. En el marco de nuestro sistema, la etiquetación de las oraciones de un corpus se representa en un autómata finito determinista (AFD)9. Un AFD se caracteriza por el hecho de que, para cada estado y para cada símbolo del alfabeto, la función de transición define un único cambio de estado. Por tanto, existe una correspondencia unívoca entre las palabras del lenguaje reconocido por un AFD y la secuencia de cambios de estado, es decir, el camino que las reconoce, de modo tal que existe un único camino que reconoce cada palabra perteneciente al lenguaje de un AFD y dicho camino va del estado inicial a un estado final. Los AFD resultantes de la etiquetación tienen las siguientes características:

Los símbolos del alfabeto que etiquetan los AFD ocupan posiciones específicas dentro de cada transición:

Los AFD resultantes del análisis léxico formalizan tanto las ambigüedades que afectan a las formas simples, como las que afectan a las formas compuestas:

- su interpretación como una locución y como una concatenación de formas simples (con la especificación de sus correspondientes ambigüedades),

- la ambigüedad que crea la inclusión de las locuciones de una vez, una vez y para siempre,

- todas las concatenaciones posibles de las locuciones incluidas entre sí y con las formas simples del AFD.

Fig. 5.2. Representación en un AFD de la etiquetación de la locución adverbial de una vez para siempre, que incluye las locuciones adverbiales de una vez, una vez y para siempre.  

 

3.2 Algoritmos de intersección de autómatas, que permite desambiguar el AFD resultante de una etiquetación

En el marco de nuestro sistema, la desambiguación del AFD resultante de una etiquetación se realiza intersectándolo con un transductor, que formaliza restricciones contextuales, que están condicionadas por elementos léxicos específicos (Silberztein 1998, 1993; Subirats 1998, 1997). Así p. ej., el AFD resultante de la etiquetación de a pesar de que hable en la Fig. 5.3 incluye la información que posee un diccionario electrónico sobre los elementos léxicos –tanto simples como compuestos– que integran dicho enunciado, concretamente, su información flexiva y/o categorial asociada a sus correspondientes lemas:

 

Fig. 5.3. Autómata finito determinista (AFD) que formaliza la etiquetación de a pesar de que hable.

 

Por su parte, el transductor de la Fig. 5.4 formaliza una restricción contextual asociada a la locución conjuntiva a pesar de,  cuando va seguida de que:

 

Fig. 5.4. Transductor que formaliza la etiquetación no ambigua de a pesar de, cuando va seguido de que.  

 

La intersección del AFD de la Fig. 5.3 con el transductor de la Fig. 5.4, mediante un algoritmo de intersección de autómatas (Ortega 2000), da como resultado el AFD de la Fig. 5.5, en el cual se ha eliminado:

 

 

Fig. 5.5. AFD resultante de la intersección del AFD de la Fig. 5.3 con el transductor de la Fig. 5.4.

 


Notas

8 La identificación de las locuciones verbales no se puede realizar a partir de la información de un diccionario, sino a partir de transductores procedentes de una gramática electrónica (Bobes 2000), por lo cual su reconocimiento (a diferencia de lo que sucede con todas las demás locuciones) constituye, a la vez, un problema sintáctico y léxico.

9 La aplicación que convierte los textos en autómatas etiquetadas con la información de un diccionario electrónico ha sido desarrollada por Manel Parra.  

 

Anterior  I  Siguiente  I  Índice capítulo 3  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-14103-2000

© 2000 Subirats y Ortega