ISSN: 1139-8736
Depósito Legal: B-14103-2000


 

5. Conclusiones

El sistema de análisis léxico que proponemos no utiliza únicamente información léxica procedente de un diccionario electrónico expandido, sino además información sintáctica procedente de los transductores generados automáticamente a partir de gramáticas electrónicas. De este modo,  se consigue realizar un análisis léxico con una cobertura exhaustiva sobre los elementos léxicos del español. En efecto, nuestro sistema no solo puede reconocer las formas simples y las formas compuestas, cuya detección requiere únicamente información léxica de un diccionario electrónico (cf. 3.1 y 3.2), como p. ej., las locuciones nominales, las adjetivas, etc., sino además todas las locuciones, cuya detección requiera la información de una gramática electrónica, como p. ej., las locuciones verbales, las locuciones nominales predicativas con verbos de soporte, etc. Así, este sistema de análisis léxico permite identificar los predicados y argumentos (simples y compuestos) de un texto con un margen de error prácticamente nulo. En la medida en que, en las lenguas naturales, la información se vehicula por medio de las relaciones de predicación, la detección de los predicados y los argumentos de un texto constituye la condición previa para poder detectar dichas relaciones. Dado que el sistema que proponemos permite realizar la identificación de los predicados y argumentos de un texto con un margen de error prácticamente nulo, dicho sistema realiza el primer análisis que se requiere para conseguir procesos de tratamiento de la información textual en español de un alto grado de precisión.

El desarrollo de nuestro propuesta permite utilizar autómatas para:

Asimismo, nuestra propuesta pone de manifiesto la robustez de los algoritmos de intersección de autómatas para tratar automáticamente la información textual y, en consecuencia, muestra su interés para su implementación en aplicaciones comerciales.

En efecto, los autómatas -AFD y TS (transductores subsecuenciales)- se pueden utilizar para representar tanto el análisis léxico de un texto, como las propiedades sintáctico-semánticas de los predicados, a pesar de que las lenguas naturales son recursivas y los lenguajes regulares que aceptan los AFD o los TS no lo son. Ello es posible debido a que la recursividad de las lenguas naturales se fundamenta básicamente en la subordinación sustantiva y la subordinación relativa, las cuales están lingüísticamente condicionadas:

En consecuencia:

se pueden utilizar autómatas y transductores para representar los análisis léxicos y la especificación de las propiedades sintácticas y semánticas de los predicados del léxico.

El desarrollo de nuestro propuesta permite poner de manifiesto que los autómatas se pueden utilizar para el tratamiento de la información textual, (a pesar de las diferencias estructurales entre las lenguas naturales y los lenguajes regulares):

Además de sus aplicaciones inmediatas, el sistema que presentamos está abierto a futuros desarrollos. Así p. ej., a partir de la conversión de un texto en un AFD (lo cual supone un aumento del espacio de disco o de memoria que ocupa), se puede comprimir dicho texto, de manera tal que no resulte necesario descomprimirlo para acceder a su información (Subirats y Ortega 2000). Aunque el objetivo central de nuestro sistema es el tratamiento de la información textual (y no la forma de almacenar dicha información), el hecho de que exista la posibilidad de comprimir de forma significativa los textos convertidos en conjuntos de AFD muestra que nuestra propuesta no tiene únicamente una aplicación para tratar la información lingüística, sino, además, para almacenarla.

Al convertir las oraciones de un corpus en un conjunto de autómatas, cada uno de dichos autómatas tiene un alfabeto y una definición de su estructura propios. Sin embargo, hay un gran número de palabras de los alfabetos de dichos autómatas que se repiten. Por ello, si se crease un alfabeto común para todos los autómatas de un corpus, se evitarían dichas repeticiones y se conseguiría una compresión muy importante, ya que la única definición propia que requerirían los autómatas sería la definición de su estructura. Así p. ej., el Corpus de Verificación  desarrollado en el LaLI (cf. 2.) está formado por 91.505.114 formas simples y 4,3 millones de formas compuestas13, las cuales integran los símbolos del alfabeto de los autómatas del corpus. Sin embargo, estos símbolos (formas simples y compuestas) corresponden únicamente a 672.820 símbolos distintos, concretamente, 649.130 formas simples y 23.690 formas compuestas distintas. En consecuencia, el alfabeto de los autómatas se podría reducir al número de formas simples y compuestas distintas, con lo cual se conseguiría un nivel de compresión considerable.

La ventaja que presentaría esta forma de compresión, en relación con los algoritmos de compresión clásicos, es que permite un acceso directo a la información sin necesidad de descomprimirla. En consecuencia, la propuesta de representación del análisis léxico de un texto en un AFD no solo constituye una innovación para el tratamiento de la información, sino también para el almacenamiento y compresión de grandes bases documentales de textos. Ello pone de manifiesto que la tecnología lingüística basada en la utilización de autómatas y bases de información lingüística tiene un amplio abanico de aplicaciones tanto presentes como futuras.  

 


Notas

13 Esta cifra es aproximada, ya que no tiene en cuenta las inclusiones de locuciones y no incluye las locuciones verbales.

 

Anterior  I  Siguiente   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-14103-2000

© 2000 Subirats y Ortega