ISSN:
1139-8736
Depósito Legal: B-14103-2000
5. Conclusiones
El
sistema de análisis léxico que proponemos no utiliza únicamente
información léxica procedente de un diccionario electrónico
expandido, sino además información sintáctica procedente de los
transductores generados automáticamente a partir de gramáticas
electrónicas. De este modo,
se consigue realizar un análisis léxico con una cobertura
exhaustiva sobre los elementos léxicos del español. En efecto,
nuestro sistema no solo puede reconocer las formas simples y las
formas compuestas, cuya detección requiere únicamente información léxica
de un diccionario electrónico (cf. 3.1 y
3.2),
como p. ej., las locuciones nominales, las adjetivas, etc., sino además
todas las locuciones, cuya detección requiera la información de una
gramática electrónica,
como p. ej., las locuciones verbales, las locuciones nominales
predicativas con verbos de soporte, etc. Así, este sistema de análisis
léxico permite identificar los predicados y argumentos (simples y
compuestos) de un texto con un margen de error prácticamente nulo.
En la medida en que, en las lenguas naturales, la información se
vehicula por medio de las relaciones de predicación, la detección de
los predicados y los argumentos de un texto constituye la condición
previa para poder detectar dichas relaciones. Dado que el sistema que
proponemos permite realizar la identificación de los predicados y
argumentos de un texto con un margen de error prácticamente nulo,
dicho sistema realiza el primer análisis que se requiere para
conseguir procesos de tratamiento de la información textual en español
de un alto grado de precisión.
El
desarrollo de nuestro propuesta permite utilizar autómatas para:
representar
un análisis léxico y sus ambigüedades (3.1);
representar
las propiedades sintácticas y semánticas de los predicados del léxico.
Asimismo,
nuestra propuesta pone de manifiesto la robustez de los algoritmos de
intersección de autómatas para tratar automáticamente la información
textual y, en consecuencia, muestra su interés para su implementación
en aplicaciones comerciales.
En
efecto, los autómatas -AFD
y TS (transductores subsecuenciales)-
se pueden utilizar para representar tanto el análisis léxico de un
texto, como las propiedades sintáctico-semánticas de los predicados,
a pesar de que las lenguas naturales son recursivas y los lenguajes
regulares que aceptan los AFD o los TS no lo son. Ello es posible
debido a que la recursividad de las lenguas naturales se fundamenta básicamente
en la subordinación sustantiva y la subordinación relativa, las
cuales están lingüísticamente condicionadas:
La subordinación sustantiva,
es decir, la posibilidad de que un predicado tenga otro predicado como
argumento, está léxicamente condicionada, puesto que constituye una
propiedad idiosincrásica de una clase de predicados del léxico.
La
subordinación relativa, es decir, la posibilidad de que un nombre (ya
sea predicado o argumento) tenga un adjunto, que sea una oración de
relativo, está restringida desde el punto de vista psicolingüístico,
ya que, a medida que va creciendo el número de oraciones de relativo
que dependen de un núcleo nominal, la dificultad de comprender la
oración se hace mayor, hasta el punto de que su comprensión puede
resultar imposible.
En
consecuencia:
si
se dispone de una gramática electrónica, que especifique la clase de
predicados que aceptan otros predicados como argumentos y
si se acota el número
de oraciones de relativo que pueden depender de un núcleo nominal,
se
pueden utilizar autómatas y transductores para representar los análisis
léxicos y la especificación de las propiedades sintácticas y semánticas
de los predicados del léxico.
El
desarrollo de nuestro propuesta permite poner de manifiesto que los
autómatas se pueden utilizar para el tratamiento de la información
textual, (a pesar de las
diferencias estructurales entre las lenguas naturales y los lenguajes
regulares):
por su capacidad de
representación de los análisis léxicos y las propiedades sintáctico-semánticas
de los predicados y
porque
se pueden desarrollar algoritmos de manipulación de autómatas de una
gran robustez, lo cual posibilita su implementación en productos
comerciales.
Además
de sus aplicaciones inmediatas, el sistema que presentamos está
abierto a futuros desarrollos. Así p. ej., a partir de la conversión
de un texto en un AFD (lo cual supone un aumento del espacio de disco
o de memoria que ocupa), se puede comprimir dicho texto, de manera tal
que no resulte necesario descomprimirlo para acceder a su información
(Subirats y Ortega 2000).
Aunque el objetivo central de nuestro sistema es el tratamiento de la
información textual (y no la forma de almacenar dicha información),
el hecho de que exista la posibilidad de comprimir de forma
significativa los textos convertidos en conjuntos de AFD muestra que
nuestra propuesta no tiene únicamente una aplicación para tratar la
información lingüística, sino, además, para almacenarla.
Al
convertir las oraciones de un corpus en un conjunto de autómatas,
cada uno de dichos autómatas tiene un alfabeto y una definición de
su estructura propios. Sin embargo, hay un gran número de palabras de
los alfabetos de dichos autómatas que se repiten. Por ello, si se
crease un alfabeto común para todos los autómatas de un corpus, se
evitarían dichas repeticiones y se conseguiría una compresión muy
importante, ya que la única definición propia que requerirían los
autómatas sería la definición de su estructura. Así p. ej., el
Corpus de Verificación
desarrollado en el LaLI (cf. 2.) está
formado por 91.505.114 formas simples y 4,3 millones de formas
compuestas13,
las cuales integran los símbolos del alfabeto de los autómatas del
corpus. Sin embargo, estos símbolos (formas simples y compuestas)
corresponden únicamente a 672.820 símbolos distintos, concretamente,
649.130 formas simples y 23.690 formas compuestas distintas. En
consecuencia, el alfabeto de los autómatas se podría reducir al número
de formas simples y compuestas distintas, con lo cual se conseguiría
un nivel de compresión considerable.
La
ventaja que presentaría esta forma de compresión, en relación con
los algoritmos de compresión clásicos, es que permite un acceso
directo a la información sin necesidad de descomprimirla. En
consecuencia, la propuesta de representación del análisis léxico de
un texto en un AFD no solo constituye una innovación para el
tratamiento de la información, sino también para el almacenamiento y
compresión de grandes bases documentales de textos. Ello pone de
manifiesto que la tecnología lingüística basada en la utilización
de autómatas y bases de información lingüística tiene un amplio
abanico de aplicaciones tanto presentes como futuras.
Notas
13 Esta cifra es aproximada, ya que no tiene en cuenta las inclusiones de locuciones y no incluye las locuciones verbales.
Anterior I Siguiente I Índice General
ISSN: 1139-8736
Depósito Legal: B-14103-2000
© 2000 Subirats y Ortega