ISSN: 1139-8736
Depósito Legal: B-14103-2000


 

1. Desarrollo de herramientas de tratamiento de corpus

 

1.1  Analizadores léxicos que etiquetan las formas simples y/o compuestas de un texto a partir de la información de un diccionario electrónico

El análisis léxico (o etiquetación) es el primer proceso al que se debe someter un corpus para poder procesarlo automáticamente. Etiquetar un corpus consiste en identificar los elementos léxicos simples y/o compuestos que lo integran, especificando las formas canónicas a las que están asociados, su clase distribucional y, las propiedades morfológicas de flexión, en el caso de los verbos, los nombres, los adjetivos y los participios. En nuestro sistema, la etiquetación se lleva a cabo mediante una aplicación, que puede acceder a los siguientes diccionarios electrónicos:

Cada una de las formas que integran los diccionarios electrónicos va acompañada de una información que especifica (cf. Fig. 1):

Así, en el marco de nuestro sistema, etiquetar un corpus consiste en asociar a los elementos léxicos que lo integran la información que de ellos se tiene en un diccionario electrónico:

La ventaja de este sistema de etiquetación, que se caracteriza por utilizar un diccionario electrónico que incluye tanto formas simples como locuciones, es que puede realizar una etiquetación muy precisa, de tal forma que, incluso cuando se procesan corpus especializados, si el correspondiente léxico especializado está incluido en el diccionario electrónico, el margen de error de la etiquetación puede llegar a ser nulo.

 

 

Le                                    le.CLI:m:f:3s
hablé                              
hablar.V1:IPIND:1s

a                                      a.PREP
la                                     la.N1:ms,la.DET:fs,la.CLI:f:3s
ministra                          ministro.N47:fs
de                                    de.PREP
educación                      educación.N23B:fs

Fig. 2.1. Etiquetación de la oración Le hablé a la ministra de educación con un etiquetador que utiliza un diccionario electrónico que incluye únicamente formas simples; el texto va en cursiva y los códigos añadidos por el etiquetador en negrita; en el Etiquetario del Anexo se especifica el valor de las etiquetas.

 

Le                                         le.CLI:m:f:3s
hablé                                   hablar.V1:IPIND:1s
a                                           a.PREP
la                                    
     la.N1:ms,la.DET:fs,la.CLI:f:3s
ministra                               ministro.N47:fs
ministra/de/educación    
  ministro/de/educación.N:fs
de                                   
    
de.PREP
educación                          educación.N23B:fs

Fig. 2.2. Etiquetación de la oración Le hablé a la ministra de educación con un etiquetador, que accede a un diccionario electrónico, que incluye tanto formas simples como locuciones.  

 

[ 1] Le hablaron al <ministro de defensa> de la importancia de los
[ 2] <proyectos de investigación>.

     *** 2 líneas, 1 Oración ortográfica, 2 formas compuestas ***
                  Índice de formas compuestas reconocidas:

ministra/de/defensa
,.N:fs,1
proyectos/de/investigación,.N:mp,2

Fig. 2.3. Identificación de las formas compuestas de la oración Le hablaron al ministro de defensa de la importancia de los proyectos de investigación, mediante la utilización de una aplicación, que accede únicamente a un diccionario electrónico de locuciones. Las locuciones van en negrita; las locuciones identificadas en el texto van entre los signos '<' y '>'; el índice de locuciones identificadas va acompañado de la especificación de sus propiedades de género y/o número y, asimismo, de un número, que especifica la línea del texto en la que aparecen.  

 

1.2  Creación de subdiccionarios electrónicos de las formas simples y/o compuestas (locuciones) de un corpus

Existe una aplicación que permite construir un subdiccionario de un texto, es decir, un subdiccionario que contiene únicamente las formas simples y compuestas que aparecen en dicho texto3. La aplicación puede generar indistintamente un subdiccionario de formas simples, un subdiccionario de formas compuestas, o ambos a la vez; estas tres posibilidades dependen de los diccionarios que utilice la aplicación durante su ejecución. Así, p. ej., el subdiccionario de formas simples de la oración Le hablaron al ministro de defensa de la importancia de los proyectos de investigación (cf. Fig. 3.1) y, el subdiccionario de formas compuestas de la misma oración (cf. Fig 3.2), se pueden obtener de forma independiente o conjunta, en función de los diccionarios que utilice la aplicación. La creación de subdiccionarios se utiliza básicamente para:

(1)     verificar el contenido léxico de un corpus y

(2) desarrollar léxicos destinados al tratamiento automático de textos específicos.

 

al,al.R
de,de.PREP
defensa,defensa.N61:ms:fs,defensa.N21:fs
hablaron,hablar.V1:IPIND:3p
importancia,importancia.N21:fs
investigación,investigación.N23B:fs
la,la.N1:ms,la.DET:fs,la.CLI:f:3s
Le,le.CLI:m:f:3s
los,los.DET:mp,lo.CLI:m:3p
ministra,ministro.N47:fs
proyectos,proyecto.N1:mp

Fig. 3.1. Subdiccionario de formas simples de la oración Le hablaron al ministro de defensa de la importancia de los proyectos de investigación  

 

ministra/de/defensa,ministro/de/defensa.N:fs
proyectos/de/investigación,proyecto/de/investigación.N:mp

Fig. 3.2. Subdiccionario de formas compuestas de la oración Le hablaron al ministro de defensa de la importancia de los proyectos de investigación  

 

1.3  Un compilador de expresiones regulares y un generador de autómatas gráficos

En el marco del proyecto que se ha llevado a cabo en el LaLI, hemos desarrollado:

El compilador de expresiones regulares convierte expresiones regulares en autómatas finitos deterministas (AFD) minimizados, que son equivalentes a dichas expresiones regulares4. Las expresiones regulares deben construirse de acuerdo con las siguientes convenciones notacionales, con objeto de que sean aceptadas por el compilador:

Para realizar la conversión de una expresión regular en un AFD, el compilador realiza los siguientes procesos:

Así p. ej., la expresión regular de la Fig. 4.1 define grupos nominales en español, es decir, clases de construcciones equivalentes a los nombres desde el punto de vista distribucional, con las siguientes características:

 

(<E> + <DET>/) <N>  (<E> + /<ADJ>)
( <E> + /de/ (<E> + <DET>/) <N> (<E> + /<ADJ>)  

Fig. 4.1. Expresión regular que define una clase de grupos nominales en español  

El compilador de expresiones regulares permite convertir la expresión de la Fig. 4.1 en un AFD, que tiene una estructura de tabla, tal como podemos observar en la Fig. 4.2; en dicha tabla, se especifica:

Tanto las convenciones notacionales que requiere el compilador de expresiones regulares, como el formato de especificación en forma de tabla de los autómatas que genera el compilador de expresiones regulares, constituyen un estándar dentro de las aplicaciones que se han desarrollado en el LaLI. Por ello, el generador de autómatas gráficos permite:

 

5 14
%<DET>%/%<N>%<A>%de%
: 0 2 2 11 -1
: 1 3 -1
: 2 11 -1
: 2 13 -1
: 3 12 4 6 -1
: 1 8 -1
: 4 6 -1
: 0 9 2 13 -1
: 1 4 -1
: 3 14 -1
t 1 5 -1
t 1 7 -1
t 1 10 -1
t -1
f  

Fig. 4.2. Resultado de la conversión de la expresión regular de la Fig. 4.1 en un autómata en forma de tabla mediante un compilador de expresiones regulares  

En consecuencia, el visualizador gráfico permite crear un autómata gráficamente y, a su vez, permite visualizar los autómatas que tienen el mismo formato que el de los autómatas generados por el compilador, como p. ej., el de la Fig. 4.2. Por ello, en lugar de crear una expresión regular -como la de la Fig. 4.1- con un editor, con objeto de convertirla posteriormente en una autómata mediante el compilador, la aplicación gráfica permite crear un autómata gráficamente y la propia aplicación lo convierte en una expresión regular, de forma tal que, con el compilador, se puede convertir entonces en un autómata en forma de tabla como el de la Fig. 4.2.

 

Fig. 4.3. Representación gráfica del autómata del la Fig. 4.2, obtenida mediante una aplicación, que permite visualizar los autómatas que se guardan en el formato generado por el compilador de expresiones regulares

 

1.4  Reconocimiento de construcciones sintácticas

Las herramientas de reconocimiento sintáctico, que se utilizan básicamente para realizar búsquedas en un corpus, permiten detectar las configuraciones sintácticas previamente especificadas en un autómata finito determinista5 (AFD), que debe tener el formato de los autómatas generados por el compilador de expresiones regulares (cf. 1.3). Para efectuar dicho reconocimiento la aplicación debe utilizar -además del autómata- un diccionario electrónico que tenga el mismo formato que el diccionario de la Fig. 1. Así p. ej., con:

la aplicación puede reconocer todas las concatenaciones de clases de palabras (de acuerdo con la información categorial y léxica del diccionario) que coinciden con el lenguaje que acepta el autómata de la Fig. 4.2 (cf. su representación equivalente en forma de gráfico en la Fig. 4.3). En el texto de la Fig. 4.4, las concatenaciones de clases de palabras reconocidas por la aplicación (que se corresponden con grupos nominales) van entre los signos '<' y '>'. La aplicación proporciona además una lista alfabética de las estructuras reconocidas, a las que añade el número o números de las líneas (o registros) del fichero en las que se encuentran, con objeto de facilitar su localización posterior. Opcionalmente, se puede construir una concordancia alfabética de las estructuras reconocidas, con objeto de facilitar su verificación. Así p. ej., en la Fig. 4.6, tenemos una concordancia alfabética de los grupos nominales reconocidos en la Fig. 4.4, que se ha obtenido a partir del fichero de salida de la Fig. 4.4.  

 

[ 1]   Solamente sabe hablar de <catástrofes>.
[ 2]   Me estuvo comentando <cuestiones diversas>.
[ 3]   Me hizo <una propuesta inaceptable>.
[ 4]   <Unos libros polvorientos> cubrían <la mesa>.
[ 5]   Finalmente, encontró <una respuesta coherente>.
[ 6]   <La Universidad española> apoya <la calidad de la docencia>.
[ 7]   Comentaron <desenlaces de problemas posibles>.
[ 8]   Nos habló largamente sobre <la crisis económica
[ 9]   de sectores diversos>.
[10]  No quiso comentar <cuestiones económicas de la industria textil>.
[11]  Desprecia <la situación social de las sociedades opulentas>.
[12]  Planteó <una situación virtual de una sociedad inexistente>.
[13]

                                *** 13 líneas, 11 oraciones ***
   
                         Índice de estructuras reconocidas:

catástrofes,1
cuestiones diversas,2
cuestiones económicas de la industria textil,10
desenlaces de problemas posibles,7
la calidad de la docencia,6
la crisis económica de sectores diversos,8
la mesa,4
la situación social de las sociedades opulentas,11
La Universidad española,6
una propuesta inaceptable,3
una respuesta coherente,5
una situación virtual de una sociedad inexistente,12
Unos libros polvorientos,4  

Fig. 4.4. Fichero de salida de la aplicación que reconoce automáticamente configuraciones sintácticas; las concatenaciones de clases de palabras reconocidas en el texto de esta figura se corresponden con los grupos nominales que acepta el autómata de la Fig. 4.3 (equivalente al autómata de la Fig. 4.2 y a la expresión regular de la Fig. 4.1). Los grupos nominales reconocidos van entre los signos '<' y '>' y/o en negrita. La aplicación debe utilizar el subdiccionario de la Fig. 4.5 (o un diccionario que lo incluya).

 


Notas

3 Esta aplicación ha sido desarrollada por Manel Parra.

4 Cf. S.C Kleene. 1956. Representation of events in nerve nets and finite automata. Automata Studies, Princeton, NJ: Princeton University Press, pp. 3-42.

5 Esta aplicación, creada por Max Silberztein (Silberztein 1993, 1998), fue cedida a nuestro proyecto en el marco de una Acción Integrada entre España y Francia.  

 

Anterior  I  Siguiente  I  Índice capítulo 1  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-14103-2000

© 2000 Subirats y Ortega