ISSN: 1139-8736
Depósito Legal: B-14103-2000


Introducción

Dado que la redundancia sintáctica, es decir, las restricciones combinatorias sobre los elementos que conforman las oraciones, constituye el soporte formal que vehicula la información en las lenguas naturales (Harris 1991), la precisión de los sistemas de tratamiento automático de la información textual está determinada,  desde el punto de vista lingüístico, por la cobertura léxica y la precisión sintáctica de las gramáticas que formalizan dicha redundancia. Desde el punto de vista informático, la eficacia de un sistema de tratamiento de la información depende de su capacidad de utilizar la información de gramáticas formalizadas, con objeto de identificar en un texto las construcciones sintácticas que vehiculan la información. Por ello, el objetivo central del sistema que presentamos en este artículo está centrado en el desarrollo de:

(1)  bases de información léxica y sintáctica,

(2) aplicaciones informáticas que utilizan las bases de información de (1) para tratar automáticamente la información textual.

La base de información léxica que se ha desarrollado en el Laboratorio de Lingüística Informática (en adelante LaLI) está formada por un diccionario electrónico de 92,000 lemas, que está integrado por:

El diccionario electrónico de lemas se expande automáticamente (cf. Fig. 1) en un diccionario de 600,000 formas (Miras 1999, Subirats 1989, 1992, 1994a y 1994b). Cada una de las formas que integran el diccionario expandido va acompañada de una información codificada que especifica:

desviación,desviación.N23B:fs
desviación/cuadrática/media,desviación/cuadrática/media.N:fs
desviación/estándar,desviación/estándar.N:fs
desviación/media,desviación/media.N:fs
desviación/sexual,desviación/sexual.N:fs
desviación/típica,desviación/típica.N:fs
desviaciones,desviación.N23B:fp
desviaciones/cuadráticas/medias,desviación/cuadrática/media.N:fp
desviaciones/estándares,desviación/estándar.N:fp
desviaciones/medias,desviación/media.N:fp
desviaciones/sexuales,desviación/sexual.N:fp
desviaciones/típicas,desviación/típica.N:fp
desviacionismo,desviacionismo.N1:ms
desviacionismos,desviacionismo.N1:mp
desviacionista,desviacionista.ADJ61:ms:fs,desviacionista.N61:ms:fs
desviacionistas,desviacionista.N61:mp:fp,desviacionista.ADJ61:mp:fp
desviad,desviar.V2:IIMPE:2p
desviada,desviar.V2:PP:fs
desviadas,desviar.V2:PP:fp
desviado,desviar.V2:PP:ms
desviador,desviador.ADJ37A:ms
desviadora,desviador.ADJ37A:fs
desviadoras,desviador.ADJ37A:fp
desviadores,desviador.ADJ37A:mp
desviados,desviar.V2:PP:mp
desviáis,desviar.V2:IPRES:2p
desviamos,desviar.V2:IPRES:1p:IPIND:1p
desvían,desviar.V2:IPRES:3p
desviando,desviar.V2:GER
desviar,desviar.V2:INF
desviara,desviar.V2:SPIMA:1s:3s
desviará,desviar.V2:IFUTU:3s
desviarais,desviar.V2:SPIMA:2p
desviáramos,desviar.V2:SPIMA:1p
desviaran,desviar.V2:SPIMA:3p
desviarán
,desviar.V2:IFUTU:3p
desviaras,desviar.V2:SPIMA:2s
desviarás,desviar.V2:IFUTU:2s
desviaré,desviar.V2:IFUTU:1s
desviaréis,desviar.V2:IFUTU:2p
desviaremos,desviar.V2:IFUTU:1p
desviaría,desviar.V2:ICOND:1s:3s
desviaríais,desviar.V2:ICOND:2p

Fig. 1. Extracto del diccionario expandido (ordenado alfabéticamente), el cual incluye tanto formas simples como formas compuestas (o locuciones): las entradas del diccionario van en negrita y los lemas asociados a dichas entradas están en cursiva; en el Etiquetario, que se encuentra en el Anexo, se indican los valores de los códigos.

La base de información sintáctica se ha desarrollado en el marco de diversos grupos de investigación, concretamente, en el LaLI (Bobes 2000, Fernández Prat 1994, Moya 2000, Palacios 1996 y Subirats 1987), en el equipo de investigación de la Universidad Complutense, dirigido por la Dra. Covadonga López (Garrido 1999) y en el Departamento de Filología Francesa de la Universidad de Valencia, bajo la dirección de la Dra. Brigitte Lepinette (Mogorrón 1994).

La base de información sintáctica (BIS) está integrada por un conjunto de gramáticas electrónicas, que formalizan las propiedades gramaticales de los predicados del léxico, ya que son los predicados los elementos léxicos que determinan las características formales de las construcciones sintácticas que vehiculan la información. La pertenencia de los predicados que conforman la BIS a cada una de las gramáticas electrónicas que integran dicha BIS está determinada por la partición del léxico de predicados en clases de dependencia2. En dichas gramáticas, se formalizan:

En su estado actual, la gramática electrónica del español está integrada por 5.850 predicados:  

 

Verbos predicativos (simples) con completiva 1000
Verbos predicativos (simples) sin completiva 1100
Locuciones verbales predicativas:
 - con núcleo verbal (excepto estar)
 - con núcleo verbal estar

2000
350
Adjetivos predicativos (simples) 300
Locuciones adjetivas predicativas 300
Grupos preposicionales predicativos 800
Nº total de predicados 5850

Como podremos apreciar en los siguientes apartados, las aplicaciones informáticas desarrolladas en el LaLI permiten:

(1)   etiquetar un texto a partir de la información de un diccionario electrónico; con este proceso se pueden identificar todos los elementos léxicos de un texto, tanto simples como locuciones, con un margen de error prácticamente nulo;

(2)   identificar determinadas configuraciones sintácticas en un texto, lo cual, a su vez, permite identificar las relaciones de predicación que vehiculan la información.


Notas

2 El modelo sintáctico que fundamenta la construcción de gramáticas electrónicas es la teoría de predicados de Harris (1991); el modelo de sintaxis léxica aplicado al español se desarrolla en Subirats (2000).

 

Anterior  I  Siguiente   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-14103-2000

© 2000 Subirats y Ortega