ISSN: 1139-8736
Depósito Legal: B-8929-00
3. Modelos computacionales
3.1 WordNet
3.2 EuroWordNet
3.3 Representación del conocimiento
léxico mediante
estructuras de rasgos tipificadas: LRL-LKB
3.4 Recapitulación
La representación computacional de la información parte-todo se ha centrado fundamentalmente en la meronimia; es decir, en forma de relaciones entre lexemas en redes semánticas léxico-conceptuales. De entre estas bases de conocimiento, la principal es WordNet (cf. Miller et al. 1990) -para el inglés-, la cual, a causa de su amplia cobertura, se ha convertido de facto en un standard en el campo de la lexicología computacional. Recientemente, siguiendo las líneas básicas de WordNet, se está desarrollando el proyecto EuroWordNet (cf. Vossen, 1995), para la construcción de una red semántica multilingüe de español, holandés, italiano e inglés, en la que también se incluyen relaciones meronímicas.
No se dispone hasta el momento de un tratamiento computacional de las relaciones merológicas no léxicas, sino únicamente una aproximación, realizada por Vossen y Copestake (1994) utlilizando LRL-LKB, un formalismo basado en estructuras de rasgos tipificadas (Copestake, 1992). Dicha aproximación es un claro antecedente del trabajo que desarrollaré a partir del próximo capítulo. Mi aproximación se formalizará en el marco de la Teoría del Lexicón Generativo (Pustejovsky, 1995), el cual precisamente, como veremos, sirve de base para el diseño de LRL-LKB; en consecuencia, mi aproximación será directamente implementable en este dicho formalismo.
Lógicamente, el tratamiento de los aspectos no léxicos de la información parte-todo, no puede realizarse en lexicones relacionales como WordNet o EuroWordNet, puesto que para ello se precisa de mecanismos de composición semántica de los que éstos carecen. LRL-LKB, en cambio, no es únicamente (aunque sí fundamentalmente) un formalismo de representación léxica, puesto que tiene asociados mecanismos de combinación de las unidades léxicas a fin de construir representaciones de unidades más amplias: grupos, sintagmas y oraciones. La representación del conocimiento léxico en LRL-LKB, además, es más rica que en WordNet. En este último la representación consiste únicamente en lemas conectados por relaciones léxico semánticas; en cambio, LRL-LKB (como HPSG u otros formalismos de representación del conocimiento lingüístico) codifica para cada entrada información de varios niveles: morfológico, sintáctico, semántico e incluso pragmático, proporcionando así las bases para la composición de unidades lingüísticas complejas.
Sin embargo, la información codificada en WordNet o EuroWordNet es reutilizable por LRL-LKB u otros formalismos de tratamiento del lenguaje. Su amplia cobertura terminológica y su alto nivel de estructuración relacional convierte a dichas bases de datos en fuentes de innegable valor a partir de las cuales construir un lexicón de LRL-LKB. De forma mas precisa, por una parte, la ordenación jerárquica del lexicón implementada en WordNet es susceptible de ser utilizada de forma directa para la estructuración de las jerarquías léxica y de tipos de un lexicón basado en estructuras de rasgos tipificadas; y por otra, sus relaciones semánticas (p.e., las meronímicas) son codificables en forma de pares atributo-valor en formalismos como LRL-LKB.
En este capítulo, presentaré en primer lugar WordNet y EuroWordNet
y su tratamiento de la meronimia. En segundo lugar, presentaré el sistema de
representación de LRL-LKB, con mención expresa de la aproximación de Vossen y Copestake
(1994) al tratamiento de la información merológica no léxica.
Climent S. (1999) Individuación e información Parte-Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELiEs).
ISSN: 1139-8736