ISSN: 1139-8736 Depósito Legal: B-35783-2001 |
2.2.4 El Explanatory Combinatorial Dictionary de Mel’cuk
En 1970, Mel’cuk y Zholkovskij proponen por primera vez una teoría que se ha convertido en una de las más influyentes dentro de la lingüística contemporánea. La Meaning-Text Theory es una teoría del lenguaje que se basa en el hecho de que cualquier acto de comunicación lingüística implica un contenido (meaning), un signo oral o escrito (text) y una proyección (un conjunto de correspondencias entre significados y textos). Los significados y los textos son accesibles, pero no las correspondencias por lo que una lengua natural sólo se puede describir como un modelo funcional, un sistema de reglas formales que simule el comportamiento de los nativos de una lengua (Mel'cuk y Zholkovskij 1984: xiv).
Existen, pues, unos modelos posibles llamados Meaning Text Models (MTMs) que relacionan los textos con las representaciones de significado correspondientes, por medio de la descripción de las proyecciones existentes entre dichos significados y los textos del lenguaje natural (Faber y Mairal 1999: 11). Dichos modelos tienen en cuenta siete niveles de descripción: semantic representations; deep syntactic representations; surface syntactic representations; deep morphological representations, surface morphological representations; deep phonetic representations y surface phonetic representations. Un acto de habla se caracterizará por todas estas representaciones de manera simultánea (Wanner 1996: 23).
Se puede inferir por tanto que entre los aspectos más importantes de la MTT figurarían los siguientes: (i) que su objetivo principal es dar una explicación de la generación, es decir, dilucidar cómo se materializan en el texto los significados; (ii) que se trata de una aproximación modular y estratificada en niveles que coinciden parcialmente con los niveles tradicionales de descripción y representación (semántico, sintáctico, morfológico y fonológico). Además, la sintaxis de la MTT está basada en la dependencia, es decir, la descripción de los verbos en el diccionario incluye un inventorio de los actantes relevantes y su materialización sintáctica convirtiéndose en una interfaz sintáctico-semántica, que además permitirá dar una descripción de las colocaciones que incorporará la clasificación semántica de las mismas (Heid 1994: 235).
Toda esta información léxica se codifica en el Explanatory Combinatorial Dictionary (ECD), una metodología lexicográfica desarrollada para la elaboración de diccionarios generales que introduce el concepto de función léxica para describir sistemáticamente ciertas relaciones semánticas y colocacionales que existen entre los lexemas (Heylen y Maxwell 1994: 300). La definición de función léxica (FL) es la siguiente:
A LF is a function in the mathematical sense representing a certain extremely general idea, such as "very", "begin", or "implement", or else a certain semantico-syntactical role. A lexical function f associated with a word W0 called its argument, or KEYWORD, gives the set of words and phrases which express –contingent on W0- the meaning or role which corresponds to f (Mel’cuk et al. 1988: 43).
Así, una función léxica es una relación de dependencia entre el argumento (o palabra llave1 de una función) y el valor (o expresión lingüística que vehicula el significado de una función o expresa su papel sintáctico en relación con su argumento) cuya función es la de definir el tipo de relación de dependencia en cada caso (Steel y Meyer 1990: 42). Así, dada una función léxica f:
(8)
(W0)= L1
La descripción semántica consiste en una keyword o palabra llave y un operador semántico abstracto que se aplica a dicha palabra llave. Los distintos tipos de operadores son los diferentes tipos de colocaciones. Así, la FL Magn del ejemplo (9a) indica que la palabra llave se asocia con una palabra que significa ‘mucho, muy, intenso... ’; en el caso de (5b) la FL Syn asocia la palabra llave con sus sinónimos:
(9) 
a. Magn (bachelor)= confirmed
b. Syn (escape)= break out, run away
Mel’cuk concibe por tanto el diccionario como un sistema de relaciones léxicas donde cada relación se ha de especificar. Esta "red relacional" actúa como un sistema de referencia interno a gran escala cuyas referencias cruzadas, estructuradas sistemáticamente, permiten al usuario saber qué entradas remiten a otras, cómo se relacionan y por qué (Frawley 1980/1981: 22). Mel’cuk define unas sesenta FLs y las divide, siguiendo la clasificación saussuriana, en dos tipos: paradigmáticas y sintagmáticas.
Las FLs paradigmáticas se basan en los significados que se asocian de forma regular a una palabra llave en el marco de un sistema de relaciones semánticas, es decir, describen los fenómenos de derivación (Mel’cuk 1998: 41) tales como las relaciones de sinonimia, antononimia, conversión, meronimia, etc.
En cuanto a las FLs sintagmáticas, éstas se estructuran según las relaciones que surgen de las propiedades colocacionales de la palabra llave. En otras palabras, estamos hablando del concepto de restricted lexical coocurrence o colocación2 (cf., Benson et al. 1986).
Según Elnitsky (1990) una entrada completa de un ECD cuenta, como mínimo, con el encabezamiento, la información morfológica, la definición y ejemplos que ilustren el significado y co-ocurrencias. Podemos observar por tanto que a excepción de las FLs, la información presentada sería la convencional en el marco de los diccionarios monolingües de lengua general. Somos conscientes del potencial que supone un enfoque sistemático a la hora de especificar las relaciones entre las entradas, ya que permitiría a los lexicógrafos comprobar que toda la información relevante está presente y facilitaría a los usuarios el acceso a los términos relacionados. La información recogida por los lexicógrafos podría ser utilizada como input para una definición, que, sin duda alguna, resultaría más familiar para el usuario que el ejemplo de entrada léxica que mostramos a continuación:
[ESCAPE]
Forma Proposicional
I.1a X escapes from Y through Z = X, being kept by Y1 against X's
will in place or state Y2, such that Y1's intent is to thwart any
attempt by X to leave Y2, succeeds in leaving Y2 via Z thereby
becoming free.Funciones Léxicas
Syn Ç: break out, run away
S0 : escape I.1a
S1Perf : escapee
S1 Ç: runaway, fugitive
S1Able1 Ì: escape artist 2
S2 Ç: guard, jailer, turnkey [=Yl]; place of confinement; jail,
prison camp, concentration camp, lockup, dungeon [=Y2]
S3 : escape route
A1 Ç: runaway, fugitive, fleeting
Bon : daringly
Qual1 : kept, imprisoned, guarded
Ejemplo
He escaped from custody. Dreyfus did not escape from Devil's Island; he was finally released as a result of mounting public outrage. A plot by at least six inmates to use a crossbow to kill a tower guard-or incinerate the tower and then escape from Trenton State Prison over a home-made bridge-has been thwarted, state correction officials said today. He managed to escape from the miner's cabin while the kidnappers were in the kitchen. Three more East Germans have just escaped over the Berlin Wall in a home-made balloon. Four o'clock had come and gone with still no sign of little Billy, and Martha's head was awhirl with visions of the lion that had escaped from Riddington Zoo the previous night.
(Mackenzie 1990: 97-98)
Figura 2.3: Modelo de entrada léxica de Mel’cuk
Como vemos, la definición se representa mediante la forma proposicional y la definición propiamente dicha. Steel y Meyer (1990: 66) apuntan que la definición:
...explains a meaning in terms of its semantically simpler components. These are offered in the context of a proposition (...). This propositional mode of definition serves to represent the headword as a meaning that has obligatory "slots" or "places" for complements, which are represented both in the propositional form and in the definition by the variables X, Y, Z.
Este concepto es lo que Mel’cuk (1988) denomina Principio de Descomposición y hace referencia a la idea de que la definición de una unidad léxica (L) debe contener únicamente términos que sean más simples que L.
A modo de resumen Mel’cuk (1998: 50) afirma que las seis características formales de un ECD son las siguientes:(i) es un diccionario teórico que se elabora dentro de un marco lingüístico coherente con un módulo semántico, uno sintáctico y uno morfológico y que pone gran énfasis en el lexicón; (ii) es un diccionario activo en cuanto que está enfocado hacia la producción; (iii) es un diccionario semántico basado en la representación semántica de todas las expresiones que contiene y donde la definición es una parte central de la entrada léxica (al igual que en el MLF, capítulo 3); (iv) es un diccionario combinatorio dado que se centra en la co-ocurrencia restringida (sintáctica y léxica); (v) es un diccionario formalizado y se puede considerar como una base de datos léxica; (vi) es un diccionario que pretende ser exhaustivo en cuanto a las unidades léxicas ya que su objetivo es una entrada léxica que incluya todo lo que un hablante nativo sabe sobre la unidad en cuestión.
Aunque Mel’cuk concibió este método para describir la lengua general, autores como Frawley (1980/1981) han sugerido que este modelo es el ideal para la compilación y elaboración de vocabularios de especialidad, ya que el formato del ECD asegura que toda la información relevante está incluida de forma ordenada consiguiéndose unos resultados sistemáticos y consistentes. Frawley (1980/1981:24) propone las siguientes funciones léxicas para los diccionarios de especialidad: taxonomía, sinonimia, antonimia, gradación (según la cual las relaciones de una entrada en particular han de estar explícitas siguiendo una ordenación determinada), causa, parte/todo, fuente (cada entrada debe incluir otras entradas para las que es una fuente), resultado, continuación (cómo la continuación de una entrada se marca con otra entrada) y etimología.
Somos conscientes del potencial que supone un enfoque sistemático a la hora de especificar las relaciones entre las entradas, ya que permitiría a los lexicógrafos comprobar que toda la información relevante está presente y facilitaría a los usuarios el acceso a los términos relacionados. Sin embargo, a pesar de que este enfoque sea el subyacente en el ECD, el modelo de entrada que se propone plantea problemas de diversa índole. En primer lugar, la presentación es demasiado compleja para el procesamiento humano; la desventaja es la dificultad de comprensión del metalenguaje utilizado por lo que sería interesante profundizar en formas de representación que adaptasen el conocimiento especializado al lego3.
En segundo lugar, aunque algunos afirman que la combinación de ambos tipos de funciones léxicas sería enormemente productiva en aplicaciones informáticas, en especial para la representación de las colocaciones (Wanner 1996; Tercedor Sánchez 1999), no creemos que este mecanismo sea eficiente en un lexicón para el Procesamiento de Lenguaje Natural (PLN) (Montero Martínez 2001). En otras palabras, "the level of granularity of the semantic description of lexical funtions" (Heylen et al. 1994: 300) no es lo suficientemente refinado.
En esta misma línea se ha sugerido que las FLs pueden actuar como un sistema interlingüístico en aplicaciones de traducción automática. Éstas se compartirían por las representaciones semánticas de las colocaciones en los pares de lenguas (cf., Heylen et al. 1994). Esta visión asume necesariamente que los aspectos más relevantes del significado de un colocador, la palabra que se asocia a una palabra llave, se encuentran recogidos en la FL, que por tanto será la que determine la exactitud de las traducciones. Sin embargo, tenemos el mismo problema, la generalidad que expresan las FLs. La afirmación de que el significado del colocador se reduce en parte al significado que implica la FL no tendría problema si asumimos que las FLs siempre contienen valores únicos pero observamos casos como el siguiente:
(10)
Magn (oppose) = adamantly, bitterly...
La imprecisión implica que no tenemos forma de distinguir entre los distintos intensificadores posibles en el contexto de una palabra llave determinada y, por tanto, tampoco tenemos la información suficiente para elegir el equivalente correcto cuando existan múltiples posibilidades en la lengua meta.
En tercer lugar, si bien las relaciones que se establecen entre los términos por medio de las FLs son bastante productivas, aunque no accesibles desde la perspectiva del usuario final, creemos que las funciones léxicas al carecer de una estructuración conceptual base, son redundantes4 y en ocasiones dejan información sin cubrir. A nuestro entender, en el ejemplo de entrada correspondiente a la Figura 2.3 no es necesario que se incluya escape route, ya que, esta información es redundante y aleatoria; siguiendo este razonamiento se podría haber incluido también, o en su lugar, escape highway.
Además, si este diccionario estuviera destinado a una aplicación de PLN, según está estructurada la entrada sería imposible inferir que a boy can also escape, ya que las palabras boy/girl/child no están de forma explícita en la entrada. Esta información sería innecesaria si el usuario final fuera un ser humano, pero como ya hemos visto, la propia estructura del ECD resulta excesivamente compleja para tal usuario.
Por otro lado, enumerar todas las FLs estableciendo las interrelaciones entre todas las palabras, ya no sólo del lenguaje especializado sino del lenguaje general, es una tarea ardua e innecesaria. Si bien las realizaciones de los términos en el uso del lenguaje especializado son un reflejo de las relaciones conceptuales, no siempre dichas relaciones han de cristalizarse obligatoriamente en una entrada. Al establecer una estructura jerárquica, las propiedades, a veces en forma de relaciones, se heredan, lo que hace que la formalización de todas las relaciones conceptuales posibles sea un proceso innecesario y voluminoso, en cuanto a su resultado. Nuestra concepción dinámica de la estructura definicional, como veremos en el capítulo a tal efecto (veáse capítulo 5), hace que se desplieguen por defecto las relaciones mínimas, y que otro tipo de relaciones potenciales, bien sea a nivel conceptual como terminográfico, sean convocadas por el usuario.
En este sentido, las últimas aportaciones teóricas de Mel’cuk y Wanner (1994: 331-337) hacen referencia a la posibilidad de implementar la herencia léxica en un ECD evitando así la redundancia. Se trataría de delimitar el campo semántico analizado, determinando el lexema genérico e introduciendo las dimensiones semánticas capaces de recoger los rasgos semánticos comunes. Así, se extraerían los rasgos semánticos comunes en los valores de las FLs que aparecen en las entradas léxicas de los lexemas específicos y se transferirían a la entrada léxica del lexema genérico. Cada elemento transferido se completa con información semántica que justifique su uso con el lexema específico del que se ha extraído. Los valores de las FLs que se enumeran en la entrada del lexema genérico se heredan por todos los lexemas que se encuentren bajo las dimensiones semánticas. Al mismo tiempo, todas las excepciones se enumeran explícitamente en las entradas individuales. Para ello, será necesario reorganizar la entrada léxica del lexema genérico dividiéndola en dos partes: su propia entrada léxica (que describe su sintaxis y coocurrencia) y que denominamos "subentrada privada" y la subentrada para los rasgos comunes extraídos -la "subentrada pública".
En definitiva, aunque este modelo de representación supuso un avance en la lexicografía, es evidente la dificultad de su aplicación a gran escala porque, entre otras cosas, es excesivamente teórico y formalista (cf. Liang 1991-1992; Piotrowski 1990).
NOTAS
1 Seguimos la denominación adoptada por Corpas Pastor (1997).
2 Para un estudio riguroso en torno a las colocaciones y sus diversos enfoques en la literatura especializada, remitimos a Montero Martínez (2001).
3 Cohen (1986) lleva a cabo esta idea en un diccionario de economía y bolsa.
4 En la actualidad, un ECD describe la coocurrencia léxica restringida al especificar para cada head lexeme L todos los valores de todas las FLs aplicables en su entrada. Se ignora la posible correlación entre significado/coocurrencia y la redundancia que se puede generar (Mel’cuk y Wanner 1994:
Anterior I Siguiente I Índice capítulo 2 I Índice General
ISSN: 1139-8736 Depósito Legal: B-35783-2001 |