ISSN: 1139-8736
4. Análisis del problema
4.1 Lexicalización,
individuación y categorización
4.2 Propuesta de definición de los tipos
de relación parte-todo
4.3 Recapitulación
El trabajo que voy a desarrollar se centra en la representación formal para sistemas de procesamiento computacional del lenguaje del conocimiento parte-todo inherente a determinadas estructuras nominales del español; con atención preferente a la representación semántica de los grupos nominales partitivos.
Ante todo, debe recordarse el planteamiento formulado en § 2, en el que anunciaba la asunción del marco general relativo a que el objeto de la denotación de las emisiones lingüísticas no es una entidad del mundo, sino un objeto abstracto intermedio entre las expresiones y dichas entidades: su significado o el concepto. Por otra parte he asumido, a partir de los postulados generales de Frege que el mundo de las entidades que es objeto de referencia no es en puridad el mundo de las entidades reales o perceptibles directamente a través de los sentidos, sino una clasificación o categorización del mismo. Y en consonancia con los postulados del cognitivismo, asumiré que dicho mundo de referencia es de orden mental: el modo que tienen los hablantes de aprehender, interpretar o representar el mundo exterior en sus mentes. Dicho mundo puede incluir entidades abstractas, imaginarias, o, en general, pertenecientes a mundos posibles.
En el trabajo de modelización semántica que desarrollaré aquí, las estructuras abstractas -expresadas en términos de estructuras de rasgos- que se propondrán deberán ser entendidas como un modelo del concepto o significado de los signos lingüísticos. Las mismas tienen referencia a entidades del modelo (interpretado y categorizado) del mundo. Se asume asimismo que dichos constructos (signos, conceptos, modelo del mundo) constituyen un modelo del conocimiento convencional compartido por los hablantes de una lengua, en este caso el español.
Las anteriores asunciones y la utilización en este trabajo de postulados de escuelas mentalistas -la gramática cognitiva y la semántica conceptual- se fundamenta en su potencial explicativo de hechos lingüísticos. En consecuencia las estructuras formales que propondré deberán ser tomadas únicamente como un modelo tratable computacionalmente del conocimiento semántico asociado a los signos, nunca como un modelo de la mente.
Sentado lo anterior, en primer lugar habrá que constatar que la información relativa al conocimiento parte-todo se realiza en el lenguaje tanto de forma estrictamente léxica -como parte de la información asociada a un lexema-, como en estructuras multiléxicas -como parte de la información asociada a un grupo nominal-.
De forma más precisa, -siguiendo los postulados de la gramática cognitiva y la semántica conceptual- partiré de la asunción de que los diversos tipos de información que denominamos información parte-todo son relativos a (la conceptualización de) fenómenos de inclusión entre categorías; y las categorías pueden ser designadas tanto mediante un único lexema como mediante una expresión compleja.
A efectos de representación formal, en cualquiera de ambos casos el conocimiento parte-todo debe estar reflejado en la correspondiente representación lingüística, sea ésta la de una entrada léxica o la de un grupo nominal -obtenido a partir de la composición de unidades léxicas-. Por consiguiente la relación parte-todo se reputará como una relación entre categorías, indiferentemente de que se realicen de modo léxico o sintagmático.
En el caso de las categorías lexicalizadas la información parte-todo será considerada como inherente a la propia entrada léxica, como en los modelos de Winston et al. (1987); Miller et al. (1990); o Cruse (1986). En el caso de las no lexicalizadas, la información parte-todo deberá ser de algún modo aportada al sintagma a partir de la composición de las unidades léxicas que lo forman -siguiendo el principio general de que el significado de un sintagma es una función del significado de las unidades que lo componen-.
La información relacional parte-todo será expresada en la estructura formal como uno de los rasgos de la misma: un atributo indicativo del tipo de relación, más un valor de dicho atributo indicativo de la entidad del modelo semántico que es el objetivo dicha relación. Se entiende que la relación se establece entre la entidad referida por el signo en cuestión y la entidad expresada por el valor del rasgo.
Supongamos el caso de 'mobiliario', cuya entrada léxica tendrá una representación similar a la de (22):
(22)
[mobiliario
PARTE_TODO: ELEMENTOS: mueble]
De igual modo, el grupo nominal 'montón de muebles' deberá obtener (a partir de la composición de las representaciones de 'montón', 'de' y 'muebles') una representación equiparable a dicho respecto, como en (23):
(23)
[montón de muebles
PARTE_TODO: ELEMENTOS: mueble]
El tipo información representada en (22) -extensible a la representada en (23)- ha sido ampliamente tratada en las aproximaciones léxico-relacionales descritas en §2.1, debiendo únicamente precisarse, a partir de las diferentes propuestas, qué subtipos de relación serán utilizados, y adaptar el modo de formalización relacional al formalismo de estructuras de rasgos.
En cambio, no se han desarrollado hasta el momento los mecanismos
para la composición semántica que dé lugar a representaciones como las de (23).
Únicamente Vossen y Copestake (1994) realizan una primera aproximación, y antes
Jackendoff (1991) trata el problema de forma genérica; pero sin entrar en el aspecto
compositivo del problema ni abordando todos los tipos de información semántica que el
mismo comporta. En consecuencia, mi principal objetivo en este trabajo será precisamente
el desarrollo del marco teórico que permita obtener la representación del conocimiento
merológico subyacente a sintagmas partitivos como el de (23). A esta tarea dedicaré el
próximo capítulo y los subsiguientes.
Algunos problemas por resolver en el tratamiento computacional del lenguaje
Los sistemas de inteligencia artificial son modelos que simulan las capacidades de la mente humana. De entre ellos, los sistemas de procesamiento del lenguaje natural, tienen el objetivo de reproducir, de forma parcial y dependiendo de los objetivos concretos de cada aplicación, las capacidades asociadas al conocimiento lingüístico.
Tomemos en consideración algunos aspectos de las mismas que guardan relación directa con el conocimiento parte-todo y la individuación de entidades mediante el lenguaje.
Los sistemas de extracción de información, las interfaces, y en general prácticamente cualquier otro sistema que deba afrontar algún tipo de tratamiento del significado lingüístico tiene necesidad de incorporar módulos de representación estructurada del conocimiento. El procedimiento habitual se basa en la definición de un modelo del mundo o ámbito de actuación del sistema, compuesto de objetos o entidades del dominio, los cuales, a partir de la colaboración con otros módulos del sistema, se integrarán en objetos complejos -p.e., formas lógicas o estructuras atributo-valor- representativas de unidades complejas y estructuradas de significado.
Un problema que deben afrontar dicho tipo de sistemas es el dimanante de que, en los textos de los cuales se debe realizar una representación semántica, no siempre el conocimiento se halla plasmado de forma explícita.
En general, en las realizaciones del lenguaje, puede distinguirse entre conocimiento explícito y conocimiento implícito. El primero dimana de forma directa por las unidades léxicas utilizadas y de su estructuración lingüística; mientras que el segundo debe ser inferido a partir de información -no presente en el texto- asociada a las mismas.
Simone (1990) ilustra este problema, en el que una determinada
información implícita debe ser inferida a partir de información asociada a determinadas
unidades léxicas del discurso (en este caso, precisamente, información parte-todo),
mediante el siguiente párrafo de The Dead de Joyce:
Lily, the caretaker's daughter, was literally run off her feet. Hardly had she brought one gentleman into the little pantry behind the office on the ground floor and helped him off with his overcoat, that the weezy hall door bell clanged again and seh had to scamper along the bare hallway to let in another guest. It was well for her she had not to attend to the ladies also. But Miss kate and Miss Julia had thought of that and had converted the bathroom upstairs into a ladie's dressing room.
["Lily, la hija del encargado, tenía los pies literalmente
muertos. No había todavía acabado de hacer pasar a un invitado al cuarto de desahogo,
detrás de la oficina de la planta baja, para ayudarlo a quitarse el abrigo,
cuando de nuevo sonaba la quejumbrosa campana de la puerta y tenía que echar a
correr por el zaguán vacío para dejar entrar a otro. Era un alivio no tener que
atender también a las invitadas. Pero Miss Kate y Miss Julia habían pensado en eso y
convirtieron el baño de arriba en un cuarto de señoras".
Los Muertos en Dublineses, trad. de G. Cabrera-Infante en Alianza Editorial, Madrid, 1974, p. 167
Existen en el párrafo multitud de mecanismos lingüísticos de cohesión textual; sin embargo, el que nos interesa aquí está señalado por las unidades léxicas subrayadas, todas las cuales refieren a partes de una entidad no mencionada en el texto: una casa. La aparición progresiva de dichos nombres de parte activa en el lector un sistema de expectativas y corroboraciones que resultará en la interpretación de que la escena que se describe sucede, aunque no se designe abiertamente, en el interior de una casa. Para tratar dicho tipo de inferencias, es necesario que el lexicón de un sistema de procesamiento computacional del lenguaje esté dotado de relaciones que pongan en correspondencia 'casa' o 'edificio' con 'oficina', 'baño', 'zaguán', etc.
Por otra parte, comparando el párrafo de The Dead con su traducción al castellano puede observarse otro fenómeno, el de las diferencias de lexicalización de conceptos en lenguas diferentes, problema éste que debe ser afrontado por otro tipo de sistemas de procesamiento del lenguaje: los de traducción automática.
Por ejemplo, la palabra inglesa pantry es traducida en el texto como 'cuarto de desahogo'. Posiblemente la traducción no sea muy exacta, pero como mínimo es indicativa de la evidencia de que no existe en castellano una palabra específica a la que traducir pantry -como por el contrario si existe para hallway ('zaguán') o bathroom ('baño')-.
Los sistemas de traducción automática deben lidiar constantemente con dicho tipo de problemas, los cuales afectan como mínimo de las dos maneras siguientes a las relaciones parte-todo:
(i) Se dan casos en que una parte de una entidad se halla lexicalizada en una lengua, pero no en otra, con lo que la palabra que denota dicha parte en la primera lengua debe ser traducida por una construcción partitiva en la segunda;
(ii) Se dan casos de diferencias de lexicalización en los propios nombres partitivos.
El primer caso se hace evidente a partir, por ejemplo, de pares de traducción de lenguas con estructura similar, como el español-inglés (24a), y de forma diferente en casos de lenguas más disimilares como las lenguas con clasificadores (como el japonés) en relación a lenguas sin clasificadores (español, inglés) (24b), en los que se da el caso añadido de que la construcción partitiva está escondida en la 'lengua con clasificadores' en forma de afijos.
(24)
a. mueble piece of furniture [lit:
elemento de mobiliario]
b. tsunokagu piece of furniture [tsu = piece;
no=of; kagu=furniture]
El caso (ii) puede observarse a partir de pares de traducción de construcciones partitivas castellano-inglés, como puede verse en los ejemplos (25a-d) en los que el término inglés 'slice' debe ser traducido a diferentes términos españoles ('raja', 'loncha', 'rebanada', 'rodaja') debido a una mayor precisión en las restricciones selectivas del término español. Por otra parte, en (25e,f) un partitivo español simple debe se traducido por un grupo complejo en inglés, dado que el término español incorpora ciertas predicaciones de tipo adjetival no denotadas por su contrapartida léxica en inglés ('escalope' --> [filete] +[rebozado] ; 'rodaja' --> [rebanada] +[redonda] ).
(25)
a. a slice of watermelon una raja de
sandía
b. a slice of ham una loncha de
jamón
c. a slice of bread una rebanada de
pan
d. a slice of orange una rodaja de
naranja
e. un escalope de ternera a beef steak fried in
batter
f. córtalo en rodajas cut it in round slices
Otro tipo de efectos relacionados con las construcciones partitivas incluyen los ejemplificados en (26), los cuales son ejemplo de cómo, en una determinada lengua (o cultura asociada) ciertos nombres partitivos llevan asociada por defecto una determinada interpretación del todo del que son parte individuada. En los ejemplos, mientras por una parte la palabra española 'jarra' implica por defecto un contenido del tipo [cerveza] , de forma simétrica el término inglés 'pint' tiene la misma implicación. En ambos casos, la traducción del término deberá suplir la elipsis, especificando el todo al que el partitivo refiere:
(26)
a. Me tomaré una jarra <--> I'll drink a mug of beer / I'll drink a beer
b. I'll drink a pint <--> Me tomaré una pinta de cerveza / Me tomaré una cerveza
Por otra parte, la composición de los nombres partitivos con sus complementos comporta la creación de un nuevo objeto lingüístico, la construcción partitiva, el cual tendrá unas propiedades semánticas que dependerán en diferentes grados de las de los signos de origen. Ya hemos visto un aspecto del problema en §3.3, relativo a la recuperación de información léxica a partir de definiciones de diccionario. Como muestra el trabajo de Vossen y Copestake (1994), sucede en muchos casos que las entradas nominales son definidas mediante construcciones partitivas (p.e. 'andrajo: pedazo o jirón de ropa vieja'); en consecuencia la especificación semántica de la entrada en cuestión debe ser deducida en función de las especificaciones semánticas del partitivo y de su complemento.
El tratamiento de dicho tipo de composición es más complejo que en el caso habitual de composición de nombres con sus complementos preposicionales (p.e. 'casa' + 'de Juan' --> 'casa de Juan'), en dónde las propiedades semánticas del sintagma resultante serán fundamentalmente las del núcleo del mismo, con alguna subespecificación aportada por el significado del complemento. En las construcciones partitivas, por contra, en algunos casos parecen predominar las propiedades semánticas del partitivo y en otras las del complemento (o todo de referencia). Considérense los siguientes casos:
- La especificación semántica de una entidad parece sufrir variaciones al aparecer el nombre que la denota englobado en una construcción partitiva, lo que puede afectar directamente a las restricciones selectivas de los verbos que pueden combinar con dichos nominales. P.e. (en principio) no puede doblarse el 'acero', pero sí puede doblarse 'una lámina de acero'; o es posible sumergirse en 'el mar', pero no en 'la superficie del mar'.
- Sin embargo, en otros casos, las propiedades semánticas del complemento predominan sobre las del nombre partitivo. P.e. es posible comer 'un plato de sopa' porque la sopa -y no el plato- es comestible.
- El cambio de tipo semántico de una construcción partitiva con respecto al del nombre del todo englobado en la construcción puede asimismo afectar a la interpretación de verbos de contenido semántico infraespecificado, como en el caso del verbo catalán 'fer' ('hacer'), el cual recibirá interpretaciones semánticas diferentes al combinar, respectivamente, con 'pa' ('pan') o con 'llesques de pa' ('rebanadas de pan'). En el primer caso, 'fer pa' ('hacer pan') se interpretará como acto de creación de un artefacto; en el segundo, 'fer llesques de pa '('hacer rebanadas de pan') será sinónimo de 'cortar'.
- Asimismo, la especificación de las restricciones selectivas de los nombres partitivos puede jugar un papel importante en tareas de procesamiento del lenguaje como la ambigüedad en la adscripción de sintagmas preposicionales, la resolución de anáforas o elipsis, o la discriminación de sentidos. Por ejemplo, el conocimiento de que un nombre de contenedor, 'vaso', usado como partitivo, combina de forma preferente con líquidos, ayudará a atribuir a 'vaso' una interpretación no partitiva, sino de objeto físico, en el sintagma 'un vaso de cristal'.
El tratamiento de este tipo de problemas requiere de los sistemas de procesamiento del lenguaje el disponer de un componente léxico capacitado para que a partir de él se puedan realizar las inferencias y computaciones apropiadas para resolverlos. La definición de dicho componente léxico, en lo que atañe a la información nominal parte-todo e información relacionada, especialmente por lo que respecta a la denominación de entidades mediante grupos partitivos, es el principal objetivo de este trabajo.
A fin de avanzar en dicha dirección, en este
capítulo, tras un análisis del tema de la lexicalización y la individuación de
entidades (§4.1), procederé en §4.2 a la definición de los tipos de
relación parte-todo a utilizar en la representación tanto de los conceptos léxicos como
de los sintagmáticos. El aspecto concreto de la individuación mediante sintagmas
partitivos será abordado en profundidad en el capítulo siguiente.
Climent S. (1999) Individuación e información Parte-Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELiEs).
ISSN: 1139-8736
Depósito Legal: B-8929-00