3.2.2 Arquitectura de Transferencia

ISSN: 1139-8736
Depósito Legal: B-35510-2000

3.2.2 Arquitectura de Transferencia

En cualquier caso, el enfoque directo a la TA en su forma pura, es obviamente considerado hoy en día como naïve. Sus deficiencias fueron puestas de manifiesto en el bien conocido informe ALPAC (ALPAC 1966) y aunque en algunos casos se continuó trabajando sobre esta arquitectura, en general se buscaron fórmulas que evitasen los defectos arriba expuestos.

Los avances en NLP, lingüística computacional, computación y lingüística teórica condujeron a los enfoques indirectos a la Traducción Automática, también llamados de conocimiento lingüístico. La idea común a todos los enfoques indirectos (básicamente, transferencia e interlingua) es que para conseguir TA de alta calidad es indispensable tener información tanto de la lengua de origen como de la lengua meta. También es común la necesidad de una representación intermedia que capture el "significado" de la oración del texto de origen para generar una oración en el texto meta que sea equivalente en significado.

El primero de éstos que mostró sistemas viables fue la arquitectura de transferencia (Trujillo 1995)⁹. La principal característica de los sistemas de transferencia es la existencia de un módulo adicional de transferencia que proyecta representaciones intermedias del texto origen sobre representaciones intermedias del texto meta. Éste módulo de transferencia puede trabajar en distintos niveles de análisis lingüístico, por lo que se pueden distinguir tres tipos de transferencia (Hutchins & Somers 1992):

Transferencia sintáctica: utilizando un análisis sintáctico basado en una PSG, las operaciones que se realizan sobre las cadenas de caracteres son transformaciones de árbol a árbol que "transfieren" las estructuras sintácticas de LO a las estructuras sintácticas de LM. Buenos ejemplos de sistemas basados en transferencia sintáctica son metal y ariane. En el primero las transformaciones árbol-a-árbol se usan indexándolas a reglas gramaticales individuales, que son aplicadas después del análisis; en el segundo se construye una estructura interfaz de LO que después se transfiere a la estructura interfaz de LM, y se somete a una reestructuración posterior (Vauquois & Boitet 1988). Este tipo de transferencia utiliza representaciones intermedias en forma de "árboles" sintácticos, sin prestar atención a las relaciones funcionales subyacentes (ver el apartado 3.1.2). Hoy en día está generalmente admitido que la inclusión de tales relaciones es indispensable para un correcto análisis del texto origen; sin embargo algunos de los primeros sistemas daban por sentado que este grado de profundidad era suficiente para establecer satisfactoriamente transformaciones estructurales entre un par de lenguas (Hutchins & Somers 1992).

Transferencia semántica: donde se construye una representación semántica que es dependiente de LO. Esta representación puede consistir en una serie de estructuras argumentales o algún otro formalismo de representación del significado. En estos sistemas la transferencia se realiza principalmente sobre traducción de predicados. Un ejemplo de transferencia semántica es el BCI (Alshawi et al. 1992). En este sistema la transferencia se realiza al nivel de QLF (Quasi-Logical Form), una representación lógica derivada básicamente de la estructura sintáctica de la oración. En QLF las relaciones sintácticas y semánticas de LO son identificadas y se eliminan muchas diferencias estructurales entre LO y LM. La transferencia léxica (esto es, la traducción) requiere una transferencia estructural previa cuando la estructura heredada de la lengua de origen es diferente a la de la lengua meta (p. ej. like – gustar).

Transferencia mixta: en donde las relaciones de transferencia se construyen con información sintáctica, funcional, semántica y algunas veces incluso pragmática. Puesto que el sistema utiliza múltiples niveles de información, el sistema puede codificar las equivalencias de traducción en el nivel más apropiado para las lenguas en cuestión (Trujillo 1995). Por ejemplo, la traducción de una oración pasiva a un lengua que tiene voz pasiva puede ser ejecutada más efectivamente en el nivel gramático-funcional en vez de en el nivel de predicado-argumentos, de tal forma que la estructura gramatical queda preservada. Ejemplos de esta metodología son las correspondencias estructurales de Kaplan (Kaplan et al. 1989) y el mecanismo de reescritura de tipos de Zajac (Zajac 1989).

Sea cual sea el tipo de transferencia que el sistema lleva a cabo, hay una característica común a todos los sistemas basados en transferencia, y es el elevado número de módulos que deberán ser implementados según aumenta el número de lenguas. En concreto, para un sistema que trabajase n lenguas deberían ser implementados al menos n(n-1) módulos de transferencia, es decir, cada lengua requerirá sus propios componentes de análisis y generación y, además, existirá un módulo de transferencia (dos en el casos de sistemas unidireccionales) para cada par de lenguas. La Figura 3.7 muestra una disposición típica de un motor de transferencia para seis pares de lenguas.

Un sistema de TA basado en el modelo de transferencia incorpora, por una parte, un análisis monolingüe del texto origen, al cual le sigue una segunda fase que utiliza conocimiento bilingüe. El sistema de representación que transporta la información sobre el texto entre los dos análisis son las llamadas estructuras normalizadas, intermedias, o interfaz (Whitelock & Kilby 1995).

Figura 3.7 Modelo de transferencia para seis pares de lenguas

En un sistema de transferencia típico, la cadena del texto de origen se analiza primero morfológicamente y el resultado se analiza sintácticamente dando como resultado una representación sintáctica superficial. Esta representación se transforma después en una representación más abstracta que ignora algunos fenómenos no relevantes para el proceso de traducción, aportando a su vez una representación más apropiada de otros tipos de información. El módulo de transferencia convierte esta representación (que está aún ligada a la lengua de origen) a una representación al mismo nivel de abstracción pero ligada al lenguaje meta. Estas dos representaciones son las llamadas normalizadas, de interfaz o intermedias. A partir de esta representación el proceso se invierte: los módulos de síntesis generan una representación sintáctica del texto meta y finalmente la cadena de texto en la lengua meta.

Como veremos, las críticas más importantes al paradigma de interlingua son también aplicables al de transferencia, y tienen que ver precisamente con las representaciones abstractas (que tanto uno como otro usan, sólo que en distintos niveles de abstracción). La crítica se basa en el hecho de que la derivación de una estructura abstracta a partir de una estructura sintáctica superficial dejará de lado algunas diferencias en cuanto al orden de las palabras que no tienen, en principio, repercusiones semánticas. Por ejemplo, la estructura interfaz sería la misma para las oraciones 1a y 1b.

1a. Sam gave the money to Max
1b. Sam gave Max the money

En general, se podría imponer algún tipo de orden canónico y reemplazar las palabras puramente gramaticales (sin contenido léxico) por rasgos o marcas en las categorías pertinentes. Por ejemplo, el tipo de determiner (a vs. the) se podría marcar mediante el rasgo DEF. Esto podría resultar en una estructura como la de 1c.

1c [_S gave [ _NP Sam ], [ _NP-DEF money ], [ _NP Max ]

El módulo de transferencia se encargaría de relacionar esto con una estructura que subyace a las frases correspondientes en la lengua meta. En el caso de la traducción inglés español, se podrían usar la siguiente regla:

[ gov:give, subj:$1, obj:$2, iobj:$3 ]

[ gov:dar, subj:$1, obj:$2, iobj:$3 ]

El hecho de que el verbo español dar requiere la preposición a para introducir el objeto indirecto no influye en la fase de transferencia, sino que sería resuelto en la síntesis. Lo que esta regla indica es una instrucción para traducir una estructura cuyo governor (el núcleo de la oración) es give (y que tiene un sujeto, un objeto y un objeto indirecto), en una estructura cuyo governor es dar y cuyo sujeto es la traducción del sujeto de give (lo mismo para el objeto directo y el objeto indirecto)¹⁰. Este enfoque es muy versátil, porque permite establecer condiciones de traducción según el tipo de constituyente que exprese el sujeto, etc. Por ejemplo, se podría especificar que el verbo inglés know se tradujese por conocer (en lugar de saber) cuando el objeto del verbo fuese un sintagma nominal (como en Sam knows Max). Esto se podría especifica con una regla como la siguiente:

[gov:know, subj:$1, obj:$2[NP] ]

[gov:conocer. Subj:$1, obj:$2 ]

No entraremos en este trabajo en la conocida disputa "transfer vs. interlingua"¹¹. Como mostraremos más adelante, este debate se puede considerar ya como obsoleto, puesto que los enfoques de interlingua modernos (esto es, los enfoques basados en el conocimiento) tienen muy poco que ver con la interlingua primitiva que ha recibido un sin fin de críticas. Adelantamos, sin embargo, que nuestra elección es precisamente la traducción basada en el conocimiento, aunque desde un ángulo ecléctico y enfocado siempre a la consecución de resultados prácticos. Volveremos sobre este tema en el apartado 3.3.2.

NOTAS

Véase, sin embargo, la nota al pie 7.
Los elementos $1, $2, $3 son variables (siguiendo la tradición de usar el símbolo $ para referirse a variables de cadena) que se refieren a los tres elementos relaciones de las partes izquierda y derecha de la regla respectivamente
Para una discusión en profundidad sobre este tema, referimos a la obra de Hutchins & Somers (1992), Capítulo 6.

Anterior I Siguiente I Índice capítulo 3 I Índice General