ISSN: 1139-8736
Depósito Legal: B-35510-2000

3.2.6 Eurotra

La gran demanda de traducciones, provocada por la política multilingüe de la Unión Europea, trajo consigo la necesidad de usar herramientas informáticas con el objeto de abaratar los costes de traducción. En 1976 la Comisión adquirió el sistema de traducción Systran para traducir primero del inglés al francés y, posteriormente, entre otros pares de lenguas. Las limitaciones de este sistema (ver el apartado 3.2.4) condujeron a la decisión de crear un sistema de TA avanzado que diese cabida a todos los idiomas de la UE. La fase de planificación terminó en 1982, por tanto los idiomas que se contemplaron fueron 9, dando un total de 72 pares de lenguas, según la fórmula de las arquitecturas de transferencia.

El proyecto, y sobre todo su formalismo, atravesó varias fases (Bech & Nygaard 1988; Crookston 1990; Pulman 1991). El resultado más importante del proyecto fue el desarrollo del sistema de representación CAT (Constructor, Atom, Translator) y su posterior evolución, conocida como marco-E (E-frame).

Tal y como se describe en Arnold et al. (1987) y Arnold & des Tombe (1986), el formalismo CAT considera una serie de transformaciones desde la lengua de origen hasta la lengua meta:

SL arrow.gif (839 bytes) RL1 arrow.gif (839 bytes) RL2...  arrow.gif (839 bytes) RLn   arrow.gif (839 bytes) TL

donde RLi es el formalismo de representación i.

En Eurotra existen seis niveles de representación para cada lengua. El formalismo que conforma la base (CAT) consideraba sólo cuatro. Los dos primeros son añadidos posteriormente y justifican su existencia únicamente por razones por razones de normalización:

La siguiente secuencia muestra los pasos que se siguen en la traducción inglés Þ español (obviando los pasos de conversión de formato a texto ASCII):

SL (GB) arrow.gif (839 bytes) EMS (GB) arrow.gif (839 bytes) ECS (GB) arrow.gif (839 bytes) ERS (GB) arrow.gif (839 bytes) IS (GB) arrow.gif (839 bytes)

IS (SP) arrow.gif (839 bytes) ERS (SP) arrow.gif (839 bytes) ECS (SP) arrow.gif (839 bytes) EMS (SP) arrow.gif (839 bytes) TL (SP)

El formalismo CAT se utiliza tanto para la representación de información como para la transformación entre representaciones. Sería demasiado largo considerar las diferentes variantes notacionales que resultaron de las distintas fases del proyecto, por lo que la descripción que ofrecemos a continuación es una simplificación. No obstante será suficiente para mostrar las principales características del formalismo CAT.

Los Constructors y los Atoms (denominados en conjunto reglas-b) construyen las estructuras, mientras que los Translators llevan a cabo la transferencia, no sólo entre lenguas sino también entre los distintos niveles de representación. Los Átomos son afines a los símbolos pre-terminales en una gramática sintagmática; por ejemplo:

{cat=det, lex=the, def=yes}
{cat=n, lex=house, num=sing}

Los Constructores son afines a reglas sintagmáticas (o de estructura de frase), consistiendo en una madre y una lista de hijas; por ejemplo:

{cat=s} [{cat=np}, {cat=vp}]
{cat=np, def=X} [{cat=det, def=X}, {cat=n}]
{cat=vp} [{cat=v}, {cat=np}]

Los árboles que el formalismo CAT construye se pueden dividir en dos tipos: árboles de derivación y representaciones (Arnold & des Tombe 1987:121-122). Los árboles de derivación son estructuras que codifican un Constructor y las posibles categorías que pueden ser unificadas con sus hijas. Las representaciones son el resultado de unificar las hijas de un Constructor con una lista de categorías de modo parecido a las reducciones-b del cálculo lambda16. Por ejemplo, el árbol de derivación ECS y la representación para la secuencia "the house" son, respectivamente:

(a)

< {r-name=cnp, cat=np, def=X, person 3}
[{cat=det, def=X}, {{cat=noun}],
{cat=noun, lex=house, number=sing} >

(b)

{r-name=cnp, cat=np, def=yes, person=3}
[{cat=det, lex=the, def=yes},
{cat=noun, lex=bicycle, number=sing}]

Los paréntesis angulares delimitan el árbol de derivación (a), las llaves contienen pares atributo:valor y los corchetes encierran la lista de hijas en una estructura. La madre de éstas las precede, a la izquierda de los corchetes. Durante el análisis se construye el árbol de derivación (a), que después es sometido a un mecanismo que lo reduce a la representación (b) mediante unificación17.

El formalismo CAT plantea algunas desventajas (Trujillo 1995:79):

  1. El sistema es unidireccional, por lo que requiere dos conjuntos de reglas de transferencia para cada par de niveles.
  2. El sistema de notación es farragoso e ineficaz. Por ejemplo, tomando la secuencia agramatical *we eats y suponiendo que existen entradas correctas para ambas unidades léxicas, serían necesarios tres elementos diferentes para rechazar la secuencia (un Constructor y dos Killer Rules):
  3. Constructor:

    {cat=s} [{cat=np}, {cat=vp}]

    Killer rules:

    {cat=s} [cat=np, person=P}, {cat=vp, person¹ P}]
    {cat=s} [cat=np, number=N}, {cat=vp, number¹ N}]

    El formalismo CAT construye una representación mediante el Constructor para inmediatamente borrarla mediante una de las killer rules. Las dos killer rules no pueden ser fusionadas porque tal regla únicamente rechazaría estructuras en las que tanto la concordancia de persona como la de número fuesen erróneas.

  4. Puesto que no existe interacción entre los distintos niveles de representación, existe una gran cantidad de ambigüedad en los niveles más bajos de la secuencia de análisis
  5. Los tipos de representaciones que pueden aparecer a cada lado de una regla de transferencia tienen muy pocas restricciones, pudiendo tener una representación con un número indeterminado de sub-representaciones. La razón de habilitar esta propiedad es para dar cabida a modismos y frases idiomáticas, pero tiene la desventaja de dificultar el manejo de las reglas de transferencia y la habilitación de restricciones en cuanto a las reglas de transferencia.
  6. La semántica del formalismo es procedimental y no-monótona. La desventaja está en que el orden de aplicación de las reglas determina el resultado y la adición de nuevas reglas puede invalidar construcciones anteriormente validadas.

En cuanto al diseño e implementación del lexicón. Las directrices básicas se encuentran en los trabajos de su creador, Marc Domenig (Domenig 1987; Domenig & Shann 1986). Domenig expone tres criterios a adoptar para la creación de los diccionarios formalizados de Eurotra:

  1. Adecuación lingüística: el formalismo debería ser lo más parecido posible a las teoría lingüísticas conocidas.
  2. Expresividad: el formalismo debería ser lo suficientemente versátil para cubrir las necesidades del objeto de estudio (el lenguaje natural).
  3. Efectividad computacional: el formalismo debería estar adecuado a los recursos técnicos de implementación existentes, de modo que éstos puedan hacer un uso eficiente de él.

En el sistema de Domenig (1986:36),

(...) a dictionary is redefined to comprise a ‘dynamic’ component, which both extends and partly replaces the information stored in the purely ‘static’ entries of a traditional dictionary. The extension of the information content is achieved by integrating knowledge about linguistic processes which can be executed on a computer. Intelligently conceived , such processes will eliminate much of the redundancy encountered in traditional dictionaries, thus improving not only the information content but also the conceptual structuring.

 

Eurotra ha sido de hecho el proyecto de TA con mayor cantidad de inversión y seriedad de ejecución. Si bien es cierto que todo el esfuerzo y los recursos económicos invertidos en Eurotra no dieron los resultados aceptables que cabría de esperar en cuanto a traducción automática, el resultado innegable es la consecución de estándares en cuanto a "ingeniería lingüística". De hecho, este término comenzó a utilizarse durante la realización de Eurotra, e implica la comprensión y aceptación de la complejidad del modelado del lenguaje natural, así como de los enormes esfuerzos necesarios para llevar a cabo cualquier tarea en este entorno. Las palabras de Harold Somers son reveladoras en este sentido:

As much as anything else, Eurotra has shown the possibilities of an openly eclectic approach to computational linguistic engineering. Nevertheless, ‘Eurotrians’ will be the first to admit that the list of remaining problems is longer than the list of problems solved or even half-solved.

(Somers 1990:11)

De hecho, en 1991 tan sólo se había conseguido un sistema prototipo, que operaba sobre dominios limitados y determinados tipos de texto. Las bases de datos léxicas contenían aproximadamente unos 20.000 lexemas para cada idioma (Krasemann 1991). Este sistema prototipo fue denominado Eurotra-I, o ET-I. En 1990 ya se había comenzado a proyectar un segundo prototipo, esta vez con la idea de crear un "linguistic workbench" genérico. Este se denominaría "Eurotra (-II) Linguistic Workbench", con un despliegue mucho mayor en cuanto a medios y desarrollo teórico de arquitecturas, con unas miras menos altas pero más alcanzables, especialmente en cuanto a la determinación de estándares de representación léxica y creación de herramientas léxicas genéricas. Nos centraremos en los aspectos de arquitectura léxica.

Las ideas genéricas de Domenig en cuanto a diseño e implementación de los lexicones de Eurotra requerían ser llevadas a la práctica de una forma seria y controlada. Era evidente que la correcta creación de los lexicones era clave para su reutilización de recursos léxicos con el fin de asegurar la inversión a largo plazo. Este estudio fue denominado ET-7 (Heid & McNaught 1991) y fue realizado por un consorcio europeo de 11 entidades, que incluía representantes del mundo académico, las editoriales y la industria del software y fue coordinado por la Universidad de Stuttgart. Este estudio de viabilidad se realizó entre julio de 1990 y mayo de 1991 y sus resultados concretos fueron (Heid 1991:3):

Este estudio preliminar tuvo como sucesor un proyecto de mayor alcance, Multilex. Analizaremos los resultados del proyecto Multilex en detalle, con el fin de observar qué estándares y requerimientos fueron delimitados. El objetivo de Multilex no fue únicamente el establecimiento de directrices e implementación del lexicón de Eurotra, sino que su alcance fue mayor: la consecución de estándares para aplicaciones de NLP en general.


NOTAS

  1. En los apartados 3.3.3 y 3.3.6 mostramos algunas de las características fundamentales de este formalismo gramatical.
  2. No discutiremos los detalles del cálculo lambda en este trabajo.
  3. Analizaremos los modernos formalismos basados en unificación en el apartado 4.4.

 

Anterior  I  Siguiente  I  Índice capítulo 3  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz