ISSN: 1139-8736
Depósito Legal: B-35510-2000

3.2.4 Systran

Escogemos este sistema para ilustrar la arquitectura transformer no por ser representativo, ya que posee muchas virtudes que le hacen separarse radicalmente de otros sistemas de su época, sino más bien como ejemplo de un sistema bien diseñado desde el principio. En efecto, partiendo de una arquitectura hoy absolutamente desfasada, el robusto diseño de este sistema le ha permitido evolucionar de forma sorprendente.

Hoy día, Systran® Software Inc. ofrece multitud de soluciones en cuanto a traducción automática se refiere, incorporando los idiomas español, francés, italiano, alemán, portugués y japonés. Además existen versiones para las plataformas más difundidas (Unix, PC bajo Win32), e incluso se ofrece en arquitectura cliente/servidor.

La principal característica que ha hecho posible la supervivencia de este sistema desde los Años Oscuros es sin duda su modularidad (Whitelock & Kilby 1995). Esta modularidad se manifiesta en tres vertientes:

  1. El código. Los programas del sistema, escritos en ensamblador, son independientes de los distintos idiomas. Los programas de traducción propiamente, escritos en un lenguaje de macros, son dependientes del par de lenguas que están destinados a traducir.
  2. El proceso de traducción se divide en una serie de procesos que se reparten entre los distintos módulos (homógrafos, delimitación de frases, etc.)
  3. Los programas de traducción se dividen en tres tipos: específicos de LO, específicos del par de lenguas y específicos de LM.

Esta disposición es, por tanto, típica de un sistema de transferencia. El proceso de traducción queda reflejado en la Figura 3.9 (Hutchins & Somers 1992:255).

Figura 3.9
Figura 3.9 El proceso de traducción de Systran

Por lo que respecta al lexicón, la base de datos léxica de Systran consiste básicamente en dos diccionarios bilingües (por par de lenguas, claro está): el diccionario de palabras simples y el diccionario de expresiones multi-palabra. En realidad, estos dos diccionarios se encuentran distribuidos en varios ficheros magnéticos de acuerdo con ciertos parámetros como la frecuencia o la longitud de las entradas. La clasificación de los distintos tipos de idioms y expresiones multi-palabra es muy destacable, atendiendo siempre a las dificultades de traducción que las distintas construcciones presentan. Es sin duda este aspecto otra de las claves del éxito de este sistema: además de establecer una rica tipología de frases, sus diccionarios contienen unas extensísimas listas de correspondencias frasales entre idiomas, lo que facilita enormemente todos los procesos involucrados en la traducción.

En cuanto a la información léxica que cada entrada contiene, cada registro de la base de datos contiene únicamente siete campos12:

  1. "-" line: contiene la palabra o expresión propiamente, junto con algunos códigos que representan el tipo de entrada y otros códigos de control.
  2. A-line: contiene los códigos de inflexión para las palabras simples.
  3. B-line: contiene algunos códigos que marcan la categoría gramatical, el género, el número (para los sustantivos, pronombres y adjetivos), el caso (en inglés para los pronombres posesivos / objeto), y otros.
  4. C-line: contiene información sintáctica o sintáctico-semántica detallada. El número de códigos que puede aparecer en una entrada es variable, separados entre sí mediante comas.
  5. D-line: contiene códigos de naturaleza semántica. Se han definido unos 450 códigos diferentes. En la práctica, sólo una pequeña parte de éstos se han usado. La decisión de incorporar etiquetas semánticas no responde a la adopción de una teoría lingüística determinada sino que se ha hecho de una forma ad hoc, para resolver problemas de traducción puntuales. Por ejemplo el verbo employ será traducido al francés employer en lugar de utiliser siempre que el objeto sea descrito con la etiqueta semántica prof.
  6. E-line: la primera sección bilingüe de la entrada. Codifica la traducción apropiada de la o las preposiciones que rige la entrada cuando ésta difiere de la traducción que la preposición tiene en su propia entrada. Por ejemplo, wait for, que en español debe ser esperar a, irá acompañado de un código que indique la entrada de la preposición española a, tal y como aparece en la tabla de preposiciones de la lengua meta.
  7. F-line: contiene los equivalentes de traducción de la lengua meta, así como información morfológica, sintáctica y de otros tipos requerida para la síntesis de la lengua meta.

Los problemas que la polisemia plantea para la traducción se reducen en Systran de varias maneras:

Cuando la polisemia tiene su origen en un contexto supra-oracional, se recurre a códigos de tópico (TG: typical glossary) que definen el tipo de texto/campo, y que deben ser previamente explicitados. Por ejemplo

0 general
1 physics
2 electronics
3 computers, data processing
(...)

La información léxica contenida en la LDB está organizada en varios ficheros según las necesidades de acceso durante las diferentes fases de la traducción. Estos ficheros, que constituyen los distintos diccionarios son:


NOTAS

  1. La estructura interna de la base de datos es específica para el sistema. Como nota destacable, no mantiene el principio de atomicidad deseable en todo sistema de información moderno, ya que, como ha quedado claro, los "registros" son de longitud variable. Esta característica, heredada de los sistemas de información antiguos impide la reutilización de la información

 

Anterior  I  Siguiente  I  Índice capítulo 3  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz