3.3.1 Enfoques empíricos

ISSN: 1139-8736
Depósito Legal: B-35510-2000

3.3.1 Enfoques empíricos

No nos extenderemos en la descripción de los enfoques estadísticos a la TA, ya que esencialmente se trata de técnicas que excluyen la necesidad de conocimiento lingüístico o de cualquier otro tipo, y por lo tanto no contemplan, en principio, la utilización de un repositorio de información léxica.

Existen dos tipos principales de enfoques empíricos: los estadísticos y la traducción automática basada en el ejemplo (EBMT: Example-Based Machine Translation).

La idea de utilizar medios estadísticos para traducir mediante un ordenador digital es casi tan antigua como éste. En 1949, Claude Shannon, Warren Weaver y otros ya proponían esta idea, e incluso intentaron llevarla a la práctica (Weaver 1955), aunque obviamente la potencia de cálculo de aquellos ordenadores no era la suficiente para la cantidad de información que se ha demostrado que es necesario procesar para conseguir algún resultado (Brown et al. 1990). Tampoco se disponía de las cantidades ingentes de texto almacenado en formato digital necesarias, ni siquiera de los medios de almacenamiento para darles soporte.

La idea básica para traducir mediante técnicas estadísticas es la de utilizar los denominados córpora paralelos (textos traducidos por un humano) para extraer de ellos la información estadística necesaria con el objeto de "entrenar" el sistema de TA. En la actualidad se dispone de un conjunto considerable de estos textos, aunque sólo para algunos idiomas.

El primer paso para trabajar con este tipo de córpora es "alinear"²⁴ las oraciones de los textos origen y meta para después establecer índices de probabilidad de traducción (o más bien equivalencia) entre las distintas cadenas de caracteres. En ningún momento se usa información de carácter lingüístico para el análisis ni para la generación.

El equipo responsable de este resurgimiento de los métodos empíricos aplicados a la TA fue el de Peter Brown et al. (1990) de IBM, quienes retomaron las ideas originales alentados por los buenos resultados de la aplicación de técnicas estadísticas a la síntesis de habla. Su trabajo se basó en el modelo de "canal ruidoso" de Shannon. En este modelo se plantea la situación de recuperar la información perdida de un mensaje al atravesar un canal con ruido, tal como una línea telefónica. Una secuencia de texto correcto (I) entra en el canal, y una secuencia corrupta (O) sale por el otro lado.

I canal ruidoso O

Para recuperar la secuencia original I se puede tratar de recuperar la secuencia más probable I’ teniendo en cuenta todas las secuencias de entrada posibles, I, y seleccionando la que obtenga la probabilidad más alta, Pr (I|O).

Del mismo modo, Brown et al. parten del supuesto de que cada oración de una lengua es una posible traducción de otra oración en otra lengua. A cada par de oraciones (O, M) se le asigna una probabilidad, Pr(O|M), que se interpreta como la probabilidad de que un traductor humano genere M en el texto meta a partir de O en el texto origen. El problema de la traducción automática queda así reducido a lo siguiente (Brown et al. 1990): dada una oración M en la lengua meta, se busca la oración O a partir de la cual el traductor generó M.

Conceptualmente, el programa de traducción busca el dominio de todas las posibles oraciones en el texto origen que maximiza Pr(O|M). Mediante el conocido Teorema de Bayes, esto se puede llevar a cabo mediante la expresión:

Pr(O|M) es la probabilidad condicional de que la oración de origen, O, sea la que buscamos, dado que de hecho observamos la oración meta M. Del mismo modo, Pr (M|O) es la probabilidad condicional de que M pudiera darse, en caso de que O se dé. El denominador a la derecha no depende de O, por lo que basta con escoger un O que maximice el producto Pr(O)·Pr(M|O). El primer factor de este producto es la probabilidad de un modelo de lengua, mientras que el segundo es la probabilidad de traducción de M dado O.

Los índices de probabilidad del sistema de IBM fueron extraídos a partir del análisis de extensos córpora de debates parlamentarios canadienses (Hansard) por lo que su estudio se redujo al inglés y francés. En la práctica, el método establece tres componentes:

Un trigrama (tres secuencias) del inglés.
Lo mismo para el francés.
Un modelo de correspondencia cuantitativa de las partes de oraciones alineadas del inglés y el francés.

A esas partes de las oraciones se les asignan sus equivalentes más probables y el trigrama inglés reordena estas secuencias en el orden más probable para el francés. Este método requiere una enorme cantidad de procesamiento y potencia de cálculo. En los primeros sistemas mostrados, incluso con un análisis previo, la traducción de una oración de diez palabras requería una hora de tiempo de proceso (Wilks 1993). Sorprendentemente, el resultado de esta ordenación es bastante aceptable, aunque queda muy por debajo de los resultados obtenidos con Systran para el mismo texto (Wilks 1993).

Este modo de traducción busca única y exclusivamente resultados. No está basado en ninguna teoría lingüística ni busca explicar fenómeno lingüístico alguno. En definitiva se trata de la idea original de Weaver: las lenguas naturales son un código que ha de ser descodificado.

La crítica más evidente a este enfoque ya fue señalada por Chomsky y otros a finales de la década de los 50: ¿cómo puede un sistema de TA estadístico dar cuenta de la concordancia sujeto-verbo? ¿Qué ocurre con la morfología? Estas y otras restricciones son difícilmente capturables por secuencias de tres palabras y aumentar la "ventana" o ámbito a cuatro o cinco palabras no soluciona el problema (Church 1996:3).

Estos problemas eran de sobra conocidos por el equipo de IBM. En las primeras versiones de la aplicación, denominada Candide, el sistema era, tal y como sus creadores afirmaban, un sistema estadístico puro. Sin embargo, estos problemas mencionados condujeron a la inclusión de todas aquellas técnicas (lingüísticas) que se han considerado necesarias: tablas morfológicas, etiquetado semántico (direccional y dependiente de la lengua), una arquitectura de transferencia con representación intermedia, listados de plurales e incluso diccionarios bilingües (Wilks 1993). Por esta razón, al sistema de IBM se le ha dado el ya famoso apodo de "Stone Soup": "the statistics are in the bottom of the pot but all flavor and progress now come from the odd trimmings of our systems they pop into the pot" (Wilks 1993:8).

Aunque esta adopción de técnicas tradicionales ha sido la característica más criticada de los sistemas estadísticos, nosotros consideramos que éste es el modo en que las técnicas estadísticas pueden ayudar al problema de la traducción automática. Como hemos venido mostrando, la complejidad que muestra esta tarea requiere la integración de muy diversas técnicas, así como un modo de trabajo ecléctico. Creemos que pretender traducir entre dos lenguas naturales mediante la utilización exclusiva de la estadística es imposible además de innecesario. Para un sistema construido únicamente sobre bases estadísticas, el hecho de que una palabra tenga cinco letras tiene la misma relevancia que el hecho de que ésta acabe en "t", esté en mayúscula o se combine con "the" o "a". Los hablantes de una lengua natural utilizamos tipos abstractos tales como clases de palabras (sustantivos, verbos, etc.) para encontrar correspondencias importantes. Por ejemplo, sabemos que las mayúsculas son importantes precisamente porque en muchos idiomas marcan los nombres propios, que se han de traducir de una forma especial. También sabemos que las palabras que se pueden combinar con "the" o "a" son nombres comunes, y por lo tanto pueden tener formas plurales, pueden afectar a la forma del verbo, etc. No cabe duda de que si introducimos esta información en un sistema de TA basado en la estadística, el sistema puede ahorrarse una enorme cantidad de tiempo de proceso, concentrándose en aquellas regularidades que probablemente se den y sean de otro modo difíciles de explicar (como colocaciones y expresiones idiomáticas).

Pospondremos esta discusión para el último apartado de este capítulo. Antes debemos exponer el último de los enfoques empíricos a la TA que estudiaremos en este trabajo.

La idea básica de la TA basada en el ejemplo (EBMT: Example-based Machine Translation), también llamada Case-based Machine Translation, se debe al veterano investigador japonés Makoto Nagao (Nagao 1984), quien en realidad la denominó "traducción por analogía". La EBMT, al igual que los sistemas anteriores, también utiliza información estadística, pero de una forma muy diferente. No se pretende utilizar algoritmos estadísticos para traducir, sino para encontrar traducciones típicas (ejemplos) en contextos determinados. Es decir, se trata de anotar y clasificar, mediante la alineación oracional de textos paralelos, las formas en que un fragmento de texto de la lengua de origen ha sido traducido a una lengua meta y usar esa información para elegir traducciones de esos fragmentos en otros textos. Los fragmentos no son constituyentes sintácticos, sino secuencias de cadenas de caracteres, es decir, no se usa conocimiento lingüístico alguno.

Podríamos resumir la estrategia básica del modo siguiente (Nirenburg, Beale & Domashnev 1995): dado un fragmento O de texto de la lengua de origen y una colección de textos bilingües donde se almacenan fragmentos O’ de la lengua de origen, alineados con sus traducciones en una lengua meta (fragmentos M’), O se compara con la parte correspondiente a la lengua origen de la colección de textos. Se selecciona el emparejamiento más cercano para el fragmento O’, y la traducción de ese emparejamiento, M’, se acepta como la traducción de O.

Los pasos que normalmente se siguen en un proceso de traducción por analogía son los siguientes:

Alinear el corpus bilingüe a nivel oracional.
Encontrar fragmentos de la parte del corpus que corresponde a la lengua de origen que se consideren como los mejores candidatos (ejemplos ideales) para un fragmento input determinado (intra-language matching).
Encontrar el fragmento de la lengua meta que corresponde al fragmento de la lengua de origen (inter-language matching).
Combinar los resultados a nivel de fragmentos para obtener la "cubierta" para todo el texto.

Hasta la fecha no ha habido muchas implementaciones de este tipo de motores de traducción, siendo los más sobresalientes MBT, (Sato 1991, 1993, 1995) y PanEBMT, (Brown 1996; Nirenburg, Beale & Domashnev 1995).

NOTAS

La alineación de textos y la utilización de córpora paralelos han recibido gran atención por parte de los investigadores en el campo de la lingüística de corpus. No profundizaremos en estos aspectos que, pensamos, quedan fuera del ámbito del presente trabajo. Para una visión general de diversas técnicas de alineación y uso de córpora tanto paralelos como comparables, véase Pérez Hernández (1994).

Anterior I Siguiente I Índice capítulo 3 I Índice General