ISSN: 1139-8736
Depósito Legal: B-35510-2000

3.1 Metodologías básicas empleadas en la TA

Antes de continuar explorando los detalles de los diferentes enfoques a la Traducción Automática, deberíamos exponer cuáles son las necesidades básicas de un sistema típico de traducción automática, así como las estrategias a seguir para lograr que un programa traduzca expresiones en lenguaje natural. Lo expuesto en este apartado puede ofrecer grandes variaciones según el tipo de traducción automática que se siga, lo que vamos a intentar es mostrar las necesidades básicas y las metodologías que "tradicionalmente" se han utilizado para darles respuesta. En los apartados 3.2 y 3.3 mostraremos las metodologías reales de una forma más concreta, estudiándolas individualmente, así como las peculiaridades de los sistemas más relevantes.

Un traductor humano usa al menos cinco tipos distintos de conocimiento (Arnold et al. 1994:15):

Este último tipo de conocimiento es lo que permite a los traductores actuar como auténticos mediadores, asegurando que el texto meta comunica realmente el mismo tipo de mensaje, y produce el mismo efecto en el lector que el texto fuente. Este tipo de conocimiento es el más difícil de representar y procesar, no existiendo actualmente ningún sistema fiable que lo incorpore, si bien más adelante veremos los esfuerzos de los investigadores en Inteligencia Artificial para conseguir estructurarlo.

En principio, un sistema de traducción automática típico no contiene información alguna que represente el conocimiento pragmático y el "conocimiento del mundo"1. En este apartado nos centraremos en la representación y el proceso de información lingüística. Tradicionalmente se han distinguido varios niveles de conocimiento lingüístico2:

En el presente trabajo nos hemos centrado en el estudio de los problemas que el "léxico" plantea. Cuando hablamos de "conocimiento léxico" queremos hacer referencia a un nivel de análisis que subyace a todos los anteriormente mencionados. Se refiere al conocimiento de las distintas unidades léxicas (palabras o frases) que conforman el vocabulario de una lengua.

Evidentemente, dependiendo del nivel de análisis: morfológico, sintáctico, etc., se podrán realizar generalizaciones más o menos altas en una jerarquía. Por ejemplo, las generalizaciones a nivel morfológico son más amplias que a nivel semántico. De hecho, es bien conocido por los lingüistas que cuanto más avanzamos en los distintos niveles de análisis, existen menos generalizaciones válidas y más excepciones.

En el presente trabajo nos ocuparemos precisamente de estos niveles superiores de análisis, intentando ofrecer un sistema de representación válido y económico en términos de gestión de información. Nos centraremos, pues, en el nivel semántico, si bien está claro que no es posible establecer una división clara entre este y otros, especialmente el sintáctico, que, como mostraremos mantiene una estrecha relación con el significado, estableciéndose multitud de interdependencias entre ambos niveles.

Los sistemas basados en el conocimiento que estudiaremos más adelante en este capítulo se apoyan en teorías lingüísticas que hacen uso de esta característica del lenguaje, comúnmente conocida como linking, y que volveremos a comentar cuando estudiemos estos sistemas.

Por tanto, este trabajo está dedicado a la representación de información léxica. Sin embargo, en este apartado queremos mostrar cómo las distintas aplicaciones y herramientas hacen uso de otros tipos de información para procesar un input léxico determinado. Es muy importante tener en cuenta de qué modo la información a representar será usada para dar salida a las necesidades concretas de las aplicaciones. De todos modos, siempre abogaremos por aquellas metodologías que nos garanticen el mayor nivel posible de independencia de los datos3.

 


NOTAS

  1. De hecho, veremos cómo las últimas tendencias basadas en "interlingua", específicamente las basada en el conocimiento (KBMT), intentan integrar este tipo de conocimiento en ontologías jerárquicas. Mostraremos cómo estos sistemas, por ejemplo Mikrokosmos, intentan recrear digitalmente dichas ontologías y hacer uso de ellas para traducir automáticamente.
  2. Podríamos usar el término "información" en lugar de "conocimiento". Como veremos en el Capítulo 4, la distinción entre estas nociones no es tan fácil como pudiera parecer a primera vista.
  3. La cuestión de la "independencia de los datos" es crucial en las ciencias de la información y muy especialmente en la representación del conocimiento y las bases de datos. Son innumerables las obras que se han dedicado a este tema y a las técnicas para conseguir mantener esta independencia de los datos con respecto a las aplicaciones que los procesan. Volveremos sobre el tema en el Capítulo 4.

 

Anterior  I  Siguiente  I  Índice capítulo 3  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz