ISSN: 1139-8736
Depósito Legal: B-35510-2000
El sistema KANT (Knowledge-based Natural Language Translation) (Nyberg &
Mitamura 1992),
desarrollado también en el CMU/CMT, es un descendiente directo del anterior, incorporando
una arquitectura similar. Sin embargo, KANT fue diseñado para trabajar en un ámbito de
problemas de traducción mucho más reducido que KBMT-89, resultando en una mayor
precisión y mayor velocidad en tiempo de ejecución.
Los objetivos inmediatos de KANT fueron los siguientes
(Nyberg & Mitamura 1992):
- Algoritmos para la interpretación del texto de origen basados en el conocimiento que
ofrezcan una desambiguación efectiva.
- Un potente y a la vez eficiente formalismo basado en reglas para la generación del
texto meta.
- Una combinación de herramientas para la adquisición de conocimiento automáticas y
semi-automáticas que faciliten la creación de grandes bases de conocimiento para
dominios concretos.
- Una arquitectura modular que permita su extensión a lenguas meta adicionales sin que
ello implique cambio alguno en el conocimiento almacenado.
Para conseguir estos objetivos se utilizaron diversas
técnicas que resultaron en un sistema robusto aunque con bastantes limitaciones, sobre
todo la imposibilidad de aplicarlo a textos de carácter general. Las principales
características de KANT son (Lonsdale, Mitamura & Nyberg 1995):
- Dominios restringidos
: una de KANT está diseñada para traducir textos
de un dominio técnico muy concreto. ESTRATO traducía textos sobre administración de
recursos eléctricos, mientras que el dominio de CATALYST era la documentación de
maquinaria pesada. Esto permite la construcción de un modelo semántico del dominio de la
aplicación que será usado durante la traducción. En un dominio así es posible no sólo
restringir los sentidos de palabras ambiguas, sino también manejar frases habituales en
el dominio (p. ej. "suspension control valve housing") como unidades simples.
Evidentemente, un lexicón de frases de este tipo facilita enormemente el proceso de
desambiguación durante la fase de análisis sintáctico y semántico. Del mismo modo, la
generación de la frase correcta se facilita mediante el uso de conceptos muy precisos en
la interlingua.
- Control de la lengua de origen
: KANT requiere que el vocabulario y la gramática de
la LO que la aplicación usa estén controlados. El vocabulario se limita a aquellos pares
palabra-significado que sean necesarios para el dominio concreto, reduciendo enormemente
la tarea de desambiguación. Del mismo modo, la gramática contemplada se limita a
aquellas construcciones sintácticas usadas en el dominio.
- Gran escala
: KANT fue orientado a aplicaciones prácticas, por lo que requiere
escalar los lexicones y las gramáticas considerablemente. Por ejemplo, en CATALYST
existen aproximadamente 60.000 conceptos de dominio.
- Interlingua
: KANT usa representaciones de interlingua complejas, por tanto no
existen representaciones dependientes de la lengua y se alcanza el nivel de modularidad
típico de este tipo de sistemas.
- Múltiples lenguas meta
: como consecuencia de lo anterior.
- Arquitectura de software
: la arquitectura de KANT consiste en un software que
permanece constante de aplicación a aplicación junto a lexicones, gramáticas y reglas
de proyección que sí son específicos de las aplicaciones particulares. La razón de
esta separación de código por un lado y conocimiento por otro es la facilitación de la
extensión del sistema tanto a nuevas lenguas como a nuevas aplicaciones con dominios
distintos. Al mismo tiempo esta disposición permite la pre-compilación de las
estructuras de conocimiento declarativas en una forma más rápida en tiempo de ejecución
(Mitamura, Nyberg & Carbonell 1991).
La Figura 3.16 (Nyberg & Mitamura 1992) muestra esta
arquitectura modular.
Figura 3.16 Arquitectura en tiempo de ejecución de KANT
Como se puede ver en este diagrama, KANT hace uso de las
siguientes fuentes de conocimiento:
- Una Gramática Origen para la lengua input que genera estructuras
sintácticas a partir de la oración input.
- Un Lexicón Origen que captura todo el vocabulario permitido en el dominio.
- Un conjunto de Reglas de Proyección Origen que indica cómo los núcleos
sintácticos y las funciones gramaticales de LO son proyectadas sobre conceptos del
dominio y papeles semánticos en la interlingua.
- Un Modelo de Dominio que define las clases de conceptos de dominio y restringe
los papeles semánticos para cada clase.
- Un conjunto de Reglas de Proyección Meta que indica cómo los conceptos de
dominio y los papeles semánticos de la interlingua son proyectados sobre los núcleos
sintácticos y las funciones gramaticales de la lengua meta.
- Un lexicón meta.
- Una Gramática Meta para la LM que convierte las construcciones sintácticas meta
en oraciones lineales de salida.
Por lo que respecta a la base lingüística, el
"Universal Parser" de Tomita sigue siendo el analizador sintáctico en KANT.
Este parser está basado en el formalismo de la Gramática Léxico-Funcional (LFG:
Lexical Functional Grammar) (Bresnan 1982).
En este formalismo gramatical se postula un único nivel de descripción sintáctica,
denominado c-structure, que se corresponde con los árboles sintagmáticos
superficiales (ver apartado 3.1.2). Esto es posible porque además se postula un
componente léxico enriquecido que da cuenta de las regularidades en las posibles
proyecciones de los argumentos (semánticos) sobre las estructuras sintácticas (linking).
De este modo, el único nivel de representación sintáctica contemplado (c-structure)
coexiste de forma simultánea con una estructura funcional (f-structure) que
integra información de la c-structure y del lexicón. Además, mientras que la c-structure
difiere de una lengua a otra, la representación de la f-structure, que contiene
toda la información necesaria para la interpretación semántica de una oración, es
universal, por lo que, en principio, puede ser usada como el componente lingüístico de
una interlingua.
En el sistema de KBMT de la CMU/CMT la gramática consiste en
un conjunto de reglas independientes del contexto que definen la estructura de
constituyentes (c-structure) de las oraciones de la lengua de origen. Las reglas
son anotadas con ecuaciones de restricción que definen la estructura funcional del input.
El parser compila la gramática en una tabla LR y las ecuaciones de restricción en
código Lisp. El parser se ejecuta en tiempo polinómico con bastante rapidez
cuando no existen demasiadas ambigüedades, aunque cuando el nivel de ambigüedad es más
denso se puede llegar a un tiempo exponencial de O(n3), por
tanto, cuanto menos ambigua sea la gramática más rápido será el algoritmo.
En KANT también se mejora el proceso de desambiguación
de KBMT-89. En el nuevo sistema existen cuatro estrategias principales para resolver la
ambigüedad (Baker et al. 1994):
- Reducir la ambigüedad en el texto input antes del análisis (dominios
restringidos).
- Incorporar reglas de preferencia en la gramática.
- Usar restricciones semánticas determinadas por el dominio.
- Desambiguación manual interactiva.
Obviamente, una de las razones más decisivas en la mejora de
la velocidad y la precisión del sistema de desambiguación es la restricción de los
dominios y las restricciones semánticas asociadas. En la sublengua de CATALYST
(maquinaria pesada), por ejemplo, aproximadamente el 99% de las 9.600 entradas léxicas de
palabras simples poseen una única acepción (Baker et al. 1994).
Así, la palabra "mat" posee la única acepción de "a layer or blanket of
asphalt". De los 100 términos que permanecen ambiguos (siempre dentro de la misma
sublengua), el traductor interactúa con el desambiguador léxico mediante el
interfaz gráfico. Del mismo modo, las 54.000 frases de nomenclatura de que consta
el lexicón frasal son sin excepción no ambiguas.
La adquisición del conocimiento es otro de los
aspectos a destacar de KANT. Los lexicones de gran volumen mencionados no fueron creados a
mano, sino mediante la utilización de técnicas estadísticas de análisis de córpora
textuales. Los textos de la lengua de origen son analizados para obtener unidades léxicas
potencialmente relevantes mediante métodos semi-automáticos. A continuación se lleva a
cabo un proceso de depuración a mano, pero éste resulta bastante más asequible que la
construcción del lexicón desde cero.
La estadística también se usa en KANT para otras tareas
(Carbonell, Mitamura & Nyberg 1992):
- obtener información sobre determinadas acepciones de palabras comúnmente empleadas en
el dominio correspondiente y sobre la estructura argumental de verbos, nombres y adjetivos
(subcategorización),
- localizar adscripciones sintagmáticas (sintagmas preposicionales, etc.) potencialmente
ambiguas,
- localizar frases cuyos componentes muestran un alto índice colocacional.
Como podemos ver, una de las características más
sobresalientes de KANT es la integración de técnicas que se adoptó en su
implementación. La postura de los creadores de KANT es abandonar posiciones dogmáticas e
intentar combinar lo mejor que cada paradigma ofrece (Carbonell, Mitamura & Nyberg 1992).
El tipo de técnicas estadísticas utilizadas en KANT provienen del paradigma basado en el
ejemplo, que ya mencionábamos en el apartado 3.3.1.
El uso de técnicas provenientes de la EBMT en KANT es
bastante limitado. En realidad se reduce al análisis estadístico de los textos para
encontrar frases cuyos componentes muestran un índice colocacional estadísticamente
significativo. Sin embargo, en el sistema sucesor de este, Pangloss, ya encontramos un uso
más extendido de estas técnicas.
Para llevar a cabo estas tareas estadísticas mencionadas, en
KANT se implementó el siguiente conjunto de herramientas (Leavitt, Lonsdale, Keck &
Nyberg 1994):
- Un alineador de córpora y un visor de concordancias bilingüe. Tomando el corpus
bilingüe como fuente de información, la herramienta de alineación puede emparejar las
frases de ambas lenguas mediante el uso de información extra-lingüística tal como
referencias a diagramas, listas, medidas, números y nombres propios. Puesto que este tipo
de información no cambia durante la traducción, se puede usar como puntos de referencia.
El visor permite examinar las oraciones alineadas automáticamente y el usuario puede
guardar las correspondencias elegidas para ser usadas por el programa de traducción. Como
viene siendo normal, esta interacción con el usuario se lleva a cabo mediante un interfaz
gráfico (en este caso la estándar de sistemas UNIX, OSF/Motif).
- Un editor de traducción de vocabulario (VTE). Este editor, también implementado en
Common Lisp y con interfaz Motif, permite al usuario establecer equivalentes de
traducción de un modo muy accesible. Para cada término a traducir se muestran varias
secciones con toda la información necesaria para llevar a cabo un trabajo lexicográfico
adecuado: una definición y ejemplos de uso del lexicón de LO, una concordancia KWIC del
término y una lista de posibles traducciones encontradas en los textos de la lengua meta
(ver Figura 3.17).
Figura 3.17 El editor de traducción de vocabulario de KANT
- Un constructor de estructuras sintácticas (SSB). Mediante las dos herramientas
anteriores se consigue establecer únicamente correspondencias de traducción. El SSB no
es más que un modo especial del editor Emacs que, mediante una gramática simple (unas
doce reglas) y listas de palabras gramaticales, facilitan la descripción de estructuras
sintácticas completas para cada término.
Como podemos observar, éstas son técnicas que en principio
están fuera del ámbito de la KBMT, sobre todo en lo que respecta a la asignación
específica de equivalentes de traducción. El objetivo era por supuesto conseguir
resultados a corto plazo. Esto, por otra parte, no significó el abandono de las técnicas
de KBMT en el CMU/CMT, sino la integración de todas aquellas metodologías que
facilitasen una traducción de alta calidad, ya sean estadísticas (para la obtención de
información), o de transferencia.
Anterior
I
Siguiente
I
Índice capítulo 3
I
Índice General