Puesto que en la exposición de nuestro trabajo de investigación hemos optado por incluir un apartado específico para resumir y discutir las ideas expuestas en cada uno de los capítulos de los que consta el presente trabajo, no creemos necesario volver a repetir en esta sección las conclusiones y discusiones parciales expuestas en los capítulos anteriores.
Tomamos esta decisión en cuanto a nuestra exposición debido a la naturaleza eminentemente interdisciplinar de nuestro trabajo, en el que el hilo conductor ha sido la correcta creación de un sistema de representación léxica orientado a la lexicografía computacional y la traducción automática. Por tanto, hemos tenido que integrar en nuestro trabajo conocimiento proveniente de áreas tan dispares cono la lingüística (computacional o no), la lexicología computacional, la praxis lexicográfica, la representación del conocimiento y la IA, el modelado conceptual de bases de datos y la traducción automática. Esta disparidad de áreas de conocimiento nos condujo a discutir las conclusiones pertinentes a cada una de ellas por separado.
Sin embargo, sí nos parece fructífero en este capítulo final ofrecer una visión de conjunto del trabajo realizado e integrar y relacionar las conclusiones más destacables que del mismo hemos extraído.
Comenzamos este trabajo con un propósito doble:
El primer objetivo ha sido en todo momento tratado como fundamental, pues la aplicación informática resultante habría de ser efectivamente utilizada por como banco de trabajo lexicográfico. Por tanto, decidimos adoptar aquellas medidas necesarias para asegurar la creación de un entorno fiable y que diese respuesta las necesidades de seguridad y recuperación impuestas por un entorno multiusuario. La tarea concreta consistió en construir un marco de trabajo computacional que facilitase la homogeneización de un cuerpo de información léxica detallada. Dicha información es obtenida mediante la aplicación de un modelo lexicológico que nos venía dado, el Modelo Lexemático-Funcional. Este marco de trabajo debería proporcionar mecanismos que facilitasen la labor lexicográfica común en cuanto a introducción, consulta y modificación de datos, incluyendo diversos mecanismos de restricción enfocados a lograr un alto nivel de integridad de los datos. Al mismo tiempo, esta herramienta informática debería ser capaz de funcionar como banco de trabajo lexicográfico, generando diccionarios en papel a partir de los datos introducidos.
El segundo objetivo nos ha permitido explorar las posibilidades de nuestro lexicón como soporte de aplicaciones de NLP complejas que requieren un uso intensivo de información léxica. Las aplicaciones de traducción automática nos servirían como campo de experimentación.
Con el objeto de adquirir una visión global de lo que implica la creación de un lexicón computacional, y más concretamente una base de datos léxica, en el Capítulo 2 estudiamos aquellas implementaciones más relevantes y vimos cómo efectivamente algunas de ellas, (WordNet, Acquilex) están siendo reutilizadas en aplicaciones de NLP diversas, incluyendo la traducción automática. En esta sección de nuestro trabajo prestamos especial atención a aquellos esfuerzos encaminados a conseguir recomendaciones y pautas a seguir en cuanto a la representación léxica, que nos servirían para la implementación de nuestro lexicón. En suma, este estudio nos condujo a conocer las dificultades que la construcción de este tipo de recursos conlleva y a tener en cuenta los errores cometidos con anterioridad, sobre todo en lo que concierne a la reutilización de recursos.
El Capítulo 3 lo dedicamos al estudio de la traducción automática. Tras mostrar someramente los procesos fundamentales que un sistema de este tipo ha de llevar a cabo, en cuanto a análisis y generación de textos, decidimos explorar los diversos enfoques propuestos en este vasto campo. En primer lugar hicimos un repaso de los enfoques tradicionales a este tipo de aplicaciones, es decir los enfoques directos, los de interlingua y el paradigma de transferencia, a la vez que pusimos de relieve sus respectivas ventajas y desventajas. Así mismo, repasamos los sistemas de TA que hoy en día se consideran como clásicos, prestando especial atención al modo en que el componente léxico había sido tratado en ellos.
A continuación pasamos a estudiar los enfoques más modernos. Aunque mencionamos los enfoques empíricos, tanto los estadísticos como los basados en el ejemplo, los descartamos para nuestro trabajo, ya que estos sistemas no contemplan la inclusión de componente léxico alguno; también expusimos sus manifiestas desventajas. Finalmente nos concentramos en el paradigma de la traducción automática basada en el conocimiento.
Dicho paradigma se basa en la utilización de un repositorio de conocimiento altamente estructurado, la ontología, que se postula como independiente de cualquiera de las lenguas que el sistema de TA pretende traducir y que por tanto es susceptible de servir de punto de encuentro de las distintas lenguas. Esta ontología requiere, además, de un lexicón altamente estructurado que contenga las descripciones morfológicas, sintácticas y semánticas, así como enlaces a los conceptos que los definen en la ontología. Mediante esta ontología se establecen de forma indirecta los equivalentes de traducción, y es la pieza fundamental en el proceso de desambiguación semántica.
Decidimos decantarnos por este paradigma, porque pensamos que nuestro lexicón se adecua a sus necesidades y sobre todo porque creemos que este es el camino a seguir. Este tipo de aplicaciones de TA arroja resultados a largo plazo porque requiere la elaboración de vasto repositorio de conocimiento, además de las herramientas usuales en este tipo de aplicaciones. En cualquier caso, nuestra misión no era la de crear una aplicación de TA funcional, sino tan sólo la de proponer una aplicación de NLP para nuestro lexicón.
Con estos parámetros, o más bien, especificación de necesidades y requerimientos, en el Capítulo 4 llevamos a cabo un estudio de las diferentes metodologías de representación del conocimiento. Estructuramos esta sección en términos de representación del conocimiento genérica y representación léxica específica, aunque nuestra postura frente a esto es la de que este último tipo de conocimiento no es esencialmente distinto al resto. Esto lo demuestra el hecho de que los sistemas de representación léxica no son más que especializaciones de los sistemas genéricos. Estudiamos la distinción entre conceptos clave: datos, información, conocimiento, así como los sistemas de representación existentes.
Básicamente estudiamos dos tipos de sistemas: las bases de datos y las bases de conocimiento. Ateniéndonos a nuestros requisitos en cuanto a fiabilidad y seguridad para el entorno lexicográfico, decidimos emplear un modelo de datos tradicional y estándar, el modelo relacional. Éste nos garantizaba la reutilización de la información almacenada y la conectividad con otros tipos muy distintos de aplicaciones. El carácter totalmente experimental de la implementación de la ontología, por otra parte, nos ofrecía más libertad en cuanto al sistema de soporte. De entre todos los esquemas de representación estudiados, destacó sin duda los basados en marcos; además ya habíamos observado que este soporte era también el escogido por los sistemas de KBMT más relevantes y específicamente el proyecto Mikrokosmos, cuya ontología de conceptos pretendíamos utilizar en nuestra implementación.
Mediante estos dos sistemas pretendíamos suplir las deficiencias del modelo relacional en cuanto a la creación de jerarquías con herencia de propiedades, mecanismo que una representación mediante marcos garantiza. La decisión de no utilizar un formalismo de representación léxica específica, concretamente los formalismos basados en estructuras de rasgos, se debió a la patente falta de estandarización de los mismos y a las dificultades que presentan para la realización del trabajo lexicográfico, aspectos en los que un gestor de bases de datos relacional resulta apropiado, tal y como habíamos visto en el Capítulo 2 en proyectos como Cobuild.
Finalmente, en el Capítulo 5 mostramos la implementación que hemos realizado. En primer lugar hemos expuesto el diseño conceptual de la base de datos relacional que contiene los lexicones, utilizando para ello la metodología del modelado Entidad/Relación, discutiendo las razones que nos han llevado a un diseño concreto y comparando éste con algunas versiones anteriores. Destinamos igualmente un apartado a mostrar el interfaz gráfico de usuario que hemos desarrollado, aspecto importante, ya que es el único modo de interacción entre la aplicación de base de datos y el lexicógrafo.
Creemos que el primer objetivo que nos proponíamos ha sido alcanzado satisfactoriamente, materializándose en la aplicación de base de datos léxica que hemos descrito. Dicha aplicación se atiene a diversos requerimientos establecidos por proyectos europeos de gran alcance y repercusión, sobre todo Multilex, proyecto específicamente enfocado a la creación de lexicones multilingües de aplicación general, así como al establecimiento de estándares de reutilización de este tipo de recursos léxicos.
Un resultado interesante ha sido la repercusión que la introducción de la ontología, como repositorio conceptual para posibilitar la TA basada en el conocimiento, ha tenido en el esquema general. Como vimos, la caracterización ontológica de los lexemas contenidos en la base de datos léxica puede implicar un proceso de adaptación de las descripciones típicas producidas mediante la aplicación del FLM. Nos referimos a aquellos aspectos del modelo original que impiden la utilización de predicados abstractos o simbólicos para la caracterización de las unidades léxicas, especialmente los siguientes:
La descripción de unidades léxicas mediante otras unidades léxicas (no importa la metodología que se use para ello) es inadecuada para una representación formalizada del significado de las mismas. Al menos en lo que se refiere a la utilización de estas descripciones por una aplicación de NLP. El único tipo de traducción que este tipo de representaciones permite es la transferencia (asignación de enlaces específicos entre equivalentes de traducción). Ya mostramos los inconvenientes de este tipo de arquitecturas, así como nuestras razones para defender las metodologías basadas en el conocimiento, por lo que no volveremos a repetirlas aquí.
En cualquier caso, este enfoque a la TA requiere, por definición, la utilización de entidades abstractas (conceptos) que sirvan de punto de unión entre las unidades léxicas pertenecientes a varias lenguas. Estas entidades abstractas, por otra parte, no son susceptibles de recibir las críticas tradicionales aplicables a la utilización de primitivos semánticos, ya que, como hemos mostrado, mantienen demasiadas diferencias con respecto a éstos. Además, su estructuración jerárquica en un cuerpo de conocimiento autónomo y gestionado por esquema de representación basado en marcos, garantiza su propia coherencia interna.
Por lo que respecta a la estructuración de campos léxicos en dimensiones, ya mostramos en el capítulo anterior el modo en que la ontología supera con creces las posibilidades ofrecidas por el análisis en campos léxicos en cuanto al análisis automático del lenguaje natural. En primer lugar porque las entidades contenidas en una estructuración mediante dimensiones son los propios lexemas, con lo que volvemos a echar en falta un cuerpo de conocimiento independiente de la lengua y abstracto, que permita la TA basada en el conocimiento. Al mismo tiempo, esta metodología se queda muy atrás en cuanto que no tiene en cuenta de forma específica las relaciones entre lexemas clasificados en diversos campos léxicos, es decir, carece de una especificación formal de aspectos semánticos claves, tales como las relaciones de polisemia y meronimia, que, por otra parte, son eficazmente representadas en una ontología, no a nivel de lexemas, sino a nivel conceptual, con el consiguiente ahorro representativo que con ello se consigue, pues la relación lexema:concepto es n:1.
No cabe duda de que la utilización de ontologías para NLP es criticable en otros aspectos, de entre los que destaca la inexistencia de una metodología válida para la creación misma de la ontología. En este sentido, es interesante hacer notar que la metodología de análisis especificada por el FLM es valiosa precisamente para averiguar cuestiones críticas en la creación de ontologías, como por ejemplo la determinación de los conceptos que han de ser incluidos, así como su posición en la jerarquía. Para afirmar esto nos basamos en la experiencia acumulada en el desarrollo de este trabajo y pensamos que esta inesperada característica puede ofrecer muchas posibilidades.
Pensamos que la utilización de ontologías del tipo de la que nosotros hemos mostrado presenta un buen número de posibilidades no sólo para la traducción automática, sino para las tareas de NLP en general. Además, la semántica basada en ontología impone una profunda reflexión sobre el significado de las palabras y su relación con los conceptos que simbolizan y por tanto sobre nuestras propias estructuras conceptuales.
Por tanto, pretendemos continuar esta línea de investigación, sobre todo en lo que se refiere a la consecución de una metodología más apropiada para la creación de ontologías para NLP, ya que actualmente no existen parámetros concretos que marquen la inclusión de conceptos. Puede que una ontología sea un "recurso artificial que se crea", pero sin duda ha de corresponderse con una "entidad natural" que debemos descubrir.
Anterior
I
Siguiente
I
Índice General
ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz