1.2 Adecuación lexicográfica y computacional del modelo

ISSN: 1139-8736
Depósito Legal: B-35510-2000

1.2 Adecuación lexicográfica y computacional del modelo

El modelo de análisis léxico que acabamos de describir supone un marco de trabajo de gran valía para el trabajo lexicográfico, hecho corroborado por los trabajos realizados por varios miembros del grupo de investigación dirigido por el Prof. Martín Mingorance, en los que se recogen diversas aplicaciones del modelo a diferentes aspectos lingüísticos del inglés, alemán y español. Citamos, a modo de ejemplo, los magníficos trabajos relativos al lexicón de afijos de la FG realizado por Cortés Rodríguez (1994) y el estudio de la causatividad del léxico derivado realizado por Martín Morillas (1984), el exhaustivo análisis del clasema evaluación en el léxico adjetival del inglés y el español realizado por Felices Lago (1991), la excelente investigación relativa a la codificación del componente pragmático en los verbos de acto de habla en las lenguas inglesas, alemana y española realizado por Jiménez Hurtado(1994a, 1994b), la aplicación didáctica del modelo desarrollada por Marín Rubiales (1994), el estudio del lexicón verbal alemán realizado por Calañas Continente (1997) y la reciente validación etimológica del modelo elaborada por Fernández Sánchez (1997).

Todos estos trabajos no hacen sino corroborar la enorme utilidad que este modelo supone para el desarrollo de un trabajo lexicográfico con una sólida base lingüística y lexicológica. Sin embargo, el mayor exponente de esta afirmación es sin duda el resultado del proyecto lexicográfico inicial, la creación de un diccionario multilingüe inglés-español-alemán, que en estos momentos se halla en su fase final.

En cuanto a la adecuación computacional de dicho modelo, el presente trabajo tratará de demostrar que los resultados obtenidos mediante la utilización del mismo son utilizables por aplicaciones computacionales complejas. En este apartado, sin embargo, estaremos en posición únicamente de realizar un acercamiento apriorístico de dicha adecuación, ya que deberemos contar con el estudio detallado sobre lexicones computacionales y representación del conocimiento que suponen los Capítulos 2, 3 y 4 y, sobre todo, con nuestros resultados empíricos tras el modelado de datos que proponemos en el Capítulo 5, para disponer de los suficientes elementos de juicio que nos permitirán establecer de forma fundamentada dicha adecuación, así como cualquier adaptación necesaria.

La base de datos léxica que proponemos en este trabajo tiene, desde este punto de vista, un doble objeto:

Aportar un entorno unificado en el que desarrollar este tipo de trabajos de una manera homogénea, recurriendo para ello a diversos mecanismos de restricción que exploraremos en el Capítulo 5.
Confirmar la adecuación computacional del modelo lexicológico, señalando cualquier posible modificación en cuanto al modelado o estatus de los datos obtenidos, es decir la validez de los aspectos representacionales.

En cuanto a nuestro cometido dentro del proyecto éste ha sido la implementación del lexicón computacional. Para ello hemos trabajado con la información lexicográfica obtenida por otros integrantes del grupo de investigación. Esta experiencia ha evidenciado la necesidad de un entorno de trabajo unificado que impida la diversificación de formatos, siglas, errores comunes, etc. Evidentemente, la utilización de un mismo marco de trabajo teórico garantiza la obtención de un tipo de resultados afines, pero no la representación homogénea de esos resultados, ni tampoco la integridad de la información recopilada. Aunque se especifiquen un conjunto de líneas maestras a seguir para la representación textual de las descripciones lexicográficas, cosa que de hecho se hizo, la naturaleza misma de este modo de representación no impone las restricciones mínimas que un repositorio de información léxica requiere.

La utilidad de un gestor de bases de datos como mecanismo unificador y centralizador de información es bien conocida no sólo en el ámbito de las tecnologías de la información, sino también en el campo concreto de la lexicografía, especialmente a raíz de empresas lexicográficas de gran envergadura como COBUILD, donde además de utilizar intensivamente córpora textuales informatizados, se decidió desde un principio usar una base de datos con características Cliente/Servidor a partir de la cual generar el diccionario impreso. En el apartado 2.4.4 analizaremos este relevante proyecto.

El segundo objetivo, la validación del modelo como generador de representaciones léxicas válidas para su utilización por aplicaciones informáticas, es considerablemente más ambicioso.

En primer lugar, hemos de aclarar que el modelo que acabamos de exponer no propone ninguna metodología de representación, sino tan sólo de análisis léxico. Esto nos permite cumplir con un requisito de gran importancia en el ámbito de la construcción de lexicones gramaticales y que forma parte del conjunto de recomendaciones derivadas de la Conferencia de Marina di Grosseto: la independencia de la teoría gramatical. Este importante concepto se refiere no al modo de análisis y estudio del lexicón, sino a la representación de la información léxica obtenida mediante éste y está enfocado a conseguir lo que se ha dado en denominar un lexicón neutral.

Ya hemos mencionado el concepto de "independencia de los datos". La hipótesis que desarrollaremos en este trabajo a este respecto se basa en utilizar los bien conocidos principios en el ámbito de las bases de datos para conseguir un alto nivel de independencia respecto a la teoría gramatical. De este modo podremos cumplir con el propósito fundamental: facilitar la utilización de la misma información a diversos fines, independientemente de la metodología que para ello se use. En los siguientes capítulos incidiremos repetidamente sobre este importante aspecto.

Como mostraremos, las necesidades representacionales de este tipo de sistemas difieren enormemente de las descripciones lexicográficas orientadas al usuario. La idea de que la misma descripción de una entidad (léxica o de cualquier otro tipo) pueda ser utilizada por un usuario humano y por un cerebro electrónico es absolutamente descabellada, por lo que el sistema que propondremos contendrá en muchos aspectos información redundante o, dicho de otro modo, dispondrá de distintas representaciones para el mismo fenómeno.

En principio, partimos de la suposición intuitiva de que la información obtenida mediante la aplicación de un modelo lexicológico consolidado, como es el Lexemático-Funcional, es susceptible de ser utilizada en tareas de NLP en general, y de traducción automática en particular, pero no por ello descartamos cualquier adaptación que se revele como necesaria para su utilización en este tipo de aplicaciones.

Esto es así, puesto que, como trataremos de demostrar en el siguiente capítulo, mantenemos la tesis de que un diccionario en formato magnético, no es directamente aprovechable por una aplicación computacional. Así lo demuestran todos los intentos de reutilización computacional de la información contenida en diccionarios inicialmente diseñados para ser empleados por usuarios humanos. El modelo que guía la creación de nuestro diccionario, sin embargo, se distingue de éstos en que fue concebido desde un principio para ser multifuncional, es decir, para dar respuesta a las necesidades de aplicaciones dispares.

Este aspecto refuerza nuestra suposición intuitiva inicial. De hecho, la utilización de la metodología lexicográfica del FLM conduce a la adquisición de información léxica detallada y con una rica estructura interna, la cual no está presente en los diccionarios tradicionales.

El tipo de aplicación de HLT que estudiaremos como cliente potencial de nuestro sistema representacional es sin duda el más complejo: la traducción automática. Una aplicación de este tipo requiere un lexicón extremadamente detallado y adecuado al trabajo computacional.

Adelantamos en este sentido que propondremos algunas modificaciones más o menos importantes sobre el modelo que hemos descrito en el apartado anterior, no en cuanto a metodología de análisis, sino en cuanto al marco de trabajo representacional. Estas modificaciones se refieren, fundamentalmente, al estatus (dependiente de la lengua) de algunos elementos descriptivos (las restricciones de selección y los descriptores de la descomposición léxica gradual) y de macroestructura (cuestionaremos la utilidad para el procesamiento automatizado del análisis mediante dimensiones que propone la semántica estructural).

La elección del enfoque basado en el conocimiento a la traducción automática ha determinado asimismo la inclusión de elementos nuevos no contemplados en el modelo inicial y ajenos a la descripción léxica en sí misma. Nos referimos a la conexión con la base de conocimiento que todo sistema de KBMT requiere. En realidad, la propuesta inicial del Prof. Martín Mingorance sí contemplaba esta integración de recursos (Martín Mingorance 1993, 1995), aunque el tipo de base de conocimiento que nosotros proponemos es de carácter ontológico y enfocado a una tarea muy concreta: la traducción automática. Es decir, no es un repositorio de conocimiento enciclopédico, sino ontológico, independiente de la lengua y con conexiones específicas al lexicón propiamente dicho.

En definitiva, este trabajo pretende desarrollar la vertiente computacional de un modelo lexicológico consolidado, pero no por ello finalizado, que fue concebido, a nuestro entender, como plataforma base para el desarrollo de aplicaciones lexicográficas y léxico-computacionales, que aún hoy en día sigue evolucionando y siendo pulido. Nuestra aportación concreta consiste en su adaptación a las necesidades representacionales de aplicaciones computacionales que tienen en el lexicón de una lengua los cimientos de su arquitectura.

Anterior I Siguiente I Índice capítulo 1 I Índice General