ISSN: 1139-8736
Depósito Legal: B-35510-2000

2.2.1 Sentando las Bases para la Construcción de Lexicones Automatizados en Europa: La Conferencia de Marina di Grosseto

Hacer un recorrido histórico por todos los lexicones computacionales que se han creado tanto en Europa como en los Estados Unidos o Japón sería interminable a la vez que poco fructífero para nuestros propósitos. Creemos que es más apropiado ofrecer un panorama general de su historia, de este modo podremos entender mejor la situación actual de la lexicografía computacional. Para ello, debemos detenernos en un momento histórico relativamente reciente, que marca un punto de inflexión en lo que se refiere al procesamiento del lenguaje natural en general y en la creación de lexicones computacionales en particular.

Nos referimos a la conferencia sobre lexicones automáticos celebrada en Marina di Grosseto, ya que los motivos que llevaron a organizar esta conferencia hacen patente la situación y los problemas que la construcción de lexicones computacionales planteaba hasta ese momento. También nos parece un momento histórico a destacar porque de las recomendaciones que allí se hicieron se derivan la mayoría de los proyectos computacionales que se están llevando a cabo hoy día tanto en Europa como en Estados Unidos y Japón.

Esta conferencia se celebró en Italia, los días 19-23 mayo de 1986, con el nombre "Automating the Lexicon: Research and Practice in a Multilingual Environment". Tuvo su origen, en palabras de sus organizadores (Nicoletta Calzolari, Don Walker y Antonio Zampolli), en el "dramático" aumento de interés en el lexicón que se venía dando durante los años ochenta. Este interés era entonces atribuido a un número de factores que aún hoy, once años después, pueden considerarse relevantes. Estos factores pueden resumirse en los siete siguientes (Walker, Zampolli & Calzolari 1995:2):

  1. Los desarrollos dentro del ámbito de la lingüística teórica que demostraban que el lexicón es una fuente central de información sintáctica y semántica.
  2. El convencimiento de que la viabilidad de las aplicaciones de procesamiento de lenguaje natural depende de la creación de grandes sistemas construidos a escala internacional, que contengan cientos de miles de entradas léxicas.
  3. El considerable esfuerzo que se requiere para la creación de lexicones completos para dichos propósitos. Este esfuerzo constituye la tarea más costosa y laboriosa de los sistemas de procesamiento de lenguaje natural. Era un hecho entonces, y la situación en este sentido no ha cambiado, que cada sistema construye su propio lexicón, aunque esta multiplicación de esfuerzo sea enormemente costosa (tanto en tiempo como en dinero). En un mundo ideal, esta inversión debería hacerse rentable, y la información contenida en un sistema debería ser exportable y reutilizable en otro sistema. Sin embargo, las diferencias en la organización y en el contenido de los lexicones hacen difícil o virtualmente imposible que información lingüística relevante se comparta en diversos sistemas.
  4. La comunidad lingüística computacional se hacía cada día más consciente de los grandes recursos que suponían los diccionarios publicados, de modo que estudiaban procedimientos para determinar el modo en que la información disponible en formato magnético podía usarse para agilizar el desarrollo de los sistemas de procesamiento de lenguaje natural (véase apartado 2.3).
  5. Los editores, por su parte, se estaban dando cuenta de la importancia de establecer bases de datos léxicas de las que se pudiera derivar una gran variedad de diccionarios, haciendo así más rentable la inversión que supone la compilación de información lexicográfica.
  6. El aumento de los canales de comunicación entre lexicólogos, lexicógrafos, lingüistas, lingüistas computacionales, editores y empresas que se dedican al desarrollo de software para procesamiento de lenguaje natural, estaba revelando tanto objetivos comunes como conocimientos y experiencias complementarias.
  7. Los resultados iniciales de diversas investigaciones apoyaban la idea de que es posible construir lexicones neutrales que pueden ser compartidos por diferentes teorías, de modo que un interfaz permita seleccionar la información lingüística relevante a cada teoría, y así paliar los problemas a los que hacemos referencia en el punto 3 arriba.

Estos factores siguen estando en vigencia hoy día y las decisiones tomadas en referencia a cada uno de ellos tuvieron una gran repercusión posterior, sobre todo si tenemos en cuenta la importancia de los patrocinadores de esta conferencia y el hecho de que los investigadores más destacados en el área de la lexicografía computacional participaron activamente en ella, tanto en su organización como en las diversas discusiones que allí tuvieron lugar. La conferencia fue patrocinada por la Comisión de la Comunidad Europea (CEC), el Consejo de Europa (CE) y la Fundación de Ciencia Europea. Contaba con el apoyo de organismos tan relevantes como la Asociación de Lingüística Computacional (ACL: Association for Computational Linguistics), la Universidad de Pisa, el Instituto de Lingüística Computacional del Consejo Nacional de Investigación en Italia y Euralex, entre otros.

Consecuencia directa del encuentro de investigadores provenientes de las diversas áreas interesadas en la lexicografía computacional, (el mundo académico, el mundo editorial y la industria), fue una serie de recomendaciones para acciones futuras integradas, que intentaran paliar la falta de comunicación que entonces existía entre los diversos proyectos que se llevaban a cabo tanto en el mundo editorial como en el académico, y que incentivara la participación (y la financiación) de la industria en proyectos venideros. A once años vista, no es difícil ver que estas recomendaciones han tenido un gran impacto en la comunidad científica y que han servido de inspiración para muchos proyectos llevados a cabo después, algunos de los cuales todavía continúan hoy. Estas recomendaciones han ayudado a dibujar el panorama de la lexicografía computacional tal y como hoy la conocemos, aunque aún queda un largo camino por recorrer para cumplirlas todas.

Aunque en el texto original aparecen 33 recomendaciones, destacamos las siguientes por su mención específica a la construcción de lexicones computacionales y por su gran influencia posterior:

Como vemos, muchas de las recomendaciones están enfocadas a asegurar la reutilización de recursos a través de la consecución de estándares de representación y manipulación de datos. Evidentemente éste es un tema de gran importancia porque evita que el trabajo se duplique innecesariamente. Nuestra propuesta de implementación también defenderá estos mismos parámetros, no sólo en lo que respecta a la utilización de modelos de datos o esquemas de representación estándar sino también al diseño del sistema de información, que deberá presentar una correcta granularidad de los datos y por tanto garantizar su independencia.

El objetivo de que diversas teorías lingüísticas puedan utilizar la misma información léxica, es decir, la independencia de la teoría gramatical que postulábamos en el capítulo introductorio, formaba también parte de las recomendaciones de Marina di Grosseto. Lo mismo ocurre con el propósito de utilizar las mismas fuentes de información y marcos de trabajo en diversos tipos de aplicaciones: diccionarios impresos y NLP, otro de nuestros objetivos principales.

En el siguiente apartado desarrollamos el concepto de reutilización tal y como se entiende en el ámbito de la lexicografía computacional actual.

 

Anterior  I  Siguiente  I  Índice capítulo 2  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz