2.2.1 Sentando las Bases para la Construcción de Lexicones Automatizados en Europa: La Conferencia de Marina di Grosseto

ISSN: 1139-8736
Depósito Legal: B-35510-2000

2.2.1 Sentando las Bases para la Construcción de Lexicones Automatizados en Europa: La Conferencia de Marina di Grosseto

Hacer un recorrido histórico por todos los lexicones computacionales que se han creado tanto en Europa como en los Estados Unidos o Japón sería interminable a la vez que poco fructífero para nuestros propósitos. Creemos que es más apropiado ofrecer un panorama general de su historia, de este modo podremos entender mejor la situación actual de la lexicografía computacional. Para ello, debemos detenernos en un momento histórico relativamente reciente, que marca un punto de inflexión en lo que se refiere al procesamiento del lenguaje natural en general y en la creación de lexicones computacionales en particular.

Nos referimos a la conferencia sobre lexicones automáticos celebrada en Marina di Grosseto, ya que los motivos que llevaron a organizar esta conferencia hacen patente la situación y los problemas que la construcción de lexicones computacionales planteaba hasta ese momento. También nos parece un momento histórico a destacar porque de las recomendaciones que allí se hicieron se derivan la mayoría de los proyectos computacionales que se están llevando a cabo hoy día tanto en Europa como en Estados Unidos y Japón.

Esta conferencia se celebró en Italia, los días 19-23 mayo de 1986, con el nombre "Automating the Lexicon: Research and Practice in a Multilingual Environment". Tuvo su origen, en palabras de sus organizadores (Nicoletta Calzolari, Don Walker y Antonio Zampolli), en el "dramático" aumento de interés en el lexicón que se venía dando durante los años ochenta. Este interés era entonces atribuido a un número de factores que aún hoy, once años después, pueden considerarse relevantes. Estos factores pueden resumirse en los siete siguientes (Walker, Zampolli & Calzolari 1995:2):

Los desarrollos dentro del ámbito de la lingüística teórica que demostraban que el lexicón es una fuente central de información sintáctica y semántica.
El convencimiento de que la viabilidad de las aplicaciones de procesamiento de lenguaje natural depende de la creación de grandes sistemas construidos a escala internacional, que contengan cientos de miles de entradas léxicas.
El considerable esfuerzo que se requiere para la creación de lexicones completos para dichos propósitos. Este esfuerzo constituye la tarea más costosa y laboriosa de los sistemas de procesamiento de lenguaje natural. Era un hecho entonces, y la situación en este sentido no ha cambiado, que cada sistema construye su propio lexicón, aunque esta multiplicación de esfuerzo sea enormemente costosa (tanto en tiempo como en dinero). En un mundo ideal, esta inversión debería hacerse rentable, y la información contenida en un sistema debería ser exportable y reutilizable en otro sistema. Sin embargo, las diferencias en la organización y en el contenido de los lexicones hacen difícil o virtualmente imposible que información lingüística relevante se comparta en diversos sistemas.
La comunidad lingüística computacional se hacía cada día más consciente de los grandes recursos que suponían los diccionarios publicados, de modo que estudiaban procedimientos para determinar el modo en que la información disponible en formato magnético podía usarse para agilizar el desarrollo de los sistemas de procesamiento de lenguaje natural (véase apartado 2.3).
Los editores, por su parte, se estaban dando cuenta de la importancia de establecer bases de datos léxicas de las que se pudiera derivar una gran variedad de diccionarios, haciendo así más rentable la inversión que supone la compilación de información lexicográfica.
El aumento de los canales de comunicación entre lexicólogos, lexicógrafos, lingüistas, lingüistas computacionales, editores y empresas que se dedican al desarrollo de software para procesamiento de lenguaje natural, estaba revelando tanto objetivos comunes como conocimientos y experiencias complementarias.
Los resultados iniciales de diversas investigaciones apoyaban la idea de que es posible construir lexicones neutrales que pueden ser compartidos por diferentes teorías, de modo que un interfaz permita seleccionar la información lingüística relevante a cada teoría, y así paliar los problemas a los que hacemos referencia en el punto 3 arriba.

Estos factores siguen estando en vigencia hoy día y las decisiones tomadas en referencia a cada uno de ellos tuvieron una gran repercusión posterior, sobre todo si tenemos en cuenta la importancia de los patrocinadores de esta conferencia y el hecho de que los investigadores más destacados en el área de la lexicografía computacional participaron activamente en ella, tanto en su organización como en las diversas discusiones que allí tuvieron lugar. La conferencia fue patrocinada por la Comisión de la Comunidad Europea (CEC), el Consejo de Europa (CE) y la Fundación de Ciencia Europea. Contaba con el apoyo de organismos tan relevantes como la Asociación de Lingüística Computacional (ACL: Association for Computational Linguistics), la Universidad de Pisa, el Instituto de Lingüística Computacional del Consejo Nacional de Investigación en Italia y Euralex, entre otros.

Consecuencia directa del encuentro de investigadores provenientes de las diversas áreas interesadas en la lexicografía computacional, (el mundo académico, el mundo editorial y la industria), fue una serie de recomendaciones para acciones futuras integradas, que intentaran paliar la falta de comunicación que entonces existía entre los diversos proyectos que se llevaban a cabo tanto en el mundo editorial como en el académico, y que incentivara la participación (y la financiación) de la industria en proyectos venideros. A once años vista, no es difícil ver que estas recomendaciones han tenido un gran impacto en la comunidad científica y que han servido de inspiración para muchos proyectos llevados a cabo después, algunos de los cuales todavía continúan hoy. Estas recomendaciones han ayudado a dibujar el panorama de la lexicografía computacional tal y como hoy la conocemos, aunque aún queda un largo camino por recorrer para cumplirlas todas.

Aunque en el texto original aparecen 33 recomendaciones, destacamos las siguientes por su mención específica a la construcción de lexicones computacionales y por su gran influencia posterior:

Crear y mantener registros de diccionarios electrónicos y otras fuentes similares, bases de datos léxicas, córpora textuales, referencias bibliográficas y sus documentos correspondientes, así como de los recursos humanos. En la medida de lo posible, establecer repositorios de materiales que se puedan distribuir libremente.
Establecer convenciones terminológicas para el manejo de los recursos léxicos, de modo que los grupos que trabajan en computación puedan compartir los recursos con aquellos que tienen una orientación más tradicional.
Establecer redes de comunicación, a ser posible electrónicas, entre los participantes de la conferencia y otros grupos de investigadores, para permitir un mayor flujo de información sobre nuevos desarrollos y para crear un foro de discusión. Establecer, así mismo, canales de comunicación a través de las sociedades profesionales, sus publicaciones periódicas, hojas informativas y las conferencias presentadas en sus congresos (por ejemplo, la Association for Computational Linguistics (ACL), Euralex, Association for Literary and Linguistic Computing (ALLC), y la Association for Computers and the Humanities (ACH). Dentro de este apartado también se propuso desarrollar la movilidad de los investigadores, a través de cursos sabáticos o invitaciones que faciliten el trabajo conjunto en proyectos. Apoyar la creación de cursos, libros, manuales de lexicografía y lexicología que fomenten el entendimiento interdisciplinar y que puedan ser usados en varios contextos educacionales o de aprendizaje.
Estudiar el trabajo de los lexicógrafos para poder incorporar los resultados a sistemas basados en el conocimiento que ayuden en las actividades lexicográficas. Estudiar también el modo en el que las personas usan los diccionarios, ya sean electrónicos o en papel, y las bases de datos léxicas para determinar los procedimientos más efectivos para la interacción entre los seres humanos y los ordenadores.
Desarrollar estaciones de trabajo léxicas y lexicográficas que contengan recursos, datos y herramientas que sirvan de apoyo para actividades lexicológicas y lexicográficas. Investigar nuevas tecnologías y productos que puedan ser incorporados en dichas estaciones de trabajo.
Organizar un grupo de trabajo sobre "entrada de datos léxicos", que se encargue de identificar los materiales léxicos que deberían existir en formato electrónico. Este grupo también debía encargarse de determinar un formato o conjunto de formatos estándar en el que se deban representar los datos léxicos, así como de hacer que los datos codificaran de acuerdo con los estándares y se distribuyeran en la comunidad científica.
Comparar y contrastar información léxica, en concreto en la forma de "entradas léxicas", tal y como se reflejan en teorías de lógica y lingüística, en sistemas de lingüística computacional, en diccionarios electrónicos, en las traducciones y el la práctica lexicográfica para poder determinar dimensiones de similitudes y diferencias. De este modo, basándose en estas dimensiones, se puede crea un "metaformato", que englobe las estructuras de los diferentes tipos de información que debe incluirse, y que puede ser usada tanto como marcos de referencia para la evaluación y el intercambio, así como modelo de "meta-lexicón computacional" del que se puedan derivar otros lexicones para la investigación.
Establecer procedimientos para la conversión de los contenidos de los diccionarios electrónicos, los córpora textuales y otros recursos en formatos apropiados para un amplio espectro de necesidades computacionales.
Aplicar análisis de frecuencia a córpora textuales, para recoger datos sincrónicos y diacrónicos sistemáticos y representativos sobre un buen número de variables lingüísticas.
Determinar si los diccionarios pueden ser diseñados de forma que puedan ser usados tanto por humanos como por ordenadores. Convencer a los editores de que guarden las cintas de fotocomposición de sus libros, revistas y otros materiales publicados y ponerlos a la disposición de los investigadores.
Establecer diseños y patrones de proyectos que promuevan el uso común de datos, herramientas y recursos humanos de investigadores académicos e industriales, grupos de desarrollo, editores y firmas comerciales que introducen en el mercado los productos léxicos.
Crear bases de datos léxicas y explorar su utilidad en la creación de diccionarios generales y especializados, monolingües y bilingües, y diccionarios para la producción o la comprensión de una lengua.
Establecer procedimientos para derivar material léxico y lexicográfico (monolingüe y bilingüe) a partir de córpora textuales. En este sentido son de particular interés las estrategias para identificar automáticamente frases, sinónimos, hipónimos, y otras clases de relaciones.
Establecer grandes recopilaciones de traducciones (evaluadas) en pares de lenguas y en mayor número, en las que se reflejen las fuentes bilingües o multilingües, y desarrollar procedimientos para explorar y explotar sus correspondencias.
Desarrollar metodologías para relacionar diccionarios monolingües y bilingües: explorar la posibilidad de combinar diccionarios técnicos monolingües con diccionarios bilingües generales para crear diccionarios técnicos bilingües.
Establecer índices léxicos para determinar y representar rasgos estilísticos, códigos de campo y parámetros sociolingüísticos, así como crear procedimientos para incorporarlos a los diccionarios electrónicos y para usarlos en la investigación lexicológica y lexicográfica.
Desarrollar nuevos lenguajes de programación que permitan la manipulación coordinada de cadenas (secuencias de textos) y de estructuras (taxonomías, marcos y relaciones lógicas). Desarrollar diseños de bases de datos que permitan el almacenamiento, acceso y gestión (a niveles de gran detalle) tanto de la forma como del contenido de ficheros de texto de millones de palabras.

Como vemos, muchas de las recomendaciones están enfocadas a asegurar la reutilización de recursos a través de la consecución de estándares de representación y manipulación de datos. Evidentemente éste es un tema de gran importancia porque evita que el trabajo se duplique innecesariamente. Nuestra propuesta de implementación también defenderá estos mismos parámetros, no sólo en lo que respecta a la utilización de modelos de datos o esquemas de representación estándar sino también al diseño del sistema de información, que deberá presentar una correcta granularidad de los datos y por tanto garantizar su independencia.

El objetivo de que diversas teorías lingüísticas puedan utilizar la misma información léxica, es decir, la independencia de la teoría gramatical que postulábamos en el capítulo introductorio, formaba también parte de las recomendaciones de Marina di Grosseto. Lo mismo ocurre con el propósito de utilizar las mismas fuentes de información y marcos de trabajo en diversos tipos de aplicaciones: diccionarios impresos y NLP, otro de nuestros objetivos principales.

En el siguiente apartado desarrollamos el concepto de reutilización tal y como se entiende en el ámbito de la lexicografía computacional actual.

Anterior I Siguiente I Índice capítulo 2 I Índice General