ISSN: 1139-8736
Depósito Legal: B-35510-2000
2.2.1 Sentando las Bases para la Construcción de Lexicones
Automatizados en Europa: La Conferencia de Marina di Grosseto
Hacer un recorrido histórico por todos los lexicones computacionales que se han creado
tanto en Europa como en los Estados Unidos o Japón sería interminable a la vez que poco
fructífero para nuestros propósitos. Creemos que es más apropiado ofrecer un panorama
general de su historia, de este modo podremos entender mejor la situación actual de la
lexicografía computacional. Para ello, debemos detenernos en un momento histórico
relativamente reciente, que marca un punto de inflexión en lo que se refiere al
procesamiento del lenguaje natural en general y en la creación de lexicones
computacionales en particular.
Nos referimos a la conferencia sobre lexicones automáticos
celebrada en Marina di Grosseto, ya que los motivos que llevaron a organizar esta
conferencia hacen patente la situación y los problemas que la construcción de lexicones
computacionales planteaba hasta ese momento. También nos parece un momento histórico a
destacar porque de las recomendaciones que allí se hicieron se derivan la mayoría de los
proyectos computacionales que se están llevando a cabo hoy día tanto en Europa como en
Estados Unidos y Japón.
Esta conferencia se celebró en Italia, los días 19-23 mayo
de 1986, con el nombre "Automating the Lexicon: Research and Practice in a
Multilingual Environment". Tuvo su origen, en palabras de sus organizadores
(Nicoletta Calzolari, Don Walker y Antonio Zampolli), en el "dramático" aumento
de interés en el lexicón que se venía dando durante los años ochenta. Este interés
era entonces atribuido a un número de factores que aún hoy, once años después, pueden
considerarse relevantes. Estos factores pueden resumirse en los siete siguientes (Walker,
Zampolli & Calzolari 1995:2):
- Los desarrollos dentro del ámbito de la lingüística teórica que demostraban que el
lexicón es una fuente central de información sintáctica y semántica.
- El convencimiento de que la viabilidad de las aplicaciones de procesamiento de lenguaje
natural depende de la creación de grandes sistemas construidos a escala internacional,
que contengan cientos de miles de entradas léxicas.
- El considerable esfuerzo que se requiere para la creación de lexicones completos para
dichos propósitos. Este esfuerzo constituye la tarea más costosa y laboriosa de los
sistemas de procesamiento de lenguaje natural. Era un hecho entonces, y la situación en
este sentido no ha cambiado, que cada sistema construye su propio lexicón, aunque esta
multiplicación de esfuerzo sea enormemente costosa (tanto en tiempo como en dinero). En
un mundo ideal, esta inversión debería hacerse rentable, y la información contenida en
un sistema debería ser exportable y reutilizable en otro sistema. Sin embargo, las
diferencias en la organización y en el contenido de los lexicones hacen difícil o
virtualmente imposible que información lingüística relevante se comparta en diversos
sistemas.
- La comunidad lingüística computacional se hacía cada día más consciente de los
grandes recursos que suponían los diccionarios publicados, de modo que estudiaban
procedimientos para determinar el modo en que la información disponible en formato
magnético podía usarse para agilizar el desarrollo de los sistemas de procesamiento de
lenguaje natural (véase apartado 2.3).
- Los editores, por su parte, se estaban dando cuenta de la importancia de establecer
bases de datos léxicas de las que se pudiera derivar una gran variedad de diccionarios,
haciendo así más rentable la inversión que supone la compilación de información
lexicográfica.
- El aumento de los canales de comunicación entre lexicólogos, lexicógrafos,
lingüistas, lingüistas computacionales, editores y empresas que se dedican al desarrollo
de software para procesamiento de lenguaje natural, estaba revelando tanto
objetivos comunes como conocimientos y experiencias complementarias.
- Los resultados iniciales de diversas investigaciones apoyaban la idea de que es posible
construir lexicones neutrales que pueden ser compartidos por diferentes teorías,
de modo que un interfaz permita seleccionar la información lingüística relevante a cada
teoría, y así paliar los problemas a los que hacemos referencia en el punto 3 arriba.
Estos factores siguen estando en vigencia hoy día y las
decisiones tomadas en referencia a cada uno de ellos tuvieron una gran repercusión
posterior, sobre todo si tenemos en cuenta la importancia de los patrocinadores de esta
conferencia y el hecho de que los investigadores más destacados en el área de la
lexicografía computacional participaron activamente en ella, tanto en su organización
como en las diversas discusiones que allí tuvieron lugar. La conferencia fue patrocinada
por la Comisión de la Comunidad Europea (CEC), el Consejo de Europa (CE) y la Fundación
de Ciencia Europea. Contaba con el apoyo de organismos tan relevantes como la Asociación
de Lingüística Computacional (ACL: Association for Computational Linguistics), la
Universidad de Pisa, el Instituto de Lingüística Computacional del Consejo Nacional de
Investigación en Italia y Euralex, entre otros.
Consecuencia directa del encuentro de investigadores
provenientes de las diversas áreas interesadas en la lexicografía computacional, (el
mundo académico, el mundo editorial y la industria), fue una serie de recomendaciones
para acciones futuras integradas, que intentaran paliar la falta de comunicación que
entonces existía entre los diversos proyectos que se llevaban a cabo tanto en el mundo
editorial como en el académico, y que incentivara la participación (y la financiación)
de la industria en proyectos venideros. A once años vista, no es difícil ver que estas
recomendaciones han tenido un gran impacto en la comunidad científica y que han servido
de inspiración para muchos proyectos llevados a cabo después, algunos de los cuales
todavía continúan hoy. Estas recomendaciones han ayudado a dibujar el panorama de la
lexicografía computacional tal y como hoy la conocemos, aunque aún queda un largo camino
por recorrer para cumplirlas todas.
Aunque en el texto original aparecen 33 recomendaciones,
destacamos las siguientes por su mención específica a la construcción de lexicones
computacionales y por su gran influencia posterior:
- Crear y mantener registros de diccionarios electrónicos y otras fuentes similares,
bases de datos léxicas, córpora textuales, referencias bibliográficas y sus documentos
correspondientes, así como de los recursos humanos. En la medida de lo posible,
establecer repositorios de materiales que se puedan distribuir libremente.
- Establecer convenciones terminológicas para el manejo de los recursos léxicos, de modo
que los grupos que trabajan en computación puedan compartir los recursos con aquellos que
tienen una orientación más tradicional.
- Establecer redes de comunicación, a ser posible electrónicas, entre los participantes
de la conferencia y otros grupos de investigadores, para permitir un mayor flujo de
información sobre nuevos desarrollos y para crear un foro de discusión. Establecer, así
mismo, canales de comunicación a través de las sociedades profesionales, sus
publicaciones periódicas, hojas informativas y las conferencias presentadas en sus
congresos (por ejemplo, la Association for Computational Linguistics (ACL), Euralex,
Association for Literary and Linguistic Computing (ALLC), y la Association
for Computers and the Humanities (ACH). Dentro de este apartado también se propuso
desarrollar la movilidad de los investigadores, a través de cursos sabáticos o
invitaciones que faciliten el trabajo conjunto en proyectos. Apoyar la creación de
cursos, libros, manuales de lexicografía y lexicología que fomenten el entendimiento
interdisciplinar y que puedan ser usados en varios contextos educacionales o de
aprendizaje.
- Estudiar el trabajo de los lexicógrafos para poder incorporar los resultados a sistemas
basados en el conocimiento que ayuden en las actividades lexicográficas. Estudiar
también el modo en el que las personas usan los diccionarios, ya sean electrónicos o en
papel, y las bases de datos léxicas para determinar los procedimientos más efectivos
para la interacción entre los seres humanos y los ordenadores.
- Desarrollar estaciones de trabajo léxicas y lexicográficas que contengan recursos,
datos y herramientas que sirvan de apoyo para actividades lexicológicas y
lexicográficas. Investigar nuevas tecnologías y productos que puedan ser incorporados en
dichas estaciones de trabajo.
- Organizar un grupo de trabajo sobre "entrada de datos léxicos", que se
encargue de identificar los materiales léxicos que deberían existir en formato
electrónico. Este grupo también debía encargarse de determinar un formato o conjunto de
formatos estándar en el que se deban representar los datos léxicos, así como de hacer
que los datos codificaran de acuerdo con los estándares y se distribuyeran en la
comunidad científica.
- Comparar y contrastar información léxica, en concreto en la forma de "entradas
léxicas", tal y como se reflejan en teorías de lógica y lingüística, en sistemas
de lingüística computacional, en diccionarios electrónicos, en las traducciones y el la
práctica lexicográfica para poder determinar dimensiones de similitudes y diferencias.
De este modo, basándose en estas dimensiones, se puede crea un "metaformato",
que englobe las estructuras de los diferentes tipos de información que debe incluirse, y
que puede ser usada tanto como marcos de referencia para la evaluación y el intercambio,
así como modelo de "meta-lexicón computacional" del que se puedan derivar
otros lexicones para la investigación.
- Establecer procedimientos para la conversión de los contenidos de los diccionarios
electrónicos, los córpora textuales y otros recursos en formatos apropiados para un
amplio espectro de necesidades computacionales.
- Aplicar análisis de frecuencia a córpora textuales, para recoger datos sincrónicos y
diacrónicos sistemáticos y representativos sobre un buen número de variables
lingüísticas.
- Determinar si los diccionarios pueden ser diseñados de forma que puedan ser usados
tanto por humanos como por ordenadores. Convencer a los editores de que guarden las cintas
de fotocomposición de sus libros, revistas y otros materiales publicados y ponerlos a la
disposición de los investigadores.
- Establecer diseños y patrones de proyectos que promuevan el uso común de datos,
herramientas y recursos humanos de investigadores académicos e industriales, grupos de
desarrollo, editores y firmas comerciales que introducen en el mercado los productos
léxicos.
- Crear bases de datos léxicas y explorar su utilidad en la creación de diccionarios
generales y especializados, monolingües y bilingües, y diccionarios para la producción
o la comprensión de una lengua.
- Establecer procedimientos para derivar material léxico y lexicográfico (monolingüe y
bilingüe) a partir de córpora textuales. En este sentido son de particular interés las
estrategias para identificar automáticamente frases, sinónimos, hipónimos, y otras
clases de relaciones.
- Establecer grandes recopilaciones de traducciones (evaluadas) en pares de lenguas y en
mayor número, en las que se reflejen las fuentes bilingües o multilingües, y
desarrollar procedimientos para explorar y explotar sus correspondencias.
- Desarrollar metodologías para relacionar diccionarios monolingües y bilingües:
explorar la posibilidad de combinar diccionarios técnicos monolingües con diccionarios
bilingües generales para crear diccionarios técnicos bilingües.
- Establecer índices léxicos para determinar y representar rasgos estilísticos,
códigos de campo y parámetros sociolingüísticos, así como crear procedimientos para
incorporarlos a los diccionarios electrónicos y para usarlos en la investigación
lexicológica y lexicográfica.
- Desarrollar nuevos lenguajes de programación que permitan la manipulación coordinada
de cadenas (secuencias de textos) y de estructuras (taxonomías, marcos y relaciones
lógicas). Desarrollar diseños de bases de datos que permitan el almacenamiento, acceso y
gestión (a niveles de gran detalle) tanto de la forma como del contenido de ficheros de
texto de millones de palabras.
Como vemos, muchas de las recomendaciones están enfocadas a
asegurar la reutilización de recursos a través de la consecución de estándares de
representación y manipulación de datos. Evidentemente éste es un tema de gran
importancia porque evita que el trabajo se duplique innecesariamente. Nuestra propuesta de
implementación también defenderá estos mismos parámetros, no sólo en lo que respecta
a la utilización de modelos de datos o esquemas de representación estándar sino
también al diseño del sistema de información, que deberá presentar una correcta
granularidad de los datos y por tanto garantizar su independencia.
El objetivo de que diversas teorías lingüísticas puedan
utilizar la misma información léxica, es decir, la independencia de la teoría
gramatical que postulábamos en el capítulo introductorio, formaba
también parte de las recomendaciones de Marina di Grosseto. Lo mismo ocurre con el
propósito de utilizar las mismas fuentes de información y marcos de trabajo en diversos
tipos de aplicaciones: diccionarios impresos y NLP, otro de nuestros objetivos
principales.
En el siguiente apartado desarrollamos
el concepto de reutilización tal y como se entiende en el ámbito de la lexicografía
computacional actual.
Anterior
I
Siguiente
I
Índice capítulo 2
I
Índice General