ISSN: 1139-8736
Depósito Legal: B-35510-2000

2.2.2 Nuevas tendencias en los sistemas de NLP: El concepto de REUTILIZACIÓN

A partir de mediados de los años ochenta, se desarrollaron un gran número de proyectos y actividades en el ámbito de la investigación léxica. Estos desarrollos tuvieron lugar no sólo en Europa, sino también en Estados Unidos y en Japón. Cada uno de estos proyectos había desarrollado sus sistemas de representación léxica atendiendo a las exigencias de las aplicaciones particulares para las que estaban siendo creados, más aun, los lexicones que esos sistemas contenían eran prototipos específicos para esas aplicaciones (ver nota al pie ), que no se podían extender a gran escala debido al coste humano y computacional que eso supondría y cuya información estaba expresada en formatos que los hacían difícilmente compatibles con otros sistemas.

Boguraev & Briscoe (1989:11) ofrecen como ejemplo de esta situación las entradas léxicas de acknowledge correspondientes a tres sistemas diferentes: el sistema BBN-CFG desarrollado por Ingria a finales de los años ochenta, el sistema IRUS y el analizador morfológico y sintáctico Alvey desarrollado por Carroll y Grover. Reproducimos los tres a continuación:

[ACKNOWLEDGE Category: V Base: acknowledge Features: (TRANSITIVE (REALNP) (PASSIVIZES)) ;;1.2.3.4.5. (CLAUSE (REALNP) (THATCOMP) ;;1. (INDICATIVE: TENSE) (WH-)) (NP-VP :AGR : AGRX (REALNP) :AGRX ;;1. (PASSIVIZES) (INF) (WH-))]

 

  [ACKNOWLEDGE FEATURES (TRANS ;;1.2.3.4.5. PASSIVE ;;1.2.3.4.5. THATCOMP ;;1. THATREQUIRED ;;1. NPTOCOMP) ;;1. V S-D]

 

  (acknowledge ;; 1,2,3,4,5 ((v +) (n -) (subcat npl)) acknowledge nil) ;; (acknowledge ;; 1 ((v +) (n -) (subcat sfin)) acknowledge nil) ;; ;acknowledge that they were defeated (acknowledge ;; 1 ((v +) (n -) (subcat se3)) acknowledge nil) ;; ;acknowledge having been defeated (acknowledge ;; 1 ((v +) (n -) (subcat or)) acknowledge nil) ;; ;acknowledge him to be the best

Estas tres entradas contienen información similar en lo que se refiere a la clasificación sintáctica de las palabras y a otras categorías más específicas. Sin embargo, la información está codificada de maneras tan diferentes que no sería posible intercambiar los lexicones de estos tres sistemas ni, lo que es más importante, compartir la información que en ellos se contiene.

En este sentido, otra de las consecuencias que tuvo la conferencia de Marina di Grosseto fue la aparición de una nueva perspectiva que ha inspirado muchos de los recientes desarrollos en el área léxica: la noción de reutilización (reusability), tanto en el sentido de reutilizar los recursos léxicos existentes (como por ejemplo los diccionarios electrónicos), como en el sentido de construir recursos léxicos que puedan ser utilizados en varias marcos de trabajo tanto teóricos como aplicados.

El concepto de reutilización, directamente relacionado con la importancia de los recursos lingüísticos (léxicos, textuales, gramaticales, de conocimiento) construidos a gran escala, ha contribuido en gran medida a la estructura de las iniciativas de investigación y desarrollo. Este concepto, junto con la noción de "industrias de la lengua", ha motivado casi todos los proyectos que se llevan a cabo hoy día a ambos lados del Atlántico y en Japón.

La noción de "reutilización" se entiende actualmente en dos sentidos:

Estos dos aspectos de "reutilización" se hallan representados claramente en dos proyectos europeos financiados por la Comisión de la Comunidad Europea (Commission of European Community). El primer sentido de reutilizable se encuentra en el proyecto Acquilex (SPRIT BRA), cuya finalidad era la adquisición de información léxica de diccionarios electrónicos, para crear aplicaciones de procesamiento de lenguaje natural, proyecto del que nos ocuparemos en el apartado 2.4.1 y cuyos desarrollos posteriores han hecho uso del segundo aspecto del término "reutilización". El segundo sentido de reutilizable también se halla en el proyecto ET-7 (CEC), un estudio de viabilidad para la construcción de recursos léxicos y terminológicos reutilizables, estudio que después sirvió de guía al proyecto Multilex, del que nos ocuparemos en el capítulo siguiente.

Aparte de estos proyectos, que se pueden considerar pioneros en este área, el desarrollo de proyectos internacionales (financiados tanto por organizaciones públicas como privadas) ha sido tan grande que no nos es posible aquí hacer un análisis detallado de cada uno de ellos, por lo que en las secciones siguientes analizaremos con detalle sólo algunos que son particularmente relevantes para nuestro estudio. Otras iniciativas (las dedicadas a la traducción automática, como por ejemplo Eurotra y uno de sus proyectos dependientes Multilex) serán tratadas en el Capítulo 3.

Sí nos parece conveniente, sin embargo, nombrar algunos de los esfuerzos europeos, ya que todos ejemplifican de algún modo la forma en la que las recomendaciones que citábamos más arriba se han puesto (o se están poniendo) en práctica. Estos proyectos han sido financiados principalmente por organismos internacionales: la Comisión de la Comunidad Europea, su programa ESPRIT y los programas de Investigación e Ingeniería Lingüística (Language Research and Engineering: LRE), EUREKA y el Consejo de Europa (Council of Europe), ya que en los informes técnicos de estos proyectos se encuentra ampliamente representado el estado actual de la investigación sobre el procesamiento del lenguaje natural, así como los avances que se están desarrollando en diversas áreas de la "industria de la lengua". Nombramos aquí algunos de estos proyectos y su área de investigación:

También en Estados Unidos ha habido un gran número de iniciativas para crear y distribuir recursos lingüísticos y córpora textuales orales y escritos, así como a crear lexicones y gramáticas multifuncionales, como por ejemplo los promovidos por el Consortium for Lexical Research (CLR), la Data Collection Initiative (DCI), el Linguistic Data Consortium (LDC). Estos proyectos están financiados por la Asociación de Lingüística Computacional (ACL), la US National Science Foundation (NSF) y la US Defense Research Projects Agency.

Otro importante proyecto llevado a cabo en los Estados Unidos es WordNet, del que nos ocuparemos más adelante (apartado 2.4.2), un sistema de representación de relaciones léxicas entre palabras y conceptos, respaldado por diversas instituciones gubernamentales y privadas norteamericanas: el Departamento de Investigación Naval, la Fundación James S. McDonnell y la Universidad de Princeton. Haciendo uso de la noción de reutilización (sobre todo en su segundo aspecto), WordNet ha sido "reutilizado", por ejemplo, en el proyecto de traducción automática Pangloss (del que nos ocuparemos en el apartado 3.3.5).

Existen otras muchas iniciativas que no podemos detenernos a nombrar aquí8. Lo más destacable es que casi todas estas iniciativas responden a alguna de las recomendaciones hechas en Marina di Grosseto y que a través de todos estos proyectos se destila un movimiento, tanto intelectual como económico, que implica consideraciones "estratégicas" precisas: la definición de un plan de investigación y desarrollo que permita la cooperación para evitar la duplicación de esfuerzos y que fomente la distribución sistemática del conocimiento.


NOTAS

  1. Walker, Calzolari & Zampolli (1995:17) ofrecen una recopilación más amplia de estos proyectos y detallan su relación con cada una de las recomendaciones de Marina di Grosseto.

 

Anterior  I  Siguiente  I  Índice capítulo 2  I  Índice General


ISSN: 1139-8736
Depósito Legal: B-35510-2000
Copyright © 2000 Antonio Moreno Ortiz