ISSN: 1139-8736 Depósito Legal: B-39199-99 |
1.3.3. NERC (NETWORK OF EUROPEAN REFERENCE CORPORA).
NERC son las siglas de la Red Europea de Corpus de referencia, un consorcio integrado por once instituciones representante cada una de ellas de un país miembro de la CEE, cuyo objetivo es la realización de un estudio de viabilidad que proporcione recomendaciones a la CEE sobre el futuro de la provisión de corpus de referencia en Europa.
NERC surge en el año 90 como una "línea exploratoria" en el marco de los proyectos lingüísticos europeos. Efectivamente, hasta este momento los asuntos relacionados con corpus de referencia no habían despertado demasiado interés en las llamadas industrias de la lengua ni en la lingüística computacional, en general. No había tampoco demasiados grupos de trabajo relacionados con corpus cuya experiencia pudiera servir de guía. No todas las lenguas, finalmente, poseían corpus de referencia sobre los que basar estudios o aplicaciones relacionados con el procesamiento de la lengua natural.
La situación requería una política a medio plazo de dotación de recursos precompetitivos que permitieran sentar las bases para un estudio de las posibilidades y demandas de este nuevo campo.
Como punto de partida se establecía la igualdad de tratamiento para las nueve lenguas comunitarias. En este orden de cosas, se dispone en primer lugar de una provisión de corpus para cada una de las nueve lenguas oficiales de la comunidad, otra segunda para cada una de las lenguas reconocidas y una tercera para las restantes lenguas indígenas y aquellas otras en la que la Comunidad pudiera estar interesada.
Sobre el manejo del correo electrónico (email y los sistemas de transferencia de ficheros, consúltese F. Marcos Marín (1994): Informática y Humanidades, Madrid: Gredos, en prensa.
Poco antes de la redacción final de esta tesis, hemos tenido noticias sobre la publicación de TEI P3 a partir del día 16 de mayo de 1994. Según señalan sus propios editores TEI P3 no es sino la recolección y publicación conjunta de los capítulos o fascículos aparecidos en los directorios públicos TEI.
Como plan de actuación se establece una estrategia dividida en tres etapas:1
1ª etapa (Duración: 10 meses)
NERC se constituye y se inicia sobre un estudio de viabilidad que afirma que una "Red Europea de Corpus de Referencia" es un objetivo posible y deseable y que, además, su establecimiento puede actuar como una plataforma central para el desarrollo de trabajos lingüísticos en el marco de la Comunidad.
En esta primera etapa se definen dos logros paralelos:
1. La inmediata provisión de material de corpus para las lenguas europeas.
2. El establecimiento de una red física, inicialmente sobre una base piloto.
Estos objetivos se concretan en las siguientes actuaciones:
1. La Comunidad Europea proporciona una multi-muestra de un millón de palabras para cada una de las nueve lenguas oficiales de la Comunidad procedente de sus propias publicaciones y documentos oficiales.
2. Se crea una red de trabajo piloto con once nods, uno para cada uno de los participantes del consorcio NERC (desde ahora, "centros de corpus").
2ª etapa (Duración 30 meses)
La segunda etapa fija su objetivo en la provisión de corpus grandes y representativos para cada una de las nueve lenguas oficiales. Estos corpus se elaborarán sobre las bases del trabajo coordinado de la primera etapa, siguiendo las recomendaciones de NERC y las observaciones de EAGLES2.
Estos corpus tendrán inicialmente cincuenta millones de palabras procedentes del registro escrito y un millón de palabras procedentes del registro oral recopiladas en uno y otro caso siguiendo los parámetros de diseño que NERC propone en el capítulo dos. Un millón de palabras dispondrá de una anotación morfosintáctica definida conforme a los criterios que se exponen en el capítulo cinco.
Finalmente, cada corpus deberá ir acompañado de un software actualizado que permita el acceso y recuperación del material que responda a los requisitos que se exponen en el capítulo cuatro.
3ª etapa
El objetivo principal de la tercera etapa es permitir que los corpus alcancen estabilidad y vigencia a través del tiempo. Esto significa que deben ser capaces de hacer frente a la enorme cantidad de datos reusable que puedan estar disponibles, a la vez que aseguran el mantenimiento y puesta al día del material existente.
La idea e disponer de lo que se denomina "corpus monitores" o corpus "en modo dinámico". Corpus capaces de dar cabida al continuo movimiento que supone la realidad del lenguaje basados en la revisión y actualización de lo existente así como en la incorporación de nuevo material3.
NOTAS
1 La memoria general que contiene el plan de trabajo de NERC fue fruto del "Workshop sobre corpus de referencia" que se celebró en Pisa en enero de 1992. A partir de éste se elabora un segundo plan de trabajo, más breve que el anterior en abril de este mismo año (NERC Consortium, 1992, NERC-99).
Toda la información que ofrecemos en este apartado procede de estos documentos.
3 El resto del documento sobre el que hemos realizado esta breve descripción de NERC recoge los trabajos de los distintos grupos del consorcio sobre los siguientes puntos:
Capítulo uno: Necesidades de usuario
Capítulo dos: Criterios de diseño de corpus.
Capítulo tres: Representación textual: lengua escrita/lengua oral.
Capítulo cuatro: Adquisición textual:
Reusabilidad/acceso y software de gestión de corpus.
Capítulo cinco: Anotación lingüística: problemas científicos y técnicos; propuestas para la armonización.
Capítulo seis: Herramientas para anotación de corpus.
Capítulo siete: Extracción de conocimiento.
Anterior I Siguiente I Índice capítulo 1 I Índice General
ISSN: 1139-8736 Depósito Legal: B-39199-99 |