ISSN:  1139-8736
Depósito Legal: B-39199-99

2.1. ESTÁNDARES PARA LA DEFINICIÓN DE CONTENIDOS MORFOSINTÁCTICOS.

2.1.0. INTRODUCCIÓN

Decíamos más arriba que la codificación lingüística utiliza un sistema de definición de entidades gramaticales a partir de un sistema de rasgos atirubto-valor. Este constituye un punto de partida inicial común a los planteamientos TEI, NERC y EAGLES. Para la definición de estas entidades es necesario delimitar claramente las estructuras de rasgos de la codificación gramatical que nos proponemos desarrollar.

Se trata de establecer los contenidos de los membretes de un esquema de codificación morfosintáctica.

En junio de 1991 un grupo de trabajo del Comité de Análisis e Interpretación de la TEI estableció una lista de rasgos gramaticales que se daban en las nueve lenguas de la comunidad y en el ruso. Este comité decidió limitar estos rasgos a aquellos de los que se puede afirmar razonblemente que están morfológicamente marcados en, al menos, una de estas lenguas. Se acordó igualmente que estos rasgos constituirían el conjunto inicial para la definición de entidades a las que nos hemos referido más arriba.

El informe de este grupo de trabajo sugirió una lista de rasgos para las diez lenguas que se dividían en tres clases:

Este comité reconoció la necesidad de permitir a los codificadores in o subespecificar 2 los valores de determinados rasgos y propuso un mecanismo para hacerlo, que incluía la identificación de una serie de valores para sub o inespecificación. Además se acordó el establecimiento de un conjunto de declaraciones de estructura de rasgos que especifiquen exactamente que combinaciones de rasgos y de valores de rasgos son posibles en el documentos que se analiza.

A partir de este informe, Terence Langendoen y Eanass Fahmy 3 propusieron un modelo de formalización para codificación lingüística y una aplicación para el inglés que se presentaron en el Workshop europeo sobre TEI que tuvo lugar en la universidad de Oxford y más tarde en el Workshop norteamericano en la Universidad de Brown y que tendremos oportunidad de exponer en el punto 2.3.

En octubre de 1992, Monachini y Östling basándose en informes sobre codificación como puede ser éste de la TEI, entre otros, y en su propia experiencia en el estudio y comparación de diversas propuestas de codificación elaboraron el documento sobre estandarización morfosintáctica más arriba citado.

El propósito de este trabajo es doble, por una parte, mostrar la posibilidad de una propuesta de estandarización para anotación morfosintáctica de corpus, por otra, ofrecer una metodología para desarrollar un esquema de codificación consensual y común a las distintas lenguas comunitarias y a los diversos enfoques teóricos. Este trabajo, al igual que el anterior, pretender ser un trabajo abierto, punto de partida para futuras discusiones y desarrollo de esquemas de codificación para las distintas lenguas.

Como hemos dicho esta propuesta de estandarización constituye una segunda parte de un trabajo anterior que consistió en un análisis de los esquemas de codificación ya existentes en las diversas lenguas comunitarias. La realización de este trabajo llevó a las siguientes conclusiones:

1.  La primera es precisamente la que se deriva de la existencia de esta propuesta de estandarización de anotación morfosintáctica: es posible establecer un punto de partida que constituya la base para la estandarización de codificación morfosintáctica a partir de los esquemas de codificación desarrollados para las diferentes lenguas.
2.  Las diferencias entre las lenguas o los distintos enfoque metodológicos pueden especificarse en una propuesta abierta a la posibilidad de varios niveles de codificación.

Es importante señalar que el trabajo de Monachini y Östling se centra, al igual que TEI AI W2 en los contenidos. Las tareas de codificación de los mismos se encomiendan a un comité específico de la TEI como ya tendremos ocasión de ver más adelante.

La propuesta de Monachini y Östling se desarrolla a partir de un análisis categoría a categoría. En este orden de cosas, para cada una de las categorías objeto de análisis se definirá un conjunto de rasgos morfosintácticos asociados a ella.

En el caso de aquellas categorías que podríamos calificar como más problemáticas, ya sea porque su establecimiento como tal es más difícil de sostener, ya sea porque la asignación de rasgos morfosintácticos no es común para cada uno de los miembros de la categoría en cuestión, se propone como se anunciaba anteriormente una asignación de rasgos en diferentes niveles. De manera que, para una misma categoría, se ofrecen diferentes opciones de codificación para diferentes lenguas o diferentes aproximaciones metodológicas todas ellas compatibles entre sí.

Otra peculiaridad del trabajo de Monachini y Östling es que refleja el problema de transcategorización mediante la codificación de doble membrete en palabras ambiguas entre dos interpretaciones categóricas. En este orden de cosas, el tratamiento de las distintas categorías recoge un apartado para todas las posibles transcategorizaciones de la categoría objeto de análisis. De la misma manera busca siempre las soluciones que permitan procedimientos de desambiguación.

Finalmente, por lo que se refiere a los trabajos de grupo EAGLES, en febrero de 1994 G. Leech y A. Wilson elaboran en el marco del proyecto EAGLES (Grupo de trabajo de corpus textuales, subgrupo de anotación lingüística) un informe que constituye, a nuestro juicio, la propuesta más elaborada y consecuente acerca de estandarización en codificación morfosintáctica que haya podido haber hasta el momento.

Leech y Wilson recogen las propuestas TEI y NERC y justifican y proponen una práctica de estandarización basada en tres niveles de codificación:

a)  Atributos y valores obligatorios para el nivel de análisis morfosintáctico. Las "categorías gramaticales" o "partes de la oración" pertenecen a este nivel.
b)  Atributos y valores recomendables. Los rasgos comúnmente aceptados para cada una de las categorías gramaticales.
c)  Extensiones especiales:

Atributos y valores específicos de aplicaciones. Entre ellos podría encuadrarse la distinción contable/no contable en el nombre, la distinción entre los auxiliares "have" y "be" en inglés (o "ser" y "haber", en español), los usos atributivos o predicativos de ciertos adjetivos.
Atributos y valores específicos de lenguas. Rasgos presentes en una o varias (pero no todas) las lenguas comunitarias. Entre ellos podría encuadrarse un "género común" para el danés, la distinción entre posposición y circumposición para las adposiciones en inglés o alemán, la distinción entre aquellas conjunciones suboordinadas que introducen proposiciones finitas y las que introducen proposiciones no finitas para el alemán.

Leech y Wilson proponen también un conjunto de etiquetas intermedio y válido interlingüísticamente (utiliza unas letras ya fijadas para las categorías gramaticales y códigos numéricos para cada unos de los valores correspondientes a los rasgos a ellas asociados) que, constituye también un tipo de codificación transferible de un lexicón a un mecanismo de etiquetación automático.

Los membretes de este nivel "intermedio" de etiquetado tendrían la siguiente composición:

a)  En primer lugar se representaría mediante letras las cateogrias gramticales. Esta representación sería idéntica para las distintas lenguas.
b)  En segundo lugar se representaría el membrete complejo como una secuencia lineal de caracteres en donde cada atributo (expresado mediante un número romano en la definición del esquema de codificación 4) representa la primera, segunda, tercera, ... posición en una matriz.
c)  En tercer y último lugar cada valor de cada uno de los atributos se representa mediante el número arábigo que él mismo propone en su esquema de codificación.

Como consecuencia de b) y c), la interpretación de los membretes variará para cada una de las categorías.

Cuando un atributo es "no-aplicable" para una palabra determinada el valor "=" rellenará la posición de ese atributo en la cadena de dígitos. Cuando el "0"aparece en posiciones finales se puede prescindir de él sin pérdida de información.

Si fuera posible la asignación de más de un valor para un determinado atributo o más de una categoría para una determinada palabra se recurrirá al booleano "OR" (|) y un paréntesis para identificar los argumentos de este operador.

Otro operador que puede utilizarse es el negativo NOR (-) que significaría todos los valores definidos para un determinado atributo son válidos excepto el que precede al operador.


NOTAS

1 Categoría se entienden aquí como parte del discurso. "Categoría", es a su vez uno de los rasgos de esta primera clase.

2 Los tres documentos TEI sobre codificación utilizan indistintamente los términos "inespecificación" y "subespecificación". EAGLES utiliza siempre "subespecificación". Esta tesis como veremos en 3.1.0. hace una distinción entre ambos que se refleja en la asignación de dos valores distintos.

3 T. Langendoen & E. Fahmy (1991).

4 Vid. 2.2.

Anterior  I  Siguiente  I  Índice capítulo 2  I  Índice General


ISSN:  1139-8736
Depósito Legal: B-39199-99