ISSN:  1139-8736
Depósito Legal: B-39199-99

2.1.3 INESPECIFICACIÓN, SUBESPECIFICACIÓN Y AMBIGÜEDAD

Subespecificación y ambigüedad - señalan Leech y Wilson – son dos fenómenos que reflejan descripciones incompletas o ausencia de información que debería proporcionar un determinado etiquetado. Las razones de esta falta de información son diferentes en los dos casos.

A) IN Y SUBESPECIFICACIÓN

Simons se plantea el problema de la inespecificación como la falta de especificación para un determinado rasgo1. En este caso dice son posibles, al menos, cuatro interpretaciones de este hecho:

Para evitar la ambigüedad entre estas distintas interpretaciones se proponen los siguientes valores atómicos para la estructuras de rasgos TEI:

ANY La forma que tome el valor correspondiente es compatible (o unifica) con todos los valores posibles.
DEFAULT El rasgo toma un valor específico que puede ser asignado mediante una regla.
N/A El rasgo no es aplicable en el contexto que se analiza.
¿ El rasgo es aplicable, pero se desconoce el valor.
NO CLAIM No se toma ninguna determinación sobre el valor del rasgo o su aplicabilidad.

 Langedoen y Fahmy, a partir de esta descripción, asignan distintos códigos para los valores correspondientes a la subespecificación de rasgos, aunque no se llega a definir entidades con estos. En este orden de cosas tenemos los siguientes códigos para los distintos valores:

Código Valor
6 "cualquier valor"
7 "valor por defecto"2
8 "valor desconocido"
9 "valor no aplicable"
0 "sin determinar" (no claim).

La interpretación que hacen Leech y Wilson de la subespecificación no coincide exactamente con la inespecificación de Simons o la subespecificación de Langedoen y Fahmy. Para Leech y Wilson la "inespecificación" es el fenómeno que refleja el valor "0" del que hablaban en el nivel intermedio de codificación3. El rasgo "inespecificado" significa que la distinción entre los distintos valores que puede tomar el atributo no es relevante o no es aplicable en la palabra objeto de análisis. Las distinciones entre los distintos tipos de inespecificación se establecen a partir de tres niveles jerárquicos de análisis. En este orden de cosas la inespecificación puede referirse a cada uno de los siguientes casos:

a) "Subespecificado para una determinada lengua. El atributo no es aplicable a una parte de la oración determinada en la lengua objeto de análisis. Por ejemplo, el género para los nombres ingleses.
b) "Subespecificado" en el conjunto de membretes. Aunque el atributo es aplicable a una parte de la oración determinada en la lengua objeto de análisis, el conjunto de etiquetas no es lo suficientemente refinado como para representarlo. Por ejemplo, un etiquetado del inglés puede omitir la representación del género para los pronombres: "he" / "she".
c) "Subespecificado" en una determinada palabra. Aunque el atributo es aplicable en la lengua y está representado en el conjunto de etiquetas, no está marcado (está neutralizado) en una determinada palabra. Por ejemplo, los adjetivos invariables, como el alemán "prima", en los rasgos de género, número y caso4

B) AMBIGÜEDAD

Langedoen y Simons5 abordan el problema de la ambigüedad desde el punto de vista de su formalización en un formato de atributos y valores.

En este orden de cosas, se plantean la codificación de dos o más valores alternativos para un determinado rasgo o dos estructuras de rasgos posibles para una determinada palabra.

Estas alternancias no agotan todas las posibilidades de codificación. Esta diferencia justifica la necesidad de un mecanismo que dé cuenta de la alternancia frente a uno que de cuenta de la posibilidad de codificar cualquier valor entre los posibles que se indicaría mediante un valor como ANY que acabamos de ver en el apartado A.

En estos casos Langedoen y Simons proponen la inclusión de un membrete que dé cuenta de manera diferente de la alternancia entre valores y de la alternancia de estructuras de rasgos. Las etiquetas propuestas son <vAlt> para la alternancia de valores y <fAlt> para las alternancias en estructuras de rasgos.

Para delimitar los valores o estructuras de rasgos en alternancia se propone un membrete <vTerm> o <fTerm> para los valores y de las estructuras de rasgos, respectivamente. Cuando no aparece este último membrete se supone que cada valor o estructura de rasgos constituye un término de la alternancia.

Como ejemplo Langedoen y Simons muestran la codificación del pronombres alemán de tercera persona "sie" que presenta una alternancia entre los valores de acusativo y dativo y una alternancia de estructura de rasgos entre número singular, género femenino y número plural y la posibilidad de cualquier género. Esta sería la siguiente:

<fs type="word structure" n=sie>
     <f name=category> >sym value=pron> </f>
     <f name=person><sym value=third> </f>
     <f name=case>
          <vAlt> <sym value=nom> <sym
          value=acc> </vAlt> </f>
     <fAlt>
          <fTerm>
               <f name=number> <sym value=sg> </f>
               <f name=gender> <sym value=fem> </f>
          </fTerm>
          <fTerm>
               <f name=number> <sym value=pl> </f>
               <f name=gender> <any> </f>
          </fTerm>
     </fAlt>
</fs>

Para Leech y Wilson la ambigüedad es un fenómeno relacionado también con falta de información en este caso producida por la falta de certeza en la asignación de dos o más descripciones posibles.

Leech y Wilson distinguen cuatro tipos de ambigüedades en el nivel morfosintáctico:

1. Homonimia gramatical. La palabra inglesa "round", por ejemplo, puede tener cinco membretes posibles: (a) preposición, (b) adverbio/partícula, (c) adjetivo, (d) nombre, (e) verbo.6

2. Membretes "portmanteau". La tarea de codificación en corpus grandes se realiza automáticamente. Los etiquetadores pueden no tener en determinados contextos criterios suficientes para decidir entre dos lecturas categoriales posibles. En estos casos, además, puede resultar práctico la codificación de la ambigüedad. El British National Corpus, por ejemplo, refleja esta práctica en un formato TEI de la siguiente manera:

La palabra inglesa "liked" puede ser tiempo pasado o participio. Su codificación sería la siguiente: liked&VVD-VVN.

3. Ambigüedades debidas a falta de certeza humana. El anotador de corpus es incapaz de decidir un único membrete:

a) El esquema o los principios de codificación carecen de criterios de desambigüación.
b) Dos anotadores tienen criterios distintos o enfocan la práctica de codificación desde perspectivas teóricas diferentes.
c) Las categorías posibles no tienen entre sí límites demasiados claros en lo que concierne a su definición y a las palabras que engloban cada una de ellas.

4. Ambigüedades genuinamente textuales. El contexto no proporciona información suficiente para tomar una decisión en la asignación de una categoría u otra.


NOTAS

1 Cf. Gary F. Simons (1991)

2 La asignación de este rasgo se especifica en las reglas de asignación de rasgos por defecto que aparecerán en la parte del encabezador TEI que recoge las prácticas de codificación y que veremos más adelante.

3 Cf. 2.1.0.

4 Entendemos que de estos tres casos de subespecificación sólo el tercero compete a la codificación de la subespecificación en el conjunto de etiquetas de una determinada lengua.

Los dos primeros se refieren claramente al nivel intermedio de codificación ya que si un determinado rasgo no es aplicable en una lengua o si el conjunto de etiquetas no es lo suficientemente refinado como para dar cuenta de este, la declaración de rasgos en esa determinada lengua prescindiría sencillamente de él. Por ejemplo, un sistema de etiquetado del inglés prescindiría del rasgo género.

5 Cf. Langedoen y Simons (1993)

6 Leech señala que un caso de ambigüedad como éste no se da en los corpus anotados o etiquetados lingüísticamente pues la práctica de codificación manual o automática (no queda muy claro en el texto original a cuál de ellas se refiere) nos permitiría desambiguar siempre que sea posible entre las distintas asignaciones categoriales. En el ejemplo concreto que aquí se plantea no sería muy difícil decidir una entre las distintas categorías posibles.

 

Anterior  I  Siguiente  I  Índice capítulo 2  I  Índice General


ISSN:  1139-8736
Depósito Legal: B-39199-99