ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.3.3 Codificación (anotación y etiquetado) de los córpora

Otra de las características que el informe de EAGLES (1996b) asignaba a los córpora es la simplicidad. En este caso, simplicidad se refiere al formato en el que debe encontrarse el texto, haciendo referencia al tipo de información lingüística (ya sea morfológica, sintáctica o semántica) y meta-textual (identificadores de la procedencia del texto, tipo de texto, contexto situacional, número y características de los hablantes, etc.) que a menudo se añaden al texto plano o secuencia de caracteres (en formato ASCII), para facilitar su tratamiento informático y poder procesarlo de diversas maneras. La información meta-textual puede ser muy útil, por ejemplo, en caso de que se quiera hacer estudios sobre un tipo específico de textos (podríamos, entonces, acceder sólo a textos marcados como formal o informal, etc.), un tipo de hablante (textos cuyo autor es femenino, de un área geográfica o estrato social determinado) etc.

Un corpus se puede etiquetar con información de diversa índole, para lo que se han propuesto formas de anotación diferentes. Uno de los estándares más usados hoy día 14 (Burnard 1991; Hockey 1991; Sperberg-McQueen & Burnard 1992), que supone la adopción de un sistema de codificación (mark-up) de documentos ya existente, el Standard Generalised Markup Language (SGML), puesto que es un sistema bastante sencillo, altamente formalizado y de uso común en la comunidad computacional, por lo que facilita el intercambio de recursos lingüísticos entre investigadores.15

SGML permite la codificación de documentos (entendiendo este término en su sentido más amplio) de una forma altamente estructurada, a través de un conjunto de etiquetas definibles por el usuario. La definición de etiquetas ha de ser llevada a cabo de una forma muy detallada y consistente, en lo que se denomina DTD (Document Type Definition). Este DTD debe acompañar (o darse por supuesto) a todo documento SGML para su correcta interpretación por parte de las distintas aplicaciones que pretendan hacer uso de su contenido. Por tanto la tarea del TEI en lo que respecta a la codificación de los textos que componen un corpus ha sido la de proponer un DTD estándar, de modo que el intercambio de textos entre distintos centros de investigación quede garantizado.

El tipo de anotación más usual que se suele añadir a los córpora es la que identifica las partes de la oración, conocida normalmente como etiquetación morfológica (part of speech tagging). Este tipo de etiquetas es fundamental para poder hacer más precisas las búsquedas en el corpus, puesto que nos permitirán, por ejemplo, seleccionar los usos nominales o verbales de un lema y es también un requisito básico para otros tipos de codificación más sofisticados, como el análisis sintáctico (parsing), en el que las categorías morfosintácticas asignadas se usan para producir un análisis que identifica las relaciones sintácticas entre los elementos de una oración.

En la Figura 1 reproducimos algunas de las etiquetas usadas en el sistema de etiquetado usado en el British National Corpus (BNC), conocido como C5 Tagset y en la Figura 2 hemos incluido un ejemplo de texto etiquetado perteneciente al BNC:

AJ0 adjective (unmarked) (e.g. GOOD, OLD)
AJC comparative adjective (e.g. BETTER, OLDER)
AJS superlative adjective (e.g. BEST, OLDEST)
AT0 article (e.g. THE, A, AN)
AV0 adverb (unmarked) (e.g. OFTEN, WELL, LONGER, FURTHEST)
AVP adverb particle (e.g. UP, OFF, OUT)
AVQ wh-adverb (e.g. WHEN, HOW, WHY)
CJC coordinating conjunction (e.g. AND, OR)
CJS subordinating conjunction (e.g. ALTHOUGH, WHEN)
CJT the conjunction THAT
CRD cardinal numeral (e.g. 3, FIFTY-FIVE, 6609) (excl ONE)

Figura 1: Sección del  C5 tagset".

When&AVQ-CJS; Captain&NP0; Pugwash&NP0; retires&VVZ; from&PRP; active&AJ0; piracy&NN1; he&PNP; is&VBZ; amazed&AJ0-VVN; and&CJC; delighted&AJ0-VVN; to&TO0; be&VBI; offered&VVN; a&AT0; Huge&AJ0; Reward&NN1; for&PRP; what&DTQ; seems&VVZ; to&TO0; be&VBI; a&AT0; simple&AJ0; task&NN1;.&PUN; Little&DT0; does&VDZ; he&PNP; realise&VVI; what&DTQ; villainy&NN1; and&CJC; treachery&NN1; lurk&NN1-VVB; in&PRP; the&AT0; little&AJ0; town&NN1; of&PRF; Sinkport&NN1-NP0;,&PUN; or&CJC; what&DTQ; a&AT0; hideous&AJ0; fate&NN1; may&VM0; await&VVI; him&PNP; there&AV0;.&PUN;

Figura 2: Ejemplo de texto etiquetado morfológicamente (BNC).

Existen varios tipos de etiquetadores morfológicos que usan no sólo diferentes repertorios de etiquetas (tagsets) sino también diferentes tipos de estrategias: algunos están basados en reglas, como por ejemplo el programa TAGGIT desarrollado en la Universidad de Brown, mientras que otros están basados en cálculos probabilísticos, como el programa CLAWS, desarrollado en la Universidad de Lancaster. La etiquetación morfológica de textos (a pesar del alto grado de corrección que ha alcanzado hoy día) sigue encontrándose con algunas dificultades, como es el caso de las unidades idiomáticas o las contracciones.

Junto con la identificación de las diferentes categorías morfológicas, las palabras que conforman un corpus pueden ser lematizadas (lemmatisation), es decir, pueden ser asignadas a su lema o forma canónica (la forma base que suele corresponderse con la entrada o voz en un diccionario). De este modo las diferentes formas flexivas del verbo trabajar, como por ejemplo trabajaba, trabajé, trabajaremos, etc. quedan resumidas en el lema trabajar y pueden incluirse todas en una sola búsqueda en el corpus.

A pesar de los estándares propuestos a los que hacíamos alusión anteriormente, los córpora existentes difieren bastante en el tipo y cantidad de anotación y codificación que poseen. Leech (1993) propone siete máximas que deben aplicarse en la anotación de los córpora, máximas que resumimos a continuación:

  1. Debe ser posible eliminar las etiquetas añadidas a un texto anotado y recuperar el texto original sin que éste sufra modificación alguna.
  2. Debería ser posible también extraer las anotaciones de los textos y almacenarlas de forma independiente, por ejemplo en una base de datos relacional o en líneas paralelas al texto original.
  3. El sistema de anotación usado debe estar basado en unas directrices, documentadas y accesibles al usuario final del corpus, de modo que pueda tener acceso tanto a un listado completo de las etiquetas usadas como a las decisiones tomadas en el proceso de etiquetación.
  4. Debe ser posible incluir información sobre la autoría de la codificación del texto, de forma que sea posible saber si se ha realizado manualmente (y por quién), o si se ha realizado de forma automática con o sin revisión posterior por un lingüista.
  5. Se debe hacer al usuario final consciente de que las anotaciones añadidas al corpus no son infalibles, sino que simplemente constituyen una herramienta de ayuda para el análisis. Cualquier anotación que se añada al corpus será, por definición, un acto de interpretación y de análisis del texto, por lo que es susceptible de incorrecciones e inexactitudes.
  6. Los sistemas de anotación han de estar basados en la medida de lo posible en principios teóricamente neutrales y sobre los que exista un acuerdo amplio en el seno de la comunidad científica.
  7. Ningún sistema de anotación posee, a priori, el derecho de ser considerado estándar. Los estándares, cuando existen, se desarrollan por el consenso de los usuarios, como fue el caso del sistema de referencia COCOA, muy usado hace unos años o de los estándares propuestos por TEI, usados actualmente en la mayoría de los proyectos.

Algunas de estas recomendaciones pueden parecer muy obvias a simple vista, pero la mayoría de ellas hacen referencia a problemas que algunos sistemas de anotación plantean, tanto para los usuarios finales como para la reutilización del material textual una vez etiquetado. La primera de ellas, por ejemplo, hace referencia al hecho de que en ocasiones no es posible eliminar las anotaciones que se insertan en las palabras, como es el caso de las anotaciones prosódicas que se encuentran en el corpus London-Lund. Las máximas quinta y sexta se hacen eco de los riesgos potenciales que puede tener abusar de cualquier tipo de codificación textual. Por una parte, la anotación puede facilitar el análisis al lingüista, pero a la vez, sobre todo cuando los córpora son de gran tamaño, puede ralentizar enormemente las capacidades de gestión del sistema que maneja el corpus.

Más importante quizás es el riesgo que conlleva imponer principios teóricos al texto, en forma de etiquetas gramaticales o sintácticas, aunque estas sean, en palabras de Leech "teóricamente neutrales". Clear et al. (1996: 306), por ejemplo, señalan algunos de los peligros que puede acarrear el uso de descripciones y categorías gramaticales preconcebidas, como ocurre en el caso de la lematización, ya que, por muy usual y estandarizado que sea su uso, puede servir para enmascarar diferencias de uso o de significado entre formas diferentes de lo que tradicionalmente se ha considerado un solo lema.


Notas

14 Los informes del TEI, así como la guía completa de codificación de textos Guidelines for the Encoding and Interchange of Machine-readable Texts puede solicitarse en LISTSERV@UCIVM.bitnet.

15 En el apartado 5.5.4 veremos un estándar específico para la codificación de información terminológica denominado MARTIF que también tuvo su origen en las iniciativas del TEI, por lo que usa SGML como base para la codificación.


Índice General I Índice Capítulo 2 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez