1.2 Métodos de marcación de corpus: codificación y análisis, propuestas de codificación

ISSN: 1139-8736
Depósito Legal: B-39199-99

1.2. MÉTODOS DE MARCACIÓN DE CORPUS: CODIFICACIÓN Y ANÁLISIS, PROPUESTAS DE CODIFICACIÓN.

En el campo del procesamiento de la lengua natural a partir de corpus de referencia podemos hablar de tres niveles de marcación:¹

Corpus codificados o etiquetados. Entendemos por codificación de textos todos aquellos procedimientos de marcación destinados a obtener un texto caracterizado y preparado para la fase de análisis.
Corpus lematizados. En los corpus lematizados cada palabra contiene una indicación de su lema (por ejemplo, en los verbos: el infinitivo; en los sustantivos y adjetivos: las formas de masculino singulas, ...). Un lema es una forma canónica elegida arbitrariamente, bajo la cual se agrupan el resto de las formas de su paradigma morfológico.
Corpus analizados. Además de las etiquetas, un corpus analizado contiene una información de más alto nivel, como corchetes de marcación de constituyentes, estructuras arbóreas etiquetadas. El análisis puede realizarse en diferentes niveles de descripción lingüística: sintaxis superficial, sintaxis de estructura profunda, estructuras pragmáticas o discursivas, etc.

A su vez, dentro de los corpus codificados o etiquetados, se puede hablar de varios niveles de codificación o marcación en función de las características y de las utilidades del corpus. Estos niveles lejos de excluirse o anularse constituyen una secuencia que marca diferentes jerarquías en la codificación y permite diferentes posibilidades de explotación.

En este orden de cosas, la primera distinción que podemos hacer es aquella que distingue los corpus orales de los corpus escritos.

Corpus orales.

La codificación de este tipo de corpus plantea una problemática muy distinta a la de los corpus escritos. Puesto que en esta tesis nos vamos a centrar en un esquema de codificación a partir a corpus escritos, sin entrar en las peculiaridades de la lengua oral ni en las posibilidades de aplicación de nuestro esquema a la variante oral del español, señalaremos muy brevemente los niveles de codificación.

En primer lugar podemos tener una codificación o transcripción fonética de los sonidos. Frente a ésta una codificación o transcripción fonémica u ortográfica presentaría los fonemas correspondientes a los sonidos en algunos casos presentes en otros reconstruidos y señalados como tales. Finalmente una codificación o transcripción prosódica señalaría rasgos suprasegmentales como acentos, entonación, pausas, etc².

Corpus escritos

En primer lugar podemos hablar de un tipo de marcación que es lógica o física. Esta marcación da cuenta de características formales de un texto que van desde la estructuración del mismo (una obra de teatro se divide en escenas que a su vez se dividen en cuadros en los que intervienen uno o varios personajes), hasta disposición de las partes en el texto (un texto presenta una disposición en dos columnas con una ilustración en medio y notas al margen en la línea 24, por ejemplo), hasta aquellas que señalan que una palabra aparece entrecomillada, que forma parte de una cita, que forma parte de un encabezamiento, que forma parte de una lista, etc.

Como ejemplo de codificación que refleja la estructuración de las partes en el texto tenemeos el estado actual del corpus argentino y chileno basado en las propuestas de la Text Encoding Initiative (TEI).

Para ilustrar una codificación que de cuenta de la disposición de las partes en el texto el ejemplo más ilustrativo lo constituyen quizás el "Manual de Transcripción de Manuscritos para el Diccionario de Español Antiguo"³ elaboradas por el Hispanic Seminary of Medieval Studies de la Universidad de Madison en Wisconsin.

El tipo de codificación que señala cuando una determinada palabra forma parte de un encabezamiento de un título de una lista está recogida en los dos casos anteriores. En este trabajo se pretende, además, como paso previo a este tipo de codificación revisar algunas características de este tipo y su codificación.⁴

En el nivel de etiquetado lingüístico que conduce a un estado caracterizado y analizado para su explotación lingüística podemos hablar de distintos niveles de marcación o codificación:

Codificación gramatical.

Se codificarán todas aquellas características morfológicas que lleven consigo un comportamiento gramatical específico.

Aquí cabría hacer una distinción entre lo estrictamente morfológico y los rasgos que forman más bien parte de lo léxico. Lo estrictamente morfológico sería la codificación de rasgos como persona, número, género (en el caso del participio) para la categoría verbo. Estos suponen comportamientos específicos de las palabras en relación con la concordancia.

En este caso, se trata fundamentalmente de una codificación basada en categorías gramaticales o partes del discurso con un mayor grado de refinamiento si se quiere motivado por la utilización del corpus codificado. Este tipo de codificación incluirá en cada una de las etiquetas correspondientes a las distintas partes del discurso todos aquellos rasgos morfológicos que son específicos de esa clase. Es decir al codificar el verbo se codificarán también todos sus rasgos categoriales específicos (tiempo, modo, persona y número), al codificar el nombre se codificará género, número y tipo (común vs. Propio); en el caso del pronombre personal, persona, número, caso, etc. Este es el tipo de codificación que propone TEI en los estándares de codificación. Este es el tipo de codificación al que pertenece el esquema que se propone en esta tesis.

Existen, sin embargo, ciertos rasgos que podemos llamar léxicos que dan el marco de subcategorización de la palabra. Entre estos el estaría el codificar un verbo como modal como transitivo, intransitivo, ...

Si los anteriores establecen el marco de subcategorización de la palabra objeto de la codificación (es decir, determinan la relación de la palabra con el resto) existen también otros rasgos que dan cuenta de la posición de una palabra en el marco oracional (de su distribución). En este sentido podemos tener etiquetas como "determinate", "pre-determinante", etc.

Este último tipo de codificación (aparte de lo estrictamente morfológico) es la que tienen la mayor parte de los corpus ingleses a partir del conjunto inicial de 87 etiquetas que se estableció para el Brown Corpus⁵ es el tipo de codificación del LOB(132 etiquetas) y de las distintas variantes de éste en Oslo⁶ (136 etiquetas), Lancaster (165 etiquetas⁷), Gothenburg y Oslo. La asignación de etiquetas en todos ellos está fuertemente condicionada por los métodos estadísticos de sus etiquetadores.

Es el tipo de codificación del Penn TreeBank⁸ también sobre el conjunto inicial del Brown con una considerable reducción del mismo basado en los métodos de análisis estocástico posteriores a la labor de etiquetado que permiten matizar o distinguir etiquetas que no son diferenciadas desde el principio del proceso. Con todo ello el conjunto inicial de 87 etiquetas del Brown quedó reducido a 48 en el Penn TreeBank

Los membretes o etiquetas de todos estos conjuntos reflejan todos ellos una estructura plana y a diferencia del esquema de codificación que se propone en esta tesis no existen categorías o clases gramaticales amplias caracterizadas por la asignación de rasgos comunes.

Un esquema de etiquetado a medio camino entre los que parten del Brown Corpus y las propuestas de la TEI es el del British National Corpus (BNC)⁹. Según sus propios autores este conjunto de etiquetas es o representa una solución de compromiso entro lo que es viable computacionalmente (teniendo en cuenta el objetivo de etiquetación de 100 millones de palabras en un plazo de tres años) y lo que es necesario y tiene una fundamentación lingüística.

Otro esquema de codificación en la línea de los anteriores (en cuanto a los rasgos que se consideran) aunque con una diferencia clara marcada por un punto de partida y un enfoque distinto en cuanto a análisis y explotación lo consituye el sistema de etiquetado del International Corpus of English (ICE)¹⁰

Efectivamente, el sistema de etiquetado del ICE se encuadra la línea de trabajo de Nimega¹¹ y refleja perfectamente los propósitos descriptivos de su uso. Las etiquetas se basan fundamentalmente en dos gramáticas clásicas (A Comprehensive Grammar of the English Language (Quirk et al. 1985) y A Student’s Grammar of the English Language (Greembaum y Quirk 1990) construidas a partir de corpus y tienen un contenido que facilita la labor del investigador-usuario del corpus.

Etiquetado léxico o subcategorial

Este tipo de etiquetado es el que da cuenta de las peculiaridades léxicas o subcategoriales de las palabras necesarias para la creación de diccionarios a partir de corpus. La diferencia respecto al anterior viene impuesta por los medios utilizados en la etiquetación de textos y, sobre todo, por su utilización para creación de diccionarios a partir de corpus.

Es el tipo de etiquetado que se da en el proyecto ASCOT (automatic Sanning System for Corpus Oriented Tasks¹²).

ASCOT es un proyecto financiado por la Dutch Organization for Pure Academic Research (ZWO) cuyos objetivos son el desarrollo de una Base de Datos Léxica y un sistema asociado de escaneado de textos para análisis (semi) automático. El software resultante de ASCOT consta de dos componentes principales:

1) Un componente o Base de datos léxica (Aslex)
El léxico de ASCOT contiene toda la información que se supone necesaria para un etiquetado de palabras en corpus. Para la definición de esta infomración se tomo como base la que aparece en el Longman Dictionary of Contemporary English (LDOCE).
2) Un programa de escaneado (MULTIFLEX).
Con una morfología flexiva que asocia palabras flexionadas (incluidas "unidades multipalabra") a su lema o raíz y una morfología derivativa que asigna una clase gramatical a palabras derivadas que no aparecen en el lexicón.

El contenido que se recoge en los códigos de LDOCE da información detallada sobre el comportamiento de las palabras en inglés. La mayor parte de los códigos contienen una letra mayúscula, a la que le puede seguir un número, que en algunos casos irá seguida de una letra minúscula.

La letra mayúscula denota propiedades gramaticales de los nombres, verbos, adjetivos y adverbios, mientras que el número da información sobre la construcción del resto de elementos de la frase en relación con la palabra codificada. El número siempre tiene el mismo significado independientemente de su combinación con los códigos de los nombres o de los verbos.

Las letras minúsculas dan información más refinada sobre ciertos aspectos de la complementación verbal (posición de ciertas partículas adverbiales o preposiciones que forman parte de una construcción verbal, ...)

Aparte de este tipo de informaciones formalizadas, los códigos de LDOCE pueden dar información de muy distinto tipo: preposiciones o partículas adverbiales con las que aparece un determinado verbo, variedad o estrato sociolingüístico al que pertenece la palabra, información gramatical sobre determinadas palabras (el que un sustantivo sólo se utilice en singular o en plural, por ejemplo).

Finalmente, dentro del nivel de codificación lingüística existen dos niveles de codificación en los que prácticamente nadie ha trabajado todavía. Estos corresponden a los niveles de análisis semántico y pragmático o discursivo.

Si bien el sistema de etiquetado de LOB contiene algunas distinciones que se encuadran claramente dentro del nivel de análisis semántico (distingue por ejemplo un membrete "nombre de organización" para palabras como Consejo, Departamento, Grupo, ...) no se ha abordado todavía la labor de descripción de un conjunto de rasgos semánticos para codificación de corpus¹³.

Sobre el etiquetado pragmático sólo hemos podido constatar algunos intentos de creación de un sistema de etiquetas para sublenguajes¹⁴. En el campo de la pragmática (en el de la codificación pragmática, en nuestro caso) quedan todavía sin resolver, sin embargo, cuestiones que consideramos mucho más importantes como pueden ser la codificación o marcación de relaciones anafóricas, entre otras.

NOTAS

1 Utilizamos el término "marcación" como un término genérico que incluye los procesos o los procedimientos de codificación, lematización y análisis de corpus.

2 Sobre codificación de corpus orales puede consultarse Svartvik and M. Eeg-Olofsson (1982): "Tagging the London-Lund Corpus of English en S. Johansson (ed) Computer Corpora in English Language Research. Bergen: Norwegian Computing Centre for the Humanities. S. Johansson, L. Burnard, J. Edwards y A. Rosta (1992) y A. Ballester, F. Marcos Marín y C. Santamaría (1992 y 1994).

3 A Manual of Manuscript Transcription for the Dictionary of the Old Spanish Language, Hispanic Seminary of Medieval Studies Madison Wisconsin. (Trad. Esp. Aurora Martín de Santa Olalla Sánchez).

4 Cf. 3.1.14.

5 Cf. W. N. Francis (1980): "A tagged corpus – problems and prospects" en S. Greembaum, G. Leech, and J. Svartvik (eds) Studies in English Linguistics – for Randolph Quirk. Longman, 192-209.
W.N. Francis and H. Kucera (1964; revised 1971 and 1979) Manual of information to accomany a standard corpus of present-day edited American English for use with digital computers. Providence, R. I.: Deparment of Lunguistics, Brown University.

6 Cf. Johansson (1986b)

7 Garside y otros (1987) contiene como apéndice B una comparación de los distintos esquemas de codificación a partir del correspondiente al Brown Corpus.

8 La reducción de etiquetas respecto a los corpus anteriores se establece en el Penn TreeBank a partir de tres criterios:

1. Recuperación Se trata de eliminar redundancia tomando en cuenta conjuntamente la información léxica y la información sintáctica. Mientras que el sistema de etiquetado del Brown Corpus tiene membretes específicos para determinadas entradas léxicas el Penn TreeBank trata de eliminar esta redundancia léxica. Por ejemplo, si en el Brow Corpus se distingue un membrete para lo que llaman pre-cualificadores (quite, rather, such), pre-cuantificadores (all, half, many) y both. El sistema de codificación del Penn Treebank asigna a todas estas palabras un membrete único PDT (predeterminer).

2. Consistencia Reducir el tamaño del conjunto de etiquetas reduce las posibilidades de inconsistencias en el etiquetado. El Brown Corpus, por ejemplo, utiliza para los adverbios there and now siempre la etiqueta RB, mientras que here and then se etiquetan en algunas ocasiones como RB y en otras como RN.

3. Función sintáctica Puesto que el objetivo del Penn TreeBAnk es preparar textos para la fase de análisis se asigna función sintáctica siempre que sea posible. Por ejemplo, el Brown Corpus etiqueta both como ABX (pre-cuantificador, conjunción doble), sin tner en cuenta si funciona como un modificador prenominal (both the boys) o como un postnominal (the boys both), como un núcleo de una frase nominal (both of the boys) o como parte de una conjunción coordinada compleja (both boys and girls). El sistema de etiquetado del Penn Tree Bank diferencia todos estos contextos sintácticos- como PDT (predeterminante), RB (adverbio), NNS (nombre común plural) y conjunción coordinada (CC), respectivamente.

Sobre el sistema de etiquetado del Penn Tree Bank puede consultarse Santorini, B. (1990): "Par-of-Speech tagging guidelines for the Penn Tree Bank Project". Technical report MS-CIS-90-47 y Santorini B. (1993).

9 El British National Corpus es un proyecto de creación de un corpus de 100 millones de palabras del inglés escrito y oral que realiza un consorcio dirigido por OUP y en el que participan Oxford University Computing Service, Longman, the British Library y la Universidad de Lancaster. El princiapl cometido del grupo de Lancaster consiste en el etiquetado gramatical de los 100 millones de palabras.

10 Cf. S. Greembaum "The tagset for the Intenational Corpus of English" en C. Souter y E. Atwell (ed) (1993).

11 Cf. 1.1.

12 Cf. Akkerman y otros (1985 y 1988).

13 Esta tarea nos llevaría al "escurridizo" problema de los universales semánticos que sigue sin resolverse en la descripción lingüística.

14 Cf. I. Moreno (1992).

Anterior I Siguiente I Índice capítulo 1 I Índice General

ISSN: 1139-8736
Depósito Legal: B-39199-99