ISSN: 1139-8736 Depósito Legal: B-39199-99 |
PROPUESTA DE UN MODELO DE CODIFICACIÓN MORFOSINTÁCTICA PARA CORPUS DE REFERENCIA EN LENGUA ESPAÑOLA
3. 1. PLANTEAMIENTOS TEÓRICOS
3.1.0. NUESTRO SISTEMA DE CODIFICACIÓN: INTRODUCCIÓN
El sistema de codificación que hemos desarrollado para corpus en español sigue unos principios que se pueden resumir en los siguientes puntos:
1. El sistema de codificación que desarrollamos en esta tesis es de tipo morfosintático. Se codifican todos aquellos rasgos que presentan una marca formal explícita que supone, además, un comportamiento gramatical específico.
2. Los membretes tienen una estructura atómica que refleja una estructura de rasgos atributo-valor. La formalización de estas estructuras corresponde a la que propone TEI P1 con todos los cambios que incorpora TI P2.
En este orden de cosas, los pares atributo-valor se hacen corresponder con entidades morfosintácticas que denominamos entidades de primer orden pues ellas constituyen la base de nuestra propuesta de codificación. Las estructuras de rasgos formadas a partir de todas las posibilidades de combinatoria de entidades de primer orden que ofrece el léxico español en corpus de referencia constituyen lo que llamaremos entidades léxicas o entidades de segundo orden.
3. Los rasgos que se toman como punto de partida son los recogidos en los documentos TEI (TEI AI 1W" "List of common morphological Features For Inclusion in TEI Starter Set of Grammatical Annotation Tags"), NERC (NERC-WP8.2 "Towards a Minimal Standard for Morphosyntactic Annotation") y EAGLES (MSAL 21 "Draft Sections 4.6. and 4.7. of the EAGLES Interim Report: Annotation Sub-Group"). Junto a estos intentos de estandarización para las distintas lenguas comunitarias, se tienen muy en cuenta las peculiaridades morfológicas y sintácticas del español.
4. En la asignación de códigos para las distintas categorías o clases gramaticales se sigue en casi todos los casos los propuestos por Leech y Wilson en el documento EAGLES que acabamos de citar1.
Los rasgos de cada una de las categorías siguen el orden propuesto por Leech y Wilson en este mismo documento2.
Estos dos principios lo convierten en un sistema de etiquetado fácilmente traducible al "nivel de etiquetado intermedio" que proponen Leech y Wilson3.
Los códigos asignados a los rasgos y valores de las distintas categorías gramaticales son en la mayoría de los casos los propuestos en el documento TEI "Feature-structure markup for presentation at Oxford and Brown workshops"4.
En general se sigue la recomendación de "mnemonicidad" que se recomienda en los documentos de estandarización5.
5. El sistema de codificación tiene en cuenta su utilización desde el punto de vista omputacional. Los membretes tienen una composición y jerarquía interna que va de lo más común a lo más específico por lo que se refiere a la pertenencia de las palabras a las distintas clases y subclases.
[Frente a algunos sitemas de codificación para corpus en inglés, por ejemplo, donde los usos auxiliares y léxicos o plenos de los verbos "to be", "do" y "have" tienen un membrete específico (BE, HV, DO) que lo diferencia del resto de los verbos, proponemos un sistema de codificación que, en estos casos, refleje, en primer lugar, la pertenencia a la categoría de los verbos y que, en segundo lugar, especifique el tipo de verbo. En nuestro sistema de codificación se utiliza el código V siempre que la palabra sea verbo, los códigos 4 y 5 reflejan el comportamiento auxiliar y léxico o pleno, respectivamente, de los distintos verbos españoles.]
6. En principio, se opta por la codificación de categorías y clases gramaticales amplias. Las especificaciones dentro de éstas vienen impuestas únicamente por marcas formales que impliquen comportamientos gramaticales específicos (vid punto 1). Estas especificaciones quedan reflejadas, en la medida de lo posible, a partir de los rasgos y valores propuestos para la categoría o clase donde se da este comportamiento morfosintáctico específico.
7. Subespecificación6 y asignación de rasgos mediante operadores booleanos.
a) Subespecificación
Tenemos en cuenta dos casos:
1) Invariante o cualquiera (=6).
a) El rasgo no está formalmente marcado y puede tomar cualquiera de los valores de la escala del rasgo.
b) Es un rasgo, sin embargo, que determina un comportamiento sintáctico específico.
c) No es posible la desambiguación mediante contexto.Ejemplos:
1) Categoría=nombre, estructura de rasgo=número en palabras como crisis, chasis, martes, ...
2) Categoría=nombre, estructura de rasgo=género en palabras como cantante, hablante, componente,...
3) Categoría=adjetivo, estructura de rasgo=género en palabras como amable, triste, marroquí,...2) Rasgo no aplicable=0. Se codifica en aquellos casos en los que un determinado rasgo no es relevante para la palabra que se codifica pero sí que es un rasgo relevante en la clase o subclase a la que pertenece la palabra en cuestión. Por no relevante entendemos justamente lo contrario a lo expuesto en el punto uno; es decir, se trata de un rasgo no marcado formalmente que (y esto es lo que diferencia de 6) no determina un comportamiento morfosintáctico peculiar.
La codificación de este rasgo en una palabra supondría la adscripción de la misma a una clase distinta. Por ejemplo, en los adverbios sin contenido léxico o pronominales la codificación del rasgo grado=0, se podría interpretar como la necesidad de establecer una subclase distinta para los mismos en la que el rasgo grado no fuera un rasgo pertinente.
Ejemplos:
1) Concordancia en los participios de las formas compuestas de los verbos.
2) Grado en los adverbios pronominales: tal vez, quizás, ayer,...
3) Concordancia en los verbos impersonales que designan fenómenos atmosféricos ("llueve", "nieva",...)
b) Operadores booleanos
"=" (|) Alternancia en una única forma de un subconjunto de valores de entre los definidos en la escala de rasgo. Obsérvese que la diferencia respecto a lo que llamamos "invariante o cualuqiera" es que, en este último caso, la alternancia se daba entre todos los valores posibles para un rasgo. En el caso de los operadores booleanos la alternancia es únicamente entre un subconjunto de los posibles.
Ejemplos: M|F en los pronombres personales "yo", "tú", "me", ...
"Y" (-) Conjunción en una única forma de un subconjunto de valores de entre los definidos en la escala de rasgo. Utilizaremos esta doble posibilidad de asignación de valores para dar cuenta de la conjunción de un determinado valor formal con otro distinto, pero perteneciente a la misma escala de rasgo, asignable desde el punto de vista funcional.
Concretamente esta es la conjunción que se da en la recategorización propio --- > común de algunos los sustantivos7 o en los fenómenos de leísmo, laísmo y loísmo a partir del rasgo caso en los pronombres personales de tercera persona8.
8. Codificación fuera del marco de la palabra gráfica: las locuciones.
Según la gramática tradicional una locución es un grupo de palabras con un comportamiento sintáctico como grupo equivalente a una única palabra.
Con las locuciones nos enfrentamos al problema de codificación de rasgos en un marco superior al de la palabra como conjunto de caracteres entre dos blancos.
La gramática tradicional aplicaba el término de locución únicamente para las locuciones prepositivas, adverbiales o conjuntivas.
Para estos tres casos adoptamos la segunda de las soluciones propuestas por Leech y Wilson (1994) que coincide, además, con la del British National Corpus. Esta consiste en codificar únicamente la última de las palabras que integran la locución con el membrete correspondiente al grupo. Esta práctica supone la asunción de que en el caso de que una o más palabras carezcan de membrete propio debe asignárseles el correspondiente a la inmediatamente posterior.
En este orden de cosas una locución adverbial como "a tontas y a locas" tiene la siguiente codificación:
A tontas y a locas&AVO;
Para nuestros propósitos de codificación consideramos locución no solamente las de tipo prepositivo, adverbial o conjuntivo sino también las que llamaremos "locuciones nominales" ("ojo de buey", "punto de vista" "mesita de noche",...) y "locuciones adjetivas" ("de noche", "de servicio", "sin par",...) o incluso verbales ("hacer hincapié", "tener en cuenta", "poner en marcha",...).
Estas forman un inventario menos fijo y variable que las anteriores y están formadas todas ellas por un sustantivo que es invariable.
La codificación de estas locuciones es consecuencia de estas dos características. Cada uno de los miembros recibe su propio membrete correspondiente a su categoría. En el caso del sustantivo su codificación refleja su condición de invariable mediante la codificación de los valores no-aplicable para género y para número9.
De esta manera caracterizamos el conjunto mediante la codificación del sustantivo y caracterizamos también esta acepción particular de éste10.
Entre éste último grupo de locuciones las llamadas "verbales" admiten la intercalación de algún elemento entre las distintas palabras que lo integran ("Hacer [mucho] hincapié", "Poner [inmediatamente] en marcha", "Tomar[le] el pelo",...). Llamaremos a estas construcciones "locuciones semifijas".
De momento y sin indagar demasiado en la casuística de las distintas posibilidades que presenta la codificación de este tipo de locuciones adoptamos la solución de Leech y Wilson (1994) para los verbos frasales ingleses o los prefijos separables alemanes; a saber, introducción de un guión detrás del membrete inicial y otro inmediatamente después del ampersand o et del membrete final. Una locución semifija como "Hacer mucho hincapié" presentaría la siguiente codificación:
hacer&VI59- mucho; AV1; hincapié&-N500;
9. Codificación en el interior de la palabra gráfica: enclíticos y las contracciones.
Con los enclíticos y las contracciones nos enfrentamos al problema contrario al que acabamos de ver en el punto anterior: la codificación en el interior de la palabra como conjunto de signos entre dos blancos.
TEI AI 1W2 marca la composición de este tipo de palabras mediante un rasgo correspondiente a las distintas formas que puede adoptar una palabra. Este rasgo caracteriza a las palabras cuya estructura interna contiene un enclítico, por ejemplo, de manera diferente a las que contiene un guión en su interior o frente a aquellas otras que se presentan en forma de contracciones: "al o del" en español, "Im", "wont", ... en inglés11.
Leech y Wilson proponen una solución para las contracciones del inglés ("dont", "wont", ...) que consiste en separar las dos categorías codificar la primera con un ";" final obligatorio e inmediatamente después (sin espacio) la segunda seguida de su membrete. De esta manera la codificación de cada una de las categorías mantiene la disposición original del texto.
En el caso de los enclíticos TEI AI 1W2 señala la posibilidad de marcar la presencia de clíticos y sus funciones como unos de los valores del rasgo incorporación-pronominal ("incorporación-p") que se da en la categoría verbo.
En el caso de las preposiciones contractas, Leech y Wilson distinguen un valor que da cuenta de la condición de éstas en el caso de que no se decidiera separar las dos palabras integrantes.
Nuestra propuesta de codificación considera que estos casos no son exactamente iguales y ofrece soluciones diferentes para cada uno de ellos.
A) Los enclíticos
Reciben el nombre de enclíticos ciertos pronombres personales átonos en caso acusativo o dativo que se apoyan en la palabra siguiente (proclíticos) o en la palabra anterior (enclíticos) formando una sola unidad acentual y una sola palabra gráfica.
La solución que adoptamos en nuestra propuesta de codificación incluye tanto la marcación de este tipo de palabras mediante un rasgo explícito, tal y como sugiere TEI, como la disposición en la codificación que sugiere EAGLES.
En este orden de cosas incluimos para el verbo un rasgo "incorporación-p", separamos los distintos integrantes de la palabra con enclítico y asignamos a cada uno de ellos su membrete correspondiente con un ";" obligatorio de cierre y sin espacio entre membrete y enclítico.
Ejemplo: La codificación de "pedírtelo" en la oración "Si quieres un café, puede pedírtelo él" sería la siguiente:
pedir&VI58; te&PN2M_FSD5;lo&PN3MSA5;
(donde "8" significa [+ incorporación-p])
De esta forma no sólo la disposición sino también el contenido de los membretes refleja la composición interna de la palabra.
B) Las contracciones
Las preposiciones "a" y "de" seguidas del artículo "el" producen en español las contracciones "al" y "del".
La diferencia respecto al caso anterior es que aquí la fusión de dos formas da lugar a una forma contracta.
Otra diferencia es que en este caso la fusión (la contracción) se produce únicamente entre dos miembros de los cuales el segundo corresponde siempre a una única codificación (artículo definido masculino singular).
En este caso, un esquema de codificación que toma como unidad de análisis la palabra ("conjunto de caracteres entre dos blancos") codificaría únicamente el rasgo de [± contracción].
La codificación de los dos componentes que integran la contracción (las entidades &APP); y &A4MS;) correspondería a un nivel inferior a mitad del camino entre la palabra y el morfema.
En nuestro caso, hemos adoptado la solución de codificar las contracciones con el membrete &APP8:12; a la vez que hemos mantenido la posibilidad de reflejar la composición interna de las contracciones. Para ello hemos la distinción de un nivel de codificación BAR=1 que toma como unidad de análisis la palabra como "conjunto de caracteres entre dos blancos" y hace una caracterización de ésta mediante pares atributo-valor morfonsintáctico (lo que hemos llamado "entidades de primer orden") y un nivel de análisis BAR=0 intermedio entre lo léxico y lo morfológico que da cuenta de la composición interna de la contracción mediante entidades léxicas o "entidades de segundo orden".
En este orden de cosas las contracciones se corresponden con dos entidades:
La primera &APP8; señala únicamente la característica de "contracción".
<! ENTITY APP8 |
"<f.struct bar=1>&C-AP; T-P; |
R- |
8;</f.struct>" |
> |
La segunda refleja además la composición interna de la contracción:
<! ENTITY APP8APP9A4MS |
"<f.struct |
bar=1>&C- |
|
AP; T-P; R-8; <f.struct |
|||
bar = 0 > & A P P 9 ; |
|||
& A4MS ; < /f.struct > - |
|||
</f.struct> " |
> |
NOTAS
1 La única excepción en este sentido la constituye la categoría pronombre. Efectivamente, Leech y Wilson distinguen una categoría mixta pronombre-determinante a la que asigna un código (PD) que da ceunta del doble comportamiento de sus miembros.
En esta tesis (como se expondrá en el punto 3.1.3.) hemos decidido incluir lo que Leech y Wilson llaman determinantes en la categoría "adjetivos", tipo "adjetivos con estructura de rasgo pronominal". Como consecuencia de esta decisión asignamos a la categoría pronombre únicamente el código P.
2 La excepción a este principio la constituye los rasgos que se han añadido respecto a los señalados por Leech y Wilson. Por ejemplo, como consecuencia de la decisión que comentábamos en la nota 1, la categoría adjetivo hace una distinción inicial entre "adjetivos con estructura de rasgos pronominal" vs "adjetivos sin estructura de rasgos pronominal" que se antepone a la codificación del resto de los rasgos diferentes para cada uno de los dos tipos.
4 Dos son las excepciones a este principio:
1. Langedoen y Fahmy distinguen muchos más casos de subespecificación ("underspecification") que los que se distinguen en esta tesis. Como consecuencia de ello utilizan todos los valores numéricos entre el 6 y el 9 con un 0 para lo que llaman "no-pronunciamiento" ("no-claim") para dar cuenta de todas las variedades de inespecificación. Nosotros marcamos 6 y 0 únicamente en los distintos casos de "inespecficación", reservamos el 7 para la codificación de rasgos por defecto (que no llegamos a asignar en esta tesis) y utilizamos los pares (4-5 y (8-9) para dar cuenta de los valores del tipo (±).
2. La segunda excepción está motivada por la necesidad de evitar entidades (del tipo atributo valor) que con los mismos códigos tengan significados diferentes. Por ejemplo T-P no podría significar en unos casos "tipo-personal" (pronombre o adjetivo) y en otros "tiempo-presente".[ Por supuesto otra excepción está motivada aquí, como en el resto de los casos, por la codificación de rasgos no recogidos, en este caso, por Langedoen y Fahmy]
5 La única excepción la constituyen la elección de ciertos códigos numéricos que dan cuenta de la "presencia/ausencia" de un cierto rasgo.
En estos casos se ha intentado seguir una cierta coherencia.
Hemos utilizado "4" (= -) "5" (= +) para dar cuenta de la "presencia/ausencia" de un determinado rasgo ([± reflexivo] en el caso de los pronombres personales, [± propio] para los sustantivos, [± auxiliar] para los verbos, ...)
Hemos utilizado "8" (= -) 9 (= +) para dar cuenta de aquellos casos en los que se añade a la codificación de una categoría una estructrua de rasgos propia de otra categoría ([± estructura de rasgos pronominal] en el adjetivo, [± contracción] en la preposición, [± incorporación-p] en el verbo)
6 Hemos preferido utilizar el término "subespecificación" frente a "inespecificación" que como hemos visto en 2.1.3. es el que se utiliza en algunos documentos TEI.
Creemos que los valores "invariante o cualquiera" y "no-aplicable" quedan más adecuadamente englobados bajo el término genérico "subespecificación" que "inespecificación". La razón es que estos valores representan un nivel de especificación inferior al que representa la asignación de valores concretos (que es el significado que damos a "subespecificación"), pero en ningún caso estos rasgos quedan sin especificar (que es lo que significaría inespecificación).
10 La codificación de sustantivos y adjetivos "guionados" como "hombre-rana", "coche-cama", "higiénico-sanitario" será, sin embargo, la que hemos adoptado en el caso de locucuiones adverbiales, prepositivas y conjuntivas. En este caso la asignación de un membrete final correspondiente al conjunto se puede justificar aún más que en los tres casos anteriores pues respetamos la unidad de análisis de la palabra como conjunto de signos entre dos blancos.
11 Como hemos dicho en 3.2, algunos de los rasgos recogidos en TEI AI w2 no se llegaron a definir ni a sistematizar en el documento de Langedoen y Fahmy. Este es el caso del rasgo "forma".
Las interpretaciones que hacemos aquí sobre el significado de este rasgo y de algunos de sus valores son meras especulaciones basadas en las distinciones de TEI AI W2 y en nuestros conocimientos de las lenguas que forman parte de este intento de estandarización y, sobre todo, en los sistemas de codificación ya existentes para algunas de ellas.
12 Cf. El corpus codificado del Apéndice
Anterior I Siguiente I Índice capítulo 3 I Índice General
ISSN: 1139-8736 Depósito Legal: B-39199-99 |