2.0. Introducción

ISSN: 1139-8736
Depósito Legal: B-39199-99

2.0. INTRODUCCIÓN

Este apartado y, en general, este capítulo dos pretende ser una introducción a los planteamientos metodológicos concretos que utilizaremos en el desarrollo de esta tesis.

En este sentido vamos a partir de las propuestas de la TEI¹, de los trabajos para codificación morfosintáctica del consorcio NERC² y de dos apartados (todavía borradores) de un documento EAGLES realizado por el subgrupo de anotación lingüística³. No se trata de tres puntos de partida independientes, ni muchísimo menos, son más bien puntos de vista complementarios con una primacía cronológica, si se quiere de TEI frente a los demás y con una diferencia en cuanto a la cobertura del trabajo.

TEI se ocupa tanto del contenido como de la forma en el intento de estandarización de una codificación morfosintáctica.

NERC sólo ha tenido en cuenta hasta el momento la definición de contenidos.

El documento EAGLES, junto al tratamiento de las formas y los contenidos morfosintácticos, propone distintos niveles de estandarización en los que se incluyen, aparte de los rasgos exclusivamente morfosintácticos (con sus respectivos valores), ciertos rasgos opcionales de carácter léxico o léxico-semántico separados en dos grupos: aquéllos que son específicos de ciertos trabajos o aplicaciones y aquéllos que son específicos en ciertas lenguas. Lo más original de este trabajo, en lo concerniente a estandarización, está representado por la propuesta de un nivel intermedio de codificación basado en códigos numéricos en la que los distintos rasgos tienen posiciones fijas en una matriz que es distinta para cada una de las categorías. Esta codificación tiene carácter interlingüístico y constituye un paso intermedio para la codificación de los corpus a partir de la información registrada en un lexicón.

Las primeras referencias de la TEI a la codificación lingüística se encuentran en el capítulo seis de la TEI P1 "Información Analítica e Interpretativa". En este capítulo se presentan los métodos de marcación de análisis lingüístico y de la interpretación de textos.

En este capítulo la TEI se proponía encontrar mecanismos que combinaran claridad y precisión y que fueran capaces de dar cuenta de la amplia variedad de práctics lingüísticas teniendo en cuenta además la diversidad de prácticas informáticas.

TEI presenta procedimientos o mecanismos generales que permiten la expresión de análisis lingüístico mediante una pequeña serie de membretes que representan sólo las configuraciones de las estructuras lingüísticas. Para decir que una expresión particular es un sustantivo, por ejemplo, se estipula que éste pertenece a una estructura de rasgos (identificado con el membrete <f.struct>), la cual contiene un rasgo (identificado con el membrete <feature>), que tiene un nombre (identificado con el membrete <f.name>) y un valor (identificado otra vez con el membrete <f.struct>:⁴

<f.struct id=sample>
...
     <feature>
          <f.name> category </f.name>
          <f.struct> noun </f.struct>
     </feature>
...
</f.struct>

Una estructura de rasgos puede concebirse como un haz de uno o más rasgos, cada uno de los cuales puede tener un nombre y cada unos de los cuales debe tener un valor. El valor puede en sí mismo ser una estructura de rasgos. Las estructuras de rasgos son, entonces, recurrentes por naturaleza.

Las estructuras de rasgos se marcan con el membrete <f.struct.>. Las estructuras de rasgos pueden constar de un único valor de rasgo atómico (representado por una cadena de caracteres), sin embargo, lo habitual es que tengan un nombre de estructura de rasgos, marcado con el membrete <f.struct.name>, seguido de un número arbitrario de rasgos, cada uno marcado con el membrete <feature>. El nombre de la estructura de rasgos es optativo, pero si una estructura de rasgos no tiene nombre, debe tener al menos un rasgo. Este nombre se representa mediante una cadena de caracteres entre los membretes <f.struct.name> y </f.struct.name>.

Cada rasgo, a su vez, consta de un nombre de rasgo (optativo y marcado con el membrete <f.name>, una especificación del valor que el rasgo puede llegar a asumir y una restricción optativa de dicho valor. Los siguientes son algunos de los valores simples de rasgos:

los valores binarios más y menos, marcados con los membretes vacíos <más> y <menos>
una estructura de rasgos anidada que contenga sólo caracteres
una estructura de rasgos anidada que contenga otros rasgos
una serie de rasgos (representada por el membrete <f.set>
una lista de rasgos (representada por el membrete <f.list>

Además de los valores simples de rasgos, se pueden representar combinaciones booleanas complejas usando los membretes <f.s.AND>, <f.s.OR> y <f.s.NOT>. Los membretes <f.s.AND> y <f.s.OR> contienen unas series de por lo menos dos valores de rasgos; el membrete <f.s.NOT> contiene exactamente un valor.

Finalmente, el valor de un rasgo puede especificarse indirectamente mediante la indicación de alguna otra estructura de rasgo o valor de rasgo. Dichas menciones se representan con un membrete <f.ptr> con una referencia ID para el ID de la estructura o valor que ha sido indicado. Puesto que su única función es portar el atributo de referencia ID, las indicaciones de rasgo no tienen contenido.

Las declaraciones SGML para las estructuras de rasgos descritas anteriormente son las siguientes:

<!doctype ling.analysis

<! - - Entities

- - ->

<!ENTITY % f.Boolean "f.s.AND | f.s.OR | f.s.NOT"

<!ENTITY % value simple "plus | minus | word | f.struct

| f.set | f.list | f.ptr"

<!ENTITY % value "f.value simple; | % f.Boolean;

<! - - Top – level organization of feature-value

- - ->

<! - - specifications

- - ->

<! - - A linguistic analysis is a series of feature

- - ->

structures, forests of trees, and/or aligments.

- - ->

<! - - Aligment and foresta are defined elsewhere.

- - ->

<!ELEMENT ling.analysis	- -	(f.struct \| aligment \| forest) *	>
<!ELEMENT f.struct	- -	(#PCDATA
		\| (f.struct.name, feature*)
		\| feature+)	>
<!ELEMENT f.struct name	- -	(#PCDATA)	>
<!ELEMENT feature	- -	(f.name?, (%f.value;),
		f.restriction? )	>
<!ELEMENT f.name	- -	(#PCDATA)	>
<!ELEMENT f.restriction	- -	(%f.value;)	>
<!- -Representation of feature values			- - ->
<!- - Feature values: primitives			- - ->
<!ELEMENT (plus\|minus)	- o	EMPTY	>
<!ELEMENT word	- -	(#PCDATA)	>
<!- - Feature value: pointer to another f.structure			- - ->
<! - - or value			- - ->
<!ELEMENT f.ptr.	- o	EMPTY	>
<!ATTLIST f.ptr.		target IDREF #REQUIERED	>
<! - - Feature values: structured values			- - ->
<!ELEMENT f.set	- -	(f.struct \| f.set \| f.list)+	>
<!ELEMENT f.list	- -	(f.struct \| f.set \| f.list)+	>
<! - - Feature values: Boolean combinations			- - ->
<!ELEMENT f.s.AND	- -	((%f.value;), (%f.value;)+)	>
<!ELEMENT f.s.OR	- -	((%f.value;), (%f.value;)+)	>
<!ELEMENT f.s.NOT	- -	(%f.value;)	>
<! - - All f. structures and values can be pointed at			- - ->
<! - - with Idref			- - ->
<!ATTLIST (f.struct \| f.value;)	ID ID	#IMPLIED	>⁵

Todo lo expuesto hasta ahora refleja el estado de la cuestión en la TEI P1. Sin embargo, durante la preparación de la TEI P1, el Grupo de Análisis e Interpretación sugirió algunos cambios en la codificación de estructuras de rasgos:

En primer lugar, el nombre del rasgo no se incluiría en un membrete para él sólo sino como un valor del atributo "nombre del rasgo del membrete".

En segundo lugar, si el valor del rasgo no es un objeto estructurado (por ejemplo, otra estructura de rasgos, se debe incluir en una etiqueta atómica. Entonces el ejemplo de estructura de rasgos que veíamos más arriba quedaría de la siguiente manera:

<f.struct id=sample>
...
<f.name> category </f.name>
<f.struct> noun </f.struct>
...
</f.struct>

El análisis lingüístico o, mejor dicho, la codificación lingüística consiste, por tanto, en una repetición de este tipo de estructuras con distinto pares atributo valor.

TEI propone entonces la creación de entidades que recojan este tipo de estructuras a fin de simplificar el proceso de codificación e interpretación . Las entidades funcionan como abreviaturas de representaciones de estructuras de rasgos con una interpretación única que aparece en su definición como entidad.

Precisamente en esta línea se ha desarrollado todo el trabajo de codificación gramatical en la TEI P2.

NOTAS

1 Cf. TEI AI W2, TEI AI W3, TEI AI W9, Langedoen & Simons (1993) y TEI P2 capítulo 18 (Conjunto revisado de sugerencias para la representación de categorías léxicas a partir de un sistema de rasgos atributo-valor) y capítulo 26 (Conjunto de sugerencias para la marcación de anotaciones lingüísticas).

2 Monachini y Östling (1992ª y 1992b).

3 G. Leech y A. Wilson (1994).

4 Aunque con este tipo de mecanismos de codificación gramatical se puede pensar que la TEI se decanta por todos aquellos formalismos gramaticales que se basan en una estructura de rasgos como la gramática léxico funcional o la gramática de estructura de frase generalizada (GPSG), TEI defiende que es éste un tipo de codificación más fácilmente generalizable y aplicable a cualquier teoría lingüística que cualquier otro. En este sentido en la TEI P1, por ejemplo, se propone una aplicación para gramáticas categoriales.

5 Con posterioridad a la publicación de TEI P1, el Comité de Análisis Lingüístico de TEI elaboró otra DTD lingüística cuya principal aportación es la inclusión de la descripción de los elementos de alineamiento ("aligment") y bosque ("forest").
Puesto que esta tesis utiliza sólo los mecanismos de codificación morfosintáctica basados en estructuras de pares atributo-valor sin entrar en mecanismos más propios de análisis como pueden ser alineamiento y bosque, no hemos considerado necesario incluir esta nueva versión de la DTD. Para los lectores interesados esta nueva DTD (TEI.Ling DTD) se puede conseguir a través de los suscriptorios públicos de TEI(Vid. 1.3.2.).

Anterior I Siguiente I Índice capítulo 2 I Índice General

ISSN: 1139-8736
Depósito Legal: B-39199-99