0. Introducción

ISSN: 1139-8736
Depósito Legal: B-39199-99

0. INTRODUCCIÓN

El origen de esta tesis hay que situarlo en el año 1990 y, concretamente, en el encargo que la DGXIII de la Comisión de las Comunidades Europeas confía al Área de Industrias de la Lengua de la Sociedad Estatal para la Ejecución de Programas del Quinto Centenario.

En ese momento la lingüística computacional y la actividad industrial que se deriva de sus aplicaciones (las llamadas industrias de la lengua) constatan la limitación o ausencia de instrumentos en los que apoyarse para el desarrollo de proyectos relacionados con el tratamiento automático de la lengua natural.

Entre estos instrumentos se encuentra un Corpus de Referencia. Un corpus es básicamente, una colección de textos codificados electrónicamente, una base de datos o archivo textual que se integra en un sistema de almacenamiento y recuperación de la información.

En el año 1990 la mayor parte de las lenguas de la comunidad (inglés, francés, italiano o neerlandés) o incluso algunas fuera de ella (era el caso del hebreo)poseían unos o varios corpus de referencia. El español no tenía un corpus de referencia.

En este contexto, la Comisión de las Comunidades Europeas (DGXIII) encarga al Área de Industrias de la lengua de la Sociedad Estatal Quinto Centenario la coordinación de Corpues de Referencia de la Lengua Española Contemporánea, como parte del proyecto general comunitario que afecta a varias lenguas de Europa. Este corpus debía ser un corpus coordinado que incluyese el español de América además del peninsular e insular de España.

Como resultado de este encargo disponemos en estos momentos de:

Un corpus de lengua hablada en transcripción ortográfica de algo más de un millón de palabras.
Un corpus de lengua escrita variedad del español en la República Argentina de dos millones de palabras.
Un corpus de la lengua escrita variedad del español en Chile de dos millones de palabras.

La rapidez con que se desarrollaban los acontecimientos (y, sobre todo, el volumen de trabajo que estos acarreaban) nos forzaba, en los años que duró el Quinto Centenario, a limitarnos a las labores de puesta en marcha de los grupos de trabajo, coordinación entre ellos, búsqueda de patrocinadores o subvenciones de organismos oficiales que permitieran continuar el apoyo inicial de la Comunidad¹...

Una vez transcurridos los eventos del 92, de vuelta a la actividad universitaria con la infraestructura informática que suponía nuestro Laboratorio de Lingüística Informática y las posibilidades de dedicarnos a la investigación que nos brindaban nuestra situación laboral se nos planteaba el problema de explotación de estos recursos lingüísticos que habíamos creado.

En este momento, además, entramos en contacto con el Grupo de Procesamiento de Lenguaje Natural de los departamentos de Ingeniería de Sistemas Telemáticos y Matemática Aplicada de la Escuela Superior de Ingenieros de Telecomunicaciones de Madrid que coinciden con nosotros en el interés por desarrollar instrumentos (en su caso informáticos) para la creación y explotación de corpus de referencia.

Enseguida nos damos cuenta de que cualquier explotación que parta de los corpus de referencia debe basarse en corpus etiquetados y analizados lingüísticamente. El primer trabajo en la creación de corpus analizados consistía en la elaboración de un conjunto de etiquetas que tome como unidad de análisis la palabra y que dé cuenta de todos aquellos aspectos de su morfología que condicionen un comportamiento sintáctico específico. Surge entonces esta tesis como una propuesta de codificación morfosintáctica para corpus en lengua española.

Una propuesta de codificación morfosintáctica para corpus de referencia en lengua española consiste en la creación de un sistema taxonómico que toma como unidad de análisis la palabra ("conjunto de signos entre dos blancos") y que describe todos aquellos rasgos que presentan una marca formal explícita que supone, además, un comportamiento gramatical específico.

Una propuesta de codificación debe contener además un pequeño "manual del codificador" que caracterice y describa cada una de las clases ("categorías gramaticales" o "partes de la oración", en nuestro caso).

Como punto de partida contábamos, en primer lugar, con las descripciones de los conjuntos de etiquetas que se habían desarrollado para corpus en inglés. Estos sistemas de etiquetado tienen, sin embargo, dos inconvenientes en su consideración de inspiradores de sus "equivalentes" para el español:

1. La mayoría de ellos están muy condicionados por el desarrollo de etiquetadores automáticos o "taggers". En este sentido las descripciones de las propias palabras en forma de códigos que constituyen las etiquetas o membretes responden a las necesidades de una aplicación (el etiquetador) que vuelve a la palabra en la asignación de una etiqueta o membrete de manera automática.
2. Los sistemas de etiquetado del inglés y del español deben reflejar las diferencias entre una lengua casi invariable desde el punto de vista morfológico y una lengua, fundamentalmente, flexiva como es el español.

Pero el punto de partida ineludible y necesario lo constituía una palabra "muy de moda" en la lingüística computacional ligada al marco europeo en estos años: estándar. En este sentido las posibilidades de correo electrónico y ftp de que disponemos en nuestro laboratorio nos permiten hacernos con tres borradores sobre estándares para codificación de corpus desarrollados por el Comité de Análisis lingüístico de la Text Encoding Initiative (TEI)².

El interés y la buena disposición del Departamento de Investigación del Instituto Cervantes y del Departamento de Filología Española I y Filología Románica de la Universidad de Málaga en y hacia el trabajo que nos proponíamos abordar nos permite hacernos con los documentos NERC³concernientes a esta misma cuestión.

Finalmente, nuestra participación el proyecto EAGLES⁴ nos permite disponer (en febrero de este mismo año) de lo que, creemos constituye la propuesta más seria de estandarización morfosintáctica que se ha hecho hasta este momento.

Estos tres estándares y nuestra propuesta de codificación coinciden en la adopción de un sistema de etiquetado basado en pares atributo-valor. Las etiquetas o membretes tienen una estructura atómica y jerarquizada que junto a la pertenencia de las palabras a clases ("categorías") y subclases ("tipos") refleja rasgos recurrentes y específicos de las distintas formas.

A estos "puntos de partida" ligados al marco de proyectos e instituciones europeas hay que añadir dos apoyos más ligados ya a la lengua española y, sobre todo, a la propuesta de codificación que constituye esta tesis:

El primero de ellos es el que nos están proporcionando el Grupo de Procesamiento de Lenguaje Natural de la Escuela Técnica Superior de Ingenieros de Telecomunicaciones de Madrid. Fruto de nuestra colaboración es un programa de etiquetación semiautomática para las categorías cerradas del español y la elaboración de una base léxica de categorías cerradas.

En el futuro nuestra colaboración con el Departamento de Telemática se centra en la elaboración de un programa de etiquetación automático basado en conocimiento a partir del analizador morfológico que constituye la tesis de A. Moreno Sandoval⁵.

En segundo lugar, el apoyo del grupo de Nimega que se concreta en la adaptación de su etiquetador a nuestra propuesta de codificación para español y, sobre todo, en la elaboración de una gramática para análisis de corpues que parte de nuestro etiquetado morfosintáctico.

El desarrollo de esta tesis responde a la siguiente estructura:

El capítulo uno –CODIFICACIÓN Y PROCESAMIENTO DE CORPUS- contiene una breve introducción a la lingüística computacional basada en corpus, a las distintas posibilidades de marcación de corpus (codificación y análisis). Hemos incluido, además, algunas breves referencias a algunos sistemas de codificación para corpus en inglés.

Pero, sobre todo, el capítulo uno presenta una introducción a los tres estándares en los que se basa nuestra propuesta de codificación: SGML-TEI, NERC y EAGLES. Especialmente importante para comprender todo lo que en el capítulo dos se refiere a TEI es el punto 1.3.1. dedicado a SGML.

El capítulo dos –ESTÁNDARES PARA LA CODIFICACIÓN MORFOSINTÁCTICA DE CORPUS: TEI, NERC Y EALES- reúne el contenido y la forma de la codificación morfosintáctica que proponen los tres estándares considerados.

El capítulo tres –PROPUESTA DE UN MODELO DE CODIFICACIÓ MORFOSINTÁCTICA PARA CORPUS DE REFERENCIA EN LENGUA ESPAÑOLA- presenta los planteamiento teóricos (3.1.) y prácticos (3.2.) de nuestra propuesta de codificación morfosintáctica para corpus en español.

El apartado 3.1. "Planteamientos teóricos" comienza con una "declaración de principios de nuestra propuesta de codificación.

El resto del apartado 3.1. responde a la composición y estructura de un manual de gramática tradicional con una distribución en subapartados que coincide casi en su totalidad con las partes de la oración. La aportación de esta "gramática para codificación de corpus" en lo que se refiere a la distinción de "partes de la oración" (que desde ahora llamaremos "categorías gramaticales") se refiere a la incorporación de tres "categorías gramaticales" nuevas: puntuación, categoría única y categoría residual.

Cada uno de estos subapartados contiene, a su vez, una serie de puntos comunes a la mayoría de ellos. Estos son los siguientes:

En primer lugar cada categoría comienza con una breve introducción histórica que expone el tratamiento de ésta como "categoría gramatical" desde los tratados gramaticales de Platón y Aristóteles hasta las gramáticas contemporáneas y las tres propuestas de estandarización que estamos considerando.
En segundo lugar aparece la propuesta de codificación adaptada para la categoría objeto de análisis con una breve explicación de cada uno de los rasgos propuestos así como de los valores posibles de cada uno de ellos.
En tercer lugar, se apuntan los distintos casos de "transcategorización" o "asignación de membretes dobles" que puede sufrir la categoría objeto de análisis.

Sobre este punto no me gustaría dejar de hacer dos observaciones:

1. No hemos pretendido agotar todos los casos de "transcategorización" o "asignación de membretes dobles" que se pueden dar para cada una de las categorías. Nuestro objetivo, en este caso, ha sido únicamente prever los problemas que se podían presentar en la tarea de codificación de corpus relacionados con la asignación de una categoría u otra para determinadas formas.

2. La solución que hemos adoptado, la elección por la codificación como una categoría frente a otra(u otras), es consecuencia el nivel de análisis lingüístico en el que se basa esta propuesta de codificación.

En este sentido, sólo hemos hecho distinciones justificables en el nivel de lo morfosintáctico. Por ejemplo, en la asignación de membretes dobles entre las categorías de adjetivo y verbo (participio⁶), hemos reservado la codificación de participio únicamente para las formas típicamente verbales (participios en las formas verbales compuestas, pasivas o construcciones resultativas).

La distinción entre adjetivos y participios en otros casos ("edición reducida"/"edición reducida por el editor" o "hombre resuelto"/"problema resuelto")⁷ es imposible (y creemos que carece de sentido) desde una propuesta de codificación que toma como objeto de análisis la palabra y como unidad de análisis lingüístico lo estrictamente morfosintáctico.

Además, consecuencia también de este segundo punto, en los casos de duda entre la asignación a una categoría u otra hemos adoptado el criterio de adscripción a la categoría que permita mayores posibilidades de diferenciación de la forma en cuestión. Por ejemplo, en la asignación de membretes dobles entre la clase pronombre y la clase conjunción⁸ para las formas que, (el) que, o (la) que nos hemos decidido por la primera. Efectivamente, los rasgos de "género" y "número" asignados por concordancia con el antecedente en las proposiciones subordinadas adjetivas nos permiten diferenciar este "que" frente al que introduce proposiciones subordinadas sustantivas, por ejemplo, para el que reservamos la codificación de conjunción.

En cuarto y último lugar para algunas categorías hemos hecho un pequeño apartado final que recoge codificaciones peculiares de la categoría en cuestión. Se trata de diferenciar ciertos comportamientos de algunas formas pertenecientes a la categoría objeto de análisis a partir únicamente de los rasgos y valores que se han propuesto para su codificación siguiendo así el principio seis de nuestro sistema de codificación.⁹

El apartado 3.2. constituye la aportación práctica de esta tesis.

1. Contiene el conjunto de etiquetas o membretes que se deriva de nuestra propuesta con ejemplos en contexto. Este apartado junto con 3.1. podría constituir el "manual del codificador" que se deriva de nuestra propuesta.
2. Es el fichero que contiene la declaración del sistema de rasgos ("Feature System Declaration" FSD).
3. Contiene la definición de entidades de primer y segundo orden de nuestro sistema de codificación. Llamamos entidades de primer orden a las que dan cuenta de los pares atributo-valor de nuestro sistema de codificación. Entidades de segundo orden serían las que dan cuenta de la composición de los membrete o etiquetas resultado de aplicación a nuestra lengua de los pares atributo-valor que postulan las entidades de primer orden.

3.2.2. y 3.2.3 incluyen las DTD de los formalismos que contienen fichero FSD y definición de entidades de primer y segundo tipo.

Finalmente, el Apéndice muestra un ejemplo de aplicación de codificación manual sobre una muestra del corpus del español peninsular del King’s College. Con esta aplicación, no se pretende ni mucho menos probar la validez de nuestra propuesta. Para que esta prueba fuera realmente válida, estamos convencidos que tendríamos que enfrentarnos a corpus de varios millones de palabras. A corto plazo, la validez de esta propuesta provendrá únicamente de los estudios sucesivos de análisis (principalmente del trabajo que desarrollará la tesis de Jan Cloeren sobre una gramática para análisis de corpus).

NOTAS

1 En este sentido no quisiéramos dejar de expresar nuestro agradecimiento en primer lugar a la propia DGXIII por habernos embarcado en esta comprometida e interesante tarea y por haber proporcionado el apoyo económico inicial, a la Sociedad Estatal Quinto Centenario por habernos proporcionado la infraestructura y el apoyo logístico inicial. Junto a ellas dos, a la empresa IBM España (por su aportación económica para la realización del corpus oral) al entonces Ministerio de Industria y Energía y a la Agencia Española de Cooperación Internacional (por sus aportaciones en los corpus escritos de Argentina y Chile).

2 Cf. 1.3.2. y capítulo 2.

3 Cf. 1.3.3. y capítulo 2.

4 Cf. 1.3.4. y capítulo 2.

5 Moreno Sandoval A.: "Un modelo computacional basado en la unificación para el análisis y la generación de la morfología del español". Tesis doctoral. Dept. de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia. Universidad Autónoma de Madrid, 1992.

6 Cf. 3.1.4.

7 Cf. Bosque (1991)

8 Cf. 3.1.2.

9 Cf. 3.1.0.

Índice capítulo 1 I Índice General

ISSN: 1139-8736
Depósito Legal: B-39199-99