ISSN:  1139-8736
Depósito Legal: B-39199-99

CONCLUSIONES

La aportación que supone esta tesis es haber diseñado un esquema de codificación morfosintáctica para corpus en lengua española basado en los estándares TEI, NERC y EAGLES mediante un sistema de rasgos formado por pares atributo-valor que toma como objeto de análisis la palabra como conjunto de signos entre dos blancos.

Este esquema de codificación contiene no solamente lo que pueda constituir en el futuro un "manual del codificador": descripción de las categorías y de los rasgos codificables de cada una de ellas, tratamiento de los problemas de transcategorización, ... y una descripción con ejemplos en contexto de todos y cada uno de los membretes posibles 1.

Este esquema de codificación contiene además todos los elemntos que permiten el tratamiento de un corpus codificado morfosintácticamente por un analizador SGML. Con este fin creamos el fichero FSD, y, sobre todo, con este fin hemos formalizado la definición de lo que hemos llamado entidades de primer y segundo oren y hemos creado nuestra DTD lingüística.

Desde el punto de vista de estandarización y validez interlingüística, nuestra proopuesta sigue los dos requisitos necesarios para su conversión en lo que Leech y Wilson llaman "Nivel de etiquetado intermedio 2".

1.- Se ha utilizado el atributo "categoría gramatical" en los mismos términos y con los mismos valores que lo utilizan Leech y Wilson en el documento EAGLES 3
2.- EL orden que siguen los rasgos para cada una de las categorías es el propuesto por Leeech y Wilson en el documento EAGLES.

Creemos ( ya sí lo expresamos ya en la introducción) que la evaluación más crítica a corto plazo de nuestro trabajo es su utilización como punto de partida para estudios posteriores de codificación y análisis de corpus. En este sentido confiamos al trabajo de Jan Cloeren, la primera labor de revisión y refinamiento de nuestra propuesta 4.

Pero, nuestro trabajo (o más bien la aplicación sobre corpus que de él se deriva: corpus codificados morfosintácticamente) es en su estado actual un trabajo útil por si mismo.

En primer lugar, la codificación de las palabras en los corpus contiene parte de la información que acompaña a la descripción de un artículo en un lexicón 5.

En segundo lugar, las palabras en el corpus tienen una caracterización suficientemente completa y consistente como para garantizar la recuperación automática de palabras (o conjunto de palabras) con los parámetros que suponen una codificación morfosintáctica en los términos que contiene nuestra propuesta6.

Nuestra investigación (los presupuestos en los que se apoya y los resultados actuales) tiene también sus limitaciones. Estas conclusiones no serían completas y esta tesis no sería válida si estas no quedaran constatadas en algún sitio.

En primer lugar, el estudio y, sobre todo, la aplicación de algunos de los rasgos que contienen las propuestas de estandarización nos ha hecho ver la escasa rentabilidad de su inclusión en una propuesta de estandarización. Un ejemplo claro que ya comentamos en el apartado 3.1. es la inclusión de mayúscula inicial como un rasgo pertinente en la codificación del sustantivo. Nos remitimos a todo lo dicho allí.

En segundo lugar es necesario revisar la lista de categorías gramaticales que en este momento proponen los estándares. Por ejemplo, respecto a la existencia de una categoría "cuantificador" y pese a lo que se expone en la nota seis del apartado 3.1.2., nuestra intuición lingüística y la pequeña muestra que ha supuesto la codificación del corpus que contiene el apéndice nos aconsejan indagar más esta línea.

Nuestra propia distinción de "categorías gramaticales " puede refinarse en algunos casos, aunque para ellos se desvíe en parte de las propuestas de estandarización. No descartamos, por ejemplo, un reconocimiento de una categoría determinante 7 que de cuenta eso sí de la distinción funcional o distribucional: DETcentral, preDET y posDET.

En tercer lugar, hemos echado de menos la posibilidad de emplear en algunas ocasiones un criterio funcional que nos llevaría a hacer algunas distinciones que consideramos útiles en los estadios primeros de codificación de corpus. Estamos pensando, por ejemplo, en una codificación del adverbio que tenga en cuenta su capacidad para modificar a verbos, adjetivos, adverbios (al conjunto, como es el caso de los adverbios en mente, o a algunos de ellos).

En otros casos, ha sido el criterio de subcategorización el que ha estado ausente en este primer estadio de codificación. Es el ejemplo de los verbos. Criterios exclusivamente morfológicos no han hecho dejar de momento la distinción de comportamientos de verbos transitivos, intransitivos, modales, etc. Es esta una distinción urgente y muy útil, en el desarrollo de programas de etiquetado automático 8 .


NOTAS

1  . En este aspecto nuestro trabajo responde, entre otros, al segundo principio que Leech y Wilson enuncian en el documento EAGLES "Existencia o disponibilidad de la doucmentación que contiene la práctica de codificación" con todos los requisitos que está debe cumplir.

2  . Cf. 2.1.0.

3  . La única excepción a este principio lo constituye el no establecimiento de una clase mixta pronombre-determinante.

Sin embargo, la mayor parte de la información que recoge la estructura de pares atributo-valor que Leech y Wilson asignan a esta categoría mixta. Está recogida en nuestra propuesta de manera independiente para la categoría pronombre y para la categoría adjetivo con estructura de rasgos pronominal.

4  . Es necesario señalar que esta etapa de colaboración con Jan Cloeren y el grupo de Nimega se ha iniciado ya en la última fase de redacción de esta tesis. En el día de redacción de esta tesis contamos con una nota de correo electrónico de Nimega en la que nos informa que se está trabajando en la creación de un transductor ("trasducer") para nuestro esquema de codificación.

Un transductor es un programa que controla la consistencia formal de los códigos que hemos empleado y que permite convertirlos en otros formatos como, por ejemplo, AGFL.

5  . Una propuesta de trabajo interesante a partir de esta tesis relacionada con la codificación lingüística de diccionarios sería el estudio de la incorporación de nuestro etiquetado en la descripción gramatical de un artículo de diccionario. Otra podría ser el camino inverso o incorporación de información contenida en un lexicón en la codificación de corpus, compatibilidades e incompatibilidades en contenidos y formalización, ...

6  . En este momento se ha hecho ya una explotación del corpus en estos términos. Se trata de un proyecto fin de carrera del Grupo de Procesamiento del Lenguaje Natural de la Escuala Técnica Superior de Ingenieros de Telecomunicaciones. Concretamente se ha utilizado en la obtención de marcos de subcategorización de verbos para el proyecto de "Aprendizaje de léxico" de Juan Monedero Rico.

Además se nos ocurren por lo menos tres posibilidades potenciales de análisis lingüístico a partir de nuestro corpus:

1.  Análisis de perífrasis verbales, locuciones o unidades multipalabra.
2.  Análisis del pronombre personal "se" en su condición de reflexivo y no reflexivo y en todas las construcciones posibles (impersonales, pasiva refleja, pronominal, ...)
3.  Análisis de los fenómenos de leísmo, loísmo y laísmo.

En todo lo anterior, sin embargo, no se nos escapa la limitación que supone el tamaño actual de nuestro corpus codificado. Los programas de etiquetado automático o (semi) automático en los que trabajamos en este momento deben constituir una prioridad en el desarrollo de las herramientas de explotación que nos planteamos a partir de esta tesis.

7  . Cf. 3.1.3.

8  .Respecto a estas dos últimas ausencias (la que se refiere a la codificación de rasgos funcionales en el adverbio y la relacionada con la subcategorización del verbo) son coherentes con las limitaciones que impone el desarrollo de una tesis en cuanto a la delimitación del objeto de investigación. En nuestro caso esta se refería al criterio exclusivamente morfosintáctico para el establecimiento de rasgos.
 

Anterior Siguiente  Índice General


ISSN:  1139-8736
Depósito Legal: B-39199-99