1.1 Corpus de referencia y procesamiento de la lengua natural

ISSN: 1139-8736
Depósito Legal: B-39199-99

1.1 CORPUS DE REFERENCIA Y PROCESAMIENTO DE LA LENGUA NATURAL.

En las últimas tres décadas la lingüística computacional basada en corpus, la rama de la lingüística relacionada con el estudio del lenguaje a partir de grandes corpus textuales, se ha desarrollado como una disciplina por derecho propio, a la vez que permanece como una disciplina de apoyo para otras ramas de la lingüística.

Pero el origen de la lingüística basada en corpus es muy anterior al manejo de grandes corpus textuales y a la utilización del ordenador como medio de almacenamiento de datos.

El origen de la lingüística basada en corpus hay que buscarlo en el estructuralismo americano post-bloomfieldiano. En ese momento los lingüistas, como reflejo de una actitud positivista y conductista de la ciencia, consideran el corpus como metodología fundamental en los trabajos (fundamentalmente descriptivos) de la lingüística. El corpus –conjunto de textos suficientemente grande de muestras reales de una lengua determinada- era necesario y suficiente para las tareas que se proponían desarrollar. La intuición quedaba relegada a un papel secundario en oposición, en algunas ocasiones, al primero.

La concepción de corpus que tiene la lingüística computacional, concepción en la que se enmarca esta tesis, es algo distinta a esta que acabamos de exponer. La diferencia fundamental está determinada por el uso del ordenador como medio de almacenamiento de estas grandes colecciones de textos con las posibilidades que esto supone en cuanto a capacidad y posibilidades de acceso a la información. Con todo y con eso no se trata de dar al corpus el privilegio del "todo único y necesario" para la investigación lingüística. Entre otras cosas, no debemos ni podemos ignorar el papel de la intuición y el cambio de perspectiva que supuso el generativismo en este sentido.

La gran innovación de esta vuelta a los corpus: el uso del ordenador, se puede descifrar en tres puntos:

1.- El valor del corpus como fuente de recuperación de datos de manera sistemática.
2.- El valor del corpus como "banco de pruebas" de hipótesis o análisis lingüísticos.
3.- El valor del corpus como metodología para la creación de sistemas robustos de procesamiento de la lengua natural.

El corpus se define así como una colección de textos codificados electrónicamente, una base de datos o archivo textual que se integra en un sistema de almacenamiento y recuperación de la información, un conjunto de bases de datos textuales unidas en un sistema de estructuración de datos, textos, referencias y utensilios informáticos para su tratamiento en conexión directa a un ordenador.

Los textos se archivan fundamentalmente para que constituyan un gran depósito ordenado que sirva para satisfacer necesidades de información en la realización de proyectos como diccionarios o enciclopedias electrónicas, sistema de traducción por ordenador, de consulta de bases de datos en lengua natural, o como banco de pruebas para la comprobación de hipótesis o análisis lingüísticos expresados mediante una gramática formal.

Si hubiera que poner una fecha a este cambio de perspectiva, la mayoría de los lingüistas de este campo la situarían en 1959 con el proyecto de corpus del inglés británico escrito y hablado de Randolph Quirk "Survey of English Usage" (SEU). Poco después, Nelson Francis y Henry Kucera en la Universidad de Brown empiezan a trabajar en la creación del Brown Corpus que se define como una muestra estandarizada del inglés americano en forma impresa destinada al procesamiento en ordenador.

Aunque el proyecto de Quirk no incluye todavía la posibilidad de utilización del ordenador como medio de almacenamiento, se considera ya dentro de esta perspectiva, pues la parte de éste correspondiente a la lengua oral conforma el proyecto de Jan Svartvik: transcripción del material oral para su procesamiento en ordenador. El fruto de este trabajo es el London-Lund Corpus (LLC), que permanece hasta nuestros días como un recurso imprescindible para el estudio del inglés británico oral.

A partir de este momento se suceden los trabajos (principalmente para el inglés) de creación y explotación de corpus lingüísticos¹ .

En este momento se pueden distinguir dos enfoques en el marco de la lingüística computacional basada en corpus:

Uno de ellos es el que representan los trabajos desarrollados en la Universidad de Nimega. Este puede caracterizarse como un enfoque formalizado de la lingüística descriptiva que trata de crear gramaáticas generativas capaces de analizar nuevos corpus. El enfoque de Nimega es propiamente lingüística basada en corpus con todo el grado de refinamiento que requieran los propósitos descriptivos.

En su forma original básica, los corpus informatizados se utilizan como bancos de pruebas para determinadas hipótesis lingüísticas expresadas mediante una gramática formal. Una vez analizado, el corpus constituye una base de datos que puede ser consultada con el fin de obtener información sobre estructuras lingüísticas: frecuencia y distribución, restricciones de coaparición de determinadas estructuras, etc.

Este enfoque difiere considerablemente de otros como el representado por el grupo de trabajo de la Universidad de Lancaster – Unit for Computer Research on the English Language – (UCREL). Este enfoque es el llamado probabilístico. Sus sistemas de procesamiento de la lengua natural no crean gramáticas generativas de oraciones potenciales en una lengua determinada, sino más bien gramáticas de probabilidades de estructuras o constituyentes ("constituent likelihood grammar") donde la probabilidad de un determinado análisis para una secuencia de palabras se deriva de pruebas empíricas relacionadas con la frecuencia relativa de aparición de determinadas estructuras. La fuerza de este enfoque reside según sus defensores en su robustez: a partir de las predicciones probabilísticas el sistema es capaz de enfrentarse con cualquier tipo de texto en inglés. Su punto débil es que la confianza total en la probabilidad admite la posibilidad de error. El sistema probabilístico trata de hacer la mejor "adivinación" a partir del material ya analizado.

Si el enfoque de Nimega se caracteriza como la lingüística basada en corpus haciendo hincapié en los propósitos descriptivos del trabajo, el enfoque probabilístico sería más bien el de las aplicaciones a partir de corpus con énfasis en objetivos más industriales aplicados al análisis de mayores masas textuales. La elección del grupo de Lancaster por un enfoque probabilístico adquiere significado en le marco de los objetivos generales del análisis y generación de habla, reconocimiento de caracteres, análisis textual ("text critiquing") (correctores de estilo, aceptabilidad, etc) donde el objetivo es producir programas que acepten cualquier educto en una lengua natural determinada. La posibilidad de enfrentarse a conjuntos amplios y muy diversos de material textual con una análisis económico que permita cumplir los objetivos propuestos es prioritario al 100% de precisión que se requieren en otro tipo de aplicaciones (sistemas de consultas a bases de datos, traducción automática, etc.)

NOTAS

1 Para un relación de los principales corpus (del inglés) realizados hasta la fecha puede consultarse el apéndice "Some computerized English text corpora" en K. Aijmer, & B. Altenberg (ed) (1991) y el artículo de Leech y Fligelstone "Computers and Corpus Analysis" en C. Butler (ed) (1992).

Anterior I Siguiente I Índice capítulo 1 I Índice General

ISSN: 1139-8736
Depósito Legal: B-39199-99