2.4.2.1 Proyectos de creación de corpus en lengua inglesa

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.4.2.1 Proyectos de creación de corpus en lengua inglesa

Repasamos a continuación los proyectos de corpus más conocidos, comenzando cronológicamente por los más antiguos. No son, por supuesto, todos los proyectos de los que tenemos constancia, pero sí son algunos de los más usados en los últimos años en estudios lingüísticos y lexicográficos y pensamos que pueden dar una idea de la diversidad y auge creciente de las iniciativas de recopilación y creación de córpora. Algunos de estos proyectos parten de la iniciativa académica (una universidad o un departamento), otros son producto de la colaboración entre varias universidades, en algunos casos con la participación de editoriales u otras iniciativas privadas. Muchos de ellos han contado con el apoyo y la financiación de asociaciones académicas y/o de organismos oficiales.

En las descripciones de algunos de estos córpora hemos señalado también la existencia de versiones etiquetadas (tagged) y/o analizadas sintácticamente (parsed), generalmente con representaciones arbóreas de la estructura de sus constituyentes, por lo que se conocen con el nombre genérico de treebanks (ver sección 2.3.3).

Uno de los primeros córpora que se creó, en los años 60, fue el Survey of English Language, proyecto impulsado por Sir Randolph Quirk, cuya finalidad era recoger un corpus grande y estilísticamente variado que sirviera de base para la descripción sistemática del inglés oral y escrito. El primer corpus en formato electrónico lo compilaron Nelson Francis y Henry Kucera en la Universidad de Brown a principios de los sesenta (Brown Corpus), un corpus de un millón de palabras (se compone de 5000 textos de 2.000 palabras) que los autores describían como una muestra estándar de inglés (americano) actual, para ser usado en ordenadores digitales (Francis 1982; Francis & Kucera 1982; Kûcera 1992).

Durante esos mismos años, J. Sinclair compilaba en la Universidad de Edimburgo el primer corpus oral de inglés británico, con fondos del Department of Scientific and Industrial Research del gobierno británico. A partir de entonces, las colecciones de corpus se han hecho más y más numerosas y han alcanzado cifras de palabras que ya se cuentan por cientos de millones. Nombramos a continuación algunas de las más representativas, aunque repetimos que esta lista no pretende en modo alguno ser exhaustiva:

La Birmingham Collection of English Text fue creada entre 1980 y 1985 por J. Sinclair, A. Renouf y J. Clear. Está compuesta por 20 millones de palabras, 18,5 m. de inglés escrito y 1,5 m. de inglés oral y se empleó en la compilación de los primeros diccionarios y gramáticas de la editorial Collins Cobuild (acrónimo de Collins Birmingham University International Language Database). Este corpus fue creado con el propósito de que fuera una muestra representativa del inglés británico moderno, por lo que contiene textos tanto provenientes de variedades regionales como de lenguaje general con una gran difusión entre los hablantes. Hoy por hoy, casi veinte años después, este corpus, desarrollado en el denominado Bank of English, cuenta con 320 millones de palabras y ofrece diversos servicios (por ejemplo el acceso directo a parte del corpus) a través de su sede web (http://titania.cobuild.co.uk).

El Lancaster-Oslo/Bergen Corpus (LOB) está formado por un millón de palabras en inglés británico provenientes de textos escritos publicados en 1961. Fue compilado en 1970, bajo la supervisión de Leech (Universidad de Lancaster) y S. Johansson (Universidad de Oslo) y es el correspondiente británico al corpus Brown. Contiene 500 textos de 2.000 palabras cada uno, más o menos de los mismos tipos y variedades de textos que los incluidos en el corpus Brown. Existe también una versión etiquetada de este corpus, producida por el etiquetador CLAWS1, que usa probabilidades basadas en el texto para asignar las etiquetas morfológicas a las palabras contenidas en los textos. Los detalles de la metodología de compilación y su posterior etiquetado se encuentran en Garside, Leech & Sampson (1987). Una parte de este corpus (45.000 palabras) ha sido analizada sintácticamente de forma manual (hand-parsed), conocida como el Lancaster-Leeds Treebank; otra parte (140.000 palabras) ha sido analiza de forma automática, conocida como el Lancaster Parsed Corpus. Existen versiones etiquetadas del corpus Brown, producidas por el ya mencionado etiquetador TAGGIT, que asignaba etiquetas a cada una de las palabras de un repertorio de 82 categorías morfo-sintácticas. También existe una versión de este corpus analizada sintácticamente (parsed), conocida como el Gutenberg Corpus.

El corpus SUSANNE (Surface and Underlying Structural Analyses of Naturalistic English) es también una versión de parte del corpus Brown, analizada sintácticamente, pero usando códigos más sencillos y fáciles de manejar por los usuarios humanos.

El London-Lund Corpus (LLC) se compone de 500.000 palabras recogidas de conversaciones entre hablantes cultos de varias edades y en varios contextos situacionales. Las conversaciones fueron transcritas para incluir marcas de unidades tonales, acentos, pausas y otros rasgos prosódicos. Este corpus oral fue originalmente compilado para formar parte del conocido Survey of English Usage, usado en la creación de una de las más famosas gramáticas de la lengua inglesa (Leech & Svartvik 1975; Quirk, Greenbaum, Leech & Svartvik 1972, 1985). Los cien textos que componen este corpus pueden obtenerse como texto sin etiquetar o con etiquetas semánticas y sintácticas asignadas a todas las palabras de los textos. En Svartvik (1990) se puede encontrar una extensa bibliografía donde se recogen referencias a más de 200 estudios realizados usando este corpus.

El Helsinki Corpus of Historical English está compuesto por un millón y medio de palabras tomadas de textos legales, científicos, sermones, diarios, obras de teatro y correspondencia privada y oficial, ordenados en periodos de unos 100 años a partir del 850. Este corpus suele usarse para realizar estudios sobre el desarrollo de la lengua inglesa a través de los siglos.

El Longman/Lancaster English Language Corpus es un corpus de 30 millones de palabras compilado por la editorial Longman en colaboración con la Universidad de Lancaster. Contiene diversas variedades estilísticas y textuales y se creó para ser usado en la compilación de diccionarios. En 1988 se empezó a compilar el International Corpus of English (ICE), bajo la dirección de S. Greenbaum, con el propósito de construir una muestra comparable de las variedades internacionales de la lengua inglesa. El corpus se compone de muestras comparables de textos escritos y orales de varios países y regiones, e incluye entre otros Estados Unidos, Australia, Jamaica, Inglaterra, Gales, Canadá, Nueva Zelanda, India y Nigeria. Cada corpus regional se compone de un millón de palabras, la mitad de lengua escrita y la mitad de lengua oral. También se ha proyectado recoger en este corpus otras variedades, como el inglés usado en ámbitos internacionales por no nativos y textos orientados a la enseñanza del inglés.

El British National Corpus (BNC) se creó bajo la dirección de Sir Randolph Quirk y la colaboración de las editoriales Oxford University Press, Addison-Wesley Longman y Larousse Kingsfisher Chambers, la British Library y las Universidades de Oxford y Lancaster. Se creó con la finalidad de ser una muestra representativa (de 100 millones de palabras) del mayor número posible de estilos y variedades de la lengua inglesa actual, de forma que ofreciera a la comunidad científica y también a la industria un corpus representativo que pudiera ser usado en una amplia variedad de tareas en el ámbito del procesamiento del lenguaje natural y de las industrias de la lengua. Se definió desde el comienzo del proyecto un estricto esquema de codificación de los textos con el formato estándar SGML, siguiendo las indicaciones del TEI. Junto con el corpus se ha diseñado una serie de herramientas de manejo, conocidas como el sistema SARA (SGML-Aware Retrieval Application) y se distribuye en formato CD-ROM, que puede ser adquirido directamente a través de su sede web.¹⁸

En 1989 la Association for Computational Linguistics Data Collection Initiative (ACL/DCI) inició un proyecto para la recolección de texto en formato electrónico de forma que pudiera servir de banco de textos a la comunidad científica, distribuyéndola a precio de coste y sin derechos de autor (Church & Liberman 1991; Walker 1993). Esta colección de textos se distribuye en formato CD-ROM, el primero de los cuales, por ejemplo, contenía 300 Mb de texto del Wall Street Journal, 180 Mb de resúmenes científicos, el texto completo del diccionario Collins English Dictionary y algunos fragmentos de texto etiquetado y analizado sintácticamente proveniente del proyecto Penn Treebank.

El Linguistic Data Consortium (LDC) se estableció en 1992 en la Universidad de Pennsylvania, con la finalidad de recoger recursos lingüísticos en todas la lenguas europeas y ponerlos a disposición de los investigadores en un formato estándar, al igual que en casos anteriores, a precio de coste y sin derechos de autor sobre las recopilaciones de texto. En su sede web es posible encontrar una lista completa de los recursos lingüísticos que distribuyen, así como información de carácter general sobre las actividades que llevan a cabo: http://www.ldc.upenn.edu/ldc

El Nijmegen TOSCA Corpus es un banco de textos que contiene 75 obras con un total de un millón y medio de palabras de inglés culto escrito, pertenecientes a géneros variados. Se creó para hacer estudios sobre variación lingüística y se halla en la universidad de Nijmegen en el centro de investigación de lingüística de corpus dirigido por Jan Aarts y C. Koster. Este centro de investigación también ha desarrollado el Linguistic Database System, un conjunto de herramientas computacionales diseñadas para realizar análisis sintácticos oracionales y que permiten buscar en un corpus oraciones que posean determinadas propiedades sintácticas (van Halteren & Oostdijk 1988; van Halteren & van Heuvel 1990).

El Oxford Text Archive es uno de los mayores centros de recopilación de textos. En sus catálogos se listan mas de 2000 títulos y se incluyen 450 colecciones independientes de textos de lenguaje escrito y oral en 35 lenguas. ¹⁹ Sus recursos se encuentran disponibles a la comunidad científica a precios muy bajos, siempre que sean usados para fines académicos.

El International Computer Archive of Modern English (ICAME) fue fundado en 1977 con el fin de recopilar y distribuir información sobre los materiales en lengua inglesa disponibles en formato electrónico y sobre las investigaciones llevadas a cabo con esos materiales. También se propuso crear un banco de córpora informatizados y ponerlos a disposición de la comunidad científica. Se encargan de distribuir en formato CD-ROM los córpora más usados (Brown, LOB, London-Lund, etc.) a precios accesibles.

El Child Language Exchange System (CHILDES) se compone de una serie de colecciones de textos producidos por niños en varias lenguas e incluye varias de las mayores recopilaciones de texto producido por niños de lengua inglesa. También contiene varias recopilaciones de lengua producida por adultos. Sus recursos se encuentran disponibles para fines académicos sin cargo alguno en los servidores del departamento de psicología de la Universidad de Carnegie Mellon.
El proyecto Gutenberg ha realizado varias compilaciones de textos literarios disponibles en formato CD-ROM y también a través de su sede web.²⁰

El corpus de Knowles & Lawrence se compone de 52.000 palabras de inglés británico, recogidas entre 1984 y 1987 de emisiones radiofónicas, clases en la universidad y otros tipos de lengua oral. Las transcripciones ortográficas y fonéticas han sido etiquetadas por el programa CLAWS2.

El Pixi Corpora se compone de 450 conversaciones espontáneas grabadas en librerías de Inglaterra e Italia, con el fin de realizar comparaciones culturales en cuanto a la estructuración del discurso hablado.

Notas

¹⁸ En la siguiente dirección http://info.ox.ac.uk/bnc

¹⁹ Puede obtenerse el catálogo de los recursos ofrecidos en el Oxford Text Archive a través de ftp anónimo en siguiente dirección: ftp://black.ox.ac.uk

²⁰ La dirección de ftp es la siguiente: ftp://mrcnext.cso.uiuc.edu

Índice General I Índice Capítulo 2 I Siguiente