2.4.1 Centros de investigación y asociaciones dedicadas a la creación de recursos lingüísticos

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

2.4.1 Centros de investigación y asociaciones dedicadas a la creación de recursos lingüísticos

Existen hoy día una gran cantidad de centros que han impulsado la investigación basada en los córpora y el intercambio de recursos lingüísticos computacionales, organizando conferencias, congresos y otras actividades profesionales y académicas. Debido a su profusión no podemos detenernos aquí a nombrarlas todas, ni recoger las iniciativas que cada una de ellas ha impulsado en los últimos años. Nombramos sólo las más destacadas, con el ánimo de mostrar que, si bien los estudios basados en corpus se encuentran aún en fase de asentar sus principios teóricos y metodológicos, es un hecho innegable que constituyen un ámbito de estudio al que se le presta mucha atención y en el que se invierten gran cantidad de recursos humanos y económicos.

El Norwegian Computing Centre for the Humanities (NCCH) se estableció en 1972 con el fin de desarrollar la investigación y ayudar a las instituciones académicas a usar medios y metodologías computacionales en las investigaciones humanísticas. La actividad más relevante que este centro lleva a cabo, en lo que a corpus se refiere, es albergar el archivo conocido como ICAME (International Computer Archive of Modern English, véase la sección 2.4.2.1), que contiene los primeros córpora que se compilaron para la investigación lingüística -y que han sido los más usados por la comunidad científica en los últimos veinte años: el corpus Brown (inglés americano escrito), el corpus de LOB (inglés británico escrito), el corpus London-Lund (inglés británico oral), el corpus de Helsinki (inglés diacrónico) y el corpus de Kolhapur (inglés de la India). Estos córpora se distribuyen a la comunidad científica a precios bastante razonables. Otra actividad patrocinada por este centro muy relevante para las investigaciones lingüísticas basadas en corpus es la gestión de la lista electrónica de correo CORPORA, que se ha convertido en un importante medio de comunicación y de intercambio de información e ideas entre investigadores de esta área y constituye un importante foro de discusión y debate de temas relacionados con el uso de corpus en la investigación lingüística.¹⁷

El Centre for Electronic Texts in the Humanities (CETH), dirigido por Susan Hockey, fue creado en 1991 por las universidades de Rutgers y Princenton con el propósito de convertirse en el centro neurálgico de aquellos que estuvieran interesados dentro del ámbito de las humanidades en la creación, distribución y uso de textos en formato magnético.

La Association for Computers and the Humanities (ACH) es una organización internacional dedicada a la investigación asistida por ordenador en áreas como la historia, la filosofía, la antropología, etc., con especial interés en la manipulación y el análisis de materiales textuales. Publica seis veces al año las revistas Computers and the Humanities y Bits and Bytes Review, donde se comentan programas informáticos diseñados para las humanidades y las ciencias sociales. Entre otras actividades, esta asociación impulsó la iniciativa TEI (Text Encoding Initiative), con el fin de desarrollar estándares internacionales para la codificación de textos electrónicos lingüísticos y literarios (ver 2.3.3), de forma que se facilite su intercambio y distribución.
La Association for Literary and Linguistic Computing (ALLC) es una asociación que cuenta con representantes y colaboradores en más de treinta países y se interesa por ámbitos de estudio e investigación tales como la traducción automática, el aprendizaje asistido por ordenador, la lexicografía, el desarrollo de software y las bases de datos léxicas. Publica cuatro veces al año la revista Literary and Linguistic Computing y, junto con la ACH (ver arriba), organiza un congreso internacional anual donde se reúnen los investigadores más destacados de la lingüística computacional de todo el mundo.

La Association for Computational Linguistics (ACL) es, sin lugar a dudas, la asociación más importante de las que promueve la investigación en lingüística computacional y el procesamiento del lenguaje natural. Publica la prestigiosa revista Computational Linguistics y organiza congresos anuales en diversos lugares del mundo. De entre las actividades relacionadas con el corpus patrocinadas por la ACL destacan TEI y dos proyectos orientados a la creación de córpora: la Data Collection Initiative (DCI) y la European Corpus Initiative (ECI), en los que se han recogido grandes cantidades de texto en varios idiomas puestos a disposición de la comunidad científica a precio de costo y sin derechos de autor.

La European Language Resources Association (ELRA) se creó en marzo de 1995, con la misión fundamental de convertirse en el mayor centro de clasificación, validación y distribución de todo tipo de recursos lingüísticos (bases de datos léxicas, terminológicas y acústicas, córpora y herramientas de software). En los dos últimos años han realizado también varias encuestas y sondeos a gran escala para establecer las necesidades prioritarias en cuanto a recursos lingüísticos, hacer un listado completo de los ya disponibles y ofrecer además asesoría legal, tanto a los usuarios como a los proveedores de recursos lingüísticos.

El Observatorio Español de Industrias de la Lengua (OEIL) se constituyó por iniciativa del Instituto Cervantes con la finalidad de recopilar y difundir información científica, técnica, industrial y comercial relativa a la tecnología y los recursos lingüísticos. Entre otras actividades, han realizado el primer informe sobre recursos lingüísticos del español y sobre la situación de la ingeniería lingüística en Europa (disponibles en su sede web http://www.cervantes.es/oeil).

Notas

¹⁷ Se puede obtener información sobre este centro, sus actividades, recursos lingüísticos y córpora disponibles en la siguiente dirección URL: http://www.hd.uib.no/

Índice General I Índice Capítulo 2 I Siguiente