ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

4.3 Recopilación, diseño y análisis de corpus especializado

En el capítulo segundo hemos discutido ampliamente cuestiones relacionadas con la definición (§ 2.3), recopilación y diseño (§ 2.3.1), tipología (§ 2.3.2) y análisis (§ 2.5 y 2.6) de córpora. Sin embargo, debemos ahora detallar el contenido de estas secciones enmarcándolas en el trabajo terminográfico y, en consecuencia, centrándonos en los córpora especializados.52

Si retomamos la definición ofrecida por EAGLES (1996a: 4), hemos de considerar un corpus como una recopilación de muestras lingüísticas, seleccionadas de acuerdo con una serie de criterios y con la finalidad de que constituyan una muestra representativa de la lengua. Para poder aplicar esta definición a un tipo de corpus particular, el corpus especializado, es necesario plantear dos cuestiones previas:

  1. criterios de selección de los textos;
  2. concepto de representatividad aplicado a los lenguajes de especialidad.

En la tipología de córpora que ofrecimos en la sección 2.3.2, definíamos un corpus especializado como un tipo de corpus especial: córpora que han sido diseñados con algún propósito específico, que no tienen la finalidad de ser representativos del uso lingüístico general, sino del uso lingüístico de un grupo específico de hablantes, normalmente seleccionados por poseer unas características o particularidades que los alejan del uso general. Sin embargo, aunque el criterio de representatividad debe restringirse al dominio de estudio específico para el que son creados, los córpora especializados han de poseer, en nuestra opinión, características y propiedades similares a las de los córpora de referencia (en cuanto a cantidad, calidad, simplicidad y documentación, véase § 2.3.1).

Recopilar un corpus especializado que cumpla los requisitos de cantidad, calidad, simplicidad y documentación no constituye hoy día una tarea demasiado difícil, ya que cada vez es más fácil acceder a documentos en formato magnético que puedan ser candidatos a formar parte de un corpus especializado.53 Más laboriosa, sin embargo, es la delimitación del criterio de representatividad aplicado a los lenguajes de especialidad. Esto ocurre por dos motivos fundamentales:

  1. la propia dificultad que presenta definir la representatividad;
  2. dificultad que supone acotar un lenguaje de especialidad, debido sobre todo a la creciente interdisciplinaridad de las áreas de especialidad (y con ellas, sus lenguajes) y a la difusión cada vez mayor de la información especializada entre los no especialistas.

A pesar de las dificultades que pueda plantear, lo más razonable es adoptar una definición operativa de representatividad, como la propuesta por Biber (1993: 243), quien la define como "the extent to which a sample includes the full range of variability in a population", e identificar las variedades que el corpus debe incluir, añadiendo o modificando la selección según los resultados obtenidos.54

Se han propuesto una serie de criterios para la selección de textos, y aunque éstos han sido diseñados teniendo en mente un corpus de uso general, pensamos que pueden ser de gran utilidad para guiar la composición de un corpus especializado, complementados por otros de carácter más específico y por las indicaciones de los especialistas. Dichos criterios se dividen en dos grupos:

En la compilación de un corpus de especialidad, los criterios externos han de elaborarse teniendo en cuenta las diferentes situaciones comunicativas en las que los especialistas se comunican, bien entre ellos o con el resto de los hablantes. En este sentido, pensamos que pueden ser de gran utilidad las cuatro grandes categorías que presentamos en el apartado 4.1.4, en el que diferenciamos entre situaciones en la que se da:

Estos cuatro tipos de situaciones comunicativas nos han servido como criterio primario de asignación y clasificación de los textos en el corpus. No pretenden ser, en absoluto, exhaustivas y, como veremos en el apartado siguiente, han de complementarse con otros criterios externos que sirvan no sólo para la clasificación de los textos, sino para guiar las decisiones de inclusión o exclusión de un texto en el corpus.

En cuanto a los criterios de selección internos, que en los estudios de lengua general se consideran primariamente criterios lingüísticos, éstos han de desarrollarse específicamente para dar cuenta de la doble funcionalidad que el corpus posee para el terminógrafo, ya que supone una fuente de información tanto lingüística como conceptual. Por tanto, será necesario analizar, por una parte, la densidad terminológica de los textos, para incluir textos de mayor o menos densidad en función de la especialización del trabajo para el que se va a usar el corpus. Por otra parte, también se debe analizar la densidad conceptual55 de los textos (que, a buen seguro, irá en proporción directa con la densidad terminológica, aunque puede que no sea así en todos los casos).56

Consideramos, a continuación, estos criterios y exponemos los que han guiado la selección de los textos incluidos en el corpus usado en nuestro trabajo de investigación. Queremos, sin embargo, hacer una puntualización más en lo que respecta a la tipología de corpus: la necesidad de establecer una tipología de córpora especializados, tarea que queda fuera de los límites de nuestro trabajo de investigación. Pensamos que esta tipología sólo podrá, con el tiempo, derivarse de la extensión del uso de los córpora en el trabajo terminológico y la posterior reflexión sobre su uso y que será un testigo indudable, no sólo de la multiplicidad de circunstancias en las que se comunica el conocimiento especializado sino también de la multiplicidad de situaciones en y para las que se realizan los trabajos terminográficos.


Notas

52 Hay que destacar, sin embargo, que los córpora de carácter general (por ejemplo, un corpus de referencia) también son de gran utilidad en el trabajo terminográfico, ya que pueden usarse para estudiar la banalización de una unidad terminológica o hacer estudios comparativos entre los elementos léxicos de un corpus general y uno especializado, con el fin de diferenciar el uso terminológico o general de una misma unidad léxica o para la extracción de elementos candidatos a términos.

53< Sin embargo, en el caso de lenguas de menor difusión tecnológica sigue siendo muy difícil acceder a textos en formato electrónico. Sin ir más lejos, la cantidad de información sobre el cáncer disponible en formato electrónico en español no es comparable con la que existe en lengua inglesa (véase 4.3.3), por lo que para la recopilación del corpus de español del proyecto OncoTerm estamos ahora en el proceso de escaneado de textos especializados con un programa de OCR (Optical Character Recognition)) para su posterior reconocimiento.

54 Recordemos que el proceso de compilación debe, según Biber (ibid: 256), ser cíclico, de modo que de forma continuada se debe estudiar la composición del corpus y decidir qué criterios del diseño deben ser modificados, qué variedades nuevas de textos han de incluirse, y en qué proporción.

55 Meyer & Mackintosh (1996: 267), por ejemplo, hablan de "knowledge rich texts" para referirse a textos con una alta densidad de información conceptual.

56 Por ejemplo, un texto con un alto grado de especialización puede contener muchos términos, pero al estar dirigido a una audiencia que no requiere explicaciones sobre ellos; puede, por tanto, contener mucha información factual (cifras, estadísticas, etc.) y muy poca información sobre los términos usados.


Índice General I Índice Capítulo 4 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez