6.1 El corpus como herramienta de análisis terminográfico

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

6.1 El corpus como herramienta de análisis terminográfico

Hemos estudiado primero los textos que componen el corpus desde el punto de vista del conocimiento que los especialistas comunican en ellos. Para ello, hemos analizado las unidades léxicas que han resultado relevantes (en términos de frecuencia o de prominencia temática), viendo la información que nos ofrecen sobre el conocimiento de nuestra área de especialidad y su relación con otras áreas afines o el conocimiento general. En los análisis que incluimos en esta sección, por tanto, trataremos las unidades lingüísticas que componen en corpus (i.e. palabras o combinaciones de palabras) como vehículos de conocimiento, ya sea éste general o especializado, sin por ello ceñirnos solamente a las que podrían considerarse unidades de significación especializada y sin juzgar si dichas unidades pueden (o deben) considerarse unidades terminológicas o palabras de la lengua general.

Partimos de la base de que el conocimiento es un continuo en el que se integra tanto el conocimiento de un área de especialidad como el de otras áreas afines, junto con el conocimiento general. De ahí nuestra propuesta de representarlo en una ontología de conceptos (véase capítulo 5, apartado 5.3) en las que se facilita la tarea de relacionar conceptos específicos a una materia con otros conceptos, ya sean éstos de otras áreas afines o del conocimiento general.

En nuestra investigación, hemos trabajado con tres córpora diferentes:

British National Corpus (BNC) (§ 2.4.2.1), compuesto por 100 millones de palabras, creado con la intención de que constituya una muestra representativa del mayor número de estilos, géneros y variedades de la lengua inglesa actual. Al tratarse de un corpus de propósito general en cuya composición se ha hecho mucho énfasis en la representatividad de la lengua, lo hemos usado como corpus de referencia para establecer comparaciones con los otros dos córpora especializados.
Corpus de oncología: de 28 millones y medio de palabras. Los textos incluidos en este corpus los hemos recopilado de las fuentes documentales expuestas en 4.3.3, siguiendo los criterios de selección expuestos en 4.3.1. Son, por tanto, textos que se han producido en situaciones comunicativas diversas (comunicación entre especialistas, de especialista a iniciado, (semi)-especialista a lego y profesor a alumno), por lo que varían en cuanto al nivel de tecnicidad y los receptores a los que van dirigidos; son textos incluidos en su totalidad, que cumplen también los requisitos de calidad y simplicidad impuestos por nuestra investigación; de procedencia identificada, reciente publicación y carácter factual.
Subcorpus sobre la leucemia: es una porción de textos (medio millón de palabras) que pertenecen al corpus de oncología, pero han sido seleccionados para formar un subcorpus por la especificidad de su temática: todos tratan sobre aspectos diferentes de la leucemia. Lo denominamos subcorpus porque, en realidad es un componente del corpus de oncología, que hemos usado de forma independiente en determinadas ocasiones, sobre todo en el estudio de la estructuración conceptual y para hacer estudios comparativos de frecuencia de aparición y co-aparición de unidades léxicas, comparándolo con el corpus de referencia (BNC) y el corpus de oncología.

Hemos llevado a cabo el estudio y análisis de estos tres córpora usando un potente conjunto de herramientas diseñadas por Michael Scott denominado WordSmith Tools,¹¹³ cuyo funcionamiento ya mostramos brevemente en el apartado 2.6. Según la descripción de su propio autor, WordSmith Tools es un grupo de programas diseñado para estudiar la forma en la que las palabras se comportan en los textos. Posee las funcionalidades de otros programas específicos diseñados para la terminología (como el TEXT ANALYZER o el Translator’s Workbench, véase § 4.3.2) pero, además, completa estas funcionalidades básicas con otros tipos de cálculos estadísticos más complejos que, en nuestra opinión, poseen un gran potencial para el trabajo terminográfico.¹¹⁴ Como veremos en las secciones que siguen, WordSmith está compuesto por cuatro grupos de herramientas principales, desde las cuales se pueden realizar una gran variedad de cálculos y análisis textuales, entre los cuales destacamos:¹¹⁵

WordList nos permite obtener listas de palabras ordenadas alfabéticamente o por frecuencia, junto con estadísticas detalladas sobre la composición del corpus. Las listas de palabras pueden estar basadas en unidades léxicas simples o en grupos de dos o más palabras. Esta herramienta permite, además, comparar listas de palabras para estudiar diferencias en la frecuencia de uso e indizar el corpus, con lo que se acelera el tiempo de proceso en las búsquedas y dicho índice puede después usarse para obtener otros tipos de información, como el MI-Score (índice de información mutua, véase § 2.6).
KeyWords es una herramienta que permite extraer las "palabras clave" de un corpus, tomando éste como una unidad, o bien de los ficheros que lo componen tomados de forma independiente. Permite, además, estudiar la forma en la que dichas palabras clave se distribuyen el texto y los enlaces que existen entre una palabra clave y las demás.
Concord es una herramienta de concordancia muy completa que, además de las características usuales, permite computar colocaciones, análisis de patrones léxicos (patterns) y agrupaciones de palabras (clusters).
Viewer, Splitter y Text Converter son otras tres herramientas adicionales que permiten, respectivamente, acceder al fichero de texto al que pertenece una línea de concordancia, dividir textos en partes más pequeñas y convertir el formato de un texto para adaptarlo a las necesidades del usuario.

Notas

¹¹³ Puede obtenerse amplia información sobre WordSmith Tools en la siguiente sede web http://www.ndirect.co.uk/~lexical/wordsmit.htm así como a través de Oxford University Press, editorial que se encarga actualmente de su venta y distribución: http://www.oup.co.uk/elt/catalogu/multimed/4589846/4589846.htm

¹¹⁴ Además, este grupo de herramientas es el que utilizado para la elaboración de diccionarios en la editorial Oxford University Press, lo que da fe de su estabilidad y robustez.

¹¹⁵ Sin embargo, hay un área de gran interés para la terminografía en la que WordSmith Tools no es lo suficientemente completo: la extracción automática de candidatos a términos. Para este tipo de tarea se necesita una herramienta específicamente diseñada para tal fin. El trabajo expuesto en Estopá (1999) constituye en excelente ejemplo de este tipo de herramienta y de la complejidad que conlleva su diseño.

Índice General I Índice Capítulo 6 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez