4.3.1 Criterios generales para la selección de los textos de un corpus especializado

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

4.3.2 Herramientas de análisis de corpus: necesidades específicas de los terminólogos

Al igual que en otros tipos de estudios lingüísticos, para que el corpus sea de utilidad para el terminógrafo, éste debe contar con las herramientas apropiadas que le asistan en el análisis. En los apartados 2.5 y 2.6 vimos algunas de estas herramientas, que de tanta utilidad han sido para el análisis lingüístico y lexicográfico. En el caso de las herramientas diseñadas específicamente para satisfacer las necesidades de los terminógrafos, existen pocas y son casi todas de carácter experimental. Si exceptuamos el área de la extracción semiautomática de términos, existen pocas publicaciones que traten sobre el uso del corpus en terminografía de forma detallada.⁶² Sin embargo, casi todas los estudios de los que tenemos constancia insisten, en nuestra opinión acertadamente, en que las necesidades de los terminógrafos a este respecto son distintas de las de los lingüistas o lexicógrafos, aunque la información ofrecida sobre el tipo de herramientas necesarias es de carácter general o se centra en explicar el tipo de herramienta desarrollada en cada caso particular. Probablemente, al igual que ocurre en lo que se refiere a los criterios de diseño de un corpus especializado, sólo cuando realmente se extienda el uso de los córpora en la terminografía, la necesidad de contar con herramientas para usarlos avivará las discusiones y los estudios experimentales y comerciales sobre el tema.

Algunas de las herramientas desarrolladas hasta el momento, aun no habiendo sido creadas específicamente para el trabajo terminográfico, contienen características que pueden ser útiles para ello. Es el caso del Translator’s Workbench Project (Ahmad et al. 1994), un conjunto de herramientas diseñado para ayudar a los traductores en algunas de sus tareas (incluye, por ejemplo, un editor multilingüe, verificadores ortográficos y gramaticales y acceso a un programa de traducción automática). Una de las herramientas desarrolladas, MATE (Machine Assisted Terminology Elicitation), puede ayudar en la identificación de los términos de un corpus por medio de listas de palabras (ordenadas por frecuencia o alfabéticamente) y por medio de concordancias e información colocacional.

Algunas de las funciones de MATE han sido aplicadas en el desarrollo de otro grupo de herramientas para la gestión terminológica denominado System Quirk. Según se describe en Ahmad (1997) y en la información disponible en su sede web,⁶³ System Quirk permite también al usuario organizar los textos de un corpus para facilitar su selección y ofrece mecanismos de representación basados en los grafos conceptuales de Sowa (auque esto último no aparece en la publicidad de su sede web).

Sin lugar a dudas, el área de investigación que más atención ha captado en terminografía computacional ha sido la extracción automática de términos. Algunos de estos trabajos se basan en índices de frecuencia para extraer los elementos candidatos a términos (por ejemplo, los ya mencionados TEXT ANALYZER, desarrollado en la Universidad de Ottawa por J. Kavanagh y System Quirk; otros combinan información morfosintáctica con índices de frecuencia, de forma que pueden extraerse también candidatos a términos formados por secuencias de adjetivo + sustantivo o sustantivo + sustantivo (por ejemplo el trabajo realizado por Daille (1994) y Yang (1986)); y en otros casos se usa sólo información morfosintáctica para extraer secuencias de frases nominales que se presentan al especialista para su evaluación (Arppe 1995). Estopá (1999) hace un estudio comparativo muy completo de los principales sistemas de extracción de términos,⁶⁴ en el que se destacan dos grandes áreas problemáticas de los sistemas de extracción existentes: lo que ella denomina el ruido (aquellos casos en los que se el sistema extrae como candidatos a términos elementos léxicos que no lo son) y el silencio (cuando las unidades terminológicas no se ajustan a los patrones buscados por el extractor y, por lo tanto, no aparecen en las búsquedas). Además, la mayoría de los extractores existentes se han centrado hasta ahora en el reconocimiento de unidades terminológicas nominales compuestas de más de un elemento léxico (unidades terminológicas poliléxicas, en la denominación usada por Estopá (1999), de carácter nominal, por lo que dejan fuera muchas unidades que pueden ser pertinentes para el estudio terminológico.

La detección semi-automática de términos no ha sido uno de los objetivos de nuestro trabajo, ya que en las primeras fases del proyecto OncoTerm, en las que nos encontramos, hemos partido de una lista predefinida de términos ya existente, para documentarla y estudiar el comportamiento de esos términos en los textos. Por lo tanto, sólo hemos realizado algunas pruebas basadas en estadísticas de comparación de un corpus de propósito general con uno especializado para asegurarnos de que los principales términos del dominio de especialidad que eran objeto nuestro de estudio se encontraban con una frecuencia suficiente como para asegurarnos que los textos serían de utilidad. Sin embargo, en un futuro inmediato será una de las áreas de interés prioritarias del proyecto, por lo que esperamos que el conocimiento desprendido del estudio detallado del comportamiento de los términos en los textos pueda ayudarnos a refinar los mecanismos de búsqueda de unidades candidatas a términos.

En este sentido, nos parece muy interesante el estudio realizado por Estopá (1999) en el Institut Universitari de Lingüística Aplicada de la Universidad Pompeu Fabra. En su tesis doctoral, se propone un sistema de extracción automática de candidatos a unidades de significación especializada (SEACUSE) que ha sido diseñado para ajustarse a las necesidades específicas de un ámbito de especialidad,⁶⁵ la medicina y a los diferentes colectivos profesionales que pueden hacer uso de dicho sistema de extracción (especialistas, documentalistas, traductores especializados y terminógrafos). Este sistema de extracción establece una serie de estrategias para la detección de diferentes tipos de unidades de significación especializada, con la particularidad de que estas estrategias han sido diseñadas específicamente para la detección de las unidades de significación especializada del ámbito de especialidad, de forma que se aumenta la precisión y la exhaustividad del proceso de extracción.

Ya hemos mencionado en el apartado 4.2 que el uso de un corpus en terminología se hace imprescindible para la adquisición de conocimiento especializado, de modo que la consulta del corpus pueda asistir al terminógrafo en la estructuración del dominio y en la explicitación de las propiedades y relaciones de los conceptos, tal y como se representan y comunican a través de los términos. Es, por tanto, necesario contar con las herramientas adecuadas que permitan desarrollar estrategias de búsqueda de este tipo de información. Sin embargo, hasta el momento se han desarrollado muy pocas herramientas que permitan localizar en un texto información conceptual que sea de utilidad para el terminógrafo. Sin lugar a dudas, el área de investigación que más puede aportar a este respecto es la ingeniería del conocimiento y, de hecho, la mayoría de los estudios que conocemos se han basado en técnicas desarrolladas en este ámbito.

A nuestro entender, la localización de información conceptual en un texto debe partir del estudio de las estructuras lingüísticas que se usan para representar esas relaciones. En esta línea se encuadran los trabajos realizados por Hearst (1992) y Ahmad & Fulford (1992) y, en la Universidad de Ottawa, el TEXT ANALYZER desarrollado por Kavanagh (1995) y refinado por Davidson (1998). Los trabajos de Hearst y de Ahmad y Fulford se han concentrado en el estudio de knowledge probes (sondas de conocimiento o de búsqueda de información conceptual), estructuras que se usan típicamente para expresar relaciones determinadas, como es el caso de X es un (tipo de) Y para expresar hiponimia. En los trabajos de Kavanagh y de Davidson se han usado estrategias similares en el desarrollo del TEXT ANALYZER, una herramienta de carácter experimental que permite la búsqueda de este tipo de expresiones. Como veremos en el capítulo 6, las ideas contenidas en estos cuatro trabajos han sido muy útiles en nuestra investigación, ya que también hemos buscado información conceptual sobre los términos partiendo de la combinación de éstos con determinadas estructuras lingüísticas.

Del breve repaso dado a las herramientas de corpus para la terminología hay una cuestión que parece clara, y es que nos queda un largo camino por recorrer. Ese camino pasa, indudablemente, por la aplicación de metodologías de análisis ya establecidas en otros ámbitos de estudio lingüístico, para valorar su utilidad en el trabajo terminográfico y delimitar con mayor precisión el tipo de herramientas con las que el terminógrafo de contar. Tanto el Translator’s Workbench como System Quirk ofrecen algunas de las funcionalidades clásicas en el análisis de corpus (como son las concordancias en formato KWIC y los índices de frecuencias) aunque sólo las más básicas, en detrimento de otras que han resultado de interés en nuestra investigación, como son el análisis de patrones lingüísticos, palabras asociadas, colocaciones y densidad léxica.

En cuanto a la búsqueda de información conceptual, el camino por recorrer ha de pasar, indefectiblemente, por el estudio de las estructuras lingüísticas que se usan para expresar propiedades y relaciones entre conceptos, ya que éste es requisito básico para solucionar los frecuentes casos de ruido (casos en los que la estructura lingüística genera ejemplos que no expresan una relación) y de silencio (relaciones que se expresan por medio de diversas estructuras lingüísticas que no se han recogido como sondas de búsqueda) que este tipo de búsquedas por patrones asociados también generan. En cuanto a las herramientas usadas en los estudios mencionados, la forma en la que se ha resuelto este tipo de búsquedas no dista mucho de las búsquedas complejas que posibilitan algunos programas comerciales de propósito general disponibles en el mercado. Con esta intención, como ya mencionamos en la introducción de este trabajo, nosotros nos hemos servido de un grupo de herramientas de procesamiento de corpus conocido como WordSmith Tools⁶⁶, muy versátil, completa y fácil de manejar. En el capítulo 6 veremos cómo la mayoría de las funcionalidades que ofrece son útiles en el trabajo terminográfico, aunque en algunos casos, se deberían complementar con herramientas más específicas.

Notas

⁶² Véase las ya mencionadas referencias a Meyer & Mackintosh (1996), Ahmad (1995), Pearson (1998) y Kavanagh (1995).

⁶³ http://www.computing.surrey.ac.uk/ai/SystemQ/

⁶⁴ Estopá clasifica los sistemas de extracción automática de terminología en tres grupos principales: (i) basados en información estadística; (ii) basados en información lingüística; (iii) sistemas híbridos que combinan ambos tipos de información. Su trabajo analiza 18 sistemas de extracción y muestra en profundidad la estructura y el funcionamiento de seis sistemas de extracción automática de terminología de base lingüística: TERMS, LEXTER, NODALIDA, FSTR, NAULLEAU y ACABIT.

⁶⁵ Otro aspecto novedoso de este trabajo es que se integra dentro de la Teoría Comunicativa de la Traducción, desarrollada por Cabré y su grupo de investigación del IULA, ya mencionada en capítulos anteriores. Por tanto, centra su interés en varios tipos de unidades de significación especializada, las cuales incluyen las unidades terminológicas (entendidas en el sentido tradicional) y también unidades fraseológicas especializadas y combinaciones recurrentes.

⁶⁶ En el capítulo segundo hemos mostrado algunas de sus características funcionales (véase § 2.6).

Índice General I Índice Capítulo 4 I Siguiente