ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |
En este capítulo hemos explicado con ejemplos prácticos la utilidad que el uso de un corpus textual informatizado ha tenido para extraer al información que después hemos vertido tanto en el Ontology Editor como en el Termbase Editor.
En capítulos anteriores hemos discutido abundantemente acerca de la importancia de las fuentes de información con las que los terminógrafos cuentan para el proceso de compilación de un repositorio terminológico. En el capítulo 4 detallamos las fuentes documentales con las que hemos contado en nuestro trabajo, que se van ampliando día a día en el seno del proyecto OncoTerm. Entre estas fuentes de información, la consulta con los especialistas y la revisión de diccionarios y bancos de datos existentes juegan un papel fundamental. Complementariamente a estas fuentes, los métodos de trabajo que hemos propuesto en estas secciones pueden ayudar al terminógrafo a acceder, de forma mucho más eficiente, a una mayor cantidad y calidad de información de la que extraer conocimiento sobre la estructura de su dominio de especialidad, con la indiscutible ventaja añadida de que dicha información está derivada del estudio de un gran cúmulo de actuaciones comunicativas, hechas por los productores naturales y usuarios del lenguaje especializado de nuestro ámbito de especialidad.
En la primera parte este capítulo hemos detallado la forma en la que hemos examinado nuestro corpus, procesándolo de forma global, para obtener información sobre la estructura conceptual del ámbito de especialidad.
Los primeros análisis que hemos realizado usando nuestros tres córpora de estudio han tenido tres objetivos fundamentales:
(i) comprobar si la recopilación de textos hecha se ajusta a las necesidades de nuestro proyecto;
(ii) analizar de qué forma la composición del corpus influencia los resultados que obtenemos;
(iii) valorar la utilidad que el estudio de las palabras clave y los enlaces entre palabras clave posee para la delimitación global del dominio de especialidad y de los conceptos implicados en su estructura conceptual.
Por medio del estudio de las estadísticas de composición del corpus y de la frecuencia de aparición de las formas podemos concluir que la recopilación de textos incluidos en el corpus se ajusta a las necesidades prioritarias de nuestro proyecto. Sin embargo, el estudio de las palabras clave muestra que la composición y el tipo de textos incluidos en el corpus influencia los índices de relevancia de algunas de las palabras incluidas en los listados de las palabras clave, por lo que en el seno del proyecto OncoTerm se tendrá que hacer lo posible para equilibrar la composición del corpus en cuanto al tipo de textos incluidos.
Por otra parte, el estudio de las palabras clave (palabras cuya frecuencia es estadísticamente relevante, en comparación con la frecuencia de aparición en un corpus general) nos ha permitido delimitar los grupos conceptuales más importantes de nuestro dominio de especialidad. Para acotar nuestra exposición, nos hemos centrado en una sección del subdominio del cáncer, la leucemia (y sus subtipos) y hemos identificado los grupos conceptuales en los que se pueden integrar las palabras clave de nuestro corpus. Además, hemos examinado las relaciones y enlaces que existen entre las palabras clave que coaparecen en un horizonte colocacional de 5/5. El estudio de la forma en que los conceptos que integran los grupos conceptuales coaparecen en el texto nos ha permitido observar regularidades y variaciones en las combinaciones de palabras clave.
En contra de lo que se podría esperar en principio, el estudio de las palabras clave de nuestro corpus muestra también que los conceptos relevantes al dominio de especialidad no están constituidos únicamente por designaciones nominales (términos simples o compuestos, entendidos en el sentido tradicional), sino también por un buen número de palabras que pertenecen a la lengua general, que adquieren un carácter terminológico en virtud del uso que los especialistas hacen de ellas. El estudio de dichas unidades en el corpus permite constar su carácter terminológico, que se muestra en una reducción en las posibilidades colocacionales y las combinaciones gramaticales en las que aparecen, junto con un estrechamiento en el referente conceptual a las que estas unidades lingüísticas señalan.
En la segunda parte de este capítulo hemos visto cómo es posible extraer del corpus información básica para estructurar el subdominio de especialidad. Esta información la hemos obtenido usando lo que hemos denominado sondas de conocimiento. Estas sondas de conocimiento son las estructuras lingüísticas que los autores de los textos usan para expresar relaciones semánticas entre conceptos, y de ahí su importancia para el estudio de la estructura conceptual del dominio. Por medio del estudio de los contextos en los que una determinada palabra de búsqueda aparece conjuntamente con una de estas sondas de conocimiento es posible obtener información relevante al dominio. En nuestro caso, la palabra de búsqueda con la que ejemplificamos esta sección fue leukemia y, por medio de estas sondas, pudimos obtener información sobre la clasificación, caracterización, tratamiento, diagnóstico, etc. de dicha enfermedad.
Hemos mostrado después la manera en que el gestor de ontologías de OntoTerm nos ha permitido representar formalmente la información de la estructura conceptual del dominio. Nuestra intención ha sido mostrar cómo la asignación de relaciones y atributos a los conceptos de la ontología es lo que enriquece enormemente esta estructura y la hace más informativa para los usuarios potenciales. Tal y como mostramos en el apéndice II, a través de las posibilidades de representación que nos ha ofrecido la ontología hemos sido capaces de representar formalmente, al menos parcialmente, la complejidad conceptual de nuestro dominio.
En la última sección de este capítulo hemos mostrando el uso que las sondas de conocimiento pueden tener para obtener del corpus información metalingüística (sobre sinónimos, variaciones denominativas o preferencias en el uso terminológico) que los autores incluyen en los textos. La obtención de este tipo de información de un corpus es de gran utilidad, puesto que representa un fiel reflejo del uso que los especialistas hacen de la terminología y de las reflexiones que hacen sobre la relación que existe entre el concepto y su denominación. A continuación, hemos visto la utilidad que el análisis de clusters puede tener para asistir al terminógrafo en otra difícil tarea del proceso de compilación: la delimitación de las unidades terminológicas. Este tipo de análisis puede facilitar la aplicación de las pruebas necesarias para establecer si un segmento léxico corresponde a una única unidad terminológica o si se trata de una combinación libre.
ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |