ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |
Dado el carácter integrador e interdisciplinar de nuestro trabajo, el establecimiento de un marco teórico y metodológico para su desarrollo ha requerido que primero estudiásemos de forma individual los avances hechos en varios ámbitos de estudio, concretamente la lingüística y la lexicografía de corpus, la terminología y la terminografía, la representación del conocimiento y la gestión de bases de datos terminológicas, para analizar después los puntos de encuentro que hacen posible su integración en la práctica terminográfica.
La siguiente cita de Wüster, considerado el padre de la terminología, sirve para ilustrar el espíritu con el que acometimos esta tarea:
Ce n’est qu’aprés que j’ai choisi un titre aussi prétentieux: "L´ettude scientifique générale de la terminologie, zone frontalière entre la linguistique, la logique, lóntologie, l’informatique et les sciences des choses"... L’expression zone frontalière par rapport á plusieurs autres sciences, c’est la poser, en effet, comme un domaine scientifique en soi.(Wüster 1981, en Cabré 1993: 71)
Partimos en el capítulo 2, por tanto, de un extenso repaso del uso de los córpora en el estudio de la lengua general, desde la perspectiva lingüística y lexicográfica porque, a nuestro entender, sólo si somos capaces de demostrar las aportaciones que el uso de los córpora ha hecho al estudio de la lengua general podremos ver las implicaciones que tiene para el estudio de los lenguajes de especialidad. Así, veremos la fundamentación teórica de las investigaciones lingüísticas basadas en corpus y estableceremos la necesidad de estudiar el contexto cultural y situacional como requisito básico para el estudio de la lengua. Trataremos, además, los aspectos principales que conciernen al uso del corpus en el estudio lingüístico, como son la definición y tipología de los córpora (entre los que se incluyen los córpora especializados), el concepto de representatividad y las herramientas de procesamiento y manejo de corpus disponibles en el mercado. Los contenidos de este capítulo son, en consecuencia, fundamentales para comprender los diferentes aspectos a tener en cuenta a la hora de hablar de terminografía basada en corpus.
Proponer la integración sistemática de técnicas de estudio del lenguaje empleadas en la lingüística y la lexicografía en el trabajo terminográfico requiere un entendimiento previo de la importancia de la terminología en el ámbito de los recursos lingüísticos y de las ciencias de la información y de los principios teóricos sobre los que se fundamenta. Por ello, en el capítulo 3 analizamos los problemas a los que debe enfrentarse la terminología de hoy día y nos detendremos en aquellos aspectos teóricos que requieren una adaptación a los nuevos desarrollos científicos y tecnológicos, para hacer posible que la terminología cumpla fructíferamente con su misión de difusión del conocimiento científico. Estudiaremos después la relación existente entre la lexicografía, como ciencia que se ocupa del estudio de la lengua general y la terminografía, ciencia que ha de dar cuenta del lenguaje especializado. El estudio de esta relación lo enfocaremos desde tres puntos de vista que constituyen una triple relación paralela: lengua general/ lenguajes especializados; palabras/ términos y, por último, diccionarios generales/ bases de datos terminológicas. Veremos que la frontera que separa lo general de lo especializado no es tan nítida como podría parecer a primera vista y precisamente esta característica es la que hace posible y deseable una mayor integración de metodologías lexicográficas en la terminografía.
Una vez delineada la perspectiva desde la que abordamos nuestro trabajo terminográfico, en el capítulo 4 delimitamos los fundamentos teóricos que sustentan nuestra concepción de la terminografía y su objeto de estudio, las unidades de significación especializada. Para ello, partimos del entendimiento de los términos como unidades poliédricas constituidas por tres dimensiones indisociables, y a las que debe prestarse igual atención: la conceptual, la lingüística y la comunicativa. Nuestra concepción de la terminología como una ciencia interdisciplinar y transdisciplinar, y de las unidades terminológicas como unidades léxicas de denominación y comunicación, encaja con los presupuestos teóricos y metodológicos de la Teoría Comunicativa de la Traducción, expuestos en Cabré (1999b) y de los que, muy a nuestro pesar, sólo tuvimos conocimiento en la fase final de nuestra investigación. En esta línea, retomaremos los aspectos generales de las investigaciones basadas en corpus expuestas en el capítulo segundo, para analizar la forma en la que éstas deben aplicarse al trabajo terminográfico y hacer de los córpora herramientas útiles para que los terminógrafos puedan estudiar las unidades de significación especializada en su dimensión conceptual, lingüística y comunicativa.
Analizaremos, por tanto, aspectos concretos que atañen a la recopilación y creación de córpora especializados, los criterios que deben guiar la selección de los textos a incluir en el corpus y las herramientas con las que los terminógrafos cuentan para su estudio. Expondremos después las fuentes documentales con las que hemos construido el corpus que usamos en nuestra investigación, repasando las opciones posibles con las que hoy día cuentan los terminógrafos.
En lo que se refiere a la fase de representación de la información terminológica, en el capítulo 5 nos detendremos a analizar algunas de las formas de representación del conocimiento existentes, para ver cuál de ellas es la que más se adecua a la labor terminográfica. Hemos observado en la literatura sobre la teoría y la práctica de la terminología que, si bien todos los manuales comienzan nombrando el hecho de que el terminólogo parte del concepto para llegar al término que lo designa (y esto es lo que fundamentalmente los diferencia de los lexicógrafos) y se hacen referencias continuas a la organización conceptual del campo de especialidad del que se debe compilar una terminología, se añade muy poco sobre cuáles son las formas más idóneas en las que estas estructuras conceptuales deben ser representadas. Mostraremos en este capítulo la forma en la que una ontología de conceptos, un recurso usado en otros ámbitos del procesamiento del lenguaje natural como la traducción automática, puede ser de gran utilidad para que el terminógrafo represente de modo formalizado y consistente la información conceptual que se asocia a los términos y para estructurar el conocimiento del dominio de especialidad.
La tarea de construir una ontología desde cero es ingente y, desde luego, se halla fuera de los límites de nuestra investigación. Por tanto, y siguiendo el espíritu de reutilización de recursos lingüísticos existentes promovido en la comunidad investigadora en los últimos años, decidimos adaptar a nuestros propósitos una ontología de propósito general de dominio público construida por los miembros del Computing Research Laboratory de la New Mexico State University. Dicha ontología, construida como componente central del proyecto de traducción automática basada en el conocimiento denominado Mikrokosmos, nos ha servido para integrar en sus niveles inferiores los conceptos específicos a nuestro dominio de especialidad.
En cuanto a la representación de la información que atañe a las otras dos dimensiones que conforman las unidades de significación especializadas, la lingüística y la comunicativa, además de la información de carácter meramente administrativo, hemos optado por la adopción de las categorías de datos propuestas por el comité técnico nº 37 de la International Organisation for Standardization, denominado ISO 12620. Dicha norma, junto con la norma ISO 12200: MARTIF (Machine-Readable Terminology Interchange Format) han sido desarrolladas con la finalidad de facilitar el intercambio de recursos terminológicos en formato electrónico.
Para la representación de estos tipos de información hemos contado con un sistema gestor de base de datos terminológica basado en el conocimiento, desarrollado por el Dr. Antonio Moreno Ortiz, miembro del proyecto de investigación OncoTerm, en el que se encuadra nuestro trabajo. Este sistema gestor de base de base de datos terminológicas, OntoTerm®, integra dos módulos principales: un gestor de ontologías, en el que se representa la información conceptual y una base de datos terminológica que implementa las ya mencionadas categorías de datos de la norma ISO 12260. En el capítulo quinto mostramos el funcionamiento de dicho sistema, que tiene características muy novedosas, una interfaz gráfica de usuario que facilita en gran medida el trabajo terminográfico y otras prestaciones que lo hacen una herramienta única en el ámbito de la terminografía.
En el capítulo 6 mostramos de forma práctica el modo en que hemos usado el corpus para la extracción terminológica, para lo que hemos empleado un grupo de herramientas de manejo de corpus genérico, pero muy potente y versátil: WordSmith Tools. Veremos que el corpus puede aportar muchos tipos de información que de otro modo pasarían inadvertidos (o serían muy difíciles de recopilar) y que es una pieza fundamental para estudiar el comportamiento lingüístico de los términos, el uso que de ellos hacen los especialistas en diferentes situaciones comunicativas y la estructura conceptual del subdominio de especialidad. La redacción de este capítulo ha sido especialmente difícil, ante la imposibilidad práctica de verter en papel la enorme cantidad de listados de palabras y líneas de concordancia con las que hemos trabajado. Si bien gran parte del producto final de nuestra investigación se encuentran plasmado en el apéndice II de este trabajo, en el capítulo 6 nos hemos centrado en explicar y ejemplificar la metodología de trabajo con la que hemos extraído la información. Para ello nos hemos servido de tablas en las que resumimos los resultados más significativos, mostramos algunas de las líneas de concordancia analizadas y resumimos a continuación la información que hemos obtenido a través de su estudio.
Dado que en las exposición de nuestro trabajo hemos optado por terminar cada uno de los capítulos mencionados con una sección dedicada a la recapitulación y discusión de los contenidos específicos de cada capítulo, las conclusiones finales de este trabajo de investigación se centrarán en evaluar las metodología de trabajo propuesta, que está orientada a solucionar algunos de los problemas que los terminógrafos encuentran en la fase de extracción y la fase de representación de la información terminológica. Las siguientes palabras de Galinski, en las que se relaciona explícitamente la terminología con la documentación y la ingeniería del conocimiento, sirven para enmarcar la perspectiva en la que consideramos que nuestro trabajo puede ser de gran utilidad: la concepción de la terminología como la representación explícita del conocimiento de un dominio de especialidad, que los especialistas comunican y transmiten a través de unidades de significación especializada:
Terminology and its applications are not a goal in itself. Modern terminological work is closely linked with documentation and information science. High quality terminology work results in reliable, multifunctional terminographical data, which are primary elements of information and knowledge management systems. Advanced terminology documentation assisted by computer, therefore, by itself is knowledge engineering at the level of conceptual logic. It can be called terminological knowledge engineering.(Galinski 1990: 87)
Terminamos nuestro trabajo exponiendo algunos de los desarrollos que nos hubiera gustado llevar a cabo y no nos ha sido posible por el carácter parcial de un trabajo de estas características. Consideramos esos desarrollos como líneas futuras de investigación, y es nuestra más firme intención acometerlas. Dada su prolijidad, es posible adivinar que nuestro caminar investigador no ha hecho más que empezar.
ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |