ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |
El presente trabajo de investigación se enmarca dentro de la rama aplicada de la terminología, es decir, la terminografía. El trabajo que aquí presentamos forma parte de un proyecto de investigación mucho más amplio, denominado ONCOTERM1: Sistema bilingüe de información y recursos oncológicos, en el que se integran investigadores de la Universidad de Granada, la Universidad Nacional de Educación a Distancia, la Universidad de Málaga y el Hospital Virgen de las Nieves de Granada. El objetivo final de dicho proyecto es la elaboración de un sistema de información integrado en Internet y dedicado al subdominio médico de la oncología. El componente central del sistema de información de OncoTerm está constituido por un repositorio terminológico, es decir, una base de datos en la que sea posible almacenar conocimiento específico del subdominio de la oncología.
La creación de repositorios terminológicos, misión fundamental de la terminografía, puede resumirse en dos fases fundamentales: la extracción y recopilación de la información terminológica y su posterior representación. En estas dos tareas específicas de la construcción de la base de datos de OncoTerm se concentra nuestro trabajo.
En ambas fases, el terminógrafo encuentra problemas y dificultades. La extracción de la información, si se realiza de forma manual, es una labor tediosa, en la que en ocasiones puede ser materialmente imposible recopilar la información necesaria de forma consistente y completa. En el caso de la representación de dicha información, los problemas a los que los terminógrafos deben hacer frente son múltiples; por un lado, los sistemas gestores de bases de datos terminológicas actuales son, en la mayoría de los casos, reproducciones informatizadas de las fichas terminológicas impresas tradicionales, faltos de versatilidad y economía de almacenamiento, en los que no es posible representar determinados tipos de información y son muy restrictivos en la organización de la información. Otro problema, no menos importante, concierne al formato en el que la información se representa, puesto que afecta directamente a la reutilización e intercambio de los recursos terminológicos creados.
La perspectiva desde la que hemos abordado ambos problemas se encuentra resumida en el título de nuestro trabajo. Al primero de ellos, la extracción y recopilación de información terminológica, nos hemos aproximado partiendo de la lingüística y, a través de ella, desde la lexicografía. Nuestra intención ha sido integrar y sistematizar en la práctica terminográfica los avances conseguidos en las áreas de la investigación lingüística y lexicográfica. En este sentido, y movidos por nuestras experiencias profesionales e investigadoras previas, este trabajo propone la integración de metodologías de extracción de información de córpora textuales informatizados, adaptándolas a las necesidades y requerimientos específicos de los terminógrafos.
Estas necesidades y requerimientos específicos han de entenderse en dos sentidos: primero, en cuanto a la amplitud de la cobertura lingüística. Un terminógrafo, al menos en principio, restringe su búsqueda de información a los términos que son importantes en su ámbito de especialidad. El corpus que use, por tanto, deberá reflejar esta restricción, y los textos que lo compongan deberán estar seleccionados a tal fin. En segundo lugar, el terminógrafo debe recopilar diferentes tipos de información: la orientación onomasiológica de la terminografía exige que la construcción de un repositorio terminológico parta de la organización y sistematización de la estructura conceptual (los conceptos y sus relaciones) del dominio de especialidad, es decir, de los conceptos y las relaciones que lo integran, para después determinar cuáles son las unidades terminológicas que los denominan.
Una vez que la información ha sido extraída, el terminógrafo debe enfrentarse a la segunda de las tareas, la representación de dicha información. Al igual que en el caso anterior, el terminógrafo posee necesidades específicas, puesto que deberá representar la información conceptual relevante a su dominio de especialidad y la información lingüística y de uso de las unidades terminológicas que designan dichos conceptos. Deberá, además, hacerlo en un formato que asegure la consistencia y la integridad de los datos y su posterior reutilización en otros proyectos y el intercambio con otros centros de investigación terminológica. En este sentido, nuestra propuesta se centrará en la incorporación de técnicas de representación de la información que acercan la terminografía a otra disciplina con la que comparte objetivos comunes: la ingeniería del conocimiento. Nuestro trabajo propone la representación de la información del dominio de especialidad en una base de datos terminológica basada en el conocimiento, en la que la información conceptual del dominio de especialidad se representa y formaliza por medio de una ontología de conceptos, y la información lingüística y de uso se representa siguiendo el formato de representación de información terminológica propuesto por el estándar ISO 12620, recogido en el denominado CLS Framework.
Los objetivos de nuestro trabajo pueden, por tanto, resumirse en los siguientes:
Estos cuatro objetivos, que se enmarcan en las tareas de extracción de la información y su posterior representación, conforman el hilo conductor que ha guiado nuestra labor de investigación y sirven para estructurar la redacción del trabajo que aquí presentamos.
Hemos mencionado al principio de esta introducción que nuestro trabajo se enmarca en el proyecto ONCOTERM: Sistema bilingüe de información y recursos oncológicos, cuyo objetivo final es la elaboración de un sistema de información integrado en Internet y dedicado al subdominio médico de la oncología. Resumimos brevemente a continuación las características fundamentales del proyecto, para delimitar nuestra aportación y mostrar la forma en la que nuestro trabajo se integra con el realizado por otros miembros del equipo.
La motivación principal que llevó a nuestro grupo a acometer la tarea de crear un sistema bilingüe de información y recursos oncológicos fue la constatación de que, a pesar de que en Internet existen un buen número de sedes web con una función parecida, éstas están mayoritariamente en lengua inglesa. El hecho de que este sistema de información sea bilingüe no sólo facilitará el acceso a información médica a los usuarios de habla hispana, sino que también contribuirá a la mejor comprensión de los recursos existentes en lengua inglesa, mediante la elaboración de una base de datos terminológica bilingüe. En última instancia se pretende crear un foro de comunicación abierto que ponga al alcance del público toda la información relacionada con la enfermedad y su tratamiento.
Las herramientas básicas de trabajo que OncoTerm pretende desarrollar son las siguientes:
OncoTerm puede definirse como un proyecto multidisciplinar de I+D que incorpora nuevas tecnologías. Tiene dos tipos de objetivos: (i) objetivos generales que extienden su acción a lo largo de los tres años de duración del proyecto, si bien los resultados tienen proyección futura a más largo plazo; (ii) objetivos operativos más específicos en lo que se refiere al diseño de la base de datos terminológica. Como objetivos generales del proyecto, cabe destacar los siguientes:
Dichos objetivos generales están en relación directa con los objetivos operativos más específicos que van dirigidos hacia la creación y configuración de la base de datos terminológica:
La aportación de nuestra investigación dentro del marco general del proyecto se enmarca en los objetivos generales segundo y tercero y en los cuatro primeros objetivos específicos. Nuestra primera labor, por tanto, será la recopilación de un corpus de oncología en lengua inglesa, para lo que aplicaremos unos criterios de selección textual específicamente dirigidos a la creación de córpora especializados y estudiaremos las posibles herramientas de análisis que tenemos a nuestro alcance. Una vez construido el corpus inicial de trabajo, nuestros esfuerzos se centrarán en el desarrollo de una metodología apropiada para la extracción de la información terminológica de dicho corpus. En referencia al tercer objetivo general y a los objetivos específicos tercero y cuarto, nuestro trabajo se centrará en la adaptación de la ontología de Mikrokosmos para la representación de la información conceptual asociada a los términos del dominio de la oncología, junto con la representación de la información lingüística y comunicativa en el marco de las categorías de datos ISO 12260 anteriormente mencionadas.
En cuanto a los usuarios potenciales del sistema de información que propone OncoTerm, al ser éste un proyecto interdisciplinar, que pretende incorporar nuevas tecnologías y acercarlas al uso público, posee un amplio espectro de beneficiarios posibles, quienes podrán incorporar los resultados de nuestro trabajo a sus tareas diarias. Citamos brevemente a continuación algunos de los grupos de beneficiarios más destacados:
Los objetivos del proyecto son, sin lugar a dudas, ambiciosos, pero su consecución ofrecerá asistencia a un buen número de personas, deseosas de encontrar información sobre un tema tan determinante como es el cáncer.
Queremos reiterar nuestro agradecimiento a los miembros de nuestro grupo de investigación, por la colaboración prestada en el desarrollo de nuestra labor, así como la oportunidad de desarrollar nuestro trabajo en el seno de un grupo que está desarrollando una labor sobresaliente, tanto en el campo de la lexicografía (donde ya ha dado importantes frutos y posee un prestigio internacional reconocido) como en el ámbito de la terminografía.
Notas
1 ONCOTERM (PB 98-1342) es un proyecto financiado por el Ministerio de Educación y Cultura.
ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |