ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

1 Introducción

El presente trabajo de investigación se enmarca dentro de la rama aplicada de la terminología, es decir, la terminografía. El trabajo que aquí presentamos forma parte de un proyecto de investigación mucho más amplio, denominado ONCOTERM¹: Sistema bilingüe de información y recursos oncológicos, en el que se integran investigadores de la Universidad de Granada, la Universidad Nacional de Educación a Distancia, la Universidad de Málaga y el Hospital Virgen de las Nieves de Granada. El objetivo final de dicho proyecto es la elaboración de un sistema de información integrado en Internet y dedicado al subdominio médico de la oncología. El componente central del sistema de información de OncoTerm está constituido por un repositorio terminológico, es decir, una base de datos en la que sea posible almacenar conocimiento específico del subdominio de la oncología.

La creación de repositorios terminológicos, misión fundamental de la terminografía, puede resumirse en dos fases fundamentales: la extracción y recopilación de la información terminológica y su posterior representación. En estas dos tareas específicas de la construcción de la base de datos de OncoTerm se concentra nuestro trabajo.

En ambas fases, el terminógrafo encuentra problemas y dificultades. La extracción de la información, si se realiza de forma manual, es una labor tediosa, en la que en ocasiones puede ser materialmente imposible recopilar la información necesaria de forma consistente y completa. En el caso de la representación de dicha información, los problemas a los que los terminógrafos deben hacer frente son múltiples; por un lado, los sistemas gestores de bases de datos terminológicas actuales son, en la mayoría de los casos, reproducciones informatizadas de las fichas terminológicas impresas tradicionales, faltos de versatilidad y economía de almacenamiento, en los que no es posible representar determinados tipos de información y son muy restrictivos en la organización de la información. Otro problema, no menos importante, concierne al formato en el que la información se representa, puesto que afecta directamente a la reutilización e intercambio de los recursos terminológicos creados.

La perspectiva desde la que hemos abordado ambos problemas se encuentra resumida en el título de nuestro trabajo. Al primero de ellos, la extracción y recopilación de información terminológica, nos hemos aproximado partiendo de la lingüística y, a través de ella, desde la lexicografía. Nuestra intención ha sido integrar y sistematizar en la práctica terminográfica los avances conseguidos en las áreas de la investigación lingüística y lexicográfica. En este sentido, y movidos por nuestras experiencias profesionales e investigadoras previas, este trabajo propone la integración de metodologías de extracción de información de córpora textuales informatizados, adaptándolas a las necesidades y requerimientos específicos de los terminógrafos.

Estas necesidades y requerimientos específicos han de entenderse en dos sentidos: primero, en cuanto a la amplitud de la cobertura lingüística. Un terminógrafo, al menos en principio, restringe su búsqueda de información a los términos que son importantes en su ámbito de especialidad. El corpus que use, por tanto, deberá reflejar esta restricción, y los textos que lo compongan deberán estar seleccionados a tal fin. En segundo lugar, el terminógrafo debe recopilar diferentes tipos de información: la orientación onomasiológica de la terminografía exige que la construcción de un repositorio terminológico parta de la organización y sistematización de la estructura conceptual (los conceptos y sus relaciones) del dominio de especialidad, es decir, de los conceptos y las relaciones que lo integran, para después determinar cuáles son las unidades terminológicas que los denominan.

Una vez que la información ha sido extraída, el terminógrafo debe enfrentarse a la segunda de las tareas, la representación de dicha información. Al igual que en el caso anterior, el terminógrafo posee necesidades específicas, puesto que deberá representar la información conceptual relevante a su dominio de especialidad y la información lingüística y de uso de las unidades terminológicas que designan dichos conceptos. Deberá, además, hacerlo en un formato que asegure la consistencia y la integridad de los datos y su posterior reutilización en otros proyectos y el intercambio con otros centros de investigación terminológica. En este sentido, nuestra propuesta se centrará en la incorporación de técnicas de representación de la información que acercan la terminografía a otra disciplina con la que comparte objetivos comunes: la ingeniería del conocimiento. Nuestro trabajo propone la representación de la información del dominio de especialidad en una base de datos terminológica basada en el conocimiento, en la que la información conceptual del dominio de especialidad se representa y formaliza por medio de una ontología de conceptos, y la información lingüística y de uso se representa siguiendo el formato de representación de información terminológica propuesto por el estándar ISO 12620, recogido en el denominado CLS Framework.

Los objetivos de nuestro trabajo pueden, por tanto, resumirse en los siguientes:

El primero es un objetivo que se plantea de forma general, en lo que se refiere a la integración las metodologías de la lingüística y la lexicografía del corpus en la práctica terminográfica. Este objetivo lo aplicamos específicamente a nuestro proyecto de investigación, aplicando dichas metodologías al subdominio de cáncer, especialmente al de la leucemia, para explorar la forma en la que el uso de un corpus textual informatizado y las herramientas disponibles comercialmente para su explotación pueden ayudar la terminógrafo en sus tareas.

El segundo objetivo también lo planteamos primero de forma general, abogando por el acercamiento de la terminología a un área de investigación y desarrollo que le es afín en muchos aspectos: la ingeniería del conocimiento. Este objetivo lo plasmamos de forma específica al proponer la representación de la información la estructura conceptual de nuestro dominio de especialidad integrada en una ontología de carácter general, la del proyecto Mikrokosmos.

El tercer objetivo de nuestro trabajo es la adopción de un estándar de representación de información terminológica, materializado en una estructura de base de datos y una categorías de datos propuestas por el CLS Framework y, gracias a la flexibilidad que ofrecen, adaptadas específicamente para nuestro proyecto.

El objetivo final que persigue este trabajo, quizá de forma demasiado ambiciosa, es presentar una concepción global de la gestión terminológica, en la que la extracción y representación de la información del dominio de especialidad se haga de forma sistemática. Este objetivo no podría llevarse a cabo sin el sistema gestor de base de datos terminológica basado en el conocimiento que usamos, denominado OntoTerm^®. Este sistema nos permite integrar el conocimiento especializado en la ontología mencionada e integrar dicho conocimiento con la representación de la información terminológica. Derivado de los objetivos anteriores, en nuestra concepción de gestión de información terminológica la información sobre los términos se extrae de los contextos comunicativos en los que los productores y consumidores naturales de los lenguajes especializados los usan: los textos especializados. Por otra parte, hemos intentado que esta información, que tan laboriosamente ha de extraerse y recopilarse, pueda plasmarse en un formato que asegure la coherencia y consistencia de los datos y su posterior reutilización.

Estos cuatro objetivos, que se enmarcan en las tareas de extracción de la información y su posterior representación, conforman el hilo conductor que ha guiado nuestra labor de investigación y sirven para estructurar la redacción del trabajo que aquí presentamos.

1.2 Delimitación e integración de nuestra investigación en el marco del proyecto OncoTerm

Hemos mencionado al principio de esta introducción que nuestro trabajo se enmarca en el proyecto ONCOTERM: Sistema bilingüe de información y recursos oncológicos, cuyo objetivo final es la elaboración de un sistema de información integrado en Internet y dedicado al subdominio médico de la oncología. Resumimos brevemente a continuación las características fundamentales del proyecto, para delimitar nuestra aportación y mostrar la forma en la que nuestro trabajo se integra con el realizado por otros miembros del equipo.

La motivación principal que llevó a nuestro grupo a acometer la tarea de crear un sistema bilingüe de información y recursos oncológicos fue la constatación de que, a pesar de que en Internet existen un buen número de sedes web con una función parecida, éstas están mayoritariamente en lengua inglesa. El hecho de que este sistema de información sea bilingüe no sólo facilitará el acceso a información médica a los usuarios de habla hispana, sino que también contribuirá a la mejor comprensión de los recursos existentes en lengua inglesa, mediante la elaboración de una base de datos terminológica bilingüe. En última instancia se pretende crear un foro de comunicación abierto que ponga al alcance del público toda la información relacionada con la enfermedad y su tratamiento.

Las herramientas básicas de trabajo que OncoTerm pretende desarrollar son las siguientes:

Córpora de textos médicos en inglés y español perteneciente a este subdominio.

Diseño e implementación de una base de datos terminológica basada en el conocimiento en la que se incluyan hipervínculos con la base textual.

Integración de todos estos recursos en un servidor web. Este servidor estará dotado de funcionalidades de navegación conceptuales mediante interfaz gráfico, así como de un motor de búsqueda con acceso a las bases de datos terminológica y textual.

OncoTerm puede definirse como un proyecto multidisciplinar de I+D que incorpora nuevas tecnologías. Tiene dos tipos de objetivos: (i) objetivos generales que extienden su acción a lo largo de los tres años de duración del proyecto, si bien los resultados tienen proyección futura a más largo plazo; (ii) objetivos operativos más específicos en lo que se refiere al diseño de la base de datos terminológica. Como objetivos generales del proyecto, cabe destacar los siguientes:

Mejorar el análisis de coste-eficacia en la consulta de textos especializados. La consulta se realizará no sólo por especialistas sino por usuarios y profesionales de la comunicación (traductores, intérpretes, terminólogos, editoriales). La facilidad de acceso, que se medirá en tiempo y eficacia, bien por orden alfabético o conceptual, hace que la comprensión de información terminológica bilingüe específica empezando por el subdominio médico de oncología, sea mucho más asequible para un amplio abanico de usuarios.

Enriquecer los recursos de terminología médica existentes en lengua inglesa y española. Se seguirán las normas internacionales ISO y las nacionales UNE aplicadas a la terminología. En contacto con organismos privados (ADESLAS), públicos (SAS) y sociales (AECC), se tiene como objetivo expandir los resultados con el fin de homologar una terminología en español. Al tener como corpus textos de oncología en lengua española e inglesa, se pretende asimismo, mejorar la calidad lingüística y comunicativa de los textos biomédicos.

Crear una metodología de trabajo y una infraestructura reutilizable en la gestión de terminología perteneciente a otros subdominios médicos. Dentro del ámbito académico, el grupo de investigación, que pertenece a la Facultad de Traducción e Interpretación de Granada e investigadores de la Universidad de Málaga y de la Universidad Nacional de Educación a Distancia reutilizará dicha base de datos para la estructuración de nuevos campos de conocimiento científico-técnicos, de la misma manera facilitará su gestión en el marco del mercado real de traducción de textos biomédicos.

Contribuir a la concienciación social sobre la incidencia de cáncer en España. Como objetivo general, se encuentra convertir la información sobre el cáncer en un instrumento que haga que tanto los allegados como los enfermos que sufren dicha enfermedad estén informados en todos los estadios del desarrollo de la misma.

Dichos objetivos generales están en relación directa con los objetivos operativos más específicos que van dirigidos hacia la creación y configuración de la base de datos terminológica:

Crear un corpus de textos médicos en inglés y en español, así como una tipología para su clasificación.

Especificar un sublenguaje de definición terminográfica conciso, consistente y aplicable no sólo al subdominio de la oncología, sino también a otras especialidades médicas y a otras lenguas.
Elaborar un inventario de relaciones conceptuales específicas del EVENTO MÉDICO en general y del EVENTO MÉDICO ONCOLÓGICO en particular.

Configurar una base de datos articulada en torno a la estructura hallada en la definición de los términos.

Facilitar la traducción de terminología médica especializada mediante enlaces a sus equivalentes contextualizados por medio de hipertexto.

La aportación de nuestra investigación dentro del marco general del proyecto se enmarca en los objetivos generales segundo y tercero y en los cuatro primeros objetivos específicos. Nuestra primera labor, por tanto, será la recopilación de un corpus de oncología en lengua inglesa, para lo que aplicaremos unos criterios de selección textual específicamente dirigidos a la creación de córpora especializados y estudiaremos las posibles herramientas de análisis que tenemos a nuestro alcance. Una vez construido el corpus inicial de trabajo, nuestros esfuerzos se centrarán en el desarrollo de una metodología apropiada para la extracción de la información terminológica de dicho corpus. En referencia al tercer objetivo general y a los objetivos específicos tercero y cuarto, nuestro trabajo se centrará en la adaptación de la ontología de Mikrokosmos para la representación de la información conceptual asociada a los términos del dominio de la oncología, junto con la representación de la información lingüística y comunicativa en el marco de las categorías de datos ISO 12260 anteriormente mencionadas.

En cuanto a los usuarios potenciales del sistema de información que propone OncoTerm, al ser éste un proyecto interdisciplinar, que pretende incorporar nuevas tecnologías y acercarlas al uso público, posee un amplio espectro de beneficiarios posibles, quienes podrán incorporar los resultados de nuestro trabajo a sus tareas diarias. Citamos brevemente a continuación algunos de los grupos de beneficiarios más destacados:

Traductores e intérpretes profesionales: la creciente transferencia de conocimientos y productos, considerada uno de los aspectos más relevantes de la sociedad actual, provoca la aparición de nuevos mercados de intercambio científico, técnico, cultural y comercial. Esto obliga a plantear y resolver el multilingüismo de los nuevos foros de intercambio, haciendo imprescindible la labor de los traductores y los intérpretes, por lo que estos profesionales necesitan información actualizada, tanto de las áreas específicas de conocimiento en las que se desarrolla su trabajo como de la terminología usada en esas áreas.

Redacción Técnica: estos profesionales, junto con los traductores y los intérpretes, son los beneficiarios más directos de los resultados de nuestro proyecto. La información ha pasado a tener una importancia capital, el flujo y la cantidad de información que se intercambia ha crecido de forma exponencial, demandando canales y procesos de comunicación rápidos y efectivos. En este sentido la presión que se ejerce sobre los redactores de textos técnicos también se hace creciente. Se requiere de ellos que produzcan textos técnicos, no sólo de alta calidad, sino de forma casi inmediata, por lo que deben esforzarse continuamente para mantener actualizados sus conocimientos sobre el área de conocimiento especializado en el que trabajan y la terminología que en ellos se usa.

Aplicaciones de Lenguaje Natural: diversas aplicaciones de lenguaje natural, tales como sistemas de traducción automática (sobre todo traducción automática de textos especializadas) y aplicaciones de traducción asistida por ordenador, precisan como base fundamental de la aplicación un lexicón computacional que contenga información altamente detallada, tanto del léxico general como de áreas más específicas de conocimiento. En este sentido, una base de datos que contenga terminología oncológica es requisito imprescindible para desarrollar sistemas de traducción (semi-) automática, en principio orientados a la traducción de este tipo de textos, aunque en posteriores desarrollos del proyecto puede ampliarse a otras áreas de la terminología biomédica.

Un cuarto grupo de potenciales beneficiarios de nuestro trabajo son los profesionales de la salud, tanto investigadores trabajando en centros de I+D y centros de investigación farmacológica, médicos desarrollando su labor en hospitales y centro de salud, y semi-especialistas, como por ejemplo los estudiantes de medicina.

Por último, por supuesto, se debe incluir como beneficiarios tanto a los pacientes de oncología como a sus familiares, para los que tener acceso a el tipo de información que nosotros proyectamos ofrecerles se convertirá en una necesidad absoluta.

Los objetivos del proyecto son, sin lugar a dudas, ambiciosos, pero su consecución ofrecerá asistencia a un buen número de personas, deseosas de encontrar información sobre un tema tan determinante como es el cáncer.

Queremos reiterar nuestro agradecimiento a los miembros de nuestro grupo de investigación, por la colaboración prestada en el desarrollo de nuestra labor, así como la oportunidad de desarrollar nuestro trabajo en el seno de un grupo que está desarrollando una labor sobresaliente, tanto en el campo de la lexicografía (donde ya ha dado importantes frutos y posee un prestigio internacional reconocido) como en el ámbito de la terminografía.

Notas

¹ ONCOTERM (PB 98-1342) es un proyecto financiado por el Ministerio de Educación y Cultura.

Índice General I Índice Capítulo 1 I Siguiente