4.4.2.1 GALEN

ISSN: 1139-8736
Depósito Legal: B-35783-2001

4.4.2.1 GALEN

Los bancos terminológicos ya no son suficientes para una gestión terminográfica de calidad, donde varios usuarios potenciales tienen cabida. Se necesita un compendio de servicios terminográficos, como es el caso de la cooperación GALEN-CORBAMed, que permita que cualquier aplicación se pueda llevar a cabo independientemente del sistema de codificación o de la lengua que se utilice en la gestión. No es suficiente dar distinto tratamiento a los sistemas de clasificación y codificación existentes. Según los miembros del equipo GALEN, el presente y el futuro se centran en el desarrollo de sistemas informáticos que ofrezcan unos servicios terminográficos de calidad (Zanstra et al. 1995: 257).

GALEN, General Architecture for Languages Encyclopædias and Nomenclatures in Medicine, es un proyecto financiado por la Unión Europea que tiene como objetivo el desarrollo de herramientas y métodos para una construcción y mantenimiento de clasificaciones de procedimientos quirúrgicos. En la fase inicial del trabajo se encuentran cuatro centros de codificación y clasificación: WCC (Holanda), SPRI (Suecia), CNR (Italia) y la Universidad de S. Etienne (Francia). La finalidad es monitorizar representaciones conceptuales de procedimientos quirúrgicos concretos, siendo cada centro responsable de un cuarto de todo el dominio quirúrgico (Rodríguez et al. 1997: 897).

El proyecto actual de GALEN nace del antiguo PENyPAD (GP). PENyPAD constó de dos fases; en la primera, con sede en la Universidad de Manchester (Reino Unido), el grupo de investigación abordó, en particular, la informatización de los informes médicos con la ayuda de sistemas que fuesen útiles y fáciles de utilizar para los facultativos de medicina general. En la segunda, que finalizó en diciembre de 1994, la sede era un pequeño hospital de la seguridad social, National Health Service, del Reino Unido, cuyos servicios eran mayoritariamente geriátricos. Algunos de los objetivos eran recopilar las diferentes necesidades del cuerpo de médicos y de enfermería, estudiar y recoger métodos de predicción en el cuidado médico, así como datos e información para su uso en una situación únicamente hospitalaria (Rector 1993a: 304).

En PENyPAD eran conscientes de la necesidad de cambiar el enfoque que hasta entonces, había guiado los proyectos de investigación para que los resultados no fueran descartados por los usuarios potenciales como había ocurrido con anterioridad. La mayoría de los sistemas no habían sido implementados en los hospitales porque obligaban a los usuarios a cambiar su forma de trabajo habitual y no resultaban útiles para una práctica diaria de la medicina basada en el cuidado del paciente, ya fuera ingresado o en régimen ambulatorio. Teniendo esto en cuenta, una premisa importante en este trabajo fue que para desarrollar sistemas de utilidad para el personal hospitalario era necesario involucrar a los usuarios en el diseño y desarrollo desde el comienzo del proyecto (Rector et al. 1995a: 24).

En la actualidad, para afrontar el problema de la terminología en Ciencias de la Salud, GALEN está construyendo un modelo semántico para la gestión de terminología clínica: el modelo CORE, Coding Reference. Este modelo consiste en:

relaciones tales como, fractures can occur in bones, que reflejan posibles combinaciones de términos,
conceptos complejos tales como fracture of the left humerus, que son combinaciones de conceptos más simples.

Este enfoque composicional permite descripciones detalladas al mismo tiempo que conserva la estructura de los conceptos individuales (Rector 1993b).

Dentro del proyecto GALEN, las normas formales que manipulan estos conceptos y sus relaciones se encuentran en el formalismo GRAIL, GALEN Representation and Integration Language. GRAIL funciona como un programa Concept Model (CM) con herramientas de modulación. El CM se puede usar bien con herramientas de búsqueda o con un Servidor de Terminología. El CM, junto con sus herramientas hace que los terminógrafos puedan crear modelos que contengan conceptos y relaciones, y al mismo tiempo, se puedan derivar nuevos conceptos que sean composiciones plausibles de los ya existentes. GRAIL hace que el sistema utilice los conceptos y las relaciones para:

determinar si una composición en particular tiene sentido o no
generar todos los conceptos posibles, basándose en el conocimiento
derivar automáticamente otras relaciones, tales como jerarquías clasificadoras, basadas en la composición de los conceptos (Zanstra et al. 1997: 444).

Este potencial de GALEN hace que los integrantes del grupo no tengan que enumerar de forma explícita todos los términos posibles. Por ejemplo, si se ha establecido que los huesos se pueden romper, el sistema puede generar y clasificar a lo largo de múltiples ejes aquellos conceptos que representen fracturas de todos los huesos. Estos fundamentos formales nos conducen a modelos robustos que se pueden expandir de forma bastante segura, consistente y predecible.

En GALEN se separa el modelo conceptual, cuyos elementos son las ideas, de las frases pertenecientes al lenguaje natural utilizadas para hacer referencia al modelo conceptual, cuyos elementos son los términos. El modelo CORE está pensado para ser independiente-de-la-lengua y por lo tanto la información que se facilita desde una lengua se puede facilitar en otra (Ceusters et al. 1997: 137). Las frases del lenguaje natural se generan con el Módulo Multilingüe (MM), integrado en el Servidor Terminológico (TeS). Para este fin de generación del lenguaje natural se emplean la estructura conceptual así como los lexicones y gramáticas asociadas al modelo CORE. Como mínimo estos lexicones deberán contener las palabras para los conceptos más elementales. Esto hace que la traducción de una terminología de un campo de especialidad no sea tan compleja como la traducción de cada uno de los términos reales y potenciales del texto. Las frases que incluyen composiciones complejas se pueden generar a partir de los componentes individuales del MM.

Para GALEN los sistemas de clasificación existentes son muy importantes. Estos esquemas se utilizan de forma normativa en sistemas actuales de información en Ciencias de la Salud. Muchos sistemas están destinados a un uso exclusivamente clínico. Sin embargo, a menudo carecen de la estructura y las bases formales que los sistemas expertos exigen. En GALEN se tienen en cuenta los sistemas de clasificación de la siguiente forma (Rogers et al. 1997: 243-245; Baud et al. 1997: 113):

apoyándose en ellos para la construcción del modelo CORE;
relacionando los conceptos de estos sistemas con los conceptos estructurados del modelo CORE;
actuando como interlingua entre los sistemas, y, así, garantizando una conversión bastante compleja y sofisticada;
enriqueciendo y complementando los sistemas existentes ya que, en GALEN, se usa la estructura del modelo CORE para derivar así nuevas relaciones y verificar o corregir las ya existentes (i.e. jerarquías clasificadoras)

La realización de todo esto es responsabilidad del Módulo de Conversión, Code Conversion Module, CCM, integrado también en el Servidor de Terminología de GALEN.

Los módulos principales de GALEN (conceptual, multilingüe y el de conversión de códigos) están integrados en un único sistema de software en red: el Servidor de Terminología (TeS) de GALEN (Rector et al. 1994a: 230). El TeS combina la funcionalidad de estos tres módulos para garantizar un servicio terminológico sofisticado a la vez que uniforme para las distintas aplicaciones del cliente. En esta estructura se refleja la visión de la terminología de los integrantes de GALEN como un compendio de sistemas funcionales y dinámicos más que unos archivos que sirven para el almacenamiento estático de datos. Los usuarios pueden hacer preguntas de alto nivel tales como "cuáles son los tipos de" (what are the kinds of this) o "qué se puede decir sobre" (what can I say about this).

El TeS representa una tecnología de gran valía para los informes médicos porque:

garantiza descripciones clínicas detalladas basadas en un modelo semántico terminológico;
los conceptos complejos se almacenan con una representación fija, para que su extracción sea mucho más fácil;
contiene herramientas lingüísticas que hacen posible el desarrollo de sistemas multilingües;
facilita el intercambio de datos clínicos entre sistemas con diferentes estructuras clasificadoras;
aumenta y expande los esquemas de codificación y clasificación ya existentes.

GALEN al igual que otros proyectos tales como el vocabulario INTERMED, un sistema basado en marcos que utiliza ONTOLINGUA, son esquemas clasificadores composicionales y conceptuales (Galeazzi et al. 1997: 281). Éstos fueron diseñados, como hemos señalado antes, para afrontar los problemas que planteaban los esquemas numerativos tales como la CIE. Dichos esquemas habían ido acumulando términos y más términos con sus respectivos códigos, de manera que, en lugar de satisfacer las necesidades de los expertos, operacionalmente eran demasiado vastos tanto para un mantenimiento exhaustivo como para la utilización directa por parte del usuario final. En contraposición y paradójicamente, desde el punto de vista funcional son sistemas demasiado reducidos, ya que no incluían ningún tipo de informes clínicos relevantes, ni detalles bibliográficos de interés para el experto.

Los sistemas composicionales contienen una lista relativamente reducida y controlada de términos que podríamos calificar de primitivos, cada uno con su código respectivo. Al mismo tiempo, estos primitivos se pueden combinar para formar términos más complejos incluyendo algunos que ya se encontraban en las clasificaciones numerativas e incorporando potencialmente otras ocurrencias, expansiones o variaciones de los términos (Rogers y Rector 1997: 612). Por ejemplo, según GALEN la rúbrica endoscopic excision of warts of anus puede representarse en el marco de un sistema composicional como una serie de cinco términos (en minúscula) unidos por medio de cuatro enlaces (en mayúscula):

(49)
MAIN removing
ACTS_ON wart
HAS_LOCATION anus
BY_TECHNIQUE guidance
BY_MEANS_OF endoscope

Como se puede observar, esta forma de estructurar los términos nos garantiza un aumento cuantitativo y cualitativo en expresividad, ya que el número de posibles combinaciones de términos primitivos se multiplica de forma extraordinaria. Es posible, a partir de un conjunto limitado de unos miles de primitivos, construir muchas más frases legítimas que las que podrían existir nunca en un sistema numerativo, al mismo tiempo que estas composiciones son mucho más detalladas. Tal es la posibilidad de combinación que podríamos tildarla de explosión combinatoria, radicalmente diferente a la expuesta en los sistemas de clasificación numerativos (Wagner et al. 1999: 177).

A pesar de la ventaja evidente del gran poder combinatorio, este mismo potencial hace que se convierta en un recurso peligroso e inabarcable. Enumeremos algunos de los problemas posibles¹:

1. SINSENTIDO
Se pueden construir muchas combinaciones que, si bien posibles gramaticalmente, no tienen sentido alguno:

(50)
MAIN fracture
HAS_LOCATION eyebrow
HAS_CAUSE spacecraft

2. REDUNDANCIA
Puede ser que se exprese el mismo concepto utilizando más de una combinación posible de términos como en los ejemplos (51) y (52):

(51)
MAIN inflammation
HAS_LOCATION liver
HAS_FEATURE acute

(52)
MAIN hepatitis
HAS_FEATURE acute

3. CLASIFICACIÓN POST-HOC
Si no se pueden enumerar todas las combinaciones posibles, entonces es imposible decidir cuándo una composición nueva es un tipo de cualquier otra composición. En última instancia, no se podrán analizar los datos si no se puede llegar a la composición origen.

4. IMPOSIBILIDAD DE PROCESAMIENTO
Los sistemas composicionales necesitan de un diseño muy detallado y pensado si se quiere que la aplicación realice el análisis, clasificaciones post-hoc y que compruebe redundancias y sinsentidos. Los algoritmos que se necesitan para llevar a cabo estas tareas cuentan con una lacra recurrente, la sobrecarga; ya que el ordenador nunca encuentra la respuesta o, al menos, tarda mucho tiempo en encontrarla debido a la gran cantidad de datos para procesar. Incluso los ordenadores más rápidos no solucionarían este problema si el comportamiento del algoritmo es exponencial. Comprender el comportamiento de los sistemas composicionales, si se colgarán o no debido a la sobrecarga de procesamiento, es un campo relativamente nuevo dentro de la informática y las matemáticas: Lógica de Descripción, Lógica Modal y Cálculo de Tablas (Wagner et al. 1999: 190).

Somos conscientes de que en el sentido de que facilitan un diccionario al mismo tiempo que una gramática (Ceusters et al 1999: 13), y no un libro de fraseología y terminología, estos sistemas composicionales son una opción clara si se quieren representar con detalle eventos clínicos, donde la secuencia sintáctica adquiere una gran relevancia. Sin embargo, tal y como está planteado en GALEN, si bien el sistema cuenta con grandes logros, actualmente cuenta con problemas tales como los nombrados anteriormente. Entre las posibles soluciones para los sistemas composicionales se han planteado las siguientes:

Para el sinsentido: un conjunto de enlaces semánticos que representen las posibles relaciones (siempre limitadas) entre los términos; una gramática que dicte cómo se van a combinar los términos con el conjunto de enlaces (Ceusters et al. 1999: 21); y un número de restricciones que controlen que términos se pueden combinar con qué enlaces.
Para facilitar la clasificación post-hoc y descubrir redundancias: una jerarquía de primitivos; algoritmos formales que establezcan cómo decidir cuándo una composición es un tipo de otra ya existente; y reglas de normalización y armonización.
Para evitar la imposibilidad de procesamiento por sobrecarga: omitir deliberadamente, desde el principio, cualquier construcción que pueda ser causa de sobrecarga como la negación o la disyunción.

En nuestra aplicación, es en la definición donde se establece la combinación potencial de cada término, que parte de la relación nuclear de hiperonimia. La concatenación de combinaciones constituye el texto de la definición, un micro-universo, que nunca llevará a conceptos contrapuestos o redundantes, sino a conceptos relacionados, cuya relación se encuentra tipificada de tal forma que se puede andar el camino inverso, es decir, ir desde la definición al término en cuestión.

Si bien no carente de interés, a nuestro entender, la estructura definicional de GALEN es estática en contraposición a la aparente dinamicidad composicional del sistema. En GALEN se prioriza, dependiendo del término, un tipo de relación sobre otra (Rector 1995: 22). Como ya hemos tenido ocasión de analizar, el hecho de dividir los tipos de definición en dos tipos excluyentes, estructural y funcional, constituye cuanto menos un sesgo innecesario a la estructura conceptual global (véase Capítulo 3). En OntoTerm^®, no existe un tipo de definición u otro, sino una enumeración ordenada de las relaciones establecidas en función de la proximidad al concepto a definir. Así, la estructura relacional activada siempre que dos conceptos se combinan es bidireccional, lo que hace que la propia red de relaciones se erija en reguladora, ya que las relaciones están establecidas y tipificadas de antemano, no sólo desde el punto de vista gramatical y formal sino desde la perspectiva conceptual.

NOTAS

1 Estos ejemplos han sido extraídos de la página local del proyecto GALEN: http://www.opengalen.org

Anterior I Siguiente I Índice capítulo 4 I Índice General

ISSN: 1139-8736
Depósito Legal: B-35783-2001