ISSN: 1139-8736
Depósito Legal: B-37271-2002
Copyright: © Silvia Montero Martínez

4.2.2 Sistemas composicionales y léxicos: GALEN y UMLS

Teniendo en cuenta los problemas que planteaban los esquemas numerativos tales como la CIE surgen los sistemas de clasificación composicionales y conceptuales (Galeazzi et al. 1997: 281) que introducen mejoras en la metodología y estructuración conceptual terminológica en Ciencias de la Salud.

El proyecto General Architecture for Languages Encyclopædias and Nomenclatures in Medicine (GALEN)54 está financiado por la Unión Europea con el objetivo de desarrollar herramientas y métodos para la elaboración y mantenimiento de clasificaciones de procedimientos quirúrgicos que los distintos grupos de trabajo se encargan de representar conceptualmente mediante el lenguaje GRAIL (Rodriguez et al. 1997: 897).

Los orígenes de este proyecto se remontan a otro, PEN&PAD, encargado en primer lugar de organizar informes médicos mediante sistemas que fuesen útiles y fáciles de usar por facultativos de medicina general y, en una segunda etapa, de recopilar las necesidades planteadas por el cuerpo médico y de enfermería (Rector 1993a: 304), ya que partían de la idea de que era necesario que los usuarios potenciales estuvieran involucrados en la fase de diseño y desarrollo del proyecto (Rector et al. 1995: 24).

En la actualidad, GALEN está elaborando un modelo semántico para la gestión de terminología clínica denominado CORE (Coding Reference) que está estructurado en torno a tres módulos e incluye relaciones tales como 'fractures can occur in bones', que reflejan posibles combinaciones de términos, y conceptos complejos como 'fracture of the left humerus', que son combinaciones de conceptos más simples. La manipulación de estos conceptos y relaciones se hace, como hemos mencionado, a través del lenguaje GRAIL (GALEN Representation and Integration Language) y el CM (Concept Model), una herramienta de modulación conceptual a partir de la cual los terminógrafos crean modelos con conceptos y relaciones que sirven, a su vez, para derivar otros nuevos siempre que GRAIL determine que es una composición válida (Zanstra et al. 1997: 444). Esta capacidad implica que no es necesario enumerar de forma explícita todos los términos posibles; así, siguiendo con el ejemplo anterior, al haberse establecido que los huesos se pueden romper, el sistema puede generar y clasificar aquellos conceptos que representen fracturas óseas. Se consiguen por tanto modelos conceptuales robustos, consistentes y predecibles que están separados del denominado Módulo Multilingüe que contiene las frases y términos utilizados para referirse al primero. Además en la estructuración conceptual, GALEN también tiene en cuenta los sistemas de clasificación vigentes en Ciencias de la Salud y, entre otras cosas, relacionan los conceptos de estos sistemas con los conceptos estructurados en el modelo CORE que actúan a modo de interlingua. Este proceso tiene lugar en un tercer módulo, el Módulo de Conversión (Code Conversion Module) (Rogers et al. 1997: 243-245; Baud et al. 1997: 113).

Frente al elevado número de términos recogidos en sistemas como la CIE, los esquemas composicionales incluyen un listado de términos "primitivos" con su código correspondiente. A partir de éstos se producen combinaciones que dan lugar a términos complejos (algunos de los cuales aparecían ya en los sistemas numerativos), colocaciones o variaciones (Rogers y Rector 1997: 612). Así, 'endoscopic excision of warts of anus', se representaría de la siguiente manera:

(95)
MAIN removing
ACTS_ON wart
HAS_LOCATION anus
BY_TECHNIQUE guidance
BY_MEANS_OF endoscope

La construcción se representa como una serie de cinco términos (en minúscula) enlazados a través de cuatro nexos (en mayúscula). Este sistema garantiza un mayor grado de expresividad, tanto cuantitativa como cualitativa, a partir de las combinaciones de los términos "primitivos" (Wagner et al. 1999: 177). Se trata por tanto de un sistema que provee un diccionario y una gramática (Ceusters et al 1999: 13) por lo que sería útil en la representación de eventos clínicos en los que la secuencia sintáctica tiene importancia.

Estos tres módulos están integrados en un Servidor Terminológico para garantizar un servicio adecuado al usuario. En conjunto, la propuesta de GALEN supuso un avance dado que se basa en una serie de sistemas funcionales y dinámicos frente a otros proyectos basados en el almacenamiento estático de datos. Pero en el estado actual de la aplicación, es este mismo potencial de combinación el que convierte a esta herramienta en un recurso difícil de controlar en varios aspectos, ya que por ejemplo puede haber redundacia al expresarse el mismo concepto con más de una combinación posible y, además, hay una dificultad de procesamiento por el gran volumen de datos y los algoritmos que se necesitan para llevar a cabo las distintas operaciones (Wagner et al. 1999: 190).

Otro proyecto digno de mención es la red semántica del Unified Medical Language System® (UMLS)55 llevado a cabo por la National Library of Medicine (NLM) de EE UU. Se trata de un sistema que ofrece referencias cruzadas entre más de treinta vocabularios y clasificaciones existentes que incluyen a la CIE y al MeSH. Las referencias se consiguen a través del análisis léxico de los términos, de ahí que se denomine sistema léxico de clasificación (Ceusters et al. 1997: 133).
Este proyecto tiene como usuario final al programador, ya que se accede a un lenguaje máquina pero intentaremos analizarlo desde la perspectiva terminográfica. Está estructurado en torno a tres fuentes de conocimiento: el Metatesauro, el Lexicón Especializado y la Red Semántica. La última edición del Metatesauro (2000) incluye aproximadamente 730.000 conceptos y 1,5 millones de nombres de conceptos en diferentes vocabularios fuente, lo que significa un incremento de un 16% en comparación con la edición anterior. Sin embargo, lo que más nos interesa de este sistema es el Lexicón Especializado y la Red Semántica.

El primero es un léxico en lengua inglesa que en la actualidad contiene unas 108.000 entradas léxicas y más de 186.000 cadenas de términos pertenecientes al dominio biomédico. Las términos de las entradas, no flexionadas, pueden ser unidades léxicas simples o compuestas sobre las que se da información sintáctica, morfológica y ortográfica. Las categorías sintácticas que se reconocen son: verbos, nombres, adjetivos, adverbios, auxiliares, modales, pronombres, preposiciones, conjunciones y determinantes. Los patrones de la oración se determinan por el número y la naturaleza de los complementos que rigen los verbos y se reconocen cinco tipos de complementación: intransitiva, transitiva, ditransitiva, linking y transitiva-compleja. Las entradas verbales contemplan las formas flexivas del verbo, si son regulares o irregulares, y en cuanto a los sustantivos, se recogen patrones de pluralización y de nominalización. A modo de ejemplo, ésta sería la entrada correspondiente a 'anaesthetic':

(96)
{base=anaesthetic
spelling_variant=anesthetic
entry=E0008769
cat=noun
variants=reg
entry=E0008770
variants=inv
position=attrib(3)}

Este formato denominado 'Unit Record' es uno de los tres en que está disponible este lexicón; es una estructura basada en marcos que tiene slots, atributos léxicos básicos, y fillers, valores posibles de dichos atributos para cada elemento léxico concreto. Así, la forma base 'anaesthetic' y su variante ortográfica 'anesthetic' incluyen dos entradas, la de un sustantivo y la de un adjetivo. Por ejemplo, el slot "variants" tiene un código que indica la morfología inflexional de la entrada; su filler "reg" en la entrada del sustantivo indica que éste es contable y regular a la hora de formar el plural. El filler "inv" de la entrada del adjetivo indica que éste no es susceptible de formar el comparativo o el superlativo. En el caso del slot "position", éste indica que el adjetivo es atributivo y sigue el orden normal de éstos. Se ha incluido, por tanto, una gramática electrónica en la información de la entrada terminográfica.

Sin embargo, desde nuestro punto de vista esta propuesta tiene problemas. Para un terminógrafo, un especialista o un documentalista la información que se ofrece es poco útil y tampoco se puede mejorar, ya que hay un error de planteamiento básico: la idea de que una oración es una cadena ordenada de unidades léxicas donde lo importante es establecer la posición de los distintos integrantes de la misma, siguiendo por tanto un enfoque distribucional. Como ya hemos visto (§3.6.2), al margen de la categoría gramatical y del orden de los componentes de una oración, son las relaciones de dependencia entre predicados y argumentos las que estructuran las oraciones (Subirats 2001: 70) y en las que se debería basar una aplicación informática.

En cuanto a la Red Semántica (§4.4.1), otra de las fuentes de conocimiento de este sistema, ésta es la encargada de garantizar una categorización rigurosa de los conceptos representados en el Metatesauro a través de 132 tipos semánticos. Entre estos tipos se establecen hasta 53 enlaces que son los que estructuran la Red, representando las relaciones más importantes en el dominio biomédico. El enlace básico es IS-A, una relación jerárquica utilizada para establecer el tipo semántico más específico disponible para un concepto determinado del Metatesauro. También se presenta una serie de cinco grupos de relaciones no-jerárquicas: PHYSICALLY-RELATED-TO, SPATIALLY-RELATE-TO, TEMPORALLY-RELATED-TO, FUNCTIONALLY-RELATED-TO y CONCEPTUALLY-RELATED-TO. Siempre que es posible, las relaciones se asignan a los nodos más altos de la Red y se heredan por los inferiores, los hijos, a través del enlace IS-A. Por ejemplo, la relación PROCESS-OF se da entre los tipos semánticos 'Biologic Function' y 'Organism' por lo que también lo heredarán 'Tissue Function' (< 'Physiologic Function' < 'Biologic Function') y 'Animal' (< 'Organism').

A pesar de lo interesante de esta propuesta, y teniendo en cuenta que supone un avance respecto a otros sistemas vistos, hay ciertos aspectos que deberían mejorarse para poder llevarse a cabo en aplicaciones de Inteligencia Artificial. Por ejemplo, sería necesario matizar más en lo referente a las relaciones, ya que en el caso de CONCEPTUALLY-RELATED-TO, se trata de una relación demasiado vaga porque es obvio que todos los términos y conceptos están relacionados unos con otros. Lo interesante sería ver en qué forma lo están, es decir, detallar más esta relación, algo que sí se lleva a cabo en la aplicación ONTOTERM® donde las relaciones están mucho más elaboradas, constituyen conceptos en sí mismas y están jerárquicamente estructuradas (§4.6).


Notas

54 Para la descripción de este proyecto nos basamos parcialmente en la información proporcionada en la página oficial del mismo (http://www.opengalen.org/) con acceso el 30 de mayo de 2001.

55 Para la descripción de este proyecto nos basamos en parte en la información proporcionada en la página oficial del mismo con acceso el 3 de junio de 2001: http://www.mlm.nih.gov/research/umls.


Índice general I Índice Capítulo 4  I Siguiente


ISSN: 1139-8736
Depósito Legal: B-37271-2002
Copyright: © Silvia Montero Martínez