ISSN: 1139-8736
Depósito Legal: B-35783-2001

4.4.2.2 UMLS1

El UMLS (Unified Medical Language System) es un sistema que garantiza referencias cruzadas entre más de treinta vocabularios y clasificaciones, incluyendo la CIE, MESH, CPT, COSTAR, DSM IV, READ 3.1 y SNOMED, entre otros. La mayoría de estas referencias cruzadas se realizan gracias al análisis léxico de los términos, de ahí su inclusión en la categoría de sistemas léxicos de clasificación en el dominio biomédico (Ceusters et al. 1997: 133). En este proyecto de la National Library of Medicine se emplean técnicas de procesamiento que están basadas en unidades léxicas, de forma que las frases se comparan en función de lo que parecen significar, en qué orden aparecen las palabras, qué tipo de palabras o cuáles son los constructos gramaticales utilizados, más que en función de lo que podrían o no podrían significar.

El proyecto que nos ocupa cuenta con tres fuentes de conocimiento: el Metatesauro, el Lexicón Especializado y la Red Semántica. Haremos especial hincapié en las dos últimas fuentes de conocimiento porque el enfoque que se emplea tiene muchos puntos en común con el nuestro.

Debemos señalar que el proyecto UMLS no está diseñado para la consulta humana, sino que tiene como usuario al programador. A lo que se accede es a un lenguaje máquina cuyo uso está obviamente restringido a aquellos expertos en programación. Sin embargo, a pesar de carecer de estos conocimientos informáticos, analizaremos desde nuestra perspectiva terminográfica las pautas que han seguido así como diversas soluciones a problemas que ya hemos planteado anteriormente, de una forma u otra.

El lexicón especializado del UMLS es un léxico en lengua inglesa que incluye una gran cantidad de términos del dominio biomédico. La versión actual incluye unos 108.000 informes léxicos, con más de 186.000 cadenas de términos. Toda entrada incluye información sintáctica, morfológica y ortográfica. Puede consistir en un término formado por un sólo elemento léxico o por varios. La forma base no tiene flexión, singular en el caso de los sustantivos, infinitivo en el caso de los verbos y en forma positiva en el caso de los adjetivos y adverbios. La información léxica, pues, incluye la categoría sintáctica, variación de la inflexión (singular o plural para los sustantivos, conjugación de los verbos, el comparativo, superlativo para los adjetivos y adverbios), y posibles patrones de complementación (objetos y otros argumentos que los verbos nombres y adjetivos pueden regir). El lexicón reconoce once categorías sintácticas o partes del discurso: verbos, nombres, adjetivos, adverbios, auxiliares, modales, pronombres, preposiciones, conjunciones y determinantes.

Los patrones básicos de la oración se determinan por el número y la naturaleza de los complementos que rigen los verbos. El lexicón reconoce cinco tipos generales de complementación: intransitiva, transitiva, ditransitiva, linking y transitiva-compleja. Las entradas verbales contemplan las formas flexivas del verbo, si son regulares o irregulares. En cuanto a los sustantivos, se recogen patrones de pluralización y de nominalización. Como vemos se trata de una gramática electrónica incluida en la información de la entrada terminográfica. Otros autores defienden la necesidad de incluir toda esta información gramatical en un módulo aparte, una gramática electrónica forzosamente dependiente-de-la-lengua, que se aplica a otro módulo que incluye información estrictamente conceptual y denotativa.

El Lexicón Especializado está disponible en tres formatos: formato Unit Record, formato Relational Table y formato Abstract Syntax Notation One (ASN.1). La información asociada a cada entrada léxica incluye un único código identificador, una forma base, un código referente a la categoría sintáctica, cierta información adicional, junto con información complementaria si se considera relevante, así como otras propiedades que sean de particular importancia para la entrada léxica en cuestión.

Veamos como muestra el primero de los formatos en que se distribuye el Lexicón Especializado del UMLS. El formato Unit Record es una estructura marco que consiste en slots y en fillers. Los slots son los atributos léxicos básicos y los fillers expresan los valores posibles de dichos atributos para cada elemento léxico en particular. Así para anaesthetic, según este formato, el listado sería el del ejemplo (53):

(53)
{ base=anaesthetic
spelling_variant=anesthetic
entry=E0008769
cat=noun
variants=reg
entry=E0008770
variants=inv
position=attrib(3)}

Como podemos apreciar, la forma base anaesthetic y su variante ortográfica anesthetic incluyen dos entradas: la de un sustantivo y la de un adjetivo. El slot variants= tiene un código que indica la morfología inflexional de la entrada; el filler reg en la entrada del sustantivo indica que el sustantivo anaesthetic es un sustantivo contable, regular a la hora de formar el plural; inv en el slot de variants= de la entrada del adjetivo indica que el adjetivo anesthetic no es susceptible de formar el comparativo o el superlativo. El slot position= indica que el adjetivo anaesthetic es atributivo y sigue el orden normal de los adjetivos.

Aún teniendo en cuenta que no se trata de una presentación para lectura humana, hemos de decir que, a nuestro entender, si aplicamos la fórmula de la modulación arriba mencionada, los datos resultantes son poco útiles no sólo para el terminógrafo sino para el especialista en Ciencias de la Salud, documentalista e incluso lingüista. Tampoco se puede hablar de un primer estadio útil en el desarrollo de una posterior implementación. El error de base es concebir la oración como una cadena ordenada de palabras o términos unos tras otros, donde lo relevante es establecer la posición de cada uno de los integrantes de la oración. La información vehiculada en la oración no es el resultado de una concatenación de elementos léxicos sino de una relación dinámica de dependencia entre predicados y argumentos, activada en una situación comunicativa determinada:

Lo que determina la información en las lenguas naturales es el significado de las palabras que están insertas dentro de las redes de relaciones que crean las jerarquías de predicación…sólo a partir de la identificación de dichas relaciones se puede operar sobre la información. (Subirats 2001: 70)

Es absurdo, pues, hablar de sustantivo o adjetivo ya que se trata de una clasificación inexacta que responde a una estructuración de naturaleza distribucional, meramente formal de los elementos léxicos que componen una lengua:

Por tanto, una aplicación informática que desee generar o extraer la información oracional no puede operar sobre clases de palabras o clases de conctrucciones de definición distribucional imprecisa, sino que debe actuar necesariamente sobre las clases de dependencia que definen las proyecciones oracionales de las relaciones de predicación. (Subirats 2001: 70).

Es obvio admitir que la implementación de una Gramática Electrónica para cada lengua es esencial si queremos que el sistema conjugue, decline o compruebe concordancias. Pero tan sólo en el marco de una relación de dependencia entre predicados y argumentos se puede adjudicar una conjugación o concordancia determinadas, y siempre de forma posterior e estrechamente vinculado con la organización conceptual, ya que ésta es la base de toda formalización gramatical. Además, para evitar redundancia, mucha información que se considera sintáctica puede incluirse en los módulos lexico-conceptuales; nos referimos a información del tipo de patrones sintácticos recurrentes o combinaciones, formación de posibles oraciones con sentido, simplemente a partir de un sistema conceptual subyacente, por medio de las relaciones conceptuales jerárquicas y no-jerárquicas, formalizadas en las relaciones de predicación de la oración.

La Red Semántica del UMLS es una de las tres fuentes de conocimiento que se encuentra actualmente en desarrollo en la National Library of Medicine como parte esencial del proyecto. Por medio de los 132 tipos semánticos, la Red Semántica, garantiza una categorización consistente de todos los conceptos representados en el Metatesauro. Los 53 enlaces entre los tipos semánticos establecen la estructura de la Red y representan las relaciones más importantes en el dominio biomédico. Toda la información sobre los conceptos específicos se encuentra en el Metatesauro; la Red facilita la información sobre los tipos semánticos básicos que se han asignado a estos conceptos y define las relaciones que se pueden establecer entre los tipos semánticos.

En cuanto a la estructura y contenido se puede decir que los tipos semánticos son los nodos en la Red y las relaciones entre ellos son los enlaces. Existen unas agrupaciones básicas de los tipos semánticos en organismos, estructuras anatómicas, funciones biológicas, productos químicos, eventos, objetos físicos y conceptos o ideas. El actual campo de aplicación de los tipos semánticos es bastante extenso, ya que permite la categorización semántica de un amplio abanico de terminología en múltiples dominios de especialidad.

El enlace principal es el IS_A. Éste establece la jerarquía de los tipos semánticos en la Red y se usa para decidir el tipo semántico más específico disponible para un concepto determinado del Metatesauro. Además, existe un grupo de relaciones no-jerárquicas que están agrupadas en cinco categorías principales, que son, al mismo tiempo, relaciones: physically_related_to, spatially_related_to, temporally_related_to, functionally_related_to y conceptually_related_to. Las relaciones se asientan entre los nodos del nivel más alto de la Red siempre que se puede y, generalmente, se heredan, gracias al enlace IS_A, por todos los hijos de dichos nodos. Así, por ejemplo, la relación process_of se establece entre los tipos semánticos Biologic Function y Organism. Por lo tanto, también se establecerá entre Organ or Tissue Function (que es un Physiologic Function, que es a su vez un Biologic Function) y Animal (que es un Organism). También se facilitan tablas donde se despliegan todos los enlaces no jerárquicos que se heredan.

En nuestro caso, la estructura relacional tiene en común con la de UMLS que la relación principal es la de IS_A; las relaciones se heredan y existen relaciones no-jerárquicas complementarias. Sin embargo, en OntoTerm®, las relaciones están mucho más elaboradas, ya que constituyen conceptos y también están sometidas a una estructura jerárquica (§5.2). Uno de los problemas que salta a la vista en esta organización de la Red Semántica es la vaguedad de algunas de las relaciones, y por lo tanto la imposibilidad de procesamiento para una posterior aplicación en cualquier rama de la IA. Tomemos como ejemplo la relación conceptually_related_to. Todos los términos y conceptos están relacionados conceptualmente unos con otros, por lo tanto es una relación innecesaria. La formalización de una estructura definicional a partir de dichas relaciones es claramente imposible.

Como tipo semántico se establece Organ or Tissue Function, en lugar de dejar que sea el sistema el que realice las composiciones pertinentes cuando el significado final es tan sólo la suma de sus componentes. Si queremos lexicalizar todos los tipos semánticos de esta manera, se convierte en un listado demasiado arbitrario, largo y, seguramente, poco exhaustivo. La única razón que encontramos para tipificar Organ or Tissue Function como un tipo semántico es que el significado final de la cadena sea diferente a la suma de los significados de los componentes de la misma.


NOTAS

1 La mayor parte de la información aquí expuesta ha sido extraída de la página oficial del proyecto UMLS: http://www.mlm.nih.gov/research/umls, página a la que se accedió el día 24 de abril de 2000.

Anterior   I  Siguiente   I  Índice capítulo 4   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-35783-2001