ISSN: 1139-8736
Depósito Legal: B-37271-2002
Copyright: © Silvia Montero Martínez

2.3.2 El corpus de ONCOTERM 21

La lingüística de corpus ha puesto de manifiesto la necesidad de derivar la descripción lingüística de un análisis detallado de la lengua usada de forma natural, ya que este estudio puede ayudar a revelar muchas regularidades (e irregularidades) en nuestro uso de la lengua que antes no se habían observado, o pueden ayudarnos a verlas de forma más uniforme, con una perspectiva más amplia y con índices de frecuencia relativa más fiables. Por tanto, la lingüística de corpus se ha convertido durante los últimos veinte años es una herramienta primordial de la lexicografía (Knowles 1989: 1650). En el trabajo terminográfico también es necesaria una evidencia mensurable, aunque se utilice abiertamente la competencia lingüística del experto, que permita formular conclusiones más objetivas que hasta ahora se hacían desde la introspección o la consulta a nativos (Langlois 1996b: 5).

La adquisición de información léxica puede hacerse de varias formas: manualmente, a partir de diccionarios en formato magnético, o a partir de textos en formato electrónico (Moreno Ortiz 1999). Es obvio que la primera está cayendo en desuso por la cantidad de tiempo que implica; en cuanto a la segunda, el diccionario presenta limitaciones a la hora de adquirir información porque está destinado a un usuario que se supone tiene conocimiento acerca de la estructura del lexicón, por lo que presenta una información estática que no se corresponde con la dinamicidad de la lengua real. Por tanto, los córpora textuales informatizados se han convertido en la principal fuente de adquisición de conocimiento. El proyecto ONCOTERM también participa de esta idea porque "los córpora pueden ofrecer información léxica muy relevante, sobre todo en aspectos relativos a los hábitos colocacionales de las unidades léxicas o sus propiedades combinatorias, y son una herramienta de gran utilidad para la extracción de ejemplos reales de uso, así como en el enriquecimiento y refinamiento de la información ya contenida en un lexicón computacional" (Moreno Ortiz 1999:13).

Desde que el proyecto COBUILD (§3.4.4.3) utilizó esta iniciativa pionera en la compilación de diccionarios, el concepto de corpus suele entenderse necesariamente como conjunto de textos en formato electrónico aunque en lo concerniente a otro tipo de características como tamaño o representatividad, hasta la actualidad no existe consenso (Langlois 1996b: 10). El único punto de acuerdo es que el tamaño del corpus está supeditado al fin para el que se ha recopilado. En este sentido, los córpora utilizados para trabajos terminográficos son más reducidos que los del discurso general porque se ciñen a un tema de trabajo que suele ser muy restringido (Meyer et al. 1996: 8) y el incremento de su tamaño no implica necesariamente una mayor representatividad.

En el caso del corpus de ONCOTERM, su recopilación se ha hecho en función de un objetivo muy preciso, el estudio del subdominio oncológico. La adquisición de conocimiento experto a partir de córpora relevante se ha llevado a cabo en las dos lenguas de trabajo, inglés y español, contando con la ayuda profesional de expertos para asegurar la representatividad de la documentación. Se trata por tanto de un corpus bilingüe que a su vez contiene textos comparables y paralelos, es decir, tanto textos similares en ambas lenguas como originales y sus traducciones. Aunque no existe acuerdo respecto a la conveniencia de usar traducciones en terminografía, hay que tener en cuenta que en el ámbito biomédico "gran número de publicaciones son traducciones que, en muchos casos, aportan soluciones neológicas a lagunas terminológicas en la lengua término. Mientras que en español se debate la validez del trabajo con textos traducidos, en los textos en inglés no se plantea si se trata de una traducción o no, cuando en muchos casos, los artículos científicos son de hecho traducciones de lenguas minorizadas en el ámbito científico al inglés" (Tercedor Sánchez 1999: 370). Esta postura también la comparte Teubert (1999), Langlois (1996a) y Heid (1998/99), ya que ven el potencial para extraer candidatos a equivalentes de traducción.

El corpus de ONCOTERM tiene aproximadamente 32 millones de palabras, la mayoría en inglés (28.771.714). Los materiales utilizados en la recopilación son: i) textos extraídos de Internet; ii) enciclopedias, manuales y publicaciones médicas en CD-ROM; iii) textos escaneados por su riqueza de vocabulario definicional (manuales para médicos y estudiantes de medicina) y por su relevancia entre los especialistas según la base de datos bibliográfica MedlineÒ (§4.2.1.1). La selección del material se ha hecho teniendo en cuenta criterios como cantidad, calidad, simplicidad, documentación, pertenencia al dominio de especialidad, fecha de producción y condición lingüística del texto, factualidad, tipo textual, nivel de tecnicidad y receptores del texto (Pérez Hernández 2000: 179-184). Todo ello para poder satisfacer las necesidades de la amplia gama de usuarios potenciales (§4.3) de la aplicación ONTOTERM® que servirá de plataforma para representar y consultar el conocimiento adquirido. Más concretamente, el corpus se compone de:

-páginas web de organizaciones internacionales contra el cáncer tales como CancerNet, CancerBacup, Medscape, MedicineNet, Oncoweb, Virtual Hospital, Alcase, Atheneum y Diario Médico que ofrecen folletos informativos, resúmenes y publicaciones especializadas a profesionales de la salud y al público general.

-artículos experimentales y resúmenes de publicaciones médicas y oncológicas procedentes del British Medical Journal, Lancet, New England Journal of Medicine, Cancer, CANCERLIT, y A Cancer Journal for Clinicians, Medicina Clínica, Revista Clínica Española, Neoplasia, Revisiones en Cáncer, Revista Española de Anestesiología y Reanimación, Archivos Bronconeumológicos, Revista Española de Enfermedades Digestivas, Anales Otorrinolaringológicos Ibero-Americanos, Anales Españoles de Pediatría y Actas Urológicas españolas.

-manuales de nivel avanzado para oncólogos y estudiantes de medicina tales como Harrison's Principles of Internal Medicine; Cancer: Principles and Practice of Oncology; Medicina Interna de Farreras-Rozmá; Cancer. Principios y Práctica de Oncología y Oncología Médica-Guía de Oncología Médica.

-textos procedentes de enciclopedias médicas destinadas para el público general como The Merck Manual of Diagnosis and Therapy / Manual Merck en español y Mosby's Medical Encyclopedia for Health Consumers y de la enciclopedia general Enciclopedia Microsoft Encarta 97.

-monográficos de publicaciones de divulgación semiespecializada como Scientific American/Investigación y Ciencia y de divulgación general, tales como Oncolink, Reuters Health, la revista TIME, QUO y suplementos de periódicos (Blanco y negro, El Mundo, El Semanal o Ideal).

Así, el corpus recoge las siguientes situaciones comunicativas:

EMISOR RECEPTORES
ESPECIALISTA  
Médicos Oncológicos
Médicos Especialistas
Otros profesionales de la Salud
Estudiatnes de Medicina
Pacientes, familiares y público general

(Faber et al. en prensa)

Tabla 2.13: Situaciones comunicativas reflejadas en el corpus de ONCOTERM

A la hora de extraer información acerca del subdominio oncológico, se ha utilizado el paquete de herramientas Wordsmith Tools que gracias a sus diversas aplicaciones permite generar listas de frecuencia y concordancias, tablas de colocaciones, KeyWords, Key-KeyWords, etc. (Pérez Hernández 2000). La siguiente lista de frecuencia muestra unidades léxicas que hacen referencia a los conceptos PATIENT, CELL, TREATMENT, DISEASE, RESEARCH, CAUSE y EFFECT. De ahí es posible inferir que éstas son algunas de las áreas conceptuales en torno a las cuales se articula todo el conocimiento especializado del subdominio de la oncología, como veremos:

N PALABRA FREC. % LEMAS
1 PATIENTS 175.546 0,61 patient(23100),patient's(2115)
2 CELLS 144.895 0,50 cell(65679),cell's(75)
3 JOURNAL 97.597 0,34 
4 ARTICLE 96.714 0,34 
5 STUDY 81.291 0,28 
6 CANCER 81.160 0,28 cancer's (12)
7 TREATMENT 62.967 0,22 treatments (4012)
8 RESULTS 61.455 0,21 result(7130)
9 USING 61.122 0,21 used(28489)
10 GROUP 54.309 0,19 groups (17340)
11 EFFECTS 52.790 0,18 effect(25848)
12 TUMOR 50.779 0,18 tumors(17569),tumour(4870), tumor's(41), tumour's(4)
13 DISEASE 49.773 0,17 diseases(6231),disease's(10)
14 PROTEIN 49.555 0,17 proteins(13187)
15 SIGNIFICANTLY 47.642 0,17 significant(23819)
16 INCREASED 44.978 0,16 increased (17955) , increases (215), increasing (64)
17 CLINICAL 42.253 0,15 
18 CASE 40.768 0,14 cases(26873)
19 YEARS 40.575 0,14 year(14623)
20 THERAPY 39.985 0,14 therapies(1528),therapeutic(5451),therapeutical(145),therapeutics(238), therapic(2)
21 SHOWED 34.180 0,12 shown (9456), show (3420)
22 ANALYSIS 32.539 0,11 analyses(3640),analysed(2036)
23 HIGH 32.051 0,11 
24 ACTIVITY 30.957 0,11 
25 HUMAN 30.603 0,11 
26 EXPRESSION 30.151 0,10 
27 TYPE 30.033 0,10 types(6896)
28 TIME 29.337 0,10 times(6594)
29 GENES 28.069 0,10 
30 DOSE 28.758 0,10 doses (6424)
31 LEVELS 27.813 0,10 
32 COMPARED 27.631 0,10 compare(3036),comparing(1749),compares(306)
33 INDUCED 27.420 0,10 induce(3069)
34 ASSOCIATED 26.053 0,09 
35 FOUND 25.900 0,09 find (9867)
36 RISK 25.740 0,09 risks(1705)
37 AGE 25.185 0,09 
38 TREATED 24.345 0,08 treat(2100),treating(1438)
39 RESPONSE 24.249 0,08 
40 CONTROL 23.878 0,08 
41 DATA 22.487 0,08 
42 NORMAL 22.310 0,08 
43 CHEMOTHERAPY 21.509 0,07 chemotherapeutic(808),chemotherapies(34),chemotherapy's(3)
44 MG 21.445 0,07 
45 SPECIFIC 21.370 0,07 

[Faber et al. en prensa]

Tabla 2.14: Lista de frecuencia del corpus ONCOTERM en inglés

Como se puede observar, las listas de frecuencia no sólo proporcionan la frecuencia absoluta y relativa del término estudiado, también se pueden lematizar, es decir, agrupar las variantes morfológicas de una misma raíz. A través de estas listas se pueden identificar posibles nodos o núcleos para generar líneas de concordancia que ilustran el contexto de la unidad de significación especializada objeto de estudio, ayudan en la modelación del conocimiento y sirven para extraer información para las definiciones de los términos (Pearson 1998, López Rodríguez 2000). Estas líneas de concordancia pueden complementarse con tablas de colocaciones en las que se especifican los lexemas con los que coocurren los nodos establecidos. A partir de éstas se pueden detectar, por una parte, términos relacionados y, por otra, las unidades fraseológicas y los patrones sintácticos en los que encajan los términos (Tercedor Sánchez 1999: 218-221).

Otro método utilizado por Pérez Hernández (2000) y López Rodríguez (2000) para extraer información son las denominadas sondas de conocimiento o knowledge-rich contexts (Meyer y Mackintosh 1994, 1996), la búsqueda de una serie de patrones lingüísticos que permiten encontrar la información deseada, ya que lexicalizan distintas relaciones, por ejemplo a través de verbos conectores tales como 'ser' o 'denominar' (Bach et al. 2000):

(23) La escisión de éste origina un cambio en el potencial de membrana del fotorreceptor, denominado potencial receptor.

Esta estrategia goza de bastante aceptación en la actualidad. Séguéla (1998/1999) propone una serie de patrones lingüísticos dependiendo de las categorías conceptuales (§2.3.3.1) estudiadas y Lorente et al. (2000) proponen una categorización de los verbos del discurso especializado (§3.5.1.1) que pueden utilizarse a modo de sondas.

Otra aportación interesante en este sentido es la de López Rodríguez (2000) que toma el concepto de lexical chain de Morris y Hirst (1991) y afirma que "el contenido de un texto se crea a partir de cadenas léxicas que tratan sobre el mismo tema y que están formadas por lexemas semánticamente relacionados en un texto" (2001: 584). Así, la identificación de las cadenas léxicas muestra las áreas conceptuales activadas. Los textos de un mismo tema presentan cadenas léxicas parecidas pero con variantes dependiendo del destinatario; en los textos para especialistas, al contener un mayor grado de especificidad, aparecen numerosas subcadenas que reflejan la multidimensionalidad conceptual que a menudo se formaliza a través de unidades que nosotros consideraremos como frasemas terminológicos (§3.6.1, 5.1), caso de las siguientes unidades relacionadas con el tratamiento del cáncer:

(24) radiation therapy, laser therapy [indica el agente terapéutico utilizado]
          antineoplasic therapy [indica el objetivo de la terapia]
          endobronchial laser therapy [indica el lugar de aplicación y el agente terapéutico]

Por tanto, el corpus nos permite ver las dimensiones que configuran un dominio, observar cómo la activación de una dimensión conlleva la activación de otra, y recopilar pruebas de la interconexión entre campos asociativos y dimensiones conceptuales, lo que facilita la tarea de estructuración conceptual de un dominio, un proceso esencial antes de poder llevar a cabo la representación del conocimiento adquirido (Capítulo 4).


Notas

21 Para una descripción más detallada de este punto consúltese Pérez Hernández (2000).


Índice general I Índice Capítulo 2  I Siguiente


ISSN: 1139-8736
Depósito Legal: B-37271-2002
Copyright: © Silvia Montero Martínez