6.1.3 Palabras-clave en los textos: comparación de frecuencia de formas

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

6.1.3 Palabras-clave en los textos: comparación de frecuencia de formas

La segunda forma en la que estudiamos los elementos léxicos que integran nuestro corpus fue por medio del estudio de palabras clave (keywords). Dichas palabras clave las identificamos por medio de la comparación de patrones de frecuencia de aparición de una palabra en dos córpora: el de estudio (en nuestro caso, el corpus de oncología o el de leucemia) y el corpus de mayor tamaño que se toma como referencia (en nuestro caso, el British National Corpus).

Las palabras identificadas como clave no son necesariamente las más frecuentes en el corpus de estudio, sino aquellas que poseen una frecuencia significativa al compararla con la del corpus de referencia. Existen varios métodos más para determinar la relevancia estadística en la diferencia de frecuencia de aparición de un elemento léxico, de los cuales el chi-square test y el Log likelihood son los más usados. En nuestro caso, usamos este último, diseñado por Ted Dunning, e implementado en KeyWords¹³⁵. De esta forma, pudimos identificar dos tipos de palabras clave: las positivas, es decir, aquellas que ocurren con una frecuencia mayor de la que se podría considerar aleatoria al comparar la frecuencia de aparición de una palabra en el corpus de estudio con el de referencia y las negativas, es decir, las que ocurren con una frecuencia menor a la que se podría esperar al comparar ambos córpora.

Las palabras clave que selecciona el procedimiento de comparación de ambos córpora sirven para dar una buena indicación de la temática de los textos, por lo que pensamos que nos pueden ser útiles para delimitar áreas conceptuales importantes en el ámbito de especialidad. Al procesar nuestros dos córpora de estudio, el de oncología y el de leucemia y compararlos entre ellos y con el de referencia, obtuvimos una media de 500 palabras clave, de las que, para facilitar la lectura, reproducimos sólo las 100 primeras en la Tabla 4, Tabla 5 y Tabla 6 respectivamente y resumimos a continuación los resultados más significativos.

Tabla 4: Palabras clave en el corpus de oncología (comparándolo con el BNC)

Lo primero que salta a la vista en la Tabla 4 es que las 12 primeras corresponden a las más frecuentes del corpus que mostramos en la Tabla 2 (con ligeras variaciones en el orden de frecuencia). Esto nos indica que dichas palabras (patients, journal, article, cancer, cells, cell, treatment, clinical, results, study, protein, disease y tumor) son relevantes, no sólo en términos de frecuencia absoluta, sino también al comparar su frecuencia en el corpus de oncología con la frecuencia que poseen en el corpus de referencia. Vemos que otras palabras también aparecen en ambas tablas (chemotherapy, carcinoma, induced, etc.), pero ahora lo hacen en posiciones mucho más altas.

Estas cien primeras palabras clave del corpus de oncología, junto con el estudio de su uso mediante el análisis de concordancias, pueden darnos una indicación de las áreas temáticas más importantes y reiteradas de los textos incluidos en el corpus de oncología. Sin embargo, al intentar agrupar las palabras incluidas en la Tabla 4 en grupos de afinidad semántica, considerando, por tanto, los conceptos que dichas palabras designan, éstas muestran que, en realidad, los textos son bastante heterogéneos¹³⁶ y, en consecuencia, los grupos semánticos son muy generales y por tanto indican categorías conceptuales muy amplias comunes a todos ellos:

Enfermo (organismo que sufre el estado patológico o está en tratamiento): patients, patient, rats, human, rat, mice, receptor, receptors, cases, group.
Partes del cuerpo y sustancias orgánicas: cell, cells, protein, gene, breast, blood, tissue, serum, plasma, proteins, bone, renal, lung, liver, membrane, brain, molecular.
Enfermedad y estado patológico: cancer, disease, tumor, tumors, carcinoma, infection, oncology, leukemia, lesions.
Tratamiento: treatment, therapy, chemotherapy, surgery, treated, radiation, receptors, radiotherapy, dose, response.
Diagnóstico y prognosis: diagnosis, detected, analysis, induced, observed, showed, survival.
Otros eventos relacionados con la evolución del cáncer: expression, activity, associated, effects, risk, activation, performed, effect, concentrations.
Propiedades (atributos y relaciones):¹³⁷ increased, compared, decreased, normal, specific, acute, randomized, chronic, dependent, related, vs. (versus), (in/ex) vivo, (in)vitro.¹³⁸
Objetos relacionados con las publicaciones científicas: journal, article, review, conclusions, findings, methods, studies, trial, tutorial.

Además de estos grupos semánticos, volvemos a encontramos con tres casos de formas abreviadas cuya frecuencia las hace palabras clave:

Clin, forma abreviada de clinical, y usada en las referencias a revistas especializadas, en las que suelen abreviarse todas las palabras que componen el título de la revista, como por ejemplo, Clin-Neprol, Clin-Neuropharmacol, Clin-Cardiol, Clin-Neurosci, J-Clin-Inves, J-Clin-Gastroenterol, Clin.Radiol, Proc Annu Meet Am Soc Clin Oncol, J Clin Oncol;¹³⁹
Med, abreviatura de Medicine y Medical, que aparece, por ejemplo, en los títulos Med-Oncol, Med-Hypotheses, Acad-Med, Acta-Med-Austriaca, Eeast-Afr-Med-J, J-Am Med-Inform-Assoc, Intensive-Care-Med, J-Vet-Med-Sci y
Res, abreviatura de Research, que aparece en el nombre abreviado de publicaciones como por ejemplo Urol Res, Cancer Treat Res, Eur Surg Res, Health Serv Res, Oncol Res, Melanoma Res, Eur J Med Res, Proc Annu Meet Am Assoc Cancer Res, Clin Cancer Res.

Estos grupos semánticos pueden ayudar al terminógrafo a empezar a perfilar la estructura conceptual del dominio de la oncología. Sin embargo, somos conscientes de la complejidad de dicho dominio y de los múltiples aspectos y dimensiones que activa, cuya representación sobrepasa el alcance de nuestro trabajo y es la misión del equipo de investigadores que integran el proyecto OncoTerm. Por tanto, una vez que obtuvimos información genérica sobre el cáncer, decidimos acotar nuestra búsqueda de información en el corpus a un subdominio del cáncer, el de la leucemia, por lo que procesamos las palabras clave de un conjunto de textos que versan sobre dicha enfermedad y su tratamiento, comparándolos primero con nuestro corpus de referencia (el BNC) y después con los demás textos sobre oncología. Las Tabla 5 muestra las 100 primeras palabras claves obtenidas al comparar el corpus de leucemia con el BNC y la Tabla 6 las 100 primeras palabras claves del corpus de leucemia usando el corpus de oncología como referencia.

Tabla 5: Palabras clave del subcorpus de leucemia comparado con el corpus de referencia (BNC)

Si estudiamos con atención las palabras clave del corpus de leucemia que mostramos en la Tabla 5, vemos que resultan tremendamente informativas de los conceptos básicos implicados en la enfermedad y en su tratamiento. Como consecuencia de la homogeneidad temática de los textos, las palabras que integran los conjuntos semánticos en que se pueden agrupar las palabras de dicha lista son mucho más compactos que los que obtuvimos en el corpus de oncología y resultan, por tanto, mucho más útiles en el trazado de la estructura conceptual del subdominio:

Partes del cuerpo y sustancias orgánicas: cells, cell, marrow, blood, bone, stem, gene, lymphocytes, chromosome, lymph, platelets, plasma, proteins, antibodies, chromosomes, serum, spleen. En este mismo grupo podemos incluir dos adjetivos especializados, uno relacionado con la piel, cutaneous, y otro con la formación de la sangre: hematopoietic.
Enfermedades y estados patológicos: leukemia, disease, myeloma, lymphomas, cancer, apoptosis, leukaemia, malignancies, leukemias, abnormalities, tumor y anemia. A estos sustantivos hay que añadir en este mismo grupo las siglas de tipos de leucemia CLL (chronic lymphocytic leukemia), AML (acute myeloid leukemia) y CML (chronic myeloid leukemia) y los adjetivos que forman parte de denominaciones de tipos de leucemia: acute, chronic, lymphocytic, myeloid, myelogenous, lymphoblastic, multiple, lymphoid y de otra enfermedad relacionada multiple (myeloma)¹⁴⁰. También podemos incluir en este grupo el epónimo Hodgkin’s, que aparece en las denominaciones Hodgkin’s disease y Hodgkin’s lymphoma y en combinación con el prefijo negativo non, también presente en la posición 99 de la Tabla 5 en la denominación de la enfermedad non-Hodgkin’s lymphoma.
Tratamiento: chemotherapy, therapy, treatment, transplantation, treated, dose, regimen, donor, receptor, transplant, radiotherapy, phase, radiation, irradiation e induction,¹⁴¹ los dos adjetivos especializados autologous y allogeneic que se combinan con (bone marrow) transplantation/transplant y (blood) transfusions para indicar diferentes tipos de transplantes o transfusiones y el adjetivo ramdomized, que incluimos en este grupo puesto que se usa para indicar la forma en la que se ha realizado un ensayo clínico.
Sustancias usadas en el tratamiento de la leucemia: interferon, etoposide, cyclophosphamide.
Diagnóstico y prognosis: remission, survival, relapse, diagnosis, prognostic, results, response, prognosis, analysis y los adjetivos relapsed y refractory.
Propiedades: leukemic, malignant, clonal, cytogenetic, toxicity, peripheral, clinical, normal y median.
Objetos relacionados con el estudio del cáncer y las publicaciones científicas: oncology, medicine, hematology (y la forma abreviada hematol.), cancerlit y abstracts.

Esta información sobre los grupos semánticos del subdominio de la leucemia puede completarse si, en vez de comparar nuestro subcorpus de leucemia con uno de propósito general, lo comparamos con el corpus de oncología, el cual a pesar de ser de carácter especializado es mucho más heterogéneo en cuanto a la temática de los textos. La combinación de ambas comparaciones nos resultó muy útil por dos razones: la reiteración de determinadas palabras clave nos confirmó que son conceptos importantes en el ámbito específico de la leucemia, aunque en algunos casos aparecen en posiciones ligeramente diferentes; además, nos mostró otras palabras clave, sobre todo compuestos químicos y siglas especializadas, que no habían sido identificadas antes.

La Tabla 6 muestra dichas palabras, y a continuación señalamos las palabras clave en su correspondiente grupo semántico, sin repetir las que ya habían aparecido en la Tabla 5, para mostrar más claramente la información que añade la comparación de los dos córpora especializados con diferente temática y homogeneidad textual.

Tabla 6: Palabras clave del subcorpus de leucemia (comparado con el de oncología)

Los grupos semánticos en los que estas palabras clave pueden agruparse son los siguientes:

Partes del cuerpo y sustancias orgánicas: además de la mayoría de las palabras clave presentes en la Tabla 5, aparecen blast y blasts (células embrionarias o inmaduras que aún no se han diferenciado), lineage, el adjetivo progenitor (que aparece en la combinación progenitor cells) y las siglas BCR y ABL, que denominan dos genes y aparecen en los textos en la combinación BCR/ABL, dado que la traslocación de dichos genes puede identificar un tipo específico de leucemia, la leucemia mieloide crónica. Otras siglas que pertenecen a este grupo son PBPC (Peripheral Blood Progenitor Cell) y BM (Bone Marrow).¹⁴²
Enfermedades y estados patológicos: a las que aparecían en la tabla anterior podemos añadir fungoides y mycosis, que aparecen siempre juntas en el nombre de la enfermedad mycosis fungoides, (un tipo de linfoma) y tres adjetivos especializados, dos de los cuales forman parte de nombres de tipos de leucemia: hairy (hairy-cell leukemia) y promyelocytic (promyelocytic leukemia), mientras que el tercero da nombre a una serie de síndromes asociados a la leucemia que reciben el nombre genérico de myeloproliferative disorders. También aparecen las siglas ALL (acute lymphocytic leukemia) y CTCL (cutaneous T-cell lymphoma).
Tratamiento: las siglas CR (Complete Response, véase aparatado anterior) y CSF (Colony Stimulating factor),¹⁴³ EFS (Electrical Field Stimulation y Event-free survival). En este mismo grupo podemos incluir el adjetivo intensive que aparece acompañado a therapy y chemotherapy (intensive therapy/ chemotherapy) y el adjetivo complete, de la secuencia ya mencionada complete response.
Sustancias usadas en el tratamiento de la leucemia: aparecen en esta lista el nombre de dos compuestos químicos usados en el tratamiento de la leucemia: fludaribine, idarubicin, junto con la sigla ABVD, que corresponde a una combinación de sustancias usadas en quimioterapia (Adriamycin, Bleomycin, Vinblastine y Dacarbazine).
Objetos relacionados con el estudio del cáncer y las publicaciones científicas: Annu (forma abreviada de Annual, en referencias a publicaciones científicas), haematology, oncol. (abreviatura de oncology) Hospital, patient, patients.

Además de las que hemos mostrado en las tablas anteriores, las palabras clave que se encuentran en posiciones inferiores también resultaron de gran utilidad en la estructuración del dominio conceptual de la leucemia. Entre las 50 siguientes de la Tabla 6 encontramos, por poner algunos ejemplos, nombres de compuestos químicos y fármacos usados en el tratamiento (como la sigla MOPP, que corresponde a mechlorethamine, oncovin, procarbazine y prednisone; vincristine y arabinoside), síntomas de la enfermedad como la anemia, patologías y disfunciones asociadas a la leucemia como la thrombocytosis, myelofibrosis y polycytemia, tipos de células cuyo funcionamiento es fundamental para entender el desarrollo de la enfermedad, como son neutrophil y basophil, procesos sanguíneos que tienen lugar natural (hematopoiesis) o artificialmente (apheresis), etc.

El estudio de las palabras clave de nuestros dos córpora nos ha servido para ver las principales áreas conceptuales que debe cubrir una representación de los conceptos implicados en el subdominio de la leucemia. Sin embargo, los listados de palabras clave no nos ofrecen ninguna información sobre las relaciones de dichos conceptos ni sobre su posición en la estructura conceptual. En las secciones que siguen mostramos cómo puede obtenerse este tipo de información estudiando de forma individual las ocurrencias de cada una de estas palabras clave y sus relaciones con otras palabras clave del corpus.

Notas

¹³⁵ Oakes (1998) ofrece una descripción detallada y las fórmulas que se usan en ambos cálculos estadísticos.

¹³⁶ Con esto queremos decir que en el corpus de oncología los textos varían en cuanto al tipo de cáncer del que tratan (cáncer de pulmón, de mama, etc) y a la perspectiva desde la que lo tratan (tratamiento, muestra de resultados de ensayos clínicos, exposición pedagógica de los signos y síntomas, etc.).

¹³⁷ Especificamos en el grupo semántico que hemos denominado propiedades los dos tipos atributos y relaciones porque ésta es la forma en la que las propiedades se representan en nuestra ontología.

¹³⁸ Incluimos vivo y vitro en el grupo de propiedades, puesto que en el corpus sólo aparecen en las expresiones latinas in/ex vivo e in vitro, con dos funciones sintácticas fundamentales: modificando la acción verbal (demonstrated in vivo, maintained in vitro) o premodificando a un repertorio bastante cerrado de nombres o grupos nominales: ex vivo activation, ex vivo activity, ex vivo analysis, ex vivo assays, ex vivo techniques, ex vivo expansions, ex vivo gene therapy; in vivo activity, in vivo administration of X, in vivo analysis, in vivo behaviour, in vivo conditions, in vivo depletion, in vivo effects, in vivo evidence, in vivo evaluation, in vivo experiment, in vivo gene therapy, in vivo gene transfer; in vitro model, in vitro drug sensitivity testing, in vitro toxicology, in vitro cultivation, in vitro experiments, in vitro studies, in vitro testing.

¹³⁹ Las formas abreviadas de los nombres de revistas separadas por guiones corresponden a las convenciones tipográficas de una de las fuentes del corpus, el MEDLINE.

¹⁴⁰ Multiple también aparece en el corpus como cuantificador de carácter general en secuencias tales como multiple doses, multiple factors, multiple births, multiple sources y en el nombre de otro tipo de cáncer: Multiple Endocrine Neoplasia (MEN).

¹⁴¹ Incluimos induction en este grupo porque, además de su significado más general de "causar un proceso" aparece muy frecuentemente en nuestros textos premodificando a varios tipos de tratamiento (ej. induction chemotherapy, induction chemoradiation o induction chemoratiotherapy).

¹⁴² Aunque en los textos de leucemia la sigla BM corresponde únicamente a bone marrow, en el corpus de oncología esta sigla es polisémica, puesto que puede sustituir también a basilar membrane, bowel movement y basement membrane.

¹⁴³ La sigla CSF aparece, además, en nuestro corpus de leucemia especificada en las combinaciones siguientes: G-CSF (granulocyte colony stimulating factor), GM-CSF (granulocyte-macrophage/granulocyte-monocyte colony stimulating factor) y rhG-CSF (recombinant human granulocyte colony stimulating factor).

Índice General I Índice Capítulo 6 I Siguiente