ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

6.1.2 Frecuencia de las formas en el corpus

La segunda forma en la que hemos estudiado el conjunto de las palabras que componen nuestros córpora ha sido por medio del análisis de la frecuencia de las formas del corpus. Para ello, hemos generado listas de las formas ordenadas alfabéticamente y por frecuencia, de modo que es posible ver cuáles son las palabras que con mayor frecuencia se usan en los textos y, por tanto, las que son más usuales en el ámbito de especialidad al que esos textos pertenecen.

El propósito que perseguimos al estudiar este tipo de información es triple: ver las palabras más frecuentes en nuestro corpus puede, por un lado, ayudarnos en una primera aproximación, a medir la adecuación del corpus a nuestro ámbito de especialidad. Si entre las palabras más frecuentes aparecen muchas que no poseen relación alguna con el ámbito de especialidad puede ser que los criterios de selección textual aplicados (§ 4.3.1) sean incorrectos y habrá que modificarlos. Por otro lado, es de gran utilidad estudiar de qué forma son significativas las palabras que con mayor frecuencia aparecen en el corpus, ya que éstas pueden aportar mucha información, no sólo sobre la composición del corpus, sino también sobre las áreas léxicas (y por ende, conceptuales) más relevantes del ámbito de especialidad. Por último, la posibilidad de procesar directamente desde la lista de frecuencia las líneas de concordancia de las palabras que contiene, nos da la posibilidad de tener una primera apreciación de las razones por las cuales esas palabras aparecen con una determinada frecuencia (ya sea ésta alta o baja) en el corpus y observar el uso que los especialistas hacen de ellas en los textos.

Sin embargo, es un hecho ampliamente reconocido que las palabras más frecuentes en un texto o conjunto de textos son, independientemente de que se trate de un texto de lengua general o de un lenguaje de especialidad, palabras cuya función es eminentemente gramatical, como artículos, pronombres, preposiciones, etc.117 Wordlist nos ofrece la posibilidad de excluir estos elementos de la lista de palabras más frecuentes del corpus, por medio de la creación de un fichero de Stopwords, compuesto por las palabras que no queremos que aparezcan en los listados de frecuencia (como por ejemplo the, of, and, to, a/n, in, that, etc.). En nuestro caso, el fichero empleado,118 de unas 370 palabras, lo hemos realizado cotejando la lista de palabras más frecuentes del Oxford Advanced Learner’s Dictionary, distribuida a través del Oxford Text Archive (§ 2.4.2.1), con las palabras más frecuentes de nuestro corpus de referencia, el BNC.119

En la Tabla 2 mostramos las cien palabras más frecuentes del corpus de oncología:


Tabla 2: 100 primeras palabras en orden de frecuencia del corpus de oncología.

Esta lista, auque pueda parecer poco informativa a primera vista, nos dice mucho sobre la composición del corpus y sobre aspectos generales del domino de especialidad en el que nos movemos. En primer lugar, destaca la alta frecuencia de palabras120 que deben su presencia al tipo de textos incluidos en el corpus: journal, article y abstract. Esto se debe no sólo a gran número de resúmenes y artículos especializados en nuestro corpus,121 sino a que éstos suelen identificarse como tales en el texto y los autores suelen hacer referencia a otros artículos de similar temática con los que comparten o no su visión científica. Podemos comprobar esto si procesamos una concordancia de la palabra article, de la que mostramos a continuación una pequeña sección:122

Book Available The Aug. 16 News carried an article on EUROCARE, a multicountry study measuri
alence of HPV DNA in cervical cancer in an article published in the Journal (Bosch et al., p
- NCI-supported researchers reported in an article in "The Lancet," May 14, 1994, that
ginally identified by the NSABP and [in an article in] the Chicago Tribune were the result o
ortion and breast cancer. For example, an article published by Daling and others in the Jour
ifferentiating action of progesterone. An article by Potischman et al. (p. 1127) supports s
y dogs' ability to detect melanoma was an article by Hywel Williams, M.D., and Andres Pembro
s the number of times, on average, that an article in a particular journal is cited. Some le
rease risk of fatal ovarian cancer. And an article in this issue of the Journal reports a lo
quired by Sandoz in 1995. Clarification An article in the July 3 News, based on a press relea
s of Health's Genbank. "We recently had an article published about a retroviral sequence in
some of those concerns were laid out in an article in the Journal of the American Medical A
f California at San Diego, coauthor of an article in the Nov. 1 issue of this Journal that
l be given to writers-authors for the best article published in each of the following catego
   fine needle aspiration, or biopsy. This article reviews the general concepts of diag
able on the Internet. In this, the closing article for the Methods and reagents monthly colum
enal medullae is detailed in the companion article (Katsetos et al., 1998A). METHODS: W
ponsive than other age groups. The current article reviews the literature in this area and tr
e young, who are most susceptible." Daling Article Issue 21 JNCI ARTICLES
ne expression. Here, we present a detailed article discussing the differential display metho
es met these criteria. The quality of each article was assessed by two nurse experts using Du
ormed independently by two reviewers. Each article was evaluated for suitability of the refer
pardize Cancer Research? This is the fifth article in a series about managed care. At Yale
 vitamins A, C and E, and 714-X. The first article in this series on unconventional th

Un caso bastante similar ocurre con journal y con abstract. En el primer caso, la alta frecuencia de journal se debe también a la gran cantidad de artículos procedentes de revistas especializadas en cuyo nombre aparece dicha palabra o referencias entre diferentes artículos.123 En el caso de abstract, su alta frecuencia se debe a que la inclusión en el corpus de un elevado número de resúmenes de artículos procedentes de la base de datos de MEDLINE (§ 4.3.3.1) y de reuniones científicas, así como la las referencias contenidas en muchos artículos a resúmenes publicados que tratan una temática similar.

Entre las palabras más frecuentes de la Tabla 2 podemos observar también otro grupo de palabras (studies, study124 y trial, que aparece frecuentemente en la combinación clinical trial) cuya presencia se debe, no sólo al tipo de textos incluidos en el corpus sino al contenido típico de dichos textos: artículos en los que se informa sobre los resultados de estudios, pruebas y ensayos clínicos sobre las causas, el desarrollo o el tratamiento de un tipo determinado de cáncer.

Es interesante, aunque poco sorprendente, observar que entre las palabras más frecuentes del corpus de oncología aparecen muchas que pueden considerarse términos generales de las ciencias de la salud y de uso extendido en la lengua general (p. ej. patient, treatment, results, disease, source, therapy, analysis, diagnosis, surgery, survival, dose, care, health). Otras palabras incluidas entre las más frecuentes pertenecen a otras áreas afines y dominios íntimamente relacionados con la medicina, como la anatomía, la biología o la bioquímica (p. ej. cells, cell, gene, blood, bone, breast, tissue, protein, acid y DNA). Sin embargo, al contrario de lo que hubiéramos podido suponer al principio, entre las palabras más frecuentes sólo aparecen cuatro que pueden considerarse específicas del dominio de la oncología y, aún así, éstas son de carácter bastante general: cancer, tumor(s),125 y carcinoma.

Es posible agrupar otra serie de palabras que son de carácter verbal, aunque su alta frecuencia indica que son importantes para la construcción y retórica de los textos especializados, sobre todo en lo que se refiere a la presentación de los procesos seguidos y los resultados obtenidos en los ensayos clínicos, como por ejemplo using, increased, associated, induced, compared, used, treated, observed, binding, based, related, suggest y showed.

También aparecen en la lista los adjetivos high, clinical, normal, low, higher, total, significant, specific, positive y primary. A excepción del primero de ellos, clinical, directamente relacionado con el ámbito de la medicina, es importante observar que los adjetivos más frecuentes en el corpus de oncología son también de uso frecuente en la lengua general. High, normal, low, higher, total y significant, son adjetivos que semánticamente están relacionados con la cuantificación, por lo que en nuestro corpus aparecen con mucha frecuencia modificando a sustantivos deverbales que indican fenómenos cuantificables o niveles como por ejemplo level, levels y rate también presentes en la lista de frecuencia. El adjetivo significant aparece premodificando a sustantivos deverbales que indican una variación cuantitativa: significant difference, significant increase, significant decrease, significant difference, significant reduction y significant improvement.

La frecuencia de estas combinaciones nos sirve para hacernos una idea de la importancia que en el ámbito biomédico tienen las mediciones de las variaciones de determinados niveles y cantidades controlados por los especialistas. Además, el uso y los patrones léxicos en los que aparece del adjetivo significant nos ofrecen dos datos adicionales: la importancia que en el ámbito biomédico se da, no sólo al estudio y control de dichas variaciones, sino al hecho de que éstas sean estadísticamente significativas, puesto que la colocación statistically significant aparece 1.068 veces en las 8.000 líneas de concordancia procesadas. Por otra parte, es importante destacar que, de los dos únicos adverbios que aparecen en la lista de frecuencia, uno de ellos es el derivado de dicho adjetivo, significantly, el cual también aparece en combinación con los adjetivos higher, lower, smaller, longer, larger y different y los participios pasivos reduced e increased. Encontramos por tanto dos tipos de combinaciones que pueden considerarse como variaciones discursivas que expresan ideas similares: la del adjetivo significant + sustantivo deverbal (increase, decrease, reduction, etc) por un lado y por otro, la del adverbio significantly modificando una oración pasiva los verbos de los que dichos nombres se derivan (increase, decrease, reduce) o premodificando un adjetivo que indica cuantificación (higher, lower, larger, longer, different), lo que refuerza más aún la importancia temática que el estudio de los niveles y los cambios cuantitativos posee en el ámbito de la biomedicina.

Por último, algunas de las palabras que encontramos en esta lista de frecuencias nos parecieron bastante peculiares, como por ejemplo T, MG, II, rats, por lo que las estudiamos con más detalle por medio de concordancias y análisis de colocaciones. En el primer caso, la alta aparición de la letra T se debe a su combinación para formar sustantivos compuestos como T-cell(s), T-helpers, T-lymphocyte. MG es la abreviatura de la unidad de medida del sistema métrico decimal milligrams; II aparece en combinaciones como Grade II, arm II, Stage II o Phase II, muy usuales en los informes sobre estudios clínicos, mientras que rat(s) debe su frecuencia a la cantidad de artículos en los que se detallan experimentos y estudios hechos con dichos animales.

Para recapitular la información que hemos obtenido del estudio de las palabras contenidas en la Tabla 2, podemos concluir que las palabras más frecuentes de nuestro corpus de oncología se engloban en los siguientes grandes grupos: (i) unidades léxicas que deben su presencia a la composición del corpus (es decir, al tipo de textos); (ii) unidades léxicas que deben su presencia al contenido de dichos textos; (iii) unidades léxicas del vocabulario médico general que también son de uso frecuente en la lengua general, en las que, la alta frecuencia de unidades que no son nominales nos hace suponer que también son importantes en la construcción del discurso científico.

No pensamos que la presencia de unidades léxicas que delaten la composición del corpus sea un problema potencial que nos obligue a replantearnos la composición de nuestro corpus. Sin embargo, sí que indican una característica a la que ya hemos hecho referencia y que es necesario tener en cuenta a la hora de valorar los resultados que obtengamos del análisis textual: la mayor presencia (no tanto en número de palabras como en número de textos) de artículos científicos que de otras variedades textuales como libros de texto, manuales o folletos de información para pacientes, junto con la ausencia de textos orales en el corpus.127

Una característica importante que se despende del listado que acabamos de ver es la relevancia, al menos en lo que respecta a la frecuencia de uso, de unidades léxicas que pertenecen al vocabulario general y que poseen un uso especializado en las ciencias de la salud y otros campos de investigación relacionados. Retomando nuestra discusión del capítulo 3 sobre la división entre unidades del léxico general y unidades del léxico especializado (§ 3.4.2), podemos considerar dichas palabras (por ejemplo patient, treatment, results, source, analysis, survival, care, health) como elementos del vocabulario general que se integran en el científico o incluso como "términos no específicos" y nos confirman que es muy difícil trazar una línea divisoria clara entre términos y palabras. Además, aunque estas palabras puedan considerarse como palabras de uso general o como términos no específicos, lo cierto es que poseen un uso bastante restringido en los textos sobre el cáncer, sobre todo en lo que se refiere a las combinaciones léxicas en las que aparecen, hecho que comprobamos al analizar líneas de concordancias de dichas palabras. Por ejemplo, al estudiar las combinaciones biléxicas en la palabra care aparece con mayor frecuencia obtenemos las siguientes:128 health care (1.800); supportive care (638); care professionals (513); managed care (475); of care (362); care and (354); primary care (354); intensive care (323); care of (312); care for (233); care unit (224); patient care (215); cancer care (208); care in (190); medical care (180); care providers (172); home care (150); care at (139); care is (126); care system (107); palliative care (106); critical care (88); care about (86); tertiary care (84); nursing care (82); care to (81); care organizations (80); care professions (76); health-care (75); care physicians (72); acute care (69); care services (65); term care (64); getting care (62); care costs (59); care patients (57); prenatal care (55); crit-care (52); to care (52); care setting (50) care professional (48); clinical care (48); animal care (45); care delivery (45); care settings (44); care units (42); self-care (40).

Algunas de estas combinaciones no muestran un gran interés terminográfico, aparte de indicar el régimen preposicional de care (care of, care for, care in, care at, care to). Otras, sin embargo, apuntan a conceptos específicos del sistema sanitario y su organización, por lo que resultan muy interesantes: health(-)care, care unit(s), care system, care physicians, care organizations, care professions, care physicians, care services, care patient(s), care provider y care professional. Por último, entre las combinaciones más frecuentes nos encontramos también con un buen número en las que la premodificación adjetival acota el significado genérico de care, dándole un carácter especializado y especificando un "tipo de X", relevante para el ámbito de especialidad. Este es el caso de supportive care, managed care, primary care, intensive care, cancer care, medical care, palliative care, tertiary care, nursing care, acute care, prenatal care, clinical care y critical care, el cual se acorta en los textos usando crit-care.

Por tanto, a pesar de que palabras como care, source o results sean de uso común en la lengua general y no parezcan a primera vista de interés terminográfico, la posibilidad de ver su alta frecuencia de aparición en los textos y estudiar a qué es debida es de gran utilidad terminográfica, puesto que nos revela cuáles son las combinaciones léxicas que los especialistas en la materia usan para restringir y especializar su significado.

Después de estudiar las palabras más frecuentes en el corpus de oncología, quisimos realizar la misma operación en el subcorpus de leucemia. La Tabla 3 recoge las cien palabras más frecuentes de dicho corpus:


Tabla 3: 100 primeras palabras en orden de frecuencia del subcorpus de la leucemia

Observamos en esta lista de frecuencia, al igual que en la anterior, una serie de palabras que deben su frecuencia al tipo de textos incluidos en el corpus: Department, University, study, studies, citations y center; la mayoría, sin embargo, aparece en posiciones inferiores a las que ocupaban en el listado del corpus de oncología, debido a que esta sección del corpus se compone, comparativamente, de un menor número de artículos especializados y más folletos informativos y textos de carácter semi-especializado.

Con referencia a las demás unidades léxicas que aparecen en la Tabla 3, es importante destacar que aunque el listado pueda parecer a simple vista más específico del subdominio de la leucemia, también aparecen un buen número de palabras que pertenecen al vocabulario general de las ciencias de la salud (disease, treatment, therapy, patient, clinical, medical, analysis, diagnosis, medicine, hospital) y a otras disciplinas relacionadas con la medicina como la biología, la bioquímica o la anatomía (cell, cells, blood, marrow, bone, gene, chromosome, DNA, protein, plasma, lymphocytes). Si observamos éste último grupo de términos, pertenecientes a otras disciplinas, vemos que todos están relacionados con la sangre y sus órganos productores (que son los causantes de la leucemia), hecho que nos parece indicativo de la especialización y homogeneidad temática del subcorpus de leucemia. También es destacable que, al contrario que en el caso del corpus de oncología, en el que la variación temática de los textos es mucho mayor, en el corpus de leucemia aparezca en posiciones de frecuencia más alta un mayor número de términos específicos del subdominio, como son los adjetivos chronic y acute y los sustantivos leukemia, lymphoma(s), chemotherapy, Hodgkin’s, myeloid, leukemic, myelogenous, leukaemia).

No son menos numerosas que en el caso anterior las palabras que, aún perteneciendo a la lengua general se usan en el subdominio de la leucemia con un significado mucho más preciso (case(s), results, survival, expression, transplantation, response, stage, type, levels, risk, relapse, phase, grade), lo que se corresponde con una restricción en las combinaciones léxicas en las que aparecen dichas palabras. En el caso de response, por ejemplo, los adjetivos premodificadores con los que aparece en los textos pueden resumirse en dos grupos: (i) los que indican "tipo de response" (cytogenetic response, immune response, emotional response, biological response, h(a)ematologic response, molecular response, proliferative response, biologic response) y (ii) los que indican el "grado de response" (poor response, slow response, high response, maximum response, higher response, lower response, complete response, el cual, además cuenta con el acrónimo CR). En el caso de expression, cuyo uso especializado procede del campo de la genética,129 la práctica totalidad de las 655 líneas de concordancia en las que aparece responden a dos patrones combinatorios básicos; en el primero de ellos expression aparece precedido de la denominación específica de un gen, un antígeno o una proteína (p. ej. VLA-4 expression, FMC7 antigen expression, CD16 expression, CD20 expression, CD25 expression, HLA-DR expression, HOXC6 gene expression), mientras que en el segundo, expression va seguido de la preposición of + la denominación del gen, el antígeno o la proteína (expression of bcr-abl, expression of activation antigens, expression of adenoviral transgenes, expression of Bax protein, expression of bcl-2 gene, expression of beta1-integrins, expression of DC10/CD11b/CAF7/VLA-4).

Si nos fijamos en las unidades verbales que aparecen en la lista de frecuencia (treated, associated, used, using, showed, related, received, compared, increased) vemos que todas ellas eran también frecuentes en el corpus de oncología, a excepción de received, que en el corpus de oncología aparecía en una posición de frecuencia inferior y por ello no está incluida en la lista). Esto nos muestra que, a pesar de la gran diferencia de tamaño entre ambos córpora y de su diferente composición temática,130 las unidades verbales más frecuentes se mantienen en los diferentes subdominios del ámbito de especialidad.

En cuanto a los adjetivos, es importante destacar que vuelven a aparecer, además de clinical y medical, adjetivos relacionados con la cuantificación o la gradación: high, normal, median, multiple, low, complete, specific, junto con otros dos que, además, indican evaluación: malignant y positive131. La alta frecuencia de los otros adjetivos que aparecen en la lista (acute, chronic, lymphocytic, myeloid, leukemic, myelogenous) viene dada por su combinación con el término leukemia para especificar diferentes tipos de dicha enfermedad (acute/chronic lymphocytic leukemia, acute/chronic lymphoid leukemia, acute/chronic myelogenous leukemia) y en el caso de leukemic, por la combinación en la especificación de tipo de célula o célula inmadura (blastos): leukemic blast, leukemic cell(s) y leukemic lymphocytes.

Es llamativo también la gran cantidad de siglas y abreviaturas que aparecen entre las palabras más frecuentes del corpus de leucemia, no sólo entre las 100 primeras reflejadas en la Tabla 3 (ALL, CLL, AML, PTS, CML, CSF, CR, AM) si no también otras que aparecen en posiciones inmediatamente inferiores: PCR, IFN, BMT, BCL, ABL, MDS, BCR, HLA, ML, RT, GM y CT, por poner ejemplos que están entre las 100 y las 200 palabras más frecuentes. Es un hecho que en todas las lenguas de especialidad el uso de las siglas y acrónimos se hace cada día más frecuente y el discurso de las ciencias de la salud no es una excepción. Una prueba de ello es, como señala Estopá (1999:199) la aparición de diccionarios especializados para dar cuenta de las siglas y abreviaturas usadas en un ámbito de especialidad, como es el caso del Dictionary of Abbreviations in Medical Sciences publicado por Heister en 1989. Si bien la proliferación del uso de las siglas en el discurso científico tiene su base en la economía, concisión y rapidez que aporta a la comunicación, pueden también, como veremos a continuación, llegar a oscurecerla y dificultarla, cuando no es posible recuperar los elementos lingüísticos que la componen y su significado, o cuando las siglas se convierten en unidades polisémicas o ambiguas.

Juicios de valor aparte, lo cierto es que, como muestran las frecuencias de la Tabla 3, cuanto más especializado es un texto, mayor abundancia de siglas encontramos, por lo que el terminógrafo deberá ser consciente de su importancia, significado y uso en el discurso científico. En nuestra experiencia el corpus ha demostrado ser una herramienta bastante útil para estudiar las siglas más frecuentes en el subdominio de la leucemia y acceder al uso que los especialistas hacen de ellas.

En el caso de la primera de las siglas que aparecen en la lista, ALL,132 el estudio de las líneas de concordancia nos permitió, por un lado, comprobar la forma expandida a la que dicha sigla representa y ver que, de hecho, puede corresponder a más de una (acute lymphoblastic leukemia y acute lymphocytic leukemia). En el caso de las sigla CSF, encontramos que en nuestro corpus corresponde únicamente al término colony stimulating factor, aunque con frecuencia a esta sigla (y por ende, la unidad terminológica que sustituye) se le añaden otros elementos para hacer más específico el referente: G-CSF (granulocyte colony stimulating factor); GM-CSF (granulocyte-macrophage colony stimulating factor) y rhG-CSF (recombinant human granulocyte stimulating factor).

La sigla CR muestra una polisemia mucho mayor, ya que, en primer lugar, puede usarse con diferentes significados en diferentes ámbitos de especialidad, por ejemplo Conditioned Response/Reflex en psicología o la unidad geopolítica Costa Rica. Si además añadimos las posibles combinaciones de letras mayúsculas y minúsculas (que en ocasiones los autores no usan de forma inconsistente), Cr. corresponde en química al símbolo del cromo (chromium) y en las finanzas puede usarse como abreviatura de credit y creditor. Aparte de estos usos, esta sigla es también altamente polisémica incluso dentro de nuestro ámbito de especialidad: en nuestro corpus la sigla CR se usa con al menos quince significados diferentes: complete remission, complete response,133 crown-rump, chemoradiotherapy, cranial radiation, computed radiography, concentration-ratio, critical ratio, control region, conserved region, chronic rejection, concentration-relaxation, calorie restriction y cardiovascular reactivity. Si a éstas, en una búsqueda que no discrimine mayúsculas y minúsculas añadimos los símbolos Cr. y cr., que los autores usan en ocasiones de forma indistinta, nos encontramos además con el ya citado chromium, junto con creatinine, serum creatinine, creatine, calreticulin y calretinin. En el caso de la sigla AML, que corresponde a un tipo específico de leucemia (acute myeloid leukemia o leukaemia), el estudio de las ocurrencias que aparecen en el corpus revela que puede también corresponder a varias denominaciones sinónimas (acute myeloblastic leuk(a)emia, acute myelocytic leuk(a)emia, acute myeloid leuk(a)emia, acute myelogenous leuk(a)emia, acute myeloblastic leuk(a)emia), y que, además, dicha sigla suele usarse en combinación con otras abreviaturas para especificar diferentes subtipos: por ejemplo, acute megakaryocytic leuk(a)emia (AML M7) o acute monocytic leuk(a)emia (AML M5a). Sin embargo, Mostramos a continuación una pequeña sección de las líneas de concordancia del corpus en las que aparece la sigla AML:


1 the stomach in one case, and there was one case of acute myeloblastic leukaemia (AML) and another case of liposarcoma of the left iliac
2 p you understand more about one type of leukaemia, acute myeloblastic leukaemia (AML). We hope it answers some of the questions you may
3 second time. Chromosome abnormalities of childhood acute myeloblastic leukaemia (AML) are not basically qualitatively different from th
4 tic leukaemia (CMML), which transformed first into acute myeloblastic leukaemia (AML) and then into acute lymphoblastic leukaemia
5 onset and during progression of 17 individuals with acute myelocytic leukaemia (AML). These included two cases of MO, eight with M1
6 ripheral blood of a 45-year-old female patient with acute myelogenous leukaemia (AML) transformed from chronic myelomonocytic leukaemia
7 HN-GM, was established from a patient who developed acute myelogenous leukaemia (AML) as a consequence of myelodysplastic syndrome (MDS
8 UNT>ENGLAND Four patients with acute myelogenous leukaemia (AML), who developed isolated thrombocytopenia after an
9 ion. It was reported to be expressed in over 80% of acute myelogenous leukaemia (AML) patients in North America and Japan. We analyzed
10 ractory to immunotherapy. The results of a trial in acute myelogenous leukaemia (AML) suggest that histamine and IL-2 protects AML pati
11 fer of an immune costimulator, B7.1, into primary human acute myeloid leukaemia (AML) cells and the subsequent induction of immune cost
12 and greatest activity against cells from patients with acute myeloid leukaemia (AML; mean LC90 = 24.3 microM; in vitro therapeutic ind
13 etween 1984 and 1990, 972 patients aged 1-79 years with acute myeloid leukaemia (AML), from 85 British hospitals, were entered into the
14 val between ras positive and ras negative patients with acute myeloid leukaemia (AML) in adults or children, but ras mutations carried
15 Prince Henry's Hospital and Monash Medical Centre with acute myeloid leukaemia (AML) or acute lymphocytic leukaemia (ALL) during a fiv
16 3. When peripheral blood leukaemic cells from M4 and M5 acute myeloid leukaemia (AML) patients were admixed with liposomal compounds an
17 We report the outcome of 50 consecutive patients with CR1 acute leukemia (AML = 22; ALL = 28) treated with autologous BMT, after
18 egimen D). The following acronyms are used: ALL Acute Lymphocytic Leukemia AML Acute Myeloid Leukemia ARA-C Cytarabine, NSC-63878
19 oid leukemia (AML) M0), erythroleukemia (AML M6), acute megakaryocytic leukemia (AML M7), cytogenic markers indicative of poor prognosi
20 JOURNAL-ARTICLE; MULTICENTER-STUDY Two acute monocytic leukemia (AML-M5a) cell lines (MOLM-13 and MOLM-14) with intercl
21 gnostic factors were evaluated in 152 children with acute myeloblastic leukemia (AML) treated on three consecutive protocols (ANLL-861,
22 -year-old girl with Down syndrome who suffered from acute myeloblastic leukemia (AML) preceded by preleukemic pancytopenia. Chromosomal
23 ients with transient abnormal myelopoiesis (TAM) or acute myeloblastic leukemia (AML). Cells were cultured with TPO alone or combined
24 ndent and Ca2+-independent. Whole lysates from most acute myeloblastic leukemia (AML) cells possessed similar endonuclease activity,
25 atients with acute lymphoblastic leukemia (ALL) and acute myeloblastic leukemia (AML). The Motol Hematology Section does about 20
26 d frequent infectious complications. A patient with acute myeloblastic leukemia (AML) presented psychiatric manifestations of sudden
27 BCOUNT> Treatment failure of patients with acute myelogenous leukemia (AML) is frequently due to the development of multidrug
28 Hematologic/lymphoid malignancies as follows: Acute myelogenous leukemia (AML) in one of the following categories: Failed to
29 apy With rIL-2 in Previously Untreated Patients With Acute Myelogenous Leukemia (AML) and Less Than 60 Years Old (summary last modified
30 he development of myelodysplastic syndrome (MDS) and acute myelogenous leukemia (AML). Studies of patients occupationally exposed to
31 roduct p21 and the DNA ploidy in 30 de novo cases of acute myelogenous leukemia (AML). The results showed that 17 cases were negative
32 h risk ALL with Ph positive 9/22 translocation; OR - Acute myelogenous leukemia (AML) with documented chemosensitivity (CR, PR, or MR)
33 receptor gene (FLT3) as a somatic mutation in 17% of acute myelogenous leukemia (AML). The present study revealed the duplication at
34 mRNA transcript was detected in a pediatric patient with acute myeloid leukemia (AML) by a new asymmetric reverse-transcription
35 ibitors has been shown to result in an increased risk of acute myeloid leukemia (AML), often presenting balanced translocations to
36 t receive systemic chemotherapy, they invariably develop acute myeloid leukemia (AML) in months or years. AML may invade nonhematopoiet
37 patients were successfully treated with chemotherapy for acute myeloid leukemia (AML), whereas three other patients proved refractory t
38 effects of idarubicin (IDR) during induction therapy of acute myeloid leukemia (AML), allowing the dose of idarubicin to be escalated.
39 cohol consumption is associated with an elevated risk of acute myeloid leukemia (AML) appearing in very young children. Evidence for an
40 ancy increases the risk of infant leukemia, particularly acute myeloid leukemia (AML), but cigarette smoking does not. Using telephone
41 ease-free survival rate of at least 30% in patients with acute myeloid leukemia (AML) in second complete remission. II. Determine
42 shed from bone marrow cells of a patient with secondary acute myeloid leukemia (AML) that had developed during the treatment of
43 ediatrics, National University Hospital, Singapore. AB - Acute myeloid leukemia (AML) comprises 15%-20% of childhood acute leukemia cas
44 including stem cell or biphenotypic classification (acute myeloid leukemia (AML) M0), erythroleukemia (AML M6), acute megakaryo

Como puede observarse, en las 46 líneas de concordancia que mostramos, los autores de los textos han señalado tipográficamente AML con paréntesis, puesto que aparece precedida de la unidad terminológica que ellos desean acortar y resumir con el uso de dicha sigla. Sin embargo, ésta es la práctica común sólo la primera o primeras veces que aparecen en el texto (aunque no es así en todos los casos), por lo que es necesario que el terminógrafo tenga acceso a un número bastante elevado de ocurrencias de una sigla para poder asegurarse de que encuentra referencias explícitas a las posibles formas expandidas a las que representa, bien precediéndola o en una posición cercana en el texto.

Por último, podemos ver en la Tabla 3 dos elementos cuya alta frecuencia en el corpus puede llamar la atención: T y B. Al estudiar sus apariciones en el corpus, comprobamos que T, al igual que en corpus de oncología, debe su alta frecuencia a que forma parte de la denominación de un tipo de célula (T-cell). Dicha denominación es, en realidad, una forma abreviada, en la que la T indica el lugar donde estas células (más específicamente, estos tipos de linfocitos) se desarrollan: la glándula endocrina timo (en inglés thymus, del latín thymum). Sin embargo, la forma desarrollada (thymus cell) es muy poco frecuente (aparece sólo dos veces en el corpus de oncología y ninguna en el de leucemia). Esto quizá sea debido a las ya mencionadas características de concisión y rapidez del lenguaje especializado, puesto que la forma abreviada suele usarse como elemento especificador en un gran número de combinaciones especializadas, las cuales, a su vez, presentan diferentes grados de abreviación:

Un caso similar ocurre con B, el cual se combina básicamente en los términos B-cell, B-lymphocyte y hepatitis B, pero que además aparecer formado parte de un buen número de combinaciones especializadas con diferentes grados de abreviación:134 B-cell chronic lymphocytic leukemia; B-1 cells; B-progenitor cell acute lymphoblastic leukemia; B-cell precursor ALL; B precursor ALL; B acute lymphoblastic leukemia; B chronic lymphocytic leukemia; B-ALL; B-CLL; B-ALCL; B-cell NHL; B-NHL (non-Hodgkin’s Lymphoma of B-cell type); B-lineage ALL; Pre-B (PB) ALL; B lymphoproliferative; B lymphoproliferations.

Para recapitular, podemos resumir la relevancia de la información que hemos obtenido del estudio de las palabras más frecuentes del corpus de oncología y del de leucemia en tres puntos fundamentales:

  1. Muestran la fuerte interdisciplinaridad del ámbito de especialidad. Esto ratifica nuestra decisión de usar una ontología de conceptos con unos niveles conceptuales superiores muy completos para la representación del dominio de especialidad que, a la vez, pueda dar cabida a la representación de las interrelaciones que los conceptos de nuestro ámbito posean con otros ámbitos relacionados. Las listas de frecuencia nos muestran que es imposible representar el conocimiento relacionado con la leucemia sin hacer referencia, por ejemplo, al sistema inmunológico, la bioquímica o a la fisiología: la alta frecuencia de términos pertenecientes a dichas disciplinas lo atestiguan y el terminógrafo debe ser conciente de ello y contar con un medio de representación adecuado para dar cuenta de ello.

  2. La frecuencia de unidades léxicas de la lengua general que especializan su significado en el contexto científico también nos ratifica en nuestra decisión de usar una ontología en la que los niveles superiores (que corresponden a los conceptos más genéricos) sea muy rica, puesto que esto nos va a permitir incluirlos también en nuestra estructuración conceptual, para poder después detallar de qué forma (lingüística) restringen los especialistas su significado. También nos parece importante el hecho de que las unidades más frecuentes no sean solamente nominales, sino también verbales y adjetivales. Esto nos indica que en la construcción de los textos especializados los verbos y los adjetivos también poseen un carácter fundamental que debe ser tenido en cuenta y que, por tanto, el terminógrafo debe contar con un instrumento adecuado para representar el conocimiento que transmiten. En nuestro caso, esto es posible gracias al tipo de estructuración conceptual básica que propone la ontología que usamos, en la que las tres ramas fundamentales son OBJECTs (que normalmente se corresponden lingüísticamente con sustantivos), EVENTs (expresados lingüísticamente por verbos y sustantivos deverbales) y PROPERTIes (expresados normalmente por adjetivos).

  3. De estas dos, derivamos una tercera: el corpus es la herramienta que permite al terminógrafo estudiar, no sólo los términos específicos de su ámbito de especialidad, premisa básica desde la que partimos, si no que también es útil para analizar qué (y de qué forma) otras unidades léxicas son relevantes en la construcción de los textos especializados, ya sean éstas pertenecientes a la lengua común, al discurso científico general o a otros ámbitos de especialidad.


Notas

117 Véase, por ejemplo, Francis y Kucera (1982).

118 El fichero completo lo mostramos en el apéndice V.

119 La decisión de eliminar las preposiciones, artículos o pronombres de reconocida alta frecuencia la hemos tomado, en términos prácticos, para acotar nuestro estudio, sin implicar, en modo alguno, que su estudio sea irrelevante para analizar la estructuración del discurso científico.

120 Por el momento, usaremos la denominación genérica palabras para referirnos a todas las unidades léxicas que aparecen en los listados de frecuencia, independientemente de que pertenezcan al léxico general o al especializado.

121 Esto también es debido a que los artículos especializados y, por supuesto, los resúmenes, suelen ser de mucha menor longitud que los manuales o los folletos informativos. Por tanto, la mayor presencia de artículos y resúmenes en nuestro corpus ha de medirse tanto en relación número total de bytes (o palabras) incluidas en el corpus que pertenecen a resúmenes y artículos especializados y en relación a la mayor cantidad de textos diferentes identificados como tales.

122 Debido a la altísima frecuencia de aparición en el corpus esta palabra (97.661 veces), así como de las demás que hemos incluido en la tabla 2, es virtualmente imposible reproducir aquí todas las líneas de concordancia que WordSmith Tools permite procesar de una vez (unas 16.000), por lo que en este apartado mostramos sólo una pequeña sección de algunas de las concordancias o resumimos los resultados obtenidos de su estudio. De todas formas, 16.000 líneas de concordancia también resultan un número demasiado elevado para analizarlas manualmente, por lo que en muchos casos, hemos optado por estudiar detalladamente un número inferior (entre 2.000 y 4.000 líneas) y hemos usado otros mecanismos (estudio de colocaciones o patrones léxicos, que mostraremos más detalladamente en la sección 6.3) para analizar su uso.

123 Entre otros muchos, aparecen en el corpus Journal of Clinical Oncology, Journal of the National Cancer Institute, Journal of Paediatric Surgery, Journal of the American Medical Association, Journal of Neurosurgery, Journal of Neuro-Oncology, Journal of Immunotherapy, Journal of Paediatric Haematology, Journal of Paediatric Oncology, American Journal of Surgical Pathology, American Journal of Public Health y American Journal of Radiology.

124 En el caso de studies y study es interesante observar que, según se desprende del estudio de las líneas de concordancia del corpus, la forma plural suele usarse hacer referencia al estado de la cuestión previo a la investigación de la que se informa en el artículo (de hecho, los adjetivos previous y recent son dos de las colocaciones más frecuentes de studies), mientras que la forma singular suele aparecer en el título del artículo o en el texto, identificando el tipo de estudio sobre el que se informa (ej. population-based study, razndomized double-blind study, chemoprevention study, companion study, case-control study, cancer control study, diagnostic study, dose-escalation study, targeted systematic study, phase I/II/III study).

125 La variante de inglés británico tumour también aparece en el corpus de oncología, aunque en con menor frecuencia, y por ello no aparece listada entre la tabla 2.

126 Otras agrupaciones de palabras (clusters) muy frecuentes de nuestro corpus en las que aparece low se encuentran low content, low concentrations, low accumulation, low acceleration, low abundance, low activity, low amount, low (birth/molecular) weight, low bone mass, low cholesterol level, low density y low grade. Hay de destacar también un caso en el que low no indica cuantificación sino localización, es el caso de low back (pain), combinación también muy frecuente.

127 Una opción posible es incluir dichas palabras en nuestra lista de Stopwords, para evitar de este modo que aparezcan en análisis posteriores. En nuestro caso, hemos preferido no incluirlas en la lista de Stopwords, puesto que nos parece importante que se mantengan para hacer patente la composición del corpus en los resultados que obtengamos.

128 Los números entre paréntesis corresponden al número de ocurrencias en 8.000 líneas de concordancia.

129 El American Heritage Dictionary of English Language, 3rd Edition, define este uso especializado de expression como "the action of a gene in the production of a protein or a phenotype; the degree to which a particular gene produces its effect in an organism".

130 En el corpus de oncología hemos incluido tanto textos generales sobre el cáncer como textos sobre diferentes tipos de cáncer sin restricción. En el corpus de leucemia, sólo hemos incluido textos sobre la leucemia y su tratamiento.

131 Al contrario de lo que pudiera parecer, el adjetivo positive no indica necesariamente una evaluación favorable, si no, en muchas ocasiones, todo lo contrario: en 342 de las 365 líneas de concordancia en las que aparece en los textos de leucemia, positive se usa para indicar la presencia de un marcador de la enfermedad o alguno de sus tipos, en combinaciones como por ejemplo myeloid-antigen positive ALL (Acute Lymphocytic Leukemia),Philadelphia chromosome-positive ALL, CD7 positive myeloid leukemia (AML).

132 En el caso de ALL hemos de contar también con el inconveniente de que, si al extraer la lista de palabras no se discrimina entre palabras escritas en letras mayúsculas y minúsculas, la frecuencia de la sigla ALL aparece distorsionada por la existencia de otra palabra homógrafa (el determinante all) de uso también bastante frecuente.

133 Aunque, por supuesto, no todos aparecen con la misma frecuencia: complete remission, complete response y chronic rejection son los tres más frecuentes.

134 Es interesante también observar que, tanto en el caso de B, como en el anteriormente citado T, los autores varían en lo que se refiere al uso del guión que une dicho elemento con el resto de la unidad especializada; encontramos en el corpus tanto B-cell como B cell y B-cell chronic lymphocytic leukemia como B acute lymphoblastic leukemia.


Índice General I Índice Capítulo 6 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez