ISSN: 1139-8736
Depósito Legal: B-37271-2002
Copyright: © Silvia Montero Martínez

5.2 Adquisición de ejemplos de candidatos a frasemas terminológicos

Cuando no se contaba con los medios necesarios para analizar grandes cantidades de información lingüística sistemáticamente, la única forma de capturar las complejas relaciones de coocurrencia entre UL eran las reglas sintácticas. Con la llegada de la lingüística de corpus, se posibilita el establecimiento de correlaciones entre patrones de coocurrencia y de determinación semántica (Teubert 1999: 4). Se ha demostrado, por ejemplo, que las unidades poliléxicas tienden a solaparse en los textos formando un tejido de gran complejidad (Renouf 1992, Butler 1997) que se refleja, entre otros, en el ya mencionado fenómeno de recursividad materializado a través de los frasemas. En especial, los trabajos de Altenberg (1992) en lengua inglesa y de Butler (1998b) sobre el español han demostrado que la ocurrencia en córpora de secuencias de repetición frecuente cuya estructura podría ser generada a partir de una elección libre de los elementos y que tienen una interpretación semántica transparente, son en realidad elecciones que se toman en bloque, constituyen un single meaning choice (Butler 1998a: 25).

Pero, a pesar de las posibilidades que ofrecen las herramientas de análisis léxico, desde el mundo de la lingüística de corpus, y a partir de Sinclair (1992), se tiende hacia una postura en la que el análisis del ordenador sugiere patrones de recurrencia que posteriormente habrán de ser interpretados:

But we can never be sure that output from any set of computational operations, well designed as they may be, will correlate with human understanding. Strictly speaking, automatic corpus analyses can only yield candidates for sense disambiguation (Teubert 1999: 6, énfasis añadido).

Creemos por tanto que los ejemplos de FT adquiridos en esta fase han de ser considerados sólo como "candidatos" (Estopá 1999, Estopá et al. 1998), ya que en último término será el análisis dentro de un marco lingüístico y cognitivo el que justifique su calidad o no de FT. A través del análisis se evitará el ruido, aquellos casos que no respondan a nuestra definición de FT (§5.1, 5.3), y el silencio (Lauriston 1994), aquéllos que no se hayan identificado claramente en el proceso de adquisición automática y que obliguen a llevar a cabo búsquedas individuales.

Ligado a este proceso de interpretación de la información fraseológica adquirida, hay que tener en cuenta el problema que existe en torno al límite a partir del cual se considera una colocación, en su sentido más amplio, lo suficientemente recurrente. Según Sinclair (1991), muchas colocaciones típicas presentan un índice de frecuencia muy bajo a lo que habría que añadir que, como ya hemos mencionado, en el trabajo terminográfico se suele trabajar con córpora muy limitados al dominio estudiado, y al ser más reducidos que los utilizados en el análisis del discurso general, los índices de frecuencia no son tan indicativos (Meyer y Mackintosh 1996: 8). Así, la colaboración de especialistas que validen los resultados se hace imprescindible.

Queremos matizar que el fin de nuestro trabajo no es el estudio detallado de un corpus amplio y representativo sino la validación de una propuesta de estructuración conceptual de frasemas a partir de una serie de ejemplos. De ahí que, en este apartado, se lleve a cabo su adquisición partiendo de los resultados de estudios exhaustivos basados en córpora de referencia y especializados (Pérez Hernández 2000) que han permitido al grupo de investigación ONCOTERM establecer las áreas conceptuales del subdominio y, a partir de éstas, las categorías conceptuales y sus esquemas categoriales. Nuestra intención es validar una propuesta que permita, en última instancia, enriquecer una estructura conceptual ya establecida por lo que es necesario estudiar los conceptos de forma pormenorizada a través del análisis de frecuencias, contextos de uso y patrones léxicos. Con este objetivo, se ha elegido la categoría conceptual HAVE-NEOPLASM por su centralidad en el ámbito oncológico y la riqueza conceptual que presenta.

Para recopilar los ejemplos se ha utilizado una pequeña parte del corpus de ONCOTERM, en concreto los textos elaborados para personal médico por el National Cancer Institute (NCI) de EE UU que están accesibles a través de la base de datos PDQ (Physician Data Query) en la página de CancerNet65 (Apéndice I). Se trata de textos originales en inglés que versan sobre los distintos tipos de cáncer y comprenden un número aproximado de 500.000 tokens y 14.855 types. A la hora de valorar los resultados habrá que tener en cuenta, por tanto, que se trata de un corpus que no refleja la posible variación en función de los receptores, un trabajo de gran interés que aborda López Rodríguez (2000).

Para localizar la información fraseológica en el corpus, hemos utilizado el programa WordSmith Tools®, un paquete de herramientas para el análisis léxico que funciona bajo Windows y cuyo principal objetivo es identificar los patrones recurrentes que aparecen en un corpus. Las aplicaciones principales son CONCORD, WORDLIST y KEYWORDS. Nosotros utilizaremos únicamente las dos primeras, ya que la aplicación KEYWORDS ofrece unos resultados que tienen más que ver, por ejemplo, con el establecimiento de las categorías conceptuales de un dominio. Las keywords de un corpus determinado son aquellas unidades léxicas que coocurren en textos determinados con una frecuencia superior a la que presentan en córpora más amplios, de referencia, pero no necesariamente en un horizonte colocacional determinado. Por tanto, aunque ayudan a identificar áreas de significado importantes, no ofrecen información sobre las propiedades conceptuales que es la que enriquece y hace útil la estructura conceptual (Pérez Hernández 2000: 350). Para conseguir esta información hay que estudiar los conceptos de forma pormenorizada, a través del análisis de contextos de uso (concordancias) y de los patrones léxicos recurrentes (clusters)66 como ya hemos mencionado.

Para localizar los candidatos a FT en el corpus seguiremos el método denominado bootstrapping approach (Heid 1999b: 4) según el cual primero se identifican las UL simples que tengan relevancia, en nuestro caso en el subdominio oncológico y específicamente en la categoría conceptual HAVE-NEOPLASM. Para ello aplicaremos el concepto de cadena léxica (CL) (Morris y Hirst 1991).


Notas

65 La página oficial de CancerNet es http://biomed.nus.sg/Cancer/welcome.html, con acceso el 10 de mayo de 2001.

66 Dado que no nos ocupa en este momento el proceso de adquisición automática de material fraseológico en sí mismo, no entraremos a describir los métodos estadísticos utilizados por WordSmith Tools® en este proceso: mutual information, t-score y z-score.


Índice general I Índice Capítulo 5  I Siguiente


ISSN: 1139-8736
Depósito Legal: B-37271-2002
Copyright: © Silvia Montero Martínez