ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez |
4.3.1 Criterios generales para la selección de los textos de un corpus especializado
Se ha escrito muy poco sobre el diseño de los córpora especializados y menos aún sobre los criterios de selección de los textos que han de formar parte de un corpus. Meyer han de formar parte de un corpus. Meyer & Mackintosh Mackintosh57 (1996a: 267), Bowker (1996: 42) y Pearson (1998: 56) son las únicas autoras, de las que tengamos constancia, que han abordado el tema. En el primer y segundo caso, las autoras ofrecen una serie de indicaciones generales sobre los aspectos y particularidades que deben tenerse en cuenta a la hora de recopilar un corpus especializado, indicaciones que, en palabras de las autoras, no pretenden ser una receta para conseguir un corpus representativo. Por su parte, Pearson detalla los criterios que guiaron la elección de los textos usados para su investigación, centrada en el estudio de un tipo específico de definiciones científicas, por lo que rechazó algunos de los criterios que a nosotros nos parecen bastante útiles.
Los criterios que exponemos a continuación integran algunos de los propuestos por dichas autoras, junto con otros que han resultado necesarios para la recopilación de nuestro corpus de textos de oncología. Como se podrá apreciar por su contenido, muchos de estos criterios requieren que un especialista aconseje al terminógrafo en la selección, ya que es la persona que posee los conocimientos necesarios para emitir juicios, por ejemplo, sobre la calidad o autoridad de un texto.58
Los primeros criterios que deben tenerse en cuenta en la recopilación de un corpus especializado son los ya citados atributos de composición propuestos por EAGLES (1996b: 4). Tratan cuatro aspectos que son muy generales pero no por ello menos importantes:
- Cantidad: a pesar de que Meyer & Mackintosh argumentan que un corpus especializado puede ser mucho más pequeño que uno de propósito general, no creemos que sea necesario poner un límite a la cantidad de texto que se recopile, sobre todo ahora que empieza a ser más fácil acceder a textos especializados en formato electrónico. Es importante señalar, sin embargo, que el criterio de cantidad también debe aplicarse a los textos individuales:59 éstos deben ser textos completos, ya que omitir una parte de un texto puede repercutir en la información conceptual del mismo, tan importante para el terminógrafo.
- Calidad: los textos deberán cumplir unos criterios de calidad, en lo que se refiere al autor del texto (ya sea un especialista, varios o una institución) y al contenido del mismo. Un criterio similar, que también puede atañer a la calidad del texto es el de publicación propuesto por Pearson, es decir, los textos incluidos deben haber sido publicados.60
- Simplicidad: referida a la cantidad y al tipo de información añadida al texto original. Puede ser de dos tipos principales: (i) información sobre el origen del texto y las circunstancias en las que se ha producido (autor, institución, fecha de producción, género textual, nivel de especialización, etc.). Esta información es muy necesaria en el caso de los córpora especializados, ya que permitirá al terminógrafo seleccionar textos que pertenezcan a dos niveles de especialización diferentes para estudiar variaciones de uso de un mismo término. (ii) información morfológica o sintáctica de los elementos léxicos que conforman los textos. Este tipo de información añadida puede también ser útil para el terminógrafo para hacer búsquedas más precisas en el corpus y se ha utilizado en proyectos de extracción (semi-)automática de elementos léxicos candidatos a términos. Sin embargo, el terminógrafo deberá tener siempre presente que las etiquetas (ya sean morfológicas, sintácticas o semánticas) que puedan añadirse a un texto constituyen siempre un acto de interpretación generalizada, hecha desde una perspectiva teórica determinada y por lo tanto han de tomarse como tal (véase § 2.3.3 para ver los criterios mínimos de etiquetado de un corpus).
- Documentación: este criterio está íntimamente relacionado con el anterior, en el sentido de que debe ser posible identificar el origen y circunstancias de producción de los textos y, además, debe existir una documentación clara que explique a los usuarios las posibles etiquetas usadas para añadir información al texto original.
Además de estos criterios generales, pensamos que son útiles otros, de carácter más específico, aunque muy relacionados con los anteriores:
- Pertenencia al dominio de especialidad: los textos deberán encuadrarse dentro del ámbito de especialidad del trabajo terminográfico. A este respecto, el terminógrafo deberá decidir sobre los límites que va a imponer en su consideración de lo que constituye el área de especialidad: si se trata de un trabajo de recopilación de terminología altamente especializada, los textos deberán serlo también; si es necesario dar cuenta de términos más generales o básicos en el área de especialidad, los textos también deberán ser más generales en cuanto al contenido y más genéricos en cuanto a la asignación al campo de especialidad. En nuestro caso, por ejemplo, hemos incluido en el corpus textos específicos sobre la leucemia -el ámbito estricto de nuestro estudio terminográfico, pero, para poder estudiar otros conceptos más generales dentro de la oncología que están íntimamente relacionados con la leucemia (tratamientos, pruebas diagnósticas, sistemas fisiológicos, etc.), hemos incluido también textos bio-médicos más generales.
- Fecha de producción del texto: en nuestro caso, hemos incluido textos de reciente publicación (casi todos publicados en los cinco últimos años) y es probable que casi todos los terminógrafos estén interesados en usar textos de muy reciente publicación (sobre todo si están interesados en la detección de términos de nueva acuñación). Sin embargo, para algunas tareas específicas puede ser útil contar con textos más antiguos o de varias épocas diferentes; por ejemplo, para estudiar la evolución en el uso o el significado de un término o fechar la acuñación en el caso de un neologismo.
- Condición lingüística de los textos: con este criterio el terminógrafo deberá decidir el medio de producción del texto (oral o escrito) y las características lingüísticas del texto y su emisor (texto original, escrito por un hablante nativo o no, texto traducido, etc.). En nuestro corpus todos los textos pertenecen al lenguaje escrito, aunque pensamos que en un futuro se deberán incluir también transcripciones de conversaciones entre especialistas y de especialistas con no especialistas. Por otra parte, la inmensa mayoría de los textos son originales, pero no todos han sido escritos por hablantes nativos, ya que la comunidad médica es hoy por hoy muy internacional y, por ejemplo, en el caso del MEDLINE61 es virtualmente imposible separar los textos producidos por autores nativos ingleses de los que no lo son. En cuanto a la inclusión de textos traducidos, éste es un debate suscitado recientemente entre los lingüistas de corpus. Algunas voces, con M. Baker a la cabeza, han defendido el estatus lingüístico de los textos traducidos y su utilidad para el estudio lingüístico. En el caso de la terminografía, pensamos que, aunque tanto Meyer & Mackintosh como Pearson dan preferencia a los textos originales, no se debe rechazar a priori la inclusión de traducciones, siempre que se marquen como tales. Pueden ser útiles, por ejemplo, para un traductor que desee ver la forma en la que un término ha sido traducido anteriormente por un colega, aunque tenga que decidir después sobre la traducción que encuentre y obrar en consecuencia.
- Factualidad: éste es un criterio propuesto por Pearson que, aunque pueda parecer obvio a primera vista tiene su razón de ser. En nuestro caso, por ejemplo, lo hemos adoptado y solo hemos incluido textos factuales (es decir, no ficcionales), por lo que hemos dejado fuera novelas y experiencias vitales noveladas sobre el cáncer y sus consecuencias.
Los tres criterios siguientes han de considerarse conjuntamente y en relación a las diferentes situaciones comunicativas expuestas en la sección anterior. Los tres están interrelacionados y las combinaciones posibles entre ellos crean subcategorías de tipos de textos:
- Tipo textual: aunque existen en la literatura varias tipologías de textos especializados (por ejemplo Sager et al. 1980), la más apropiada para nuestros propósitos ha sido adaptada de la propuesta por Ahmad (1995: 60), haciéndola un poco más específica y adaptada a nuestro ámbito de especialidad. Diferenciamos por tanto: artículos/manuales especializados, artículos/manuales semi-especializados, libros de texto, artículos de divulgación científica y artículos o folletos de información para no especialistas, enfermos y sus familias.
- Nivel de tecnicidad: el nivel de tecnicidad de los textos esta determinado por el propósito con el que han sido creados (divulgativo, pedagógico, informativo, etc.), por el nivel de conocimientos de la audiencia a la que van dirigidos y, hasta cierto punto, por el nivel de conocimientos del autor (un especialista puede simplificar el nivel de tecnicidad de un texto para dirigirse a una audiencia no especialista). Como ya hemos mencionado, este criterio no puede considerarse aisladamente. En nuestra opinión, se podrá deducir el nivel de tecnicidad de un texto sólo cuando se haya tenido en cuenta el propósito del texto y las circunstancias en las que ha sido creado (autor/receptores, medio, etc.).
- Receptores del texto: quienes pueden ser tanto otros especialistas en la materia como semi-especialistas, estudiantes del área de especialidad o legos en la materia. En función de ellos el autor modulará la densidad terminológica y conceptual del texto.
Notas
57 Dubuc & Lauriston (1997: 85) hacen unas recomendaciones generales para la selección de textos de los que los terminógrafos han de extraer contextos, aunque estas recomendaciones (representatividad y tipo de publicación) hacen referencia al análisis manual de los textos.
58 En nuestro caso, hemos contado con el asesoramiento del la Dra. Mercedas Rodríguez del Castillo (documentalista especializada en textos médicos) y el Dr. Pedro Ballesteros (oncólogo), ambos miembros del hospital Virgen de las Nieves e integrantes del proyecto OncoTerm.
59 En algunos córpora de propósito general se han aplicado criterios de muestreo (sampling), de modo que, para hacer que todos los componentes sean del mismo tamaño, no se incluyen textos completos sino partes de ellos.
60 Para la compilación de nuestro corpus hemos considerado como texto publicado también los textos que se encuentran en la red, siempre y cuando éstos se hayan hecho públicos por instituciones de reconocido prestigio dentro del ámbito de especialidad, con registro de la propiedad intelectual.
61 En MEDLINE el país de publicación de los textos está identificado, aunque el hecho de que un artículo escrito en inglés esté publicado en Francia no es indicativo de que el autor no es hablante inglés nativo, sobre todo teniendo en cuenta que la mayoría de los textos extraídos de MEDLINE han sido escritos por tres o más autores, en muchos casos de países diferentes.