5.5. Categorías de datos en las bases de datos terminológicas y su estructuración

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez

5.5. Categorías de datos en las bases de datos terminológicas y su estructuración

Aunque durante décadas traductores, lexicógrafos y terminólogos han almacenado la información terminológica en fichas de papel (las denominadas "fichas de vaciado" y "fichas terminológicas"), hoy por hoy, la forma más frecuente (y completa) de almacenamiento de la información terminológica se lleva a cabo en formato electrónico, ya sea por medio de un procesador de texto, un sistema gestor de base de datos genérico o un programa específico de gestión de información terminológica.

Las desventajas que acarrean el uso de las dos primeras formas de almacenamiento (el papel o su correspondiente electrónico en un procesador de textos) son bastante obvias:¹⁰³ falta de rigurosidad, inconsistencia en el formato de los datos que contienen, dificultad de consulta y extensión o modificación de las entradas y los repositorios, etc.

De los otros dos medios de almacenamiento, los sistemas gestores de bases de datos genéricos resultan bastante apropiados para estructurar, guardar y gestionar la información terminológica, aunque también pueden plantear algunos problemas, ya que puede resultar muy laborioso configurar una base de datos de forma que se adapte a las necesidades de un terminólogo y pueden presentar también problemas de compatibilidad con otras herramientas computacionales de uso común en la terminología o la traducción, como procesadores de texto o memorias de traducción (Wright en prensa /a).

En cuanto a los sistemas gestores de terminología específicos que se encuentran en el mercado o que han sido desarrollados para bancos terminológicos específicos, estos varían considerablemente en sus aspectos técnicos, comerciales o en lo que se refiere a las posibilidades de modelado y presentación final de la información que ofrecen al usuario.¹⁰⁴ Algunos sistemas ofrecen al usuario un repertorio fijo de categorías de datos predefinidas, o pueden incluso limitar la extensión de los campos de datos. En estos casos, los usuarios pueden sentirse frustrados si necesitan añadir alguna categoría no contemplada por el sistema o si intentan introducir información que sobrepasa la extensión asignada al campo de datos. Otros sistemas, sin embargo, ofrecen al usuario una mayor flexibilidad en lo que se refiere a la creación y estructuración de las categorías de datos que conforman una entrada terminológica.

Los sistemas gestores de bases de datos terminológicas difieren, además, en otros aspectos: algunos mantienen en gran medida la mentalidad de las tradicionales fichas terminológicas impresas, por lo que la información referente a los sinónimos o los equivalentes de un término han de ser tratados en registros separados. En otros sistemas es posible, al menos en teoría, que una entrada terminológica incluya toda la información concerniente a un concepto, aunque esto en muchas ocasiones se realiza enlazando varios registros, de modo que forman una especie de "entrada virtual", la que representaría el concepto. Esta solución, sin embargo, puede presentar serios problemas en lo que se refiere a la gestión de la base de datos, ya que puede dificultar la realización cambios o modificaciones de forma automática en el caso de que un término aparezca como sinónimo en una entrada virtual y a la vez posea una entrada propia, y hace muy difícil asignar información conjunta a, por ejemplo, a los términos que designan un concepto en un mismo idioma.

Otro aspecto en el que los sistemas gestores de bases de datos difieren considerablemente es en el tipo de modelado de datos que ofrecen, sobre todo en lo que se refiere a las categorías de datos que identifican los términos de entrada en una base de datos. En algunos sistemas, existen diferentes nombres para la categoría término de entrada (término principal, sinónimo, forma abreviada), en la que se identifica el tipo de término de entrada. El ejemplo que sigue está tomado de Wright (en prensa /a: 592):

term: serializer
synonym: parallel-serial converter
synonym: dynamicizer

En otros sistemas se usa un único nombre para el campo que identifica al término de entrada (ej. término, término de entrada, etc.) y añaden la información sobre el tipo de término en otra categoría de datos (que puede denominarse, por ejemplo, tipo de término (term type):

term: serializer
term type: main entry term
term: parallel-serial converter
term type: synonym
term: dynamicizer
term type: synonym

Con este tipo de modelado de datos que, como veremos en la sección siguiente, es el que se recomienda para el intercambio de información terminológica, todos los términos se consideran iguales (de modo que se pueden asociar al mismo nivel al concepto que designan) y se diferencian entre sí por el valor asignado en otra categoría de datos (term type).

Existen otros aspectos muy relevantes a tener en cuenta en el modelado de los datos, como son la repetición (repeatability) y combinación (combinability) de categorías de datos, así como los posibles enlaces entre entradas o elementos de una entrada. Si el modelado de datos permite la repetición de categorías de datos, la misma categoría puede usarse más de una vez en una misma entrada terminológica. Algunas categorías deben aparecer sólo una vez (ej. número de identificación de la entrada), mientras que otras (ej. la categoría term en el ejemplo anterior o categorías para incluir contextos o ejemplos) deberían poder aparecer más de una vez.

El principio de repetición, además, permite que en cada campo de datos se incluya un solo elemento de información, ya que cada categoría puede repetirse tantas veces como elementos de información sean requeridos. El hecho de que unos campos de datos puedan enlazarse con otros permitirá, además, que cada campo de datos consigne un único tipo de información. Por ejemplo, una definición o un contexto de uso debe contener un enlace a una referencia bibliográfica, pero no debe contener la referencia bibliográfica en sí.

La correcta implementación de estas funcionalidades en una base de datos terminológica parte de una base fundamental: la correcta especificación de las categorías de datos y el establecimiento de un protocolo de utilización (en el sentido de Cabré 1993: 283) de dichas categorías de forma clara e inequívoca, de modo que el terminólogo pueda estar seguro de que los datos que incluye se ajustan (en forma, número y lugar en la entrada) al tipo de datos permitidos en esa categoría.

Tradicionalmente se han diferenciado cuatro grandes grupos de categorías de datos: información administrativa, lingüística, pragmática o de uso y conceptual. Sager (1990: 145) establece siete grandes bloques de categorías de datos:

información sobre las fuentes: es la que enlaza la ficha terminológica con las fuentes de las que se han extraído la definición, el término, el contexto u otras informaciones asociadas.
la entrada terminológica, la cual, dependiendo de la organización elegida (semasiológica u onomasiológica), puede ser una unidad lingüística o una etiqueta asignada a un concepto (o ambas cosas).
especificaciones conceptuales del término, que se componen normalmente de la definición, la atribución a un campo de especialidad y, en algunos casos, una serie de enlaces a otros conceptos expresados como relaciones terminológicas.
especificaciones lingüísticas de término: éstas pueden ser mínimas, dando sólo las posibles formas alternativas o abreviadas o pueden ser más completas y ofrecer información morfológica y sintáctica.
especificaciones pragmáticas: suelen aparecer en forma de ejemplos contextuales y notas de uso.
información de gestión o administración del banco de datos terminológico, que suele incluir el nombre del terminólogo responsable y las fecha de creación o modificación de la ficha terminológica.
especificaciones sobre equivalencia en otras lenguas, en el caso de las bases de datos multilingües.

Casi todas las bases de datos terminológicas contemplan la inclusión de estos siete bloques de categorías de datos. Sin embargo, existen grandes diferencias a la hora de definir y estructurar las categorías que componen cada bloque.¹⁰⁵ Esto no sólo hace que las bases de datos difieran en cuanto a la estructura (por ejemplo, en los aspectos mencionados anteriormente en cuanto a la repetición y combinación de elementos o el carácter elemental de los datos), sino que también hace virtualmente imposible el intercambio, diseminación y fusión de recursos terminológicos entre instituciones, centros de investigación o empresas. Como ya mencionamos en el apartado 3.1.1, una de los grandes problemas a los que debe hacer frente la terminología en este siglo es el desarrollo y adopción de estándares de representación de información terminológica, de forma que los recursos terminológicos existentes puedan reutilizarse o refundirse para crear otros nuevos.

Una de las iniciativas llevadas a cabo por la comunidad internacional con vistas al desarrollo y difusión de estándares de este tipo es el trabajo desarrollado por el comité técnico 37 de la ISO (sub-comité 3, grupo de trabajo 1) quien, después de varios años de documentación y consultas extensivas, ha elaborado un amplio listado de las categorías de datos usadas que con mayor frecuencia se usan en las bases de datos terminológicas. Estas categorías de datos forman la base de la norma ISO 12620: 1999, Computer Applications in Terminology - Data Categories.

Las categorías descritas en esta norma no deben considerarse exhaustivas ni, según las describe uno de los miembros del comité técnico encargado de su elaboración (Wright en prensa /b: 567), es probable que un proyecto de creación de base de datos terminológica necesite incluir todas y cada una de las categorías descritas. El trabajo llevado a cabo por el comité técnico 37 de la ISO para definir y explicitar las categorías de datos se complementa con la propuesta llevada a cabo por el grupo de trabajo denominado CLS Framework, en la que se realiza una propuesta de estructuración de dichas categorías muy completa.

Notas

¹⁰³ Los problemas y ventajas de las diferentes formas de almacenamiento de información terminológica han sido tratados extensamente en Fischer et al. (1993), Wright (en prensa) y Melby, Schmitz & Wright (en prensa).

¹⁰⁴ El proyecto POINTER realizó un estudio comparativo de siete sistemas gestores de bases de datos terminológicas (POINTER Project 1998: capítulo 5; Ver nota al pie 27), basándose en una serie de criterios técnicos, comerciales, de modelado de datos y de facilidad de intercambio y distribución de la información.

¹⁰⁵ Wright y Budin (1994) realizaron un estudio exhaustivo de la estructura y el contenido de un buen número (unas 30) de bases de datos, en el que se hace patente las diferencias entre bases de datos en lo que se refiere a la denominación, uso y contenido de categorías de datos similares o particulares a una base de datos determinada.

Índice General I Índice Capítulo 5 I Siguiente

ISSN: 1139-8736
Depósito Legal: B-39120-2002
Copyright: © Chantal Pérez