ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |
Sería de esperar, por tanto, que en un campo que tiene como principal objetivo la organización y almacenaje estructurado de un cuerpo de información complejo (una base de datos terminológica), aprovechando la experiencia obtenida en los campos antes mencionados, hiciese un esfuerzo por adoptar determinadas técnicas y recursos enfocados a garantizar esta reutilización. De hecho, como mencionamos en el apartado 3.1.1, los esfuerzos de normalización, en su vertiente de regulación metodológica, han sido y están siendo muchos por parte de organismos de estandarización internacionales (ISO, TEI, LISA).
En la actualidad, sin embargo, la mayoría de los sistemas gestores de bases de datos terminológicas existentes en el mercado permiten la exportación de sus datos a formato texto o texto enriquecido (RTF), pero casi ninguno permite la importación de datos de otras fuentes que no sean ficheros en su propio formato "propietario". Esto no causa problemas siempre y cuando sólo se pretenda presentar la información recopilada en formato textual, pero no permite la reutilización efectiva por parte de sistemas de información dispares, característica deseable y necesaria para los profesionales de la terminología y las empresas que alquilan sus servicios.
Podemos explicar el problema que resulta de la multiplicidad de formatos utilizando a modo de símil, aun siendo un ámbito íntimamente relacionado, el bien conocido problema n(n-1) que se da en los sistemas de traducción automática basados en transferencia. En un sistema de este tipo serán necesarios exactamente n(n-1) módulos de transferencia para cada lengua, siendo n el número de lenguas que el sistema pretenda traducir. Exactamente el mismo problema se plantea en el ámbito del intercambio de información, sea ésta terminológica o de cualquier otra naturaleza. La Figura 29 muestra este problema gráficamente:
A->B A->C A->D A->E A->F
|
Los conversores marcados en esta tabla son sólo los necesarios para convertir entre el formato A y el resto de formatos, 10 en total, resultado de la operación 2(6-1). También podemos ver cómo la fórmula que define el número total de conversores para n formatos es n(n-1), en este caso 6(6-1)=30. Si además tenemos en cuenta que los distintos fabricantes suelen modificar los formatos entre versiones de un mismo programa, el número crece exponencialmente.
El crecimiento exponencial de los módulos de conversión es ya por sí solo razón suficiente para tratar de encontrar un punto de encuentro, siguiendo con nuestro símil, una interlingua, entre los distintos formatos. Este problema, como venimos insistiendo, no es privativo de la terminología, sino que atañe a todos aquellos campos que se engloban dentro de las tecnologías de la información. En el campo de los procesadores de texto y el documento con formato en general, el problema, quizás por ser más acuciante debido al elevado número de usuarios, ha recibido mayor atención y se han aportado soluciones que se han adoptado en mayor o menor medida en la industria, de las que sin duda el formato RTF (Rich Text Format) ha sido el que más éxito ha obtenido hasta la fecha.108
En esta línea, como adelantábamos en el apartado anterior, la norma ISO 12200: MARTIF (Machine-Readable Terminology Interchange Format) ha sido desarrollada con la finalidad de facilitar el intercambio de recursos terminológicos en formato electrónico.
El objetivo de MARTIF es, por decirlo llanamente, convertirse en "el RTF de las bases terminológicas". De este modo, al igual que su homólogo textual, MARTIF pretende servir de "interlingua" terminológica, garantizando el intercambio entre usuarios (individuos o corporaciones) que utilizan software y hardware dispares.
El otro concepto importante que ha de ser tomado en consideración al hablar de un estándar de intercambio de información es, por supuesto, la pérdida de información. En este sentido, entra en juego un concepto fundamental en las tecnologías de la información: el modelo de datos.109 Como mencionamos en el apartado 5.2, en los sistemas gestores de bases de datos terminológicas modernos, la disparidad de modelos de datos es mayor de lo que en principio pudiera pensarse, debido a que muchos de ellos, sin duda los mejor aceptados por parte del usuario final, permiten a éste la definición de un modelo de datos individualizado para cada una de sus bases de datos (por ejemplo, Trados MultitermTM). Evidentemente, no es posible crear un algoritmo de conversión de un modelo de datos a otro, si no se conoce de antemano cuál es el modelo de datos. A la hora de intercambiar información terminológica almacenada en dos bases de datos distintas pueden darse tres situaciones bien diferenciadas:
Estas tres posibilidades (cuatro, realmente) se producen únicamente entre dos sistemas de gestión terminológica, pero, como hemos expuesto anteriormente, el problema es exponencial al aumentar el número de sistemas. Ante esta situación se pueden dar dos posibilidades para garantizar en cierta medida el intercambio de información entre dos sistemas:
La creación de un formato que permita este último tipo de intercambio de información terminológica ha sido durante algunos años el objetivo del Comité Técnico Nº 37 de ISO, culminando en la especificación MARTIF para intercambio ciego de información terminológica (Melby 1997). El formato resultante de esta especificación, que aún está por completarse en sus últimos detalles, recibe el nombre de TBX (TermBase eXchange).
MARTIF tiene su origen en el proyecto TEI,110 y se basa en XML, el nuevo subconjunto de SGML que está llamado a convertirse en el sustituto del desfasado HTML para la publicación de documentos en la Web. De este modo, no sólo se posibilita el intercambio de recursos terminológicos entre instituciones y empresas, sino que también se hace posible el intercambio de recursos a través de la red.
XML (eXtensible Markup Language) presenta los requisitos para representar independientemente de la plataforma (al igual que su antecesor) no sólo documentos con formato sino también (a diferencia de éste) información estructurada. Para mostrar la diferencia entre un documento HTML y un documento XML a continuación mostramos un documento XML simple, primero su código fuente (Figura 30), es decir, lo que mostraría un editor de texto ASCII, y a continuación la interpretación que de él hace un editor XML (Figura 31):
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE Bookstore SYSTEM "bookshop.dtd"> <Bookstore><br> <!--J&R Booksellers Database--> <Book Genre="Fiction" In_Stock="Yes"> <Title>The Round Door</Title> <Author>Tom Evans</Author> <Year_Published>1996</Year_Published> <ISBN>0-9546-0274-3</ISBN> <Price>$23.00</Price> <Review>An Intriguing Tale Of A Round Door In A Wall</Review> </Book> <Book Genre="Non-Fiction" In_Stock="Yes"> <Title>Creating Real Xml Applications</Title> <Author>Bill Eaton</Author> <Year_Published>1998</Year_Published> <ISBN>7-4562-0167-8</ISBN> <Price>$35.00</Price> <Review>A Look At How To Build Real Xml Applications</Review> </Book> <Book Genre="Fiction" In_Stock="No"> <Title>Over The Hills Of Yukon</Title> <Author>Bert Colewell</Author> <Year_Published>1993</Year_Published> <ISBN>5-6524-3054-1</ISBN> <Price>$22.00</Price> <Review>A Warm Story About A Man And A Moose In Yukon</Review> </Book> <Book Genre="Fiction" In_Stock="Yes"> <Title>The Lion's Gold</Title> <Author>Daphne Griswald</Author> <Year_Published>1989</Year_Published> <ISBN>6-7896-2498-2</ISBN> <Price>$15.00</Price> <Review>One Of The Most Compelling Books Since "The Tiger's Silver".</Review> </Book> </Bookstore> |
Figura 31: Resumen de la estructura de base de datos en el CLS Framework
Para esta interpretación, el editor o intérprete XML hace uso del DTD (Document Type Definition) correspondiente, mostrado en el documento fuente. En este caso es obviamente muy simple:
<!-- A Sample DTD for the Bookshop Demo --> <!ELEMENT Bookstore (Book+)> <!ELEMENT Book (Title, Author, Year_Published, ISBN, Price, Review)> <!ATTLIST Book Genre (Fiction I Non-Fiction) "Fiction" In_Stock (Yes I No) "Yes"> <!ELEMENT Title (#PCDATA)> <!ELEMENT Author (#PCDATA)> <!ELEMENT Year_Published (#PCDATA)> <!ELEMENT ISBN (#PCDATA)> <!ELEMENT Price (#PCDATA)> <!ELEMENT Review (#PCDATA)> |
El DTD implementado para MARTIF es mucho más complejo, distribuido en tres ficheros, de los cuales mostramos a continuación el segundo, donde se expresa el cuerpo de un documento MARTIF:
<!-- ***** MARTIF BODY DTD (revised 1997.February.19) ***** --> <!-- ***** Defines the body element of the MARTIF DTD **** --> <!ENTITY % AuxInfo 'descrip I descripGrp I admin I adminGrp I ptr I ref I date I note' > <!ELEMENT body - - (termEntry+) > <!—termEntry = one concept entry: ideally, one concept, one entry --> <!ELEMENT termEntry - - ((%AuxInfo;)*, (langSet I tig I ntig)+) > <!ATTLIST termEntry %a.global; type CDATA #IMPLIED > <!—langSet = cluster of terms in one language plus associated info --> <!ELEMENT langSet - - ((%AuxInfo;)*, (tig I ntig)+) > <!ATTLIST langSet %a.global; type CDATA #IMPLIED > <!-- tig='terminological information group (flat)' --> <!ELEMENT tig - - (term, (termNote)*, (descrip I admin I ptr I ref I date I note)*) > <!ATTLIST tig id ID #IMPLIED lang CDATA #IMPLIED > <!-- ntig ='terminological information group, nested' --> <!ELEMENT ntig - - (termGrp, (%AuxInfo;)*) > <!ATTLIST ntig id ID #IMPLIED lang CDATA #IMPLIED > <!ELEMENT term - - (%bText;) > <!ATTLIST term %a.global > <!ELEMENT termGrp - - (term, (termNote I termNoteGrp I ptr I ref I date I note)* ) > <!ATTLIST termGrp %a.global; > <!ELEMENT termNoteGrp - - (termNote, (ptr I ref I date I note)* ) > <!ATTLIST termNoteGrp %a.global; > <!ELEMENT descripGrp - - (descrip, (ptr I ref I date I descripNote I note)* ) > <!ATTLIST descripGrp %a.global; > <!ELEMENT adminGrp - - (admin, (ptr I ref I date I adminNote I note)* ) > <!ATTLIST adminGrp %a.global; > <!ELEMENT descrip - - (%dText;) > <!ATTLIST descrip %a.global; type CDATA #REQUIRED > <!ELEMENT admin - - (%bText;) > <!ATTLIST admin %a.global; type CDATA #REQUIRED > <!ELEMENT termNote - - (%nText;) > <!ATTLIST termNote %a.global; type CDATA #REQUIRED > <!ELEMENT descripNote - - (%nText;) > <!ATTLIST descripNote %a.global; type CDATA #REQUIRED > <!ELEMENT adminNote - - (%nText;) > <!ATTLIST adminNote %a.global; type CDATA #REQUIRED > |
Haciendo uso de este DTD, un editor o intérprete XML es capaz de "entender" un documento MARTIF y procesarlo adecuadamente. Los implementadores de MARTIF han desarrollado un conjunto de herramientas para facilitar y añadir funcionalidad al tratamiento de documentos, entre ellos, un programa "validador" de documentos MARTIF y un conversor a HTML para su visualización en navegadores convencionales.111 Tras convertir el documento Martif, según se muestra en la Figura 32, obtenemos los dos documentos HTML (índice + entradas terminológicas) que mostramos en el apéndice IV.
Figura 32: Conversor MARTIF -> HTML
La ventaja obvia de disponer de tal herramienta es la publicación en web de forma directa, ya que la generación de documentos HTML puede ser realizada bajo demanda a través de un formulario web. Como podemos observar, el documento ofrecido es una entrada terminológica completa, incluyendo índice de entradas (primer documento) e información compartida (back matter) al final del documento que contiene las entradas. Así mismo, el cuerpo de la entrada contiene enlaces a posibles objetos binarios (imágenes, audio, etc.) y otros elementos a los que se hace referencia en el documento MARTIF original mediante punteros.
Por tanto, MARTIF es una especificación que hace uso de las tecnologías más avanzadas en cuanto a representación y organización de información de un modo independiente de la plataforma, por lo que se configura como un formato estándar para el intercambio flexible de información terminológica entre sistemas basados en hardware y software dispares.
En este sentido, y a juzgar por el parcial éxito del formato RTF, existe un factor fundamental que a medio y largo plazo va a determinar el éxito de MARTIF. Se trata de la implementación que de él se haga por parte de los distintos fabricantes de herramientas previamente establecidas en el mercado y otros nuevos. Recordemos que MARTIF es únicamente una especificación basada en otros estándares de intercambio de información (SGML y XML), que debe ser implementada por los distintos fabricantes de herramientas de ayudas a la traducción.
Por tanto, no se trata sólo de acoger una iniciativa de estandarización, sino de llevarla a cabo correctamente. Esto es lo que, dentro del proyecto OncoTerm, hemos intentado. En el apartado siguiente describimos el gestor de terminología de OntoTerm, que basado en las categorías de datos del CLS Framework, el modelo de datos ReltefTM (Hardman 2000), implementa Martif.
Notas
108 No deberíamos tampoco ignorar otros dos formatos de presentación de documentos con formato independientes de la plataforma: PostScript y Acrobat PDF (Portable Document Format). Sin embargo, éstos no permiten la reutilización efectiva del formato ya que únicamente es posible, además de la visualización en pantalla y la impresión en papel, la extracción de texto sin formato, es decir, no son formatos editables.
109 Este término, proveniente del ámbito de las bases de datos, hace referencia al esquema conceptual (en realidad, el término original) existente en toda base de datos que cumple con la arquitectura ANSI/X3/SPARC, donde se consideran, además de este nivel, los niveles interno y externo, entre los cuales se sitúa el primero. Es en este nivel conceptual donde el administrador de la base de datos organiza la estructura de los datos, decide qué entidades van a ser consideradas en el sistema, qué propiedades van a tener y qué relaciones van a establecerse entre esas entidades. En la actualidad, y sobre todo dentro del ámbito de las bases de datos terminológicas, se emplea el término modelo de datos para hacer referencia a este esquema conceptual. Este término no es nuevo, sino que surge evidentemente del uso original del termino "modelado conceptual", que se refiere a la actividad de organización del esquema conceptual.
110 Ver http://etext.virginia.edu/TEI.htm especialmente la sección dedicada a bases de datos terminológicas, Parte 3; también Melby, Schmitz y Wright (en prensa) detallan el desarrollo de MARTIF (denominado en sus orígenes TIF) a partir de otros modelos anteriores de intercambio de datos como MATER y MicroMATER.
111 La siguiente generación de navegadores web tendrá soporte para documentos XML.
ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |