Estudios de Lingüística del Español (ELiEs)
Los Diccionarios Electrónicos: hacia un nuevo concepto de diccionario / Ana Fernández-Pampillón Cesteros y María Matesanz del Barrio


4. Hacia un nuevo concepto de diccionario electrónico

En este capítulo hemos intentado presentar un estado de la cuestión de los diccionarios electrónicos, de los cambios que se han producido en la organización de la información y también en su recepción, al incorporarse nuevos usuarios y nueva tecnología. Los grandes diccionarios, aunque fieles a un soporte tradicional como es el papel, ya no prescinden de las ediciones electrónicas. Esto hace pensar que en el diseño de los diccionarios es posible tener presente muchas de las ventajas que ofrece este soporte y que ya hemos señalado. Sin duda, la conciliación en un mismo diseño para su presentación de dos formatos tan diferentes y con capacidades informativas tan alejadas retiene y limita, en gran medida, las posibilidades de expansión de los formatos electrónicos. Es difícil mantener en ambos formatos, a la vez, una organización relacional de amplio desarrollo en la macroestructura que establezca conexiones entre artículos, porque en el papel puede dar como resultado artículos de muy difícil legibilidad. Es decir, un aspecto que hay que tener muy en cuenta en diseños mixtos es que el aumento de información no se haga en detrimento de la claridad expositiva y, en última instancia, de la legibilidad del propio artículo.

La información relacional, hasta ahora, ha sido muy limitada en el papel, reduciéndose, por ejemplo, a algunas de las relaciones semánticas de equivalencia y oposición, pero excluyendo, dentro de este campo, las relaciones de jerarquía e inclusión, debido, entre otras causas, a la dificultad de expresión clara de la información. Las relaciones morfológicas entre artículos es poco explícita, lo mismo que ocurre con la información de variantes ortográficas y morfológicas, aunque cada vez más se tiende a registrar en todos los artículos esta información de variante, incluso en las versiones en papel. También suele ser unidireccional la información de variación dialectal, por no citar la variación en otros ámbitos (sociolectal, etc.), con una deficiente delimitación en los diccionarios en papel, lo que en un etiquetado de relaciones léxicas resultaría difícil de abordar sin una clarificación previa.

En las ediciones en papel, la gran información implícita34 que contienen los diccionarios se hace explícita en forma bastante limitada, de modo que la obtención de esa información depende de la competencia lingüística del usuario, con los inconvenientes y desigualdades que conlleva. Una vía poco explotada hasta ahora y que permitiría un salto cualitativo en su diseño es el etiquetado de la información con lenguajes de marcado estándar.

La utilización de las nuevas tecnologías informáticas, basadas en XML permiten hacer explícitas las estructuras de datos utilizadas para representar la información léxica contenida en los diccionarios (figura 4). La explotación de la información bien codificada y estructurada permite la introducción de una información muy difícil de ofrecer en otro tipo de formato.



Figura 4. Codificación de la información de la acepción 9 del lema “rollo” (DRAE92) mediante el lenguaje de marcado XML-TEI

Desde el punto de vista informático, el diccionario se concibe como “texto”, es decir, la estructura de datos subyacente es únicamente la secuencia lineal de caracteres. Pero en los casos de mayor interés, tanto práctico como teórico, el diccionario se concibe como una base de datos con información léxica. Es decir, las estructuras de datos subyacentes son entidades complejas y admiten cualquier otra forma de relación entre ellas, además de la puramente secuencial. Estas estructuras de datos están en la base de los algoritmos que permiten optimizar el acceso a la información léxica, controlar la consistencia de los datos y permitir el acceso concurrente y seguro de múltiples usuarios a los mismos datos.

Este cambio tecnológico, además, brinda la posibilidad de que otros sistemas informáticos, y en particular los sistemas de procesamiento del lenguaje natural (SPLN), puedan utilizar de forma directa y como fuente de conocimiento léxico los diccionarios en soporte electrónico, si están organizados como una base de datos.

Desde el punto de vista de los usuarios, el diccionario electrónico presenta también la ventaja de modificar los modelos de acceso a la información, de modo que los usuarios no se pierdan en lo que para muchos es una maraña de información organizada según una serie incomprensible de reglas de lematización necesarias para poder encontrar la información buscada. Esta lematización, rígida y estricta, es imprescindible para la organización de la información en un diccionario en papel, pero deja de tener parte de su utilidad en un formato electrónico, en el que las posibilidades de almacenamiento y extracción de la información son muy flexibles y diversas.

El dominio léxico es uno de los retos más difíciles e interesantes para las Ciencias de la Computación35 desde los años 50. Sin embargo, es ahora, en el siglo XXI, cuando el desarrollo tecnológico y científico es suficiente como para abordar la construcción de verdaderos diccionarios electrónicos, entendidos como almacenes de conocimiento léxico de una o varias lenguas que pueden ser consultados “inteligentemente” por usuarios y máquinas.

La lexicografía, por su parte, tiene un campo abierto de reflexión en el que el peso de una tradición lexicográfica sólida debe ser permeable a nuevas posibilidades de construcción, en la que se dé más margen a las necesidades de los usuarios. Pero, el campo abierto por el soporte electrónico en la construcción de nuevos diccionarios y adaptación de modelos existentes, poco explorado todavía, no podrá ser ya ignorado.




Notas

34 Además de las ausencias informativas existentes en muchos diccionarios, como es de sobra conocido, cuando hablamos de información implícita nos referimos a la gran cantidad de información que contienen los diccionarios sin intención de consignarla, por lo que no existe, consecuentemente, ninguna codificación para ello.
35 Especialmente para la Inteligencia Artificial y la Lingüística Computacional.





Estudios de Lingüística del Español (ELiEs), vol. 24 (2006)   
 ISSN: 1139-8736