Estudios de Lingüística del Español (ELiEs)
Los Diccionarios Electrónicos: hacia un nuevo concepto de diccionario / Ana Fernández-Pampillón Cesteros y María Matesanz del Barrio


2.2 La consulta y búsqueda de información

Aunque en la sección anterior ya hemos apuntado lo difícil que es el procesamiento automático a nivel semántico de la información, vamos a dedicar esta sección a describir con más detalle cómo se puede consultar un diccionario electrónico, los avances respecto del diccionario en papel y las cuestiones todavía pendientes.

La gran variedad de diccionarios en papel implica una gran variedad de diccionarios electrónicos, variedad que se ve incrementada por la posibilidad de la consulta a través de Internet. En general, la información puede consultarse de modo local, es decir desde el propio ordenador que almacena la información o lee un dispositivo de almacenamiento externo como un CD-ROM o DVD, y por conexión en línea a través de una red de área local (LAN), o de Internet y la Web, a otra máquina o máquinas que “sirven” la información léxica, posiblemente muy alejadas físicamente de la nuestra. Esta última posibilidad no sólo ha incrementado el uso de los diccionarios electrónicos, sino también su producción. La red está plagada de diccionarios, glosarios3 y también, de enciclopedias de muy diferente contenido y calidad4.

Ante tanta variedad de diccionarios electrónicos, es de esperar que los modos de consulta y búsqueda de la información sean también muy variados. Sin embargo, existe un conjunto de formas de búsqueda habituales que incorporan prácticamente todos los diccionarios electrónicos de cierto prestigio y calidad5 en su formato de CD-ROM o DVD: (1) búsqueda en entrada, (2) búsquedas en lista de entradas: alfabética e inversa, (3) búsqueda asistida, (4) búsqueda múltiple, (5) búsqueda mediante palabras relacionadas (utilización del diccionario como un tesauro6), (6) búsqueda de anagramas, (7) búsqueda utilizando abreviaturas y marcas.

(1) La búsqueda en entrada consiste, sencillamente, en introducir la palabra7 que se desea consultar en la ventana de entrada de datos. Éste es el modo de búsqueda más habitual entre los usuarios y es el único que presentan los diccionarios “en-línea” en Internet. Se combina con (3), la búsqueda asistida.

(2) Las búsquedas en lista de entradas, alfabética e inversa, consiste en buscar en una lista de palabras ordenadas alfabéticamente en orden creciente (A-Z) o bien decreciente (Z-A). Esta última opción convierte automáticamente al diccionario en un diccionario inverso.

(3) La búsqueda asistida, permite encontrar una entrada incluso escrita incorrectamente ofreciendo una lista de palabras alternativas. Los diccionarios incorporan un sistema de lematización (reducción morfológica) del castellano, y un sistema de revisión ortográfica y generación de formas alternativas más “cercanas”8, aquellas cuya ortografía es la más parecida.

(4) La búsqueda múltiple pone a disposición del usuario la obra en su totalidad, permitiendo hacer búsquedas de palabras concretas dentro del diccionario o localizar los lemas del diccionario a partir del contenido de los artículos (definición, ejemplos, etc.). El sistema extrae todos los artículos del diccionario que satisfacen una expresión de búsqueda9. Distinguimos: (a) búsquedas con comodines, patrones definidos por el usuario y filtros, y (b) búsqueda de formas complejas de un lema.

(5) La búsqueda mediante palabras relacionadas permite al usuario utilizar el diccionario como un tesauro, y recorrer relaciones léxicas10 como la sinonimia, la antonimia o familia de palabras. Son muy pocas las relaciones definidas explícitamente en los diccionarios electrónicos, y esta es una de sus principales debilidades. Tanto en los diccionarios en papel como en los electrónicos la mayoría de las relaciones léxicas son implícitas, dejando a la competencia del usuario su interpretación. Un marcado explícito adecuado permitiría su tratamiento computacional, no sólo para ofrecer al usuario herramientas de búsqueda más intuitivas e “inteligentes”, sino también como fuente de conocimiento léxico para cualquier aplicación informática que lo precise11.

(6) Búsqueda de anagramas, permite buscar todas las palabras que contienen las mismas letras que la palabra dada. Por ejemplo a partir de la palabra inglesa “ship” en una búsqueda de anagramas encontramos: hips, pish, ship.

(7) Búsqueda utilizando abreviaturas y marcas. Este tipo de búsqueda es una de las más interesantes, junto con la (5), búsqueda de palabras relacionadas, respecto del punto de vista de procesamiento semántico de la información. Consiste en buscar información codificada, con la posibilidad de reagruparla en función de diversos criterios (categoriales, lingüísticos en general, distribución geográfica, vigencia cronológica, entre otros). El sistema mantiene una clasificación de todas las abreviaturas y marcas del diccionario según su significado y función. Esta clasificación permite localizar todas las entradas que se corresponden con un concepto de la clasificación.

A estos modos de búsqueda habituales hay que añadir búsquedas más refinadas, que poco a poco se van introduciendo en los diccionarios electrónicos. Estas búsquedas localizan elementos de información más precisos12 y resuelven consultas más complejas basadas, incluso, en una comprensión semántica de la consulta del usuario y de la propia la información léxica del diccionario13. Se trata de mejorar el procesamiento semántico de la información.



Notas

3 Los glosarios de Internet difieren bastante de los glosarios en papel. Estos glosarios no se ajustan casi nunca a una estructuración lexicográfica, organización que, por otra parte, no buscan o puede que incluso desconozcan. Su estructura suele ser bastante simple: palabra + significado. Por otra parte, el acceso a los glosarios de Internet supone la situación inversa de lo que ocurre con los publicados en papel ya que, por su propia forma de construcción, son accesibles directamente, de modo que en muchos casos se parte del glosario para llegar al libro que lo contiene. Son muy frecuentes también los glosarios de páginas web.
4 Puede consultarse (entre otras) las páginas <http://math-www.uni-paderborn.de/HTML/Dictionaries.html>, <http://www.diccionarios.com>, o bien utilizar cualquiera de los buscadores de Internet para localizar el significado de alguna palabra, ellos nos remitirán (en algunos casos) a diccionarios o glosarios que lo definen. El lector puede realizar un sencillo experimento con palabras como cúmel o glosario y comprobar que algunas de las direcciones corresponden a diccionarios electrónicos y glosarios.
5 Consideramos que un diccionario es de “prestigio y calidad” cuando ha sido elaborado bajo criterios lexicográficos y utilizando una metodología científica y técnica.
6 En el sentido que se da en informática al término no en lexicografía: una red semántica de conceptos.
7 Utilizamos palabra con el significado general que se da a este término, no como tecnicismo.
8 Este criterio de cercanía es, de nuevo, otro ejemplo de procesamiento computacional de datos. Utiliza heurísticas como buscar, primero, coincidencia con la primera letra, y luego, si es posible, con el resto de las letras. También se valora la coincidencia con un número máximo de letras aunque estén permutadas (excepto la primera).
9 La expresión de búsqueda utiliza un lenguaje regular muy sencillo que combinan palabras con comodines, filtros y operadores lógicos elementales (AND, OR).
10 La mayoría de las relaciones léxicas explícitas en los diccionarios electrónicos son un conjunto incompleto de relaciones de tipo semántico. No se explicitan otras relaciones léxicas a nivel fonético-fonológico, morfológico o pragmático.
11 Las posibilidades son enormes y están basadas en la extracción automática de información léxica con diversos fines: obtener distintas versiones impresas de un mismo diccionario (diccionario para escolares, diccionario etimológico, etc.), construcción de lexicones computacionales más específicos, acceso a la información léxica para el procesamiento de lenguas naturales, utilización de la información en análisis lingüísticos, entre otros.
12 Así, por ejemplo, puede localizarse dentro de la información etimológica el étimo o étimos, lenguas de origen o escritura en lengua original.
13 Por ejemplo, ¿cuál es la relación entre “electrónica” y “digital”?. Esta es una consulta real, donde el usuario necesitaba precisar si, el “chat”, es un nuevo medio de comunicación “electrónico” o “digital”.





Estudios de Lingüística del Español (ELiEs), vol. 24 (2006)   
 ISSN: 1139-8736