ISSN: 1139-8736
Depósito Legal: B-8714-2001

2.7.2 Evaluación de Sistemas de Comprensión de Habla

A medida que la comunidad científica internacional dedicada al estudio y desarrollo de Sistemas de Lenguaje Hablado Interactivos con capacidad de resolver problemas avanza, se hace necesario desarrollar nuevas medidas de evaluación para comprobar si estos sistemas son efectivos o no. No es fácil la tarea de fijar nuevas medidas, es decir, de plantear nuevos procedimientos y medidas que sean aceptadas unívocamente por la comunidad científica para la evaluación de este tipo de sistemas. Podemos considerar que el campo de las técnicas y medidas de evaluación de este tipo de sistemas acaba de empezar a despegar. En este capítulo mostraremos algunas propuestas realizadas por grupos de investigación dedicados a desarrollar estos sistemas de comprensión del lenguaje hablado y algunas propuestas aceptadas, de momento, por la gran mayoría de investigadores.

Hasta la fecha, el método de evaluación común dentro de grupos de investigación como son los adscritos al programa ARPA Spoken Language Systems (en el dominio de ATIS) ha sido utilizar el protocolo CAS [VID93] (Common Answer Specification) o Especificación de una Respuesta Común, que compara el funcionamiento del sistema con una respuesta canónica de la base de datos [NAG96]. El protocolo CAS tiene la ventaja de que la evaluación puede ser llevada a cabo automáticamente, una vez que los principios para generar las respuestas de referencia se han establecido y un corpus de datos ha sido convenientemente etiquetado. Desde que la comparación directa entre sistemas puede realizarse relativamente de forma sencilla con este procedimiento, se ha alcanzado una cierta difusión y consolidación de ideas, conduciendo todo ello a un rápido progreso en la investigación de los mismos.

Sin embargo, el procedimiento de evaluación CAS es bastante limitado. La evaluación se realiza sólo en el nivel de frase, es decir, se compara frase a frase con su respuesta canónica. No hace ninguna distinción entre una respuesta parcialmente correcta y una completamente incorrecta; excluye la evaluación de cualquier tipo de interacción - varias preguntas en ambos sentidos, dependientes del contexto del sistema. Por tanto, este método no es completamente eficaz en la evaluación de este tipo de sistemas interactivos, no permite detectar ni corregir errores, no permite evaluar la calidad de las respuestas, no permite interacciones generadas en base a varias preguntas del usuario con un cierto diálogo con el sistema por medio.

Algunos autores han propuesto nuevos tipos de medidas que permiten evaluar sistemas interactivos: completitud de la tarea, evaluación de ficheros de seguimiento del proceso.

La completitud de la tarea mira si se ha resuelto un problema analizando cómo de correctamente, es decir, si la tarea ha sido completada y si la respuesta ha sido correcta y cuánto tiempo se ha tardado en ello. La evaluación de ficheros de seguimiento del proceso utiliza evaluadores humanos para analizar cómo de correctas han sido las respuestas en el contexto de un diálogo interactivo.

La idea es plantear una serie de escenarios donde se le indica al usuario qué información deberá solicitar al sistema (qué problema resolver). Estos escenarios tienen una respuesta bien definida. El usuario realizará una o varias preguntas al sistema, manteniendo un cierto diálogo con el mismo, y el sistema le enviará una respuesta para cada una de ellas, o una nueva pregunta/mensaje de error. Toda esta información quedará almacenada (registrada) en un fichero, es decir, cada par pregunta-respuesta. Además, se mide el tiempo consumido por el usuario y el sistema en llevar a cabo los distintos procesos (reconocimiento/transcripción del “mago” de la pregunta, envío de la respuesta del sistema al usuario, tiempo de almacenamiento de toda la información que registra el sistema de medida, tiempo que tarda el usuario en pensar y realizar cada pregunta, etc.). Se suele incluir algún tipo de cuestionario para el usuario, preguntando por su aceptación del sistema, qué le gusta y qué no le gusta, si considera que el sistema le ha “entendido” y con qué frecuencia, si le ha parecido ágil el diálogo, si ha entendido las respuestas enviadas por el sistema, etc.

Sobre ese fichero, el cuestionario, etc. se realizan una serie de medidas que nos permiten evaluar cuantitativamente el sistema interactivo. Entre ellas:

Otros investigadores piensan que no existe realmente ninguna metodología totalmente establecida para evaluar estos Sistemas de Diálogo Hablado como ya ocurría con los Sistemas de Reconocimiento. Recientemente se han hecho algunos progresos en el ámbito de la comunidad DARPA. Algunos de estos trabajos se basan en utilizar escenarios y sistemas de medida basados en la técnica o estrategia del “Mago de Oz”, mientras otros [NAG96] piensan que lo que hay que evaluar son sistemas reales. Las primeras metodologías están basadas en el concepto de “respuesta correcta”, es decir, si la respuesta es correcta se asume que el sistema comprende correctamente la pregunta [BEN94]; sólo recientemente se consideran factores a tener en cuenta el hecho de que puedan existir “respuestas razonables” y de la influencia del diálogo [GIA94].

Veamos algunos ejemplos de escenarios en el dominio de una aplicación de acceso al correo electrónico (e-mail) a través del teléfono:

Ejemplo 1. Escenario A
  • Buscar los mensajes enviados por una determinada persona
  • Preguntar por la fecha y hora de llegada de los mismos
  • Leerlos
  • Borrar algunos de ellos

 

Ejemplo 2. Escenario B
  • Preguntar por los mensajes que han llegado
  • Preguntar por información de los mismos (quién lo envía, fecha y hora de llegada) de acuerdo con el orden de llegada (el primero, el último)

Algunos autores proponen que los objetivos de la evaluación deben ser principalmente:

Para ello se utiliza un sistema integrado, usuarios y un experto. Cada usuario debe completar una serie de escenarios definidos por el experto, contestar o rellenar un cuestionario después de finalizar las sesiones de diálogo con el sistema, en el que se le pide que indique las dificultades que ha encontrado, y expresar su opinión sobre el comportamiento general del sistema y juzgar algunas características del sistema como:

El experto puede dar algunas indicaciones breves al usuario sobre las capacidades del sistema y del procedimiento a seguir para interaccionar con él, mostrarle los escenarios, etc. Durante los diálogos el experto toma notas de las dificultades que el usuario se ha encontrado, y cuando se produce alguna situación de la que el usuario no puede salir, puede darle ciertos consejos para continuar.

Las herramientas utilizadas para capturar los datos suelen ser un magnetófono donde se graban los diálogos de cada sesión (las preguntas del usuario y las respuestas del sistema), comentarios realizados por el usuario y el experto, consejos del experto y reacciones del usuario, etc. Además, el sistema de comprensión de habla dispone de herramientas para almacenar en ficheros la salida de los diferentes módulos del mismo: el acústico, el lingüístico (procesamiento de lenguaje natural), el módulo de gestión del diálogo, el generador de mensajes.

Con toda esta información almacenada se suelen llevar a cabo tanto evaluaciones objetivas basándonos en algunos parámetros almacenados como subjetivas a partir de los cuestionarios que rellenan los usuarios.

Evaluación Objetiva. Los parámetros que suelen elegirse están relacionados con diferentes módulos o niveles del sistema:

Evaluación Subjetiva. Los cuestionarios ponen en evidencia las reacciones del usuario a los fallos o errores de comprensión del sistema, así como informa de las opiniones de los usuarios ante distintos aspectos o características del mismo. Así:

Anterior   I  Siguiente   I  Índice capítulo 2   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001