ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
6.9 Evaluación del Sistema de Comprensión Desarrollado
La evaluación de un Sistema de Comprensión no es una tarea sencilla, no existiendo algoritmos de medida utilizados internacionalmente como ocurre en el caso de la evaluación de los sistemas de reconocimiento de habla. Debemos tener en cuenta que la salida del Sistema de Comprensión es un proceso que atraviesa varias etapas, en la que cada una de ellas puede generar un tipo de error y a veces, nos interesaría disponer de información sobre los distintos errores que se han producido y qué módulo lo ha causado. Como es de suponer, ello depende de la arquitectura implementada, es decir, del propio sistema y no parece lógico que la evaluación de un sistema dependa de la propia composición del mismo. Por ello, muchos Sistemas de Comprensión son evaluados de forma global, comparando, en cierto modo, la salida final generada (sentencias SQL) o una salida expresada en un lenguaje semántico intermedio menos flexible que un lenguaje como el SQL, en el que una consulta puede venir expresada de varios modos posibles. Todo ello nos plantea un problema, que se ve acompañado por el hecho de que la base de datos utilizada ha sido capturada durante el desarrollo de este trabajo y por tanto, no estaba previamente anotada. Aunque nosotros la hemos etiquetado y hemos generado ficheros de referencia de salida de cada uno de los módulos, no hemos tenido más alternativa que revisar las consultas manualmente, al menos la primera vez.
La evaluación se ha realizado a nivel de consultas SQL generadas, más concretamente se ha revisado la estructura de datos generada en el Módulo de Control y que llamamos *.QRT, que contiene información sobre el proceso de las funciones, y de la traducción a SQL de cada una de las consultas básicas que existan. No sólo hemos evaluado las frases del corpus de entrenamiento (SR) y del corpus de evaluación (ST), textuales, es decir, sin errores, sino también las frases del corpus de evaluación obtenidas como hipótesis de salida del Módulo Acústico para cada uno de los cuatro locutores de la base de datos de castellano utilizada.
La evaluación del Módulo de Comprensión se ha realizado con las frases obtenidas con el Módulo Acústico GR160S-J (ver el capítulo 5 de esta tesis). Este módulo incorpora (guiando el proceso de reconocimiento) una gramática morfo-sintáctica de 160 macrocategorías, suavizada y no adaptada al dominio de aplicación, lo que ofrece una mayor cobertura a costa de una mayor perplejidad. El modelado de las unidades de reconocimiento (alófonos independientes del contexto) se ha llevado a cabo utilizando modelos semicontinuos de Markov de 3 codebooks (SHMM), entrenados teniendo en cuenta las pausas entre palabras (S3V). Este módulo tiene una buena tasa de acierto de palabra aunque no tan buena como la que sería deseable, pero ello permite comprobar el funcionamiento del sistema en condiciones realistas con frases en lenguaje natural con errores como entradas al Módulo de Comprensión.
S3V Tasa de Aciertos de Palabras (WA) Locutores ENR FER LEA ROM WAMEDIO PIP-PG 25000-1.5 22000-1.5 20000-2.0 20000-2.0 PIP-PGOPT GR160S-J 82.14 % 73.83 % 82.71 % 92.80 % 82.87 % ± 6.72 % Tabla 6.1 Resultados de la Evaluación (Tasa de Aciertos de Palabra o Word Accuracy) del Módulo Acústico utilizando modelos semicontinuos de Markov de 3 codebooks (S3V) con pausado, con la gramática morfosintáctica de 160 macrocategorías suavizada general del castellano, y el diccionario D-J.
Los errores en el nivel de palabra que se producen en las frases de salida del sistema de reconocimiento de habla continua conducen a errores en el nivel de frase. En la Tabla 6.2 se puede observar que los errores de palabra (Tasa de Acierto de Palabra, WA), del Módulo Acústico que se ha utilizado para evaluar el Módulo de Comprensión, se traducen en casi un 24 % de frases correctas, es decir, el 76 % de las frases que son procesadas por el Módulo de Comprensión contienen algún tipo de error. A pesar de ello, muchas de las frases que son incorrectas desde el punto de vista acústico son comprendidas correctamente por el Módulo de Comprensión como se deduce de la Tabla 6.3.
S3V Tasa de Aciertos de Frases (SA) Locutores ENR FER LEA ROM WAMEDIO PIP-PG 25000-1.5 22000-1.5 20000-2.0 20000-2.0 PIP-PGOPT GR160S-J 17 % 12 % 18 % 48 % 23.75 % ± 14.18 % Tabla 6.2 Resultados de la Evaluación (Tasa de Aciertos de Frases o String Accuracy) del Módulo Acústico utilizando modelos semicontinuos de Markov de 3 codebooks (S3V) con pausado, con la gramática morfo-sintáctica de 160 macrocategorías suavizada general del castellano, y el diccionario D-J.
Los resultados del corpus de evaluación para cada uno de los locutores son los que se encuentran en la siguiente tabla, y debe tenerse en cuenta que una frase correcta es aquella que ha sido perfectamente entendida, es decir, que ha dado lugar a una estructura *.QRT completa y correcta desde el punto de vista semántico de la frase:
Locutor Frases Correctas ENR 65% FER 53% LEA 69% ROM 70.5% Media 64.37 % ± 6.86 % Tabla 6.3 Resultados de la evaluación del Sistema de Comprensión con las consultas obtenidas después del paso de reconocimiento acústico. Las consultas de evaluación han sido 87 de las 300 disponibles.
Un análisis de los errores en la salida de cada uno de los módulos del Sistema de Comprensión permite conocer con más detalle las causas de los errores globales a la salida del sistema:
Causa del Error (Limitaciones del Módulo) Error Segmentador Conceptual (Gramática) 82 % Mapeador (Reglas) 9 % Analizador + Transformador Estructural (Reglas) 4 % Traductor a SQL (Reglas) 5 % Tabla 6.4 Distribución del error global (35.63 %) en cada uno de los módulos del Sistema de Comprensión, siendo las frases de entrada las obtenidas por el Módulo Acústico GR160S-J
Del análisis de la Tabla 6.4 se deduce que la mayor parte de los errores se producen en el Módulo de Segmentación Conceptual, debido principalmente a los errores que existen en las frases de salida del Módulo Acústico. De ahí que sea muy importante cuidar la calidad de éste último, aumentando la Tasa de Acierto de Palabra tanto como sea posible. Las frases que son bien procesadas por el Segmentador Conceptual se encuentran , a continuación, con las limitaciones inherentes del resto de los módulos, principalmente debido a reglas mal diseñadas o carencia de alguna regla para tratar algún caso que no apareció en el conjunto de datos de entrenamiento (fallo de cobertura semántica) o estructuras muy complejas que sobrepasan las posibilidades del sistema.
Muchos de estos errores no tienen un carácter definitivo, es decir, pueden ser solucionados incorporando las reglas adecuadas o modificando algunas de las existentes, pero el problema principal subyace en los errores que contenga la frase de entrada a ser comprendida, pues muchos de ellos conducen a fallos de comprensión insalvables (p. ej. cuando no existe un borrado o una sustitución de una palabra con contenido semántico significativo para el significado de la frase).
Sin embargo, los resultados de comprensión sobre las frases de los corpus textuales (descritos en el Capítulo 3), sin errores en las frases en lenguaje natural de entrada son:
Corpus de Consultas Frases Correctas Entrenamiento SR 92% Evaluación ST 89% Tabla 6.5 Resultados de la evaluación del Sistema de Comprensión sobre las frases de entrenamiento y de evaluación sin errores, textuales. El número de consultas de entrenamiento son 452 y las de evaluación 300. Se han seleccionado aquellas consultas del corpus inicial que pertenecían al dominio de la aplicación.
Anterior I Siguiente I Índice capítulo 6 I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |