ISSN: 1139-8736
Depósito Legal: B-8714-2001

2.7.1 Evaluación Acústica de los Sistemas. Medidas de Calidad Acústica Objetivas

Como hemos indicado en capítulos anteriores, el módulo de reconocimiento acústico forma parte importante del sistema de comprensión de habla. El proceso de decodificación acústica no está exento de errores, y de la calidad del mismo depende, en gran medida, el proceso de comprensión del mensaje hablado. Hay, al menos, tres razones para evaluar la calidad de funcionamiento de un sistema de reconocimiento acústico:

Existen propuestas oficiales para llevar a cabo la medida de calidad de los sistemas de reconocimiento, donde los algoritmos y métodos que deben utilizarse han sido desarrollados y evaluados. Una de las más importantes es el conjunto de test de DARPA, implementados por mediación del NIST (National Institute of Standars and Technology of USA) para evaluar distintos sistemas de reconocimiento acústico sobre la base de datos de habla DARPA-RM. Los algoritmos empleados en este tesis para la evaluación y validación son los de este conjunto de herramientas para test.

Para expresar la calidad del decodificador acústico sería deseable encontrar una medida, un número (una figura de mérito), que fuese suficiente para tal fin, aportando toda la información necesaria para comprender los problemas del sistema de reconocimiento así como poder compararlo o clasificarlo. Sin embargo, no existe tal medida, que contenga tanta información como sería deseable. A pesar de ello, se utilizan figuras de mérito, que aunque no poseen esas características tan deseadas, son ampliamente aceptadas por la comunidad científica, y que describiremos a continuación.

En un sistema de reconocimiento de habla continua (o conectada) se pueden producir tres tipos de errores:

Una secuencia de palabras con errores obtenida a la salida del reconocedor puede ser interpretada de formas muy diferentes, conteniendo cada interpretación un número diferente de cada una de estas clases o tipos de error. Se hace necesario, por tanto, un método que permita llevar a cabo una interpretación razonable de la secuencia de errores obtenida.

El método más común, es decir, el más utilizado para llevar a cabo esta interpretación emplea Programación Dinámica (PD) para llevar a cabo un alineamiento temporal de dos secuencias de símbolos, la que representa a la secuencia de palabras que constituye la frase de entrada al reconocedor y la de la frase de salida del mismo, es decir, la frase reconocida. A cada tipo de error se le asocia una penalización, y el algoritmo de PD se encarga de encontrar la interpretación de menor coste de la salida en términos de la entrada. Una vez que han sido estimados mediante este algoritmo el número de cada uno de los tres tipos de error ( NS , NB , NI ), una simple figura de mérito es obtenida sumando la cantidad de errores de cada tipo y dividiendo por el número de palabras ( NP ) de entrada al reconocedor, convertido en %. Esta figura de mérito o medida se conoce como porcentaje de Error Total (ET):

siendo NS , NB   y NI  el número de sustituciones, borrados e inserciones respectivamente, y NP el número de palabras presentadas al reconocedor.

Una variante simple del ET es el conocido porcentaje de Precisión de Palabras (Word Accuracy) (WA) en %, que se calcula como:

WA = 100 - ET

Pero existe una alternativa al ET no tan simple como el WA, las Palabras Correctas  (Percent Correct) (PC) en %, que es el porcentaje de palabras de entrada correctamente reconocidas, que puede ser calculado como:

es decir, el PC ignora los errores de inserción. Al igual que el WA, el PC cuanto mayor es esta medida mejor, más calidad del reconocedor, mientras que para el ET ocurre justo lo contrario.

Anterior   I  Siguiente   I  Índice capítulo 2   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001