5.4 Evaluación del Módulo Acústico

ISSN: 1139-8736
Depósito Legal: B-8714-2001

5.4.1 Evaluación de la Calidad Acústica (Tasa de Error de Palabras) y Validación Estadística de los Resultados

La evaluación de la calidad acústica del sistema de reconocimiento se ha llevado a cabo considerando la influencia de 2 factores: la calidad de los patrones acústicos (modelos HMM) y la incorporación de conocimiento lingüístico, a nivel sintáctico y léxico (fonológico).

Validación de los Sistemas: Bandas de Probabilidad

No sólo es necesario obtener las Tasas de Acierto de Palabras para los diferentes sistemas sino que debemos validar estadísticamente la significancia de las diferencias de tasa entre los diversos sistemas que se han implementado y estudiado en esta tesis. Para ello vamos a utilizar el cálculo de las bandas de probabilidad que con un 95% de confianza representan las tasas de acierto de palabras obtenidas. Para poder calcular las bandas necesitamos conocer cuántos datos (número de palabras) N han intervenido en la evaluación de los sistemas. Para ello, se ha modificado el programa de evaluación (alineamiento de frases referencia y frases reconocidas) para que nos dé el número de palabras que aparecen en las frases del corpus de evaluación en cada caso. Además, cuando comparamos sistemas promediando las tasa de acierto de palabras para los cuatro locutores de la base de datos DARPA-ESPAÑOL (ver Capítulo 3), debemos multiplicar por el número de locutores para poder conocer el número de datos que han entrado en juego durante la evaluación del sistema.

El programa de cálculo de las bandas de probabilidad genera dos tablas con información, una con la tasa media, mínima y máxima para cada sistema (con el mínimo y el máximo tenemos la banda del sistema), y la segunda con la comparación cruzada entre todos los sistemas que hemos comparado. Este criterio es más severo que el test de McNemar, ya que exige que las diferencias en las tasas de acierto de palabras sean mayores o bien que se utilicen más datos para poder asegurar que los sistemas comparados son significativamente diferentes.

Recordemos los convenios que hemos adoptado en cuanto a los nombres asignados a los diccionarios, las gramáticas y los modelos HMM de alófono utilizados.

[Convenios]

D-x: sirve para referenciar los diccionarios no categorizados, es decir, utilizados en sistemas que no hacen uso de gramática (o lo que es igual, hacen uso de la gramática nula). El valor de x puede ser: B para nombrar el diccionario básico, de referencia, sin aplicar reglas fonológicas que modelen las transiciones entre palabras en habla continua ni modelar los nombres propios compuestos; S para hacer referencia a un diccionario que sí tiene en cuenta las transiciones entre palabras a nivel fonológico pero que no modela los nombres propios compuestos; C es el nombre del diccionario que considera los nombres propios compuestos como una sola palabra pero no permite silencios o pausas entre las palabras del nombre compuesto, además tiene en cuenta las transiciones fonológicas entre las palabras en habla continua; J es el nombre para el diccionario más completo, con modelado de los nombres compuestos como si se tratase de una sola palabra pero permite la posibilidad de pausas entre las palabras del nombre compuesto, teniendo en cuenta las reglas fonológicas en las transiciones entre las palabras de la frase.
D160-x: es el nombre de los diccionarios asociados o vinculados a la gramática de 160 macrocategorías, suavizada o no, adaptada al dominio o general de la lengua. Los valores de x coinciden con el caso anterior (D-x).
D2, S3V: Los modelos HMM utilizados han sido discretos y semicontinuos. En el caso de los discretos hemos utilizado dos codebooks, un vector formado por 10 parámetros Mel Frequency Cepstrum y 1 parámetro de Energía de trama, y el segundo vector con la primera derivada del vector anterior. A los sistemas que han utilizado modelos discretos (DHMM) de dos codebooks los denominamos D2. Para los modelos semicontinuos (SCHMM) se han utilizado tres codebooks, que tiene los dos vectores anteriores más la segunda derivada como tercer codebook y además, han sido entrenados teniendo en cuenta el posible pausado entre palabras, en la Tesis Doctoral de J. Ferreiros [FER96]. A los sistemas que han utilizado estos modelos los denominamos S3V, donde la V indica pausado entrenado con el algoritmo de Viterbi utilizado para el entrenamiento.
GR160S-x: es el nombre de las gramáticas bigramas de 160 macrocategorías que han sido suavizadas utilizando el método de back-off (de ahí la S después de GR160). El valor de x depende del diccionario utilizado y podrá tomar cualquiera de los valores ya vistos (B, S, C o J). Ha sido entrenada con distintos corpus de datos como ya vimos en el Capítulo 5 de esta tesis, de distinta naturaleza y no pertenecientes al dominio semántico de nuestra aplicación. Se pueden considerar gramáticas generales del castellano, y han sido utilizadas para guiar el proceso de decodificación acústica en el sistema de comprensión.
GR160A-x: es el nombre de las gramáticas bigramas de160 macrocategorías entrenadas utilizando todo el corpus (entrenamiento y evaluación) del dominio de nuestra aplicación, es decir, DARPA-ESPAÑOL. De ahí la letra A después de GR160, que indica gramática adaptada. Esta gramática sólo tiene sentido como punto de referencia, es decir, como el mejor comportamiento posible que se puede alcanzar en unas condiciones determinadas. La x puede tomar los valores ya vistos (B, S, C o J) en función del diccionario utilizado.

Anterior I Siguiente I Índice capítulo 5 I Índice General

ISSN: 1139-8736
Depósito Legal: B-8714-2001