ISSN: 1139-8736
Depósito Legal: B-8714-2001 |
5.4 Evaluación del Módulo Acústico
5.4.1 Evaluación de la Calidad Acústica (Tasa de Error de Palabras) y
Validación Estadística de los Resultados
La evaluación de la calidad acústica del sistema de reconocimiento se
ha llevado a cabo considerando la influencia de 2 factores: la calidad de los patrones
acústicos (modelos HMM) y la incorporación de conocimiento lingüístico, a nivel
sintáctico y léxico (fonológico).
Validación de los Sistemas: Bandas de Probabilidad
No sólo es necesario obtener las Tasas de Acierto de Palabras para los
diferentes sistemas sino que debemos validar estadísticamente la significancia de las
diferencias de tasa entre los diversos sistemas que se han implementado y estudiado en
esta tesis. Para ello vamos a utilizar el cálculo de las bandas de probabilidad que con
un 95% de confianza representan las tasas de acierto de palabras obtenidas. Para poder
calcular las bandas necesitamos conocer cuántos datos (número de palabras) N han
intervenido en la evaluación de los sistemas. Para ello, se ha modificado el programa de
evaluación (alineamiento de frases referencia y frases reconocidas) para que nos dé el
número de palabras que aparecen en las frases del corpus de evaluación en cada caso.
Además, cuando comparamos sistemas promediando las tasa de acierto de palabras para los
cuatro locutores de la base de datos DARPA-ESPAÑOL (ver Capítulo 3),
debemos multiplicar por el número de locutores para poder conocer el número de datos que
han entrado en juego durante la evaluación del sistema.
El programa de cálculo de las bandas de probabilidad genera dos tablas
con información, una con la tasa media, mínima y máxima para cada sistema (con el
mínimo y el máximo tenemos la banda del sistema), y la segunda con la comparación
cruzada entre todos los sistemas que hemos comparado. Este criterio es más severo que el
test de McNemar, ya que exige que las diferencias en las tasas de acierto de palabras sean
mayores o bien que se utilicen más datos para poder asegurar que los sistemas comparados
son significativamente diferentes.
Recordemos los convenios que hemos adoptado en cuanto a los nombres
asignados a los diccionarios, las gramáticas y los modelos HMM de alófono utilizados.
[Convenios]
- D-x: sirve para referenciar los diccionarios no categorizados, es decir,
utilizados en sistemas que no hacen uso de gramática (o lo que es igual, hacen uso de la
gramática nula). El valor de x puede ser: B para nombrar el diccionario básico,
de referencia, sin aplicar reglas fonológicas que modelen las transiciones entre palabras
en habla continua ni modelar los nombres propios compuestos; S para hacer referencia a un
diccionario que sí tiene en cuenta las transiciones entre palabras a nivel fonológico
pero que no modela los nombres propios compuestos; C es el nombre del diccionario que
considera los nombres propios compuestos como una sola palabra pero no permite silencios o
pausas entre las palabras del nombre compuesto, además tiene en cuenta las transiciones
fonológicas entre las palabras en habla continua; J es el nombre para el diccionario más
completo, con modelado de los nombres compuestos como si se tratase de una sola palabra
pero permite la posibilidad de pausas entre las palabras del nombre compuesto, teniendo en
cuenta las reglas fonológicas en las transiciones entre las palabras de la frase.
- D160-x: es el nombre de los diccionarios asociados o vinculados a la
gramática de 160 macrocategorías, suavizada o no, adaptada al dominio o general de la
lengua. Los valores de x coinciden con el caso anterior (D-x).
- D2, S3V: Los modelos HMM utilizados han sido discretos y semicontinuos.
En el caso de los discretos hemos utilizado dos codebooks, un vector formado por 10
parámetros Mel Frequency Cepstrum y 1 parámetro de Energía de trama, y el segundo
vector con la primera derivada del vector anterior. A los sistemas que han utilizado
modelos discretos (DHMM) de dos codebooks los denominamos D2. Para
los modelos semicontinuos (SCHMM) se han utilizado tres codebooks, que tiene
los dos vectores anteriores más la segunda derivada como tercer codebook y
además, han sido entrenados teniendo en cuenta el posible pausado entre palabras, en la
Tesis Doctoral de J. Ferreiros [FER96]. A los sistemas que han utilizado estos modelos los
denominamos S3V, donde la V indica pausado entrenado con el algoritmo de
Viterbi utilizado para el entrenamiento.
- GR160S-x: es el nombre de las gramáticas bigramas de 160 macrocategorías
que han sido suavizadas utilizando el método de back-off (de ahí la S después
de GR160). El valor de x depende del diccionario utilizado y podrá tomar cualquiera de
los valores ya vistos (B, S, C o J).
Ha sido entrenada con distintos corpus de datos como ya vimos en el Capítulo
5 de esta tesis, de distinta naturaleza y no pertenecientes al dominio semántico de
nuestra aplicación. Se pueden considerar gramáticas generales del castellano, y han sido
utilizadas para guiar el proceso de decodificación acústica en el sistema de
comprensión.
- GR160A-x: es el nombre de las gramáticas bigramas de160 macrocategorías
entrenadas utilizando todo el corpus (entrenamiento y evaluación) del dominio de nuestra
aplicación, es decir, DARPA-ESPAÑOL. De ahí la letra A después de GR160,
que indica gramática adaptada. Esta gramática sólo tiene sentido como punto de
referencia, es decir, como el mejor comportamiento posible que se puede alcanzar en unas
condiciones determinadas. La x puede tomar los valores ya vistos (B,
S, C o J) en función del diccionario utilizado.
Anterior
I Siguiente I Índice capítulo 5 I Índice General
ISSN: 1139-8736
Depósito Legal: B-8714-2001 |