ISSN: 1139-8736
Depósito Legal: B-8714-2001

5.4.3.2 Con la gramática GR160S-J

A continuación mostramos los experimentos realizados con las  dos posibles estrategias basadas en el número de umbrales de recorte para los cuatro locutores de la base de datos en castellano, pero incorporando gramática de macrocategorías y un modelado de Markov de mejor calidad basado en HMM Semicontinuos. De este modo comparamos los efectos del recorte de caminos basado en la técnica del umbral constante del mejor caso con el caso peor que analizamos antes (Modelos HMM Discretos de dos codebooks y sin gramática). Incluimos sólo los resultados promedios calculados sobre los resultados de cada uno de los cuatro locutores.

Los resultados promedio para los cuatro locutores (cuyos resultados individuales se encuentran en el Apéndice 5.6),  con diferentes porcentajes de recorte y el empleo de uno o dos umbrales se muestran en la tabla 5.51:

S3V, GR160S-J PROMEDIO Umbral Constante
2 Umbrales
Umbral Constante
1 Umbral
Factor de Conservación Espacio Óptimo Tasa Acierto de Palabras (WA) Espacio Activo Promedio Tasa Acierto de Palabras (WA) Espacio Activo Promedio
100 % 82.87 44142 (100 %) 82.87 44142 (100 %)
98.5 % 77.19 1147 (2.59 %) 77.09 1098 (2.48 %)
98.3 % 72.94 826 (1.87 %) 73.26 788 (1.78 %)
98.0 % 71.46 725 (1.64 %) 71.44 686 (1.55 %)
97.5 % 64.64 521 (1.18 %) 65.86 503 (1.13 %)
97.3 % 62.56 471 (1.06 %) 62.14 446 (1.01 %)
97.0 % 58.87 396 (0.89 %) 59.17 373 (0.84 %)
96.5 % 53.12 306 (0.69 %) 53.71 297 (0.67 %)

Tabla 5.52 Resultados promedio de los experimentos realizados con los cuatro locutores (ENR, FER, LEA y ROM), con modelos HMM S3V, con la gramática GR160S-J y el diccionario D-J. En estos experimentos se ha aplicado el umbral de recorte o los umbrales de recorte propuestos por la técnica ya comentada en este mismo capítulo, y se ha promediado la Tasa de Acierto de Palabras y el Espacio de Búsqueda Activo para cada umbral.

Las bandas de probabilidad para los diferentes porcentajes se encuentran en la tabla y el gráfico que incluimos a continuación:

SISTEMA WA Mínimo WA Medio WA Máximo
2U-100 80.612 82.870 85.128
2U-98.5 74.676 77.190 79.704
2U-98.3 70.278 72.940 75.602
2U-98.0 68.754 71.460 74.166
2U-97.5 61.775 64.640 67.505

Tabla 5.53 Bandas de Probabilidad asociadas a los resultados de la tabla 5.52, para los distintos umbrales de recorte, considerando dos umbrales, o lo que es lo mismo, para distintos proporciones del espacio de búsqueda óptimo a procesar.


Fig. 5.28 Diagrama donde se observa el valor máximo, medio y mínimo de la Tasa de Acierto de Palabras, es decir, la banda de probabilidad, asociada a cada sistema, es decir, a los distintos umbrales de recorte aplicados en el sistema S3V, GR160S-J. Para el caso de dos umbrales.

Se puede deducir que calcular el 98.5 % o el 97.5% del espacio de búsqueda óptimo supone reducciones de la tasa de acierto de palabras significativas frente a la no reducción pero también supone la disminución considerable del cálculo en el sistema.

TEST B. 2U-98.5 2U-98.3 2U-98.0 2U-97.5
2U-100 2U-100 2U-100 2U-100 2U-100
2U-98.5 ----- IGUAL 2U-98.5 2U-98.5
2U-98.3 ----- ----- IGUAL 2U-98.3
2U-98.0 ----- ----- ----- 2U-98.0

Tabla 5.54 Tabla de Comparación de Sistemas asociada con la tabla 5.52 y 5.53

Las bandas de probabilidad en el caso de un umbral de recorte están incluidas en forma de tablas y de gráficos:

SISTEMA WA Mínimo WA Medio WA Máximo
1U-100 80.612 82.870 85.128
1U-98.5 74.572 77.090 79.608
1U-98.3 70.608 73.260 75.912
1U-98.0 68.733 71.440 74.147
1U-97.5 63.019 65.860 68.701

Tabla 5.55 Bandas de Probabilidad asociadas a los resultados de la tabla 5.52, para los distintos umbrales de recorte, considerando un solo umbral, o lo que es lo mismo, para distintos proporciones del espacio de búsqueda óptimo a procesar.


Fig. 5.29 Diagrama donde se observa el valor máximo, medio y mínimo de la Tasa de Acierto de Palabras, es decir, la banda de probabilidad, asociada a cada sistema, es decir, a los distintos umbrales de recorte aplicados en el sistema S3V, GR160S-J. Para el caso de un solo umbral.

Y podemos llegar a las misma conclusiones que en el caso anterior:

TEST B. 1U-98.5 1U-98.3 1U-98.0 1U-97.5
1U-100 1U-100 1U-100 1U-100 1U-100
1U-98.5 ----- IGUAL 1U-98.5 1U-98.5
1U-98.3 ----- ----- IGUAL   1U-98.3
1U-98.0 ----- ----- ----- 1U-98.0

Tabla 5.56 Tabla de Comparación de Sistemas asociada con la tabla 5.52 y 5.55

Si comparamos ambas estrategias con los diferentes niveles de recorte seguimos alcanzando las mismas conclusiones, es decir, que el cálculo del  98.5 % o el 97.5% del espacio de búsqueda óptimo supone reducciones de la tasa de acierto de palabras significativas frente a la no reducción pero también supone la disminución considerable del cálculo en el sistema.

SISTEMA WA Mínimo WA Medio WA Máximo
2U-100 80.612 82.870 85.128
1U-100 80.612 82.870 85.128
2U-98.5 74.676 77.190 79.704
1U-98.5 74.572 77.090 79.608
2U-98.3 70.278 72.940 75.602
1U-98.3 70.608 73.260 75.912
2U-98.0 68.754 71.460 74.166
1U-98.0 68.733 71.440 74.147
2U-97.5 61.775 64.640 67.505
1U-97.5 63.019 65.860 68.701

Tabla 5.57 Bandas de Probabilidad asociadas a los resultados de la tabla 5.52, para los distintos umbrales de recorte, considerando un solo umbral y dos umbrales, o lo que es lo mismo, para distintos proporciones del espacio de búsqueda óptimo a procesar.


Fig. 5.30 Diagrama donde se observa el valor máximo, medio y mínimo de la Tasa de Acierto de Palabras, es decir, la banda de probabilidad, asociada a cada sistema, es decir, a los distintos umbrales de recorte aplicados en el sistema S3V, GR160S-J. Para los casos de dos umbrales y de un umbral.

En la siguiente tabla se resumen las comparaciones entre los sistemas que usan las dos estrategias (uno y dos umbrales), para los valores promedio de los cuatro locutores, y distintos porcentajes del espacio de búsqueda óptimo:

TEST B. 1U-100  2U-98.5 1U-98.5 2U-98.3 1U-98.3 2U-98.0 1U-98.0 2U-97.5 1U-97.5
2U-100 IGUAL 2U-100 2U-100 2U-100 2U-100 2U-100 2U-100 2U-100 2U-100
1U-100 ----- 1U-100 1U-100 1U-100 1U-100 1U-100 1U-100 1U-100 1U-100
2U-98.5 ----- ----- IGUAL IGUAL IGUAL 2U-98.5 2U-98.5 2U-98.5 2U-98.5
1U-98.5 ----- ----- ----- IGUAL IGUAL 1U-98.5 1U-98.5 1U-98.5 1U-98.5
2U-98.3 ----- ----- ----- ----- IGUAL IGUAL IGUAL 2U-98.3 2U-98.3
1U-98.3 ----- ----- ----- ----- ----- IGUAL IGUAL 1U-98.3 1U-98.3
2U-98.0 ----- ----- ----- ----- ----- ----- IGUAL 2U-98.0 2U-98.0
1U-98.0 ----- ----- ----- ----- ----- ----- ----- 1U-98.0 1U-98.0
2U-97.5 ----- ----- ----- ----- ----- ----- ----- ----- IGUAL

Tabla 5.58  Tabla de Comparación de Sistemas asociada con la tabla 5.52 y 5.57

En la gráfica 5.31 se puede observar cómo apenas existen diferencias en cuanto a la Tasa de Acierto de Palabra (WA) entre los sistemas que utilizan uno o dos umbrales de recorte. Y la pendiente nos muestra la degradación que sufren los sistemas si eliminamos los estados del espacio de búsqueda óptimo. La pendiente es similar entre ambos sistemas D2,NG y S3V,GR160S-J, aunque para éste último las tasas son mejores.

Fig. 5.31 Descenso de la Tasa de Acierto de Palabra (WA) (Eje Y) en función del % del espacio de búsqueda óptimo procesado (Eje X), para los sistemas D2,NG y S3V,GR160S-J, utilizando uno o dos umbrales de recorte.

En la figura 5.32 se observa la reducción de cálculo en los sistemas (menor número de estados a procesar del espacio de búsqueda global) en función del umbral o los umbrales de recorte. Puede verse un descenso con gran pendiente, alcanzando rápidamente índices de reducción elevados para recortes relativamente pequeños. Es necesario, por tanto, encontrar ese punto de equilibrio en el que, la Tasa de Acierto de Palabra (WA) (figura 5.31) no se degrade demasiado y la reducción se mantenga significativa.

Fig. 5.32 Reducción del espacio de búsqueda total a procesar (número de estados) (Eje Y)
en función del % del espacio de búsqueda óptimo procesado (Eje X), es decir, del recorte efectuado, para los sistemas
D2,NG y S3V,GR160S-J, utilizando uno o dos umbrales de recorte.

Conclusión: en este apartado 5.4.3 hemos analizado los resultados obtenidos en distintos experimentos con los cuatro locutores de la base de datos de habla en castellano. Hemos analizado las ventajas de utilizar la técnica de reducción del espacio de búsqueda en un sistema de reconocimiento de habla continua conocida como “Umbral Constante”, con dos posibilidades o estrategias (variantes) como son la de un único umbral y la de dos umbrales (diferenciando los últimos estados de cada palabra). Se ha comprobado la eficiencia de esta técnica en dos casos, el peor (utilizando Modelos HMM Discretos de dos codebooks sin gramática) y uno de los mejores (Modelos HMM Semicontinuos con tres codebooks con gramática bigrama de macrocategorías). Del análisis de todos los resultados se deduce que no se han encontrado ventajas al utilizar los dos umbrales más bien desventajas al haber un pequeño incremento del número de estados que se procesan del espacio de búsqueda global. Además, reducir a un 98.5%  los estados del espacio de búsqueda óptimo que se procesan supone una reducción promedia del 4.58% de la tasa de aciertos (de 66.81% sin recorte a 62.23% con una reducción al 7.5% del espacio de búqueda global, es decir, de 31374 estados sólo se calculan 2353) para el caso peor y del 5.78% de la tasa de aciertos (de un 82.87% sin recorte pasa a un 77.09% con una reducción al 2.45% del espacio de búsqueda global, es decir, con sólo calcular 1081 estados de los 44142 que habría que calcular) para el caso mejor, y que en general, y más en el caso del mejor sistema, las reducciones son más controlables, pudiendo afinar más en el proceso de recorte, y manteniendo diferencias que se han mostrado significativas. Como podemos comprender, sería necesario realizar un conjunto de experimentos mayor que el nuestro para determinar aquel punto en el que la pérdida en tasa de acierto de palabras no disminuye significativamente mientras que la reducción del espacio de estados a calcular sí lo hace.

Anterior   I  Siguiente   I  Índice capítulo 5   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001