ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
5.3.2.3 Estimación de los Umbrales de Recorte: Método basado en un Histograma de Distancias de los Estados de los Caminos Óptimos de las Frases de Entrenamiento y en un Factor de Conservación
Para encontrar la correlación que mencionábamos en el apartado anterior se calcularán dos histogramas de distancias:
Basándonos en estos histogramas podremos saber, en promedio, cuántos estados del espacio de búsqueda general y cuántos estados de los caminos óptimos de las frases se procesarán cuando apliquemos un umbral de poda. Recuérdese que el umbral de poda es un umbral de distancia calculado sumando a la distancia del estado mejor (de menor distancia) una constante. Por tanto, el umbral de recorte decidirá las bandas del histograma que se procesarán (cada banda contiene los estados cuya diferencia de distancia se encuentra entre los límites de la misma), dando lugar a un factor de conservación (el % de los estados de los caminos óptimos que se procesarán al no ser eliminados por rl umbral de recorte).
El histograma de distancias de todos los espacios del espacio de búsqueda incluye la distribución de distancias de los estados de los caminos óptimos de todas las frases del corpus de entrenamiento. Al aplicar un umbral de poda sobre el histograma de distancias de todos los estados podemos conocer el número medio de estados que se procesarán en cada trama (coste computacional en cada trama). Si aplicamos este mismo umbral sobre el histograma de distancias de los estados de los caminos óptimos obtendremos el número de estados de los caminos óptimos que se procesarán en cada trama. Es este segundo conjunto el que determina la Tasa de Aciertos de Palabras del reconocedor. Por tanto, será el factor de conservación o número de estados de los caminos óptimos a procesar, el parámetro a correlar con la Tasa de Aciertos de Palabra del sistema. Además, el umbral de recorte aplicado sobre el histograma global (el de todos los estados) nos indicará el coste computacional efectivo.
Fig. 5.11 Histograma de distancias de los últimos estados del camino óptimo para todas las frases de entrenamiento de un locutor
En la figuras 5.11 y 5.12 podemos observar los histogramas que antes comentamos, mostrando cómo se distribuyen las distancias de los estados de los caminos óptimos de las frases de entrenamiento. Se diferencian los últimos estados de cada modelo HMM de palabra del resto de los estados del modelo.
En el eje x podemos observar las distintas bandas. Cada banda establece una franja de distancias con relación a la distancia del estado de menor distancia en cada trama El eje y representa el número de estados de los caminos óptimos de todas las frases de entrenamiento cuya distancia se encuentra en cada una de las bandas.
Es importante destacar el hecho de que el número de bandas establecido afectará a la resolución del proceso. Cuantas menos bandas tengamos, mayor será cada una de ellas, y más estados contendrán cada una de ellas. De ese modo, al aplicar un umbral, para procesar un determinado número de estados de los caminos óptimos (factor de conservación), estaremos determinando qué bandas se tienen que procesar (cada banda aportará una cantidad de estados). Si las bandas son muy anchas albergarán también muchos estados que no pertenecen a los caminos óptimos y que incrementarán el espacio de búsqueda activo y por tanto, el coste computacional.
Es importante por ello, llegar a un compromiso en cuanto al ancho de cada una de las bandas del histograma. De ese modo, podremos afinar con el valor del umbral y reducir el coste computacional global.
Fig. 5.12 Histograma de distancias de los estados no últimos del camino óptimo para todas las frases de entrenamiento de un locutor
Este razonamiento se entenderá mejor si se observan los histogramas de las gráficas 5.11 y 5.12 que se incluyen. La mayoría de los estados de los caminos óptimos se agrupan en la primera de las bandas, la más cercana al eje y. Si esta banda es muy ancha entrarán casi todos los estados de los caminos óptimos y será muy difícil jugar con el factor de conservación de los mismos, pero además, en esa banda entrarán muchos más estados que no son de los caminos óptimos y que realmente son los que afectan directamente al coste computacional en el sistema.
Una vez calculados los histogramas, podremos obtener, para los diferentes valores del factor de conservación que queramos considerar o estudiar, la constante a sumar al parámetro calculado en cada trama para determinar el umbral de recorte.
En la tabla 5.10 podemos encontrar los valores obtenidos para la constante a sumar en función de distintos factores de conservación. Estos resultados han sido obtenidos utilizando los datos (frases) del corpus de entrenamiento, considerando un solo umbral o dos umbrales de recorte a aplicar. En este caso no se utilizó información gramatical y los modelos de Markov utilizados son de baja calidad.
Datos de Entrenamiento Sin Gramática
D2, NG, D-S
PROMEDIO
Trama Actual
Espacio Tot:
31374 est.ANCHO DE HAZ CONSTANTE
Distancia a sumar a la Distancia Mínima (Margen)2 Umbrales 1 Umbral Factor de Conservación Resto Estados Últimos Estados Todos los
Estados100.0 % 300000 300000 300000 99.99 % 262200 163500 260400 99.90 % 222000 132900 217800 99.70 % 199800 113700 197250 99.50 % 189750 104700 186900 99.40 % 186150 100800 182850 99.30 % 182700 97950 179850 99.20 % 180150 95550 176700 99.10 % 177300 93600 173850 99.00 % 174750 91950 171450 98.50 % 165150 84300 161850 98.30 % 162300 82350 159000 98.00 % 158550 79650 154950 97.50 % 153000 75750 149550 Tabla 5.11 Umbrales Promedio para la estrategia de recorte implementada (Ancho de Haz Constante), con un sólo umbral o dos umbrales de recorte (Locutores: ENR, FER, LEA, ROM - Modelos D2 de Markov - Sin gramática - Diccionario D-S). Los umbrales han sido calculados utilizando los datos de entrenamiento.
La primera pregunta que surge está relacionada con la validez de las constantes obtenidas para los diferentes factores de conservación cuando los datos no son los de entrenamiento sino los de evaluación. Se plantea la generalidad de los umbrales de recorte que se van a obtener al sumar las constantes al parámetro calculado en cada trama cuando los datos no hayan sido observados en el cálculo de los histogramas.
Para intentar responder a esa pregunta, calculamos los mismos histogramas, manteniendo las mismas condiciones, pero ahora utilizando los datos de evaluación. Los resultados obtenidos se encuentran en la tabla 5.11, donde se pueden ver los valores de las constantes para los mismos factores de conservación, considerando uno y dos umbrales de recorte.
Datos de Evaluación - Sin gramática
D2, NG, D-S
PROMEDIO
Trama Actual
Espacio Tot:
31374 est.ANCHO DEL HAZ CONSTANTE
Distancia a sumar a la Distancia Mínima (Margen)2 Umbrales 1 Umbral Factor de Conservación Resto Estados Últimos Estados Todos los Estados 100.0 % 300000 300000 300000 99.99 % 227100 161000 216584 99.90 % 194350 115150 192400 99.70 % 177700 97500 175500 99.50 % 168150 91450 165400 99.40 % 164200 89250 161350 99.30 % 161000 85350 158500 99.20 % 158500 83150 155900 99.10 % 156250 80800 153200 99.00 % 153950 78350 150600 98.50 % 144100 72600 140900 98.30 % 141350 70150 138000 98.00 % 137400 67600 134150 97.50 % 131900 63250 128750 Tabla 5.12 Umbrales Promedio para la estrategia de recorte implementada (Ancho de Haz Constante), con un sólo umbral o dos umbrales de recorte (Locutores: ENR, FER, LEA, ROM - Modelos D2 de Markov - Sin gramática - Diccionario D-S). Los umbrales han sido calculados utilizando los datos de evaluación.
Para poder ver con mayor claridad que en las tablas 5.10 y 5.11 la relación entre las constantes calculadas con los datos de entrenamiento y de evaluación, se incluye la gráfica de la figura 5.13, donde se muestra la evolución de los umbrales para los datos de entrenamiento y de reconocimiento en función de los factores de conservación.
Puede observarse que la evolución de las dos curvas es similar, por lo que a partir de ahora, y en aras de reducir tiempo de experimentación trabajaremos exclusivamente con constantes obtenidas de los datos de evaluación. Posteriormente veremos que pueden utilizarse los datos de entrenamiento para obtener conclusiones sobre las constantes a utilizar y las tasas de reconocimiento que se esperan obtener.
Si se observan los puntos A,B ,C y D podemos deducir que los umbrales de recorte calculados con las constantes obtenidas utilizando los datos de entrenamiento son claramente conservadores. Ello es debido a que la dispersión de las distancias de los estados del espacio de búsqueda es mayor al existir un mayor número de datos (el conjunto de datos de entrenamiento es 6 veces mayor que el conjunto de evaluación).
Por tanto, si utilizamos los umbrales de recorte calculados con los datos de entrenamiento para experimentar con los datos de evaluación, obtendremos Tasas de Acierto de Palabras (WA) mayores al mismo tiempo que índices de eficiencia menores.
La causa de ello es que los umbrales de recorte aplicados son mayores que los expresamente calculados con los datos de evaluación (más adaptados), recortando menos el espacio de búsqueda.
Fig. 5.13 Evolución del valor de las constantes de recorte calculadas para distintos factores de conservación, tanto para histogramas calculados con los datos de entrenamiento (corpus SR) como los calculados con los datos de evaluación (corpus ST).
Conviene destacar las diferencias entre los puntos A y C de las curvas de la figura 5.13. Se observa que a mayor factor de conservación el valor de la constante calculada con los datos de entrenamiento y utilizada en los experimentos de evaluación conduce a factores de conservación más cercanos al fijado con los datos de entrenamiento. Esto nos indica que el recorte del espacio de búsqueda conseguido con los umbrales calculados con los datos de entrenamiento será bastante menor en los experimentos de evaluación a medida que el factor de conservación disminuye, y por tanto, los umbrales calculados, aunque utilizables por conservadores, no serán eficientes.
Una vez conocidos esos indicadores, podemos procesar las frases y conocer la repercusión en la tasa de acierto de palabras (calidad del sistema) y poder establecer una cierta correlación tanto por ciento del espacio óptimo procesado degradación del sistema, lógicamente al aplicar un umbral estimado en base a ese histograma. Esta correlación podrá encontrarse en los resultados y gráficas incluidas en el apartado de experimentación al final de esta capítulo.
Anterior I Siguiente I Índice capítulo 5 I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |