5.3 Módulo Acústico (Algoritmo de Un Paso)

ISSN: 1139-8736
Depósito Legal: B-8714-2001

El algoritmo de reconocimiento de habla es una adaptación del conocido algoritmo de Un Paso, que ha probado ser más eficiente en coste computacional y en memoria que otros algoritmos conocidos (Dos Pasos, Constructor de Niveles) basados en Programación Dinámica. La idea fundamental es utilizar la información gramatical (sintáctica y léxica) para construir o generar un espacio de estados, en forma de autómata de estados finitos cuyo elemento (estado) básico es un estado de un modelo HMM, y cuya tabla de transiciones es el resultado de compilar el autómata de la gramática junto con el autómata de estados de la transcripción alofónica de cada palabra y el autómata de estados de Markov de cada uno de los alófonos de esa transcripción. Sobre esta red de estados de Markov (espacio de estados), el algoritmo de Un Paso debe encontrar la secuencia de palabras asociada a la secuencia de estados óptima, basándose en los principios de la Programación Dinámica.

Para poder reducir los cálculos del algoritmo de búsqueda, acelerando el proceso de reconocimiento, se ha incorporado un mecanismo de poda de caminos conocido como Búsqueda en Haz (Beam-Search). Este procedimiento está basado en calcular, para cada trama, el estado de la red con más alta probabilidad y aplicando un umbral (calculado empíricamente), marcar para no procesar aquellos estados cuya probabilidad queda fuera de ese margen. Con ello se consiguen reducciones del espacio de estados considerables sin llegar a afectar a la tasa de reconocimiento, es decir, sin aumentar los errores en el proceso de decodificación acústica.

Al Módulo Acústico se le deben proporcionar los siguientes ficheros:

Fichero de Configuración. Contiene toda la información necesaria para que el Módulo Acústico sepa qué modelos HMM utilizar, con cuantos codebooks, las penalizaciones para la inserción de palabras (PIP) y para la información gramatical, los pesos para cada codebook, el margen de poda de la técnica de búsqueda en haz (beam search), el fichero con los resultados, el nombre de los ficheros de la gramática, del léxico, etc.
Modelos HMM. Esta información variará en función del tipo de HMM a utilizar. Nuestro Módulo Acústico es capaz de trabajar con modelos discretos y semicontinuos, de dos y tres codebooks. Además sería muy fácil incorporar la posibilidad de funcionar con modelos continuos. Son modelos HMM de alófono, dependientes o independientes del contexto, pues eso será una información que aparecerá en los diccionarios transcritos que lee el Módulo Léxico. Sí sería necesario, en el caso de modelos dependientes del contexto, variar el Módulo Acústico para que mantenga todos los posibles contextos en los alófonos que son principio y final de palabra, para que el algoritmo de reconocimiento pueda decidir, utilizando o no la información gramatical, aquellos contextos que deben ser considerados y poder comprobar todas las posibilidades.

Fig.5.8 Módulo Acústico. Detalle de los datos de Entrada y de Salida.

Diccionario de Alófonos (*.FON). En él se encuentran los alófonos considerados para representar los distintos sonidos de la lengua. Está estrechamente relacionado con los modelos HMM utilizados por el Módulo Acústico, dependiendo de si utilizamos modelos HMM de alófono independientes del contexto, o contextuales (trialófonos) que aportan mucha más información acústica al sistema si los datos de habla para entrenarlos o generarlos son suficientes. Cada alófono (contextual o no) tendrá un código asociado. La transcripción de cada palabra consiste en la secuencia de códigos (alófonos) que forman parte de ella. Cada alófono tiene asociado un modelo HMM.

Anterior I Siguiente I Índice capítulo 5 I Índice General

ISSN: 1139-8736
Depósito Legal: B-8714-2001