ISSN: 1139-8736
Depósito Legal: B-8714-2001

5.3.1.1 El Problema del Silencio Acústico (Pausas entre Palabras)

En todo proceso de reconocimiento de habla continua es necesario plantearse la posibilidad de que el locutor haya introducido pausas en la frase a reconocer, en cualquier lugar de la misma y con duraciones variadas e indeterminadas. Para que esas pausas puedan ser tenidas en cuenta durante la decodificación del mensaje, y permitir por tanto un mejor alineamiento temporal entre las observaciones acústicas y la secuencia de palabras (modelos HMM) reconocida (con la consiguiente disminución de errores), es necesario incluir un modelo de Markov entrenado con pausas acústicas, de distinta duración, que llamaremos modelo de silencio. Lo normal es entrenar varios modelos de Markov de silencio diferentes que tengan en cuenta los diversos contextos en los que pueden aparecer las pausas, es decir, al principio y al final de frase (debido a errores de la detección del principio y del fin de la frase), y entre cualesquiera dos palabras (pausa interna). Cuando no utilizamos gramática en el proceso de reconocimiento, los modelos de silencio son tratados como si de palabras del diccionario se tratasen, permitiendo que aparezcan en cualquier momento y entre cualesquiera dos palabras, incluso que puedan autoencadenarse entre ellos. Sin embargo, la incorporación de una gramática guiando el proceso de reconocimiento acústico supone un problema ya que las gramáticas empleadas son entrenadas a partir de corpora textuales etiquetados en los que no aparece el fenómeno acústico de la pausa o silencio. Por ello, la gramática nunca propondrá en el proceso de búsqueda o reconocimiento la posibilidad de que a una determinada palabra le siga una pausa. Por ello, para no tener que modificar artificialmente las gramáticas obtenidas a partir de textos, supondremos que la pausa debe ser propuesta como evento acústico por el Módulo Acústico y que no tiene naturaleza gramatical. Debido a ello no se verá afectada por ninguna ponderación gramatical (no existirá ninguna probabilidad asociada al hecho de que aparezca siguiendo a otra palabra o a ella misma como ocurre con el resto de las palabras).

El Módulo Acústico incorporará el silencio en el espacio de búsqueda en todo momento, permitiendo que conecte (como si de una palabra más se tratara) con cualquier palabra del espacio de búsqueda e incluso que pueda autoencadenarse.  Cuando una palabra sigue a un silencio, es necesario recuperar el camino hacia atrás (Backtracking Parcial) al que pertenece ese silencio hasta encontrar la primera palabra distinta de silencio para poder aplicar la probabilidad de la gramática para esa secuencia de palabras. Con ello hacemos transparente el proceso de reconocimiento de las pausas del guiado gramatical.

Anterior   I  Siguiente   I  Índice capítulo 5   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001