ISSN: 1139-8736
Depósito Legal: B-8714-2001

2.4.1.2 El Problema del Reconocimiento Automático del Habla

La cuestión principal ha sido determinar cuáles son las posibles causas que hacen tan difícil llevar a cabo un reconocimiento automático del habla en condiciones generales, de forma que se pueden buscar soluciones parciales a cada uno de los problemas y conseguir una solución global lo más óptima posible. Algunas de estas causas son [LEA79]:

Debido a todos estos problemas y algunos más, toda tarea de reconocimiento automático de habla continua se enfrenta a la necesidad de tener que tomar decisiones  a pesar de la falta de información asociada a cada uno de ellos, teniendo en cuenta que en cualquier sistema existe una interdependencia entre las decisiones tomadas en diferentes niveles. Si fuese posible reconocer alófonos o palabras con una alta tasa de acierto, no sería necesario utilizar técnicas de decisión que necesitan ciertos retardos, técnicas de corrección de errores y en métodos estadísticos [LEV85] [LEA79] [FU82]. Además, la solución a estos problemas no parece ser posible en un futuro cercano, con lo que los sistemas de reconocimiento deben tratar con una gran cantidad de hipótesis a nivel de alófonos, de palabras o de frases, e idealmente tienen que tener en cuenta las "restricciones de alto nivel" aportadas por la sintaxis, la semántica y la pragmática textual [FU82] [HER87].

La Teoría de la Decisión Estadística nos enseña cómo minimizar la probabilidad de cometer errores durante el reconocimiento [NEY93], es decir, encontrar la secuencia de palabras que tienen la mayor probabilidad de estar asociada a la secuencia de observaciones acústicas de entrada. A través del Teorema de Bayes sobre la probabilidad condicional [LEV83] [NEY93], el problema anterior se puede volver a escribir de modo que la búsqueda de la secuencia de palabras se convierte en un problema de buscar la secuencia de palabras que producen un máximo de probabilidad a priori (modelo de lenguaje) y que además, producen la secuencia de observaciones con máxima probabilidad (modelo acústico). Es decir ha dividido el problema en dos de posible solución (un problema de decodificación lingüística y otro de decodificación acústica).

Para resolver el nuevo problema necesitaremos modelar las restricciones propias de la lengua a través del modelo gramatical y la probabilidad de observar la secuencia de observaciones acústicas cuando el locutor o locutores pronuncien la secuencia de palabras de la frase, probabilidad estimada durante la fase de entrenamiento de los HMM [LEV83]. La decisión acerca de las palabras reconocidas se toma mediante el uso de un procedimiento de optimización que utiliza información de diversas fuentes: el modelo de lenguaje, los modelos acústico-fonéticos asociados a los distintos alófonos que darán lugar a las palabras, y el diccionario que indica la composición de las palabras a reconocer según los alófonos modelados. A este procedimiento de optimización se le conoce como procedimiento de "búsqueda en un espacio de estados" que estará definido por la interacción de las diferentes fuentes de conocimiento [NEY90]. A veces, por razones de coste computacional y de memoria, se simplifica el espacio de búsqueda, eliminando la interrelación inherente entre el modelo lingüístico y el acústico, con el consiguiente aumento de la entropía del sistema y el riesgo de aumentar el error de reconocimiento (sistemas no integrados).

Anterior   I  Siguiente   I  Índice capítulo 2   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001