ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
2.4.1.2 El Problema del Reconocimiento Automático del Habla
La cuestión principal ha sido determinar cuáles son las posibles causas que hacen tan difícil llevar a cabo un reconocimiento automático del habla en condiciones generales, de forma que se pueden buscar soluciones parciales a cada uno de los problemas y conseguir una solución global lo más óptima posible. Algunas de estas causas son [LEA79]:
- Falta de cuidado al pronunciar algunas palabras. A veces ciertas palabras de duración breve se omiten (palabras función como preposiciones. conjunciones, ...) o se transforman en sonidos extraños. También, a veces la velocidad que adquiere un hablante al pronunciar las palabras es demasiado elevada de forma que no existe una clara transición entre las diferentes sílabas, llegando a la fusión u omisión de algunas de ellas.
- Variaciones fonéticas. Las frecuencias de los formantes, el locus y las duraciones de las transiciones pueden cambiar a lo largo del tiempo, lo que produce un cierto alejamiento de los patrones o reglas utilizadas durante el reconocimiento.
- Coarticulación. Las características acústicas de los sonidos se ven afectadas por el contexto en el que se encuentran. La mayoría de estos efectos se traducen en alófonos que tiene cada fonema. Ello supone la necesidad de tener múltiples patrones que tengan en cuenta estas variaciones.
- Variaciones temporales. La duración de una palabra e incluso de los sonidos puede cambiar, generando la necesidad de realizar alineamientos dinámicos, que permitan tener en cuenta a estas posibles variaciones.
Debido a todos estos problemas y algunos más, toda tarea de reconocimiento automático de habla continua se enfrenta a la necesidad de tener que tomar decisiones a pesar de la falta de información asociada a cada uno de ellos, teniendo en cuenta que en cualquier sistema existe una interdependencia entre las decisiones tomadas en diferentes niveles. Si fuese posible reconocer alófonos o palabras con una alta tasa de acierto, no sería necesario utilizar técnicas de decisión que necesitan ciertos retardos, técnicas de corrección de errores y en métodos estadísticos [LEV85] [LEA79] [FU82]. Además, la solución a estos problemas no parece ser posible en un futuro cercano, con lo que los sistemas de reconocimiento deben tratar con una gran cantidad de hipótesis a nivel de alófonos, de palabras o de frases, e idealmente tienen que tener en cuenta las "restricciones de alto nivel" aportadas por la sintaxis, la semántica y la pragmática textual [FU82] [HER87].
La Teoría de la Decisión Estadística nos enseña cómo minimizar la probabilidad de cometer errores durante el reconocimiento [NEY93], es decir, encontrar la secuencia de palabras que tienen la mayor probabilidad de estar asociada a la secuencia de observaciones acústicas de entrada. A través del Teorema de Bayes sobre la probabilidad condicional [LEV83] [NEY93], el problema anterior se puede volver a escribir de modo que la búsqueda de la secuencia de palabras se convierte en un problema de buscar la secuencia de palabras que producen un máximo de probabilidad a priori (modelo de lenguaje) y que además, producen la secuencia de observaciones con máxima probabilidad (modelo acústico). Es decir ha dividido el problema en dos de posible solución (un problema de decodificación lingüística y otro de decodificación acústica).
Para resolver el nuevo problema necesitaremos modelar las restricciones propias de la lengua a través del modelo gramatical y la probabilidad de observar la secuencia de observaciones acústicas cuando el locutor o locutores pronuncien la secuencia de palabras de la frase, probabilidad estimada durante la fase de entrenamiento de los HMM [LEV83]. La decisión acerca de las palabras reconocidas se toma mediante el uso de un procedimiento de optimización que utiliza información de diversas fuentes: el modelo de lenguaje, los modelos acústico-fonéticos asociados a los distintos alófonos que darán lugar a las palabras, y el diccionario que indica la composición de las palabras a reconocer según los alófonos modelados. A este procedimiento de optimización se le conoce como procedimiento de "búsqueda en un espacio de estados" que estará definido por la interacción de las diferentes fuentes de conocimiento [NEY90]. A veces, por razones de coste computacional y de memoria, se simplifica el espacio de búsqueda, eliminando la interrelación inherente entre el modelo lingüístico y el acústico, con el consiguiente aumento de la entropía del sistema y el riesgo de aumentar el error de reconocimiento (sistemas no integrados).
Anterior I Siguiente I Índice capítulo 2 I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |