ISSN: 1139-8736
Depósito Legal: B-8714-2001 |
2.4.1.4 Técnicas más utilizadas aplicadas al Reconocimiento de Habla
En la literatura científica asociada a esta área de conocimiento se
pueden encontrar diversas técnicas de clasificación de patrones de voz [NEY90].
Aquellas que mejores resultados han obtenido y las más prometedoras parecen que son las
que a continuación se mencionan.
- Comparación de Plantillas o Patrones utilizando técnicas de Programación
Dinámica (DTW). Consiste en comparar el patrón a reconocer (de entrada) con una
serie de plantillas o patrones que representan a las unidades a reconocer. La plantilla no
es más que un conjunto de características acústicas ordenadas en el tiempo (secuencia
de vectores de parámetros o índices de una librería de centroides o codebook), y
la comparación de patrones incluye un alineamiento temporal no lineal y una medida de
distancia. Esta técnica, utilizada tanto para resolver problemas de reconocimiento de
habla continua como aislada e incluso con una cierta independencia del locutor, se conoce
como DTW (Dynamic Time Warping) [SAK79][MYE81][BEL65].
- Modelos Ocultos de Markov (HMM). El modelado estocástico de la señal de habla
soluciona el problema que presentaba la técnica de alineamiento de plantillas,
proporcionando los mejores resultados hasta la fecha tanto para el reconocimiento de habla
aislada como continua y para independencia del locutor. En el fondo la filosofía de
comparación de patrones subyace en este tipo de aproximación al problema pero difiere en
la forma en la que se obtienen los patrones, el tipo de patrón, la medida de distancia y
la forma de realizar el alineamiento temporal utilizando estos últimos. Ahora, utilizamos
un algoritmo de alineamiento no lineal (Programación Dinámica) conocido como algoritmo
de Viterbi, capaz de alinear la secuencia de vectores de entrada o índices de
un codebook con el conjunto de patrones estocásticos (HMM) que representan las palabras
del diccionario, en forma de la probabilidad de que esa secuencia sea observada (generada)
por los distintos Modelos Ocultos de Markov [LEV85][LEV83].
- Redes Neurales o Neuronales (NN). Las redes neuronales son estructuras de
procesamiento paralelo de información, formadas por numerosos nodos simples conectados
entre sí mediante pesos y agrupados en diferentes capas, entre las que se deben
distinguir la capa de entrada y la capa de salida. Debido a su naturaleza intrínsecamente
no lineal, a su capacidad de clasificación, y sobre todo a la capacidad que tienen para
aprender una determinada tarea a partir de pares observación-objetivo sin hacer
suposición alguna sobre el modelo subyacente, se han convertido en una de las
herramientas más atractivas para la solución del problema del reconocimiento de habla.
Hoy en día se han conseguido resultados comparables a los obtenidos con otros métodos ya
clásicos como los HMM. Sin embargo, presentan diferentes problemas o inconvenientes como
pueden ser: desconocimiento a priori de la estructura de capas y número de nodos
necesarios para cada problema; un tiempo a veces excesivamente elevado para su
entrenamiento y la posibilidad de quedar "anclados" en mínimos locales de las
funciones de coste usadas durante el entrenamiento de la red. Además, la señal de habla
requiere de métodos con capacidad de proceso en dos dimensiones, espacio y tiempo, y las
redes neuronales, por sí solas, sólo tienen capacidad de procesado espacial. Ello nos
obliga a combinar técnicas de Programación Dinámica así como HMM con estas redes,
consiguiendo modelar la variable tiempo, permitiendo no sólo la clasificaciones muy
acertadas de las entradas de la red sino además la segmentación de la señal de entrada.
Sin embargo, se han probado otras soluciones que incorporen a las redes algún tipo de
memoria (finita [KOM91], lazos de realimentación [LEE91][BEN91], o ambas [BOU89]), pero
dificulta en gran medida el análisis de estas redes debido a su carácter no lineal.
Anterior
I Siguiente I Índice capítulo 2 I Índice General
ISSN: 1139-8736
Depósito Legal: B-8714-2001 |