ISSN: 1139-8736
Depósito Legal: B-8714-2001

7.1 Conclusiones

Este trabajo de tesis doctoral se ha planteado analizar la problemática del proceso de comprensión de habla, no sólo desde un punto de vista científico sino también técnico, concluyendo con el diseño, implementación y evaluación de un Sistema de Comprensión de Habla en castellano.

En el marco de esta tesis se ha realizado una revisión de distintas soluciones que han sido propuestas por diversos grupos de investigación internacionales para resolver el problema de la comprensión de habla; la mayoría para otras lenguas diferentes del castellano, en la que los esfuerzos realizados hasta la fecha son escasos si los comparamos con otras como el inglés (americano y británico), el francés o el italiano. Del análisis se han obtenido conclusiones que han sido tenidas en cuenta en el diseño del sistema.

Con toda la información obtenida del análisis y nuestra experiencia anterior en el campo del procesamiento de habla, principalmente reconocimiento y síntesis de habla en castellano, se ha definido una arquitectura no integrada en dos niveles novedosa para la comprensión del habla en castellano, es decir, teniendo en cuenta características del castellano como lengua natural que no aparecen o aparecen menos acentuadas en otras lenguas. Esta arquitectura pretende ser la base de futuros trabajos en esta línea en el Grupo de Tecnología del Habla, de la Universidad Politécnica de Madrid. La arquitectura diseñada e implementada tiene suficientes grados de libertad para permitir el balanceo del sistema en distintas direcciones. Parece claro que implementar un sistema de comprensión en una sola etapa no es algo sencillo ni recomendable y sólo en casos muy concretos y limitados podría tener sentido. El problema es cómo integrar todas las fuentes de información y los procesos que tienen lugar en el sistema, manteniendo unas características mínimas deseables que ya hemos comentado. En nuestro caso apostamos por desarrollar un módulo de decodificación acústica (sistema de reconocimiento de habla continúa) capaz de funcionar en casi tiempo real sin necesidad de plataformas hardware excesivamente costosas, y con la cobertura a nivel léxico y gramatical suficiente para decodificar lo más correctamente posible la frase o consulta hablada por el usuario. Debe permitir manejar diccionarios de un tamaño suficientemente grande (por encima de 5.000 palabras) con la suficiente eficiencia y buena tasa de aciertos de palabra.

Con el objetivo de comprender habla perteneciente a un dominio semántico restringido (limitado por los conceptos que existen en el dominio de una aplicación concreta), esta arquitectura tiene como características principales:

La arquitectura diseñada, implementada y evaluada en el marco de esta tesis, está basada en el uso de autómatas finitos conceptuales probabilísticos (cada concepto es un autómata finito probabilístico de categorías semánticas pertenecientes al dominio de aplicación) y marcos semánticos,  que decodifican conceptualmente la frase de entrada, a pesar de los errores que antes se han comentado. Estos autómatas finitos conceptuales han sido inferidos automáticamente a partir de un corpus de frases del dominio segmentadas y etiquetadas manualmente, mediante el uso de herramientas diseñadas e implementadas en esta tesis.

La característica de robustez ha sido conseguida relajando las restricciones de esta gramática conceptual, tanto desde un punto de vista estructural como léxico, incorporando un concepto y una categoría especiales, que denominamos basura, así como permitiendo que se pueda reconocer cualquier secuencia de conceptos que esté asociada a una frase (ergodicidad).

Sin embargo, estos mecanismos de robustez plantean problemas, sobre todo en la resolución de ambigüedades semánticas y en la complejidad estructural de las frases a procesar. En lugar de imponer restricciones poco naturales al modelo del dominio y a las frases que el sistema pueda procesar, se ha preferido abordar el estudio en profundidad de los mismos y plantear soluciones realistas, que han dado lugar a los distintos módulos de la arquitectura que se presenta. Los diferentes módulos incorporan conocimiento lingüístico de distinta naturaleza, lo que ha permitido estudiar la interacción de distintas fuentes de conocimiento lingüístico y un modo eficaz de integrarlas, en el proceso de comprensión.

Se ha utilizado información semántica en forma de rasgos, que complementan a las categorías semánticas del diccionario, permitiendo resolver ciertos problemas de ambigüedad semántica debidos a la falta de información sobre las relaciones de larga distancia entre los conceptos. Se ha combinado una gramática contextual simplificada (soluciona problemas de ambigüedad semántica y elipsis) con una gramática semántica de contexto libre robusta y reducida (obtiene la información estructural a nivel conceptual de las consultas de entrada). Esta combinación de gramáticas y el uso de plantillas semánticas (representación del conocimiento de la frase de entrada) permite el procesamiento de frases de cierta complejidad de forma sencilla, mediante la descomposición de la misma en varias consultas elementales sobre las que se aplican una o varias funciones (SQL o no). Además, mantienen el proceso de traducción a SQL dentro de unos límites de sencillez sorprendentes.

La evaluación de la arquitectura en el dominio de aplicación elegido (Sistema de Información Naval con acceso a bases de datos) ha demostrado la validez de la misma para este tipo de tareas, permitiendo procesar no sólo funciones traducibles (entendibles)  por el sistema de gestión de bases de datos (funciones SQL), sino también, funciones no traducibles directamente a SQL y que conllevan, en algunos casos, varias consultas o accesos y un procesamiento a posteriori (funciones no SQL). Ésta es una característica que pocos sistemas presentan debido a la complejidad del proceso.

Se ha desarrollado una etapa de descodificación acústica con un diseño modular,  que permite cambiar fácilmente el diccionario, el tipo de modelo HMM de alófono a utilizar y la gramática que guía el proceso de reconocimiento acústico. Este tipo de diseño modular parece ofrecer suficientes garantías de mejora del sistema sin necesidad de volver a diseñarlo completamente cada vez que se quiere cambiar las fuentes de conocimiento que es capaz de manejar (fonética, léxica y sintáctico-semántica). Es fácil integrar modelos gramaticales sintácticos y semánticos de tipo N-grama (bigramas, trigramas, ...hasta autómatas finitos) estocásticos (de palabras o de categorías) sin modificar el sistema.

En el proceso de comprensión de habla, este módulo (decodificador acústico), es el más caro computacionalmente, y del cuál depende, en gran medida, el éxito del proceso de comprensión ya que es el que recibe la señal de habla y produce la secuencia de palabras óptima asociada a la misma. La incorporación de conocimiento gramatical guiando este proceso conduce a una mejora en el funcionamiento del sistema pero también aumenta considerablemente la carga computacional y la memoria necesaria. En una primera fase de integración de conocimiento lingüístico se han realizado experimentos utilizando distintos tipos de gramáticas guiando el proceso de decodificación acústica, tanto generales, de naturaleza morfo-sintáctica (GR160) generales del castellano, como una gramática semánticas (GRSEM) específica desarrollada para esta tesis y adaptada al dominio semántico de la aplicación. Ambas han conducido a resultados acústicos muy parecidos (similar tasa de aciertos de palabra) pero con la ventaja de que la gramática estocástica semántica no sólo produce la decodificación acústica a nivel de secuencia de palabras de la frase sino también ofrece su segmentación semántica o conceptual, permitiéndonos prescindir del módulo de segmentación conceptual del sistema de comprensión.

Con el fin de mantener la eficacia de este módulo a pesar de la incorporación de gramática en el proceso, se ha estudiado en profundidad un mecanismo de reducción del espacio de búsqueda ampliamente utilizado conocido como “búsqueda en haz” (beam-search). Para recortar el haz de caminos que se genera en cada punto de decisión del espacio de búsqueda se aplica una estrategia conocida como “Recorte basado en un Ancho de Haz Constante”. Como se comentó en el Capítulo 5 el problema que presenta esta estrategia es la determinación de la constante a sumar al parámetro calculado en cada trama para determinar el umbral de recorte. Esta constante debe ser capaz de degradar la Tasa de Aciertos de Palabras (WA) lo menos posible, reduciendo, en lo posible, el espacio de estados activos a procesar. Además, debería ser válida para conjuntos de datos que no han sido utilizados en la determinación de la misma.

Actualmente, no se conoce ninguna solución analítica para resolver este problema ni se aplica una metodología basada en el análisis del comportamiento del sistema de reconocimiento. Con el fin de determinar la constante a sumar al parámetro calculado en cada trama para determinar el umbral de recorte, se ha desarrollado un método de análisis basado en el cálculo de dos histogramas de distancias utilizando los datos de entrenamiento. La constante obtenida está basada en la idea de la conservación (factor de conservación) de los estados de los caminos óptimos de las frases de entrenamiento, y se ha comprobado que los resultados obtenidos son conservadores y por tanto, válidos para los datos de evaluación. Sin embargo, introducen un aumento del coste computacional que habrá que tener en cuenta. Con este método podemos determinar constantes de recorte que cumplan las condiciones que nos interesen, sin tener de realizar multitud de experimentos y teniendo en todo momento información de cómo está afectando o va a afectar la aplicación de un determinado umbral de recorte.

Además, el método de análisis basado en los dos histogramas de distancia nos ha permitido estudiar cómo afecta la inclusión de información gramatical y de un mejor modelado HMM al proceso de recorte, y nos ha permitido estudiar la posibilidad de aplicar constantes a sumar a parámetros estimados en la trama anterior, reduciendo el coste computacional inherente a la propia técnica de recorte. Ello es debido al hecho de poder aplicar el recorte hacia delante, sin necesidad de procesar todo el espacio de búsqueda activo de una trama para determinar el parámetro.

También se ha evaluado el uso de uno o dos umbrales de recorte (uno basado en el cálculo de un parámetro utilizando los últimos estados de cada modelo en cada trama y otro en el cálculo de un segundo parámetro utilizando el resto de los estados en cada trama.

Además, el decodificador acústico ha sido modificado para permitir la generación de varias hipótesis (frases) de salida (las N mejores), y se ha estudiado la relación entre el valor de N (número de caminos o hipótesis) y la calidad del sistema de reconocimiento (mejora de la tasa de acierto de palabras o reducción del error del sistema), para aplicaciones como la que ha sido objeto en esta tesis. Se ha comprobado que con un número de hipótesis reducido (N muy pequeño) se consigue que el módulo acústico se recupere de muchos errores que afectarían al proceso de comprensión de la frase hablada reconocida.

Anterior   I  Siguiente   I  Índice capítulo 7   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001