ISSN: 1139-8736
Depósito Legal: B-8714-2001

RESUMEN

Este trabajo se ha planteado analizar la problemática del proceso de comprensión de habla, no sólo desde un punto de vista científico sino también técnico, concluyendo con el diseño, implementación y evaluación de un Sistema de Comprensión de Habla en español.

En el marco de este estudio se ha realizado una revisión de distintas soluciones que han sido propuestas por diversos grupos de investigación internacionales para resolver el problema de la comprensión de habla.

Se ha definido una arquitectura no integrada novedosa para la comprensión del habla en español, es decir, teniendo en cuenta características del español como lengua natural que no aparecen o aparecen menos acentuadas en otras lenguas. Esta arquitectura pretende ser la base de futuros trabajos en esta línea en el Grupo de Tecnología del Habla, de la Universidad Politécnica de Madrid. Con el objetivo de comprender habla perteneciente a un dominio semántico restringido (limitado por los conceptos que existen en el dominio de una aplicación concreta), esta arquitectura tiene como características principales:

Los diferentes módulos incorporan conocimiento lingüístico de distinta naturaleza, lo que ha permitido estudiar la interacción de distintas fuentes de conocimiento lingüístico y un modo eficaz de integrarlas, en el proceso de comprensión.

Se ha utilizado información semántica en forma de rasgos, que completan la ya modelada por las categorías semánticas del diccionario,  a gramáticas contextuales simplificadas (definiendo lenguajes específicos de reglas y algoritmos de análisis o ejecución de estas reglas), que en forma de reglas solucionan principalmente problemas de ambigüedad semántica y elipsis, y una gramática semántica de contexto libre (utilizando el algoritmo de Earley con capacidad para procesar frases con ambigüedad) que pretende, basándose en una clasificación o taxonomía de los conceptos del dominio que reduce en gran medida las reglas necesarias, obtener la información estructural de las mismas que ayuda al procesamiento de frases de una cierta complejidad manteniendo el proceso de traducción a SQL, necesario en sistemas de información con acceso a bases de datos, dentro de unos límites de sencillez sorprendentes, mediante el uso de plantillas semánticas.           

Con el fin de evaluar el comportamiento del módulo de decodificación acústica se ha implementado un sistema de reconocimiento de habla continua modular, con capacidad para integrar conocimiento gramatical en base a cualquier gramática probabilística de tipo N-gram, de naturaleza morfo-sintáctica o semántica. Se han evaluado distintas gramáticas guiando el proceso de decodificación acústica. Con el fin de mantener la eficacia del este módulo a pesar de la incorporación de gramática en el proceso, se ha estudiado con profundidad un mecanismo de reducción del espacio de búsqueda ampliamente utilizado conocido como “recorte de caminos” o “recorte del haz” (beam-search), presentando un método que se ha desarrollado en esta tesis que permite la determinación del umbral de recorte basado en la probabilidad (o distancia) del mejor estado del espacio de búsqueda en cada trama (estadístico) de antemano, utilizando los datos de entrenamiento y conociendo la influencia que tendrá dicho umbral en el proceso de reconocimiento. Además, se han evaluado dos variantes ya conocidas: el uso de uno o dos umbrales de recorte, uno basado en la probabilidad (o distancia) del mejor de los últimos estados de cada modelo en cada trama (estadístico del último estado) y otro en la probabilidad (o distancia) del mejor del resto de los estados distintos del último en cada trama (estadístico del resto de los estados), y se han aportado nuevas conclusiones al respecto. Todo ello ha permitido profundizar en el funcionamiento de esta técnica ya conocida pero no tan estudiada. Además, el decodificador acústico ha sido modificado para permitir la generación de varias hipótesis (frases) de salida (las N mejores), y se ha estudiado la relación entre el valor de N (número de caminos o hipótesis) y la calidad del sistema de reconocimiento (mejora de la tasa de acierto de palabras o reducción del error del sistema), para aplicaciones como la que ha sido objeto en esta tesis. Se ha comprobado que con un número de hipótesis reducido (N muy pequeño) se consigue que el módulo acústico se recupere de muchos errores que afectarían al proceso de comprensión de la frase hablada reconocida.

Siguiente   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001