2.4.1.6 Incorporación de Conocimiento Lingüístico en los Sistemas de Reconocimiento de Habla

ISSN: 1139-8736
Depósito Legal: B-8714-2001

La tarea de un modelo de lenguaje es capturar las restricciones que existen en la combinación de las palabras, para dar lugar a las distintas frases de una lengua. Estas restricciones son aún mayores o más precisas cuando se trata del subconjunto de palabras y de frases que pertenecen al dominio semántico de nuestra aplicación.

Independientemente del método utilizado para modelar las restricciones lingüísticas, el modelo especifica la complejidad de la tarea de reconocimiento, que no mantiene, necesariamente, ninguna correlación directa con el tamaño del diccionario. Para medir la complejidad de la tarea se suele calcular la perplejidad (perplexity) del modelo lingüístico, que mide el número medio de palabras (unidades) que siguen a una determinada, es decir, el grado de restricciones que introduce el modelo de lenguaje en el módulo de reconocimiento acústico, limitando en cada momento el número de modelos o patrones con los que comparar la señal acústica de entrada. Además, otro factor importante es la cobertura del modelo de lenguaje del dominio de la aplicación.

El objetivo de incoporar conocimiento lingüístico en los sistemas de reconocimiento de habla se debe, fundamentalmente, a la necesidad de incorporar las restricciones propias del lenguaje al proceso de descodificación acústica [LEA79][LEE89][WAR93][PIE92][PAS97].

Estas restricciones pueden corregir la salida del sistema de reconocimiento, descartando aquellas hipótesis que no pertenecen a la lengua y/o pueden guiar el propio proceso de descodificación. Sin embargo, no sólo se debe buscar la mejora de la tasa de reconocimiento a través de la reducción de posibilidades sino que, junto con la secuencia de unidades (palabras) reconocida, se tenga información estructural sintáctico-semántica, que permita acercarse al contenido semántico de la misma en la mayor medida posible.

Sin embargo, en los sistemas que utilizan técnicas de Programación Dinámica para encontrar una solución óptima en un determinado espacio de estados (en nuestro caso utilizando Modelos Ocultos de Markov como herramienta de modelado estadístico de las unidades a reconocer), se produce una interdependencia directa entre las fuentes de conocimiento lingüístico incorporado al sistema y el espacio de búsqueda sobre el que buscar (autómata finito probabilístico formado por todos los estados de Markov resultado de la combinación de todas las fuentes lingüísticas y acústicas). A medida que la complejidad y el número de fuentes de conocimiento lingüístico son incorporadas, el tamaño del espacio de búsqueda crece , conduciendo a sistemas con grandes costes computacionales y de memoria, al aumentar el número de copias de cada unidad de reconocimiento que quedan en dicho espacio.

Existen distintas posibilidades a la hora de modelar el conocimiento gramatical que se va a incorporar en el proceso de reconocimiento de habla. Algunas de ellas tienen en común su naturaleza probabilística, es decir, el hecho de incorporar probabilidades en las reglas de la gramática. Ello se debe al hecho de que hay que tener en cuenta que el proceso de decodificación acústica (reconocimiento basado en el Teorema de Bayes) es de por sí probabilístico, lo que permite modelar la incertidumbre asociada al proceso en sí, debido a la imposibilidad de generar patrones exactos de las unidades a reconocer. Sin embargo, no todas las gramáticas son iguales. Las gramáticas más utilizadas hasta la fecha son la gramáticas estocásticas de tipo N-gramas, de las que podemos decir que el autómata finito probabilístico representa la de mayor orden (N) posible, y que suele suponer la de más baja perplejidad (restricciones de mayor orden) pero a cambio, los espacios de búsqueda que se generan son mayores (debido al aumento del número de copias que hay que mantener de algunas palabras del diccionario que están asociadas a distintos estados del autómata finito, frente a la gramáticas bigrama o trigrama, que son las de menor orden, mayor perplejidad y normalmente, menores espacios de búsqueda.

Los modelos de lenguaje conocidos como N-gamas de palabras fueron introducidos por Jelinek [JEL75] para incorporar información lingüística en los sistemas de reconocimiento. Su principal ventaja es que pueden ser "adquiridos" o entrenados automáticamente utilizando corpus textuales. Además se comportan como modelos gramaticales robustos poco restrictivos, es decir, lo que hacen es no excluir prácticamente ninguna secuencia de palabras pero les asigna probabilidades muy bajas en comparación con las secuencias más habituales observadas en los corpus de frases.

Sin embargo, su “potencia”, entendida como su capacidad para aprender o modelar las restricciones propias de la lengua, es baja. Sólo modelan restricciones locales (pares de palabras o de categorías gramaticales, trios, etc). Al ser restricciones de orden menor, la robustez inherente de las mismas es alta frente a otros modelos más formales, donde las restricciones aprendidas suelen ser de mayor “longitud” (restricciones sintagmáticas) [MUR88].

Otro de los problemas que presentan este tipo de gramáticas markovianas o N-gram, es la gran cantidad de datos que necesitan para entrenarse (en una bigram es VxV, en una trigram VxVxV, siendo V el tamaño del diccionario de unidades en las que están categorizados los textos de entrenamiento). Esa gran cantidad de datos o parámetros a entrenar es un problema que se soluciona de varios modos. Uno de ellos es suavizando los modelos haciendo uso de los parámetros estimados asociados a los modelos de orden menor (N-1, N-2, ...,1) . Esta interpolación se realiza utilizando distintos procedimientos como son: deleted interpolation, co-occurrence, backing-off, etc o bien categorizando los textos en base a clases de unidades más amplias que las simples palabras (por ejemplo, categorías gramaticales: nombre, adjetivo,...), que necesitan de una cantidad menor de información para ser entrenadas y además son menos específicas o están menos adaptadas al dominio del discurso al que pertenecen las frases con las que han sido estimados los modelos [ESS92] [NEY91] [JAR93] [MAL92] [NHTO92] [KAT87] [KUH94].

Sin embargo, cuando el objetivo es modelar restricciones y características lingüísticas de orden superior, no tan locales, y además, conseguir que la salida del sistema no sólo sea una secuencia de palabras o categorías sino esa secuencia más la estructura sintáctica (árbol o árboles) asociada a la misma, necesitamos utilizar otro tipo de gramáticas, las de contexto-libre según la conocida jerarquía de Chomsky, asociando mediante alguno de los métodos conocidos, probabilidades a las distintas reglas [NEY90][WRI91][FRE94].

Aunque estas gramáticas son más potentes que las N-gram, son difíciles de inferir automáticamente y la asociación de probabilidades a las reglas se lleva a cabo en un proceso posterior a la generación del conjunto de reglas, que suele ser manual (actualmente existe gran interés en el desarrollo de algoritmos de inferencia automática de las reglas de contexto-libre a partir de un corpus textual, sin embargo los resultados no son todavía lo suficientemente satisfactorios) [SEG91] [RUL92][CER91].

Los algoritmos de análisis sintáctico (parsers) deben ser modificados para incorporar esas probabilidades y para poder ser integrados (prediciendo) en los sistemas de reconocimiento [NEY87][TOM86][KIT89][KOB85][KAI92][DUP93-B][JEL75][OKA91][NAK87] o bien para poder hacer un análisis sobre un “lattice” o red de palabras, resultado del reconocimiento acústico. Actualmente, se están incorporando mecanismos de unificación de rasgos junto con las reglas de esas gramáticas contexto-libre probabilísticas (PCFG o Probabilistic Context-Free Grammar), dando una potencia superior al modelo gramatical pero aumentando notablemente el tamaño del espacio de búsqueda [KAI92][JEL92][DEV92]. Además, es necesario estimar las probabilidades a asociar a las reglas de la gramática, lo que suele ser bastante costoso [LAR90].

Es bien sabido que las gramáticas de contexto-libre [EAR70] no son capaces de modelar todos los aspectos de un lenguaje natural, aunque sí muchos de ellos. Para conseguir esa capacidad es necesario utilizar modelos más complejos como son las gramáticas transformativas, o gramáticas de unificación (las LFG de Bresnan y Kaplan - 1982, las FUG de Kay - 1983, las DCG de Pereira y Warren - 1980, las GPSG de Gazdar - 1985, etc). El problema es que todos estos modelos son complicados de generar, normalmente necesitan de la ayuda de expertos que nos generen la información sobre las reglas y los rasgos asociados a los símbolos terminales de la gramática. Además, son complicados de integrar en los sistemas de reconocimiento de forma que guíen el proceso acústico. Por todo ello, todavía no ha habido demasiados esfuerzos por integrarlos en sistemas de reconocimiento automático [MOR82][PER80] [STU85].

Anterior I Siguiente I Índice capítulo 2 I Índice General

ISSN: 1139-8736
Depósito Legal: B-8714-2001