ISSN: 1139-8736
Depósito Legal: B-8714-2001

5.1.4 Gramática Semántica GRSEM-S

En un Sistema de Comprensión de Habla no sólo interesa la secuencia de palabras más probable asociada a una producción acústica (frase hablada) determinada, sino la información semántica asociada a la misma de acuerdo con el dominio semántico de la aplicación que estemos desarrollando. Nos interesa el significado que esas palabras puedan tener en dicho dominio. Una de las posibilidades que ya comentamos es implementar un sistema formado por un decodificador acústico que utilice una gramática morfosintáctica general de la lengua, con la mayor cobertura posible y la menor perplejidad, capaz de generar una o varias hipótesis de salida (frases reconocidas), que serán la entrada de un Módulo de Segmentación Conceptual (ver el Capítulo 4 o el Capítulo 6), que se encargará de decodificar la frase (o frases) de entrada, encontrando la secuencia de conceptos (del dominio de aplicación) más probable asociada a la misma, y para cada concepto, el conjunto de palabras de la frase que lo producen (segmentación). El problema de una arquitectura como ésta es que las frases de entrada al Segmentador Conceptual no están exentas de error, lo que conduce a incorporar mecanismos de robustez frente a los errores en el mismo. Además, no podemos aprovechar el hecho de utilizar una gramática robusta pero a su vez, adaptada al dominio de aplicación, que puede presentar una mejor cobertura y menor perplejidad.

Sería interesante encontrar el modo de generar una gramática con el conocimiento sintáctico y semántico de nuestro dominio de aplicación, que guiase el proceso de reconocimiento acústico y que produjese como salida la frase segmentada a nivel conceptual de forma directa. Es decir, que el propio Módulo Acústico se comporte como Módulo de Segmentación Conceptual.

Para ello decidimos desarrollar una gramática conceptual, que tuviese en cuenta el modelo conceptual del dominio de aplicación, que impusiera restricciones gramaticales o sintácticas y a su vez, mantuviese un alto grado de cobertura (robustez). De este modo, nuevas construcciones de un mismo concepto (diferente orden de la secuencia de la palabras dentro de un concepto), variaciones en la posición u orden de un concepto dentro de la frase, no deberían producir errores o fallos de cobertura (al menos dentro de unos límites razonables que hagan útil la gramática en aplicaciones reales).

En la gramática conceptual que hemos desarrollado cada concepto es representado por un autómata finito probabilístico, en el que la topología del mismo, modela las restricciones sintácticas en el nivel conceptual. No todas las secuencias de palabras son posibles para dar lugar a un concepto. Los estados de este autómata finito tienen asociadas categorías semánticas, que reducen el número de estados que necesitamos para modelar el concepto (si lo comparamos con los que harían falta si los estados tuviesen asociadas palabras en lugar de categorías), aportando una cierta flexibilidad a la gramática, al poder aumentar la cobertura añadiendo palabras en el diccionario categorizado como luego demostraremos (gramática intra-conceptos).

En el fondo, cada concepto tiene una estructura sintagmática (nominal, preposicional, verbal, ...) en el nivel de frase, que es modelada por el autómata del concepto.

Cada frase tiene asociada una secuencia de conceptos, y las secuencias de conceptos de todas las frases, pueden modelarse mediante un autómata finito probabilístico en el que los estados son conceptos (no categorías semánticas) (gramática inter-conceptos). Este autómata puede ser de dos tipos:

En nuestro caso el conjunto de datos de entrenamiento (frases) es muy reducido, por lo que hemos optado por una gramática ergódica inter-conceptual, que denominaremos GRSEM-S.

Anterior   I  Siguiente   I  Índice capítulo 5   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001