ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
5.1.4.2 Entrenamiento de la Gramática Semántica
Para generar la gramática es necesario segmentar y etiquetar las frases del conjunto de entrenamiento desde un punto de vista conceptual. En ellas cada palabra va acompañada de una etiqueta semántica que asocia un significado a la misma (categoría semántica), y las palabras se agrupan para dar lugar a los distintos conceptos (un concepto puede estar formado por una palabra o una secuencia de palabras). Veamos algunos ejemplos.
Todos las secuencias de pares palabra-categoría semántica relacionadas con un mismo concepto son agrupadas (eliminando las repeticiones). Con ellas generamos un autómata finito determinista probabilístico que representa al concepto (cada estado es una categoría semántica, y cada categoría tiene asociadas un conjunto de palabras). Cada transición del autómata tiene asociada la probabilidad de que se produzca la misma, entrenada con los datos de entrenamento.
Con todas las secuencias de conceptos correspondientes a las frases de entrenamiento podemos generar el autómata finito ergódico probabilístico que permite todas las posibles secuencias de conceptos con distinta probabilidad.
Una vez tenemos todos los autómatas finitos realizamos una fusión de los mismos, mediante la cual construimos un único autómata finito probabilístico en el que los estados son categorías semánticas y que incorpora las restricciones de los autómatas finitos de cada concepto con el autómata finito de las transiciones entre los mismos.
Este autómata finito probabilístico constituye una gramática N-grama que puede ser incorporada en el sistema de reconocimiento acústico, para el guiado del proceso de decodificación acústica, con la información sintáctica y semántica modelada por dicha gramática.
La gramática GRSEM-S obtenida modela 85 conceptos, con 159 categorías semánticas. El diccionario, teniendo en cuenta las reglas fonológicas tiene un tamaño de 1096 palabras (diccionario completado con las 40 palabras que faltaban en el conjunto de frases de evaluación).
El automáta finito determinista probabilístico de la gramática conceptual ergódica GRSEM-S tiene 288 estados, tamaño razonable que incorpora mecanismos de flexibilidad gracias al concepto y a la categoría basura.
Anterior I Siguiente I Índice capítulo 5 I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |