ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
APÉNDICE 5.1: GRAMÁTICA 3-GRAM DE CATEGORÍAS
En este apéndice incluimos un sencillo ejemplo de una gramática 3-gram (trigrama) de categorías, destacando cómo influye el orden N de la gramática en el número de copias de cada categoría (y por tanto, de las palabras de la misma) que deben existir simultáneamente en el espacio de búsqueda para poder modelar adecuadamente las restricciones que impone una gramática estocástica de ese orden. En el fondo supone un aumento del número de estados del espacio de estados frente a gramáticas de órdenes inferiores. También comprobaremos cómo existe un autómata de estados finitos equivalente a esta gramática trigrama, y cómo puede ser utilizada para guiar el Módulo Acústico de nuestro sistema de reconocimiento siempre que compilemos adecuadamente la información de la gramática de acuerdo con los ficheros de datos que ya vimos en el capítulo 5, en el apartado en el que se describía el Módulo Gramatical. Hemos planteado un ejemplo basado en 3 categorías C1, C2, C3.
Tabla de Estados (3-GRAM.EST)
1 2 3 4 2 3 4 2 3 4 2 3 4 5 6
Tabla de Transiciones (3-GRAM.TAB)
2 3 4 5 6 7 14 8 9 10 14 11 12 13 14 5 6 7 14 8 9 10 14 11 12 13 14 5 6 7 14 8 9 10 14 11 12 13 14 5 6 7 14 8 9 10 14 11 12 13 14
Tabla de Categorías (3-GRAM.CAT)
NODOINICIAL C1 C2 C3 NODOFINAL SILENCIOS
Tabla de Probabilidades (3-GRAM.PRB)
Pr(C1/NI) Pr(C2/NI) Pr(C3/NI) Pr(C1/NIC1) Pr(C2/NIC1) Pr(C3/NIC1) Pr(NF/NIC1) Pr(C1/NIC2) Pr(C2/NIC2) Pr(C3/NIC2) Pr(NF/NIC2) Pr(C1/NIC3) Pr(C2/NIC3) Pr(C3/NIC3) Pr(NF/NIC3) Pr(C1/C1C1) Pr(C2/C1C1) Pr(C3/C1C1) Pr(NF/C1C1) Pr(C1/C1C2) Pr(C2/C1C2) Pr(C3/C1C2) Pr(NF/C1C2) Pr(C1/C1C3) Pr(C2/C1C3) Pr(C3/C1C3) Pr(NF/C1C3) Pr(C1/C2C1) Pr(C2/C2C1) Pr(C3/C2C1) Pr(NF/C2C1) Pr(C1/C2C2) Pr(C2/C2C2) Pr(C3/C2C2) Pr(NF/C2C2) Pr(C1/C2C3) Pr(C2/C2C3) Pr(C3/C2C3) Pr(NF/C2C3) Pr(C1/C3C1) Pr(C2/C3C1) Pr(C3/C3C1) Pr(NF/C3C1) Pr(C1/C3C2) Pr(C2/C3C2) Pr(C3/C3C2) Pr(NF/C3C2) Pr(C1/C3C3) Pr(C2/C3C3) Pr(C3/C3C3) Pr(NF/C3C3)
Tanto la matriz de probabilidades asociada como la Tabla de Transiciones (3-GRAM.TAB) y la Tabla de Probabilidades (3-GRAM.PRB) que se derivan de ella contemplan todas las posibilidades de transición entre los estados (aquellas que sean posibles desde el punto de vista teórico), y en lugar de trabajar con valores numéricos de probabilidad hemos utilizado expresiones para que todo sea más claro, y se comprenda qué es cada uno de los valores de la matriz y de la Tabla de Probabilidades (3-GRAM.PRB). En la Tabla de Estados (3-GRAM.EST) que se incluye podemos observar cómo existen múltiples copias para cada una de las categorías, en el fondo cada copia pertenece a un estado distinto y se comportarán como si de categorías diferentes se tratara.
En la matriz de probabilidades, los estados se nombran como un par de categorías, existiendo tantos estados como posibles combinaciones de los estados de dos en dos (Ci-Cj). Además tenemos que incluir los estados necesarios para modelar las categorías que pueden ser principio de frase (NI-C1, NI-C2, NI-C3) que se entrenarán como bigramas (Pr(C1/NI), Pr(C2/NI), Pr(C3/NI)), así como los estados especiales NI (NODOINICIAL) y NF (NODOFINAL).
Los elementos de la matriz Ck/CiCj representan la probabilidad Pr(Ck/CiCj) (trigramas de categorías). Se ha utilizado esa notación por simplificación.
Cada estado Ci-Cj está asociado a una copia de la categoría Cj pero está limitado a ser transitado desde estados X-Ci, es decir, sólo se puede llegar a él desde los estados que acaben en Ci. Existen muchas más restricciones que en el caso de un bigrama.
A continuación se incluye la matriz de la gramática 3-gram de categorías asociada al ejemplo descrito en este Apéndice 5.1, así como el autómata equivalente a dicha gramática.
NI | NI-C1 | NI-C2 | NI-C3 | C1-C1 | C1-C2 | C1-C3 | C2-C1 | C2-C2 | C2-C3 | C3-C1 | C3-C2 | C3-C3 | NF | |
NI | 0 | C1/NI | C2/NI | C3/NI | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
NI-C1 | 0 | 0 | 0 | 0 | C1/NIC1 | C2/NIC1 | C3/NIC1 | 0 | 0 | 0 | 0 | 0 | 0 | NF/NIC1 |
NI-C2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/NIC2 | C2/NIC2 | C3/NIC2 | 0 | 0 | 0 | NF/NIC2 |
NI-C3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/NIC3 | C2/NIC3 | C3/NIC3 | NF/NIC3 |
C1-C1 | 0 | 0 | 0 | 0 | C1/C1C1 | C2/C1C1 | C3/C1C1 | 0 | 0 | 0 | 0 | 0 | 0 | NF/C1C1 |
C1-C2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/C1C2 | C2/C1C2 | C3/C1C2 | 0 | 0 | 0 | NF/C1C2 |
C1-C3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/C1C3 | C2/C1C3 | C3/C1C3 | NF/C1C3 |
C2-C1 | 0 | 0 | 0 | 0 | C1/C2C1 | C2/C2C1 | C3/C2C1 | 0 | 0 | 0 | 0 | 0 | 0 | NF/C2C1 |
C2-C2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/C2C2 | C2/C2C2 | C3/C2C2 | 0 | 0 | 0 | NF/C2C2 |
C2-C3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/C2C3 | C2/C2C3 | C3/C2C3 | NF/C2C3 |
C3-C1 | 0 | 0 | 0 | 0 | C1/C3C1 | C2/C3C1 | C3/C3C1 | 0 | 0 | 0 | 0 | 0 | 0 | NF/C3C1 |
C3-C2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/C3C2 | C2/C3C2 | C3/C3C2 | 0 | 0 | 0 | NF/C3C2 |
C3-C3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | C1/C3C3 | C2/C3C3 | C3/C3C3 | NF/C3C3 |
NF | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Matriz 3-gram de categorías asociada al ejemplo descrito en este Apéndice
Autómata equivalente a la gramática 3-GRAM del ejemplo. Detalle de algunos estados sólamente.
Anterior I Siguiente I Apéndices I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |