ISSN: 1139-8736
Depósito Legal: B-8714-2001

APÉNDICE 5.1: GRAMÁTICA 3-GRAM DE CATEGORÍAS

En este apéndice incluimos un sencillo ejemplo de una gramática 3-gram (trigrama) de categorías, destacando cómo influye el orden N de la gramática en el número de copias de cada categoría (y por tanto, de las palabras de la misma) que deben existir simultáneamente en el espacio de búsqueda para poder modelar adecuadamente las restricciones que impone una gramática estocástica de ese orden. En el fondo supone un aumento del número de estados del espacio de estados frente a gramáticas de órdenes inferiores. También comprobaremos cómo existe un autómata de estados finitos equivalente a esta gramática trigrama, y cómo puede ser utilizada para guiar el Módulo Acústico de nuestro sistema de reconocimiento siempre que compilemos adecuadamente la información de la gramática de acuerdo con los ficheros de datos que ya vimos en el capítulo 5, en el apartado en el que se describía el Módulo Gramatical. Hemos planteado un ejemplo basado en 3 categorías C1, C2, C3.

Tabla de Estados (3-GRAM.EST)

1
2
3
4
2
3
4
2
3
4
2
3
4
5
6

Tabla de Transiciones (3-GRAM.TAB)

2 3 4
5 6 7 14
8 9 10 14
11 12 13 14
5 6 7 14
8 9 10 14
11 12 13 14
5 6 7 14
8 9 10 14
11 12 13 14
5 6 7 14
8 9 10 14
11 12 13 14

 

Tabla de Categorías (3-GRAM.CAT)

NODOINICIAL
C1
C2
C3
NODOFINAL
SILENCIOS


Tabla de Probabilidades (3-GRAM.PRB)

Pr(C1/NI) Pr(C2/NI) Pr(C3/NI)
Pr(C1/NIC1) Pr(C2/NIC1) Pr(C3/NIC1) Pr(NF/NIC1)
Pr(C1/NIC2) Pr(C2/NIC2) Pr(C3/NIC2) Pr(NF/NIC2)
Pr(C1/NIC3) Pr(C2/NIC3) Pr(C3/NIC3) Pr(NF/NIC3)
Pr(C1/C1C1) Pr(C2/C1C1) Pr(C3/C1C1) Pr(NF/C1C1)
Pr(C1/C1C2) Pr(C2/C1C2) Pr(C3/C1C2) Pr(NF/C1C2)
Pr(C1/C1C3) Pr(C2/C1C3) Pr(C3/C1C3) Pr(NF/C1C3)
Pr(C1/C2C1) Pr(C2/C2C1) Pr(C3/C2C1) Pr(NF/C2C1)
Pr(C1/C2C2) Pr(C2/C2C2) Pr(C3/C2C2) Pr(NF/C2C2)
Pr(C1/C2C3) Pr(C2/C2C3) Pr(C3/C2C3) Pr(NF/C2C3)
Pr(C1/C3C1) Pr(C2/C3C1) Pr(C3/C3C1) Pr(NF/C3C1)
Pr(C1/C3C2) Pr(C2/C3C2) Pr(C3/C3C2) Pr(NF/C3C2)
Pr(C1/C3C3) Pr(C2/C3C3) Pr(C3/C3C3) Pr(NF/C3C3)

Tanto la matriz de probabilidades asociada como la Tabla de Transiciones (3-GRAM.TAB) y la Tabla de Probabilidades (3-GRAM.PRB) que se derivan de ella contemplan todas las posibilidades de transición entre los estados (aquellas que sean posibles desde el punto de vista teórico), y en lugar de trabajar con valores numéricos de probabilidad hemos utilizado expresiones para que todo sea más claro, y se comprenda qué es cada uno de los valores de la matriz y de la Tabla de Probabilidades (3-GRAM.PRB). En la Tabla de Estados (3-GRAM.EST) que se incluye podemos observar cómo existen múltiples copias para cada una de las categorías, en el fondo cada copia pertenece a un estado distinto y se comportarán como si de categorías diferentes se tratara.

En la matriz de probabilidades, los estados se nombran como un par de categorías, existiendo tantos estados como posibles combinaciones de los estados de dos en dos (Ci-Cj). Además tenemos que incluir los estados necesarios para modelar las categorías que pueden ser principio de frase (NI-C1, NI-C2, NI-C3) que se entrenarán como bigramas (Pr(C1/NI), Pr(C2/NI), Pr(C3/NI)), así como los estados especiales NI (NODOINICIAL) y NF (NODOFINAL).

Los elementos de la matriz Ck/CiCj representan la probabilidad Pr(Ck/CiCj) (trigramas de categorías). Se ha utilizado esa notación por simplificación.

Cada estado Ci-Cj está asociado a una copia de la categoría Cj pero está limitado a ser transitado desde estados X-Ci, es decir, sólo se puede llegar a él desde los estados que acaben en Ci. Existen muchas más restricciones que en el caso de un bigrama.

A continuación se incluye la matriz de la gramática 3-gram de categorías asociada al ejemplo descrito en este Apéndice 5.1, así como el autómata equivalente a dicha gramática.

NI NI-C1 NI-C2 NI-C3 C1-C1 C1-C2 C1-C3 C2-C1 C2-C2 C2-C3 C3-C1 C3-C2 C3-C3 NF
NI 0 C1/NI C2/NI C3/NI 0 0 0 0 0 0 0 0 0 0
NI-C1  0 0 0 0 C1/NIC1 C2/NIC1 C3/NIC1 0 0 0 0 0 0 NF/NIC1
NI-C2  0 0 0 0 0 0 0 C1/NIC2 C2/NIC2 C3/NIC2 0 0 0 NF/NIC2
NI-C3 0 0 0 0 0 0 0 0 0 0 C1/NIC3 C2/NIC3 C3/NIC3 NF/NIC3
C1-C1  0 0 0 0 C1/C1C1 C2/C1C1 C3/C1C1 0 0 0 0 0 0 NF/C1C1
C1-C2  0 0 0 0 0 0 0 C1/C1C2 C2/C1C2 C3/C1C2 0 0 0 NF/C1C2
C1-C3  0 0 0 0 0 0 0 0 0 0 C1/C1C3 C2/C1C3 C3/C1C3 NF/C1C3
C2-C1  0 0 0 0 C1/C2C1 C2/C2C1 C3/C2C1 0 0 0 0 0 0 NF/C2C1
C2-C2  0 0 0 0 0 0 0 C1/C2C2 C2/C2C2 C3/C2C2 0 0 0 NF/C2C2
C2-C3 0 0 0 0 0 0 0 0 0 0 C1/C2C3 C2/C2C3 C3/C2C3 NF/C2C3
C3-C1 0 0 0 0 C1/C3C1 C2/C3C1 C3/C3C1 0 0 0 0 0 0 NF/C3C1
C3-C2 0 0 0 0 0 0 0 C1/C3C2 C2/C3C2 C3/C3C2 0 0 0 NF/C3C2
C3-C3 0 0 0 0 0 0 0 0 0 0 C1/C3C3 C2/C3C3 C3/C3C3 NF/C3C3
NF 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Matriz 3-gram de categorías asociada al ejemplo descrito en este Apéndice

Autómata equivalente a la gramática 3-GRAM del ejemplo. Detalle de algunos estados sólamente.

Anterior   I  Siguiente   I  Apéndices   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001