ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
5.1.2 Gramática Bigrama de 160 Macrocategorías (MC160)
Ya se justificó el interés de incorporar conocimiento lingüístico guiando al sistema de reconocimiento de habla, especialmente conocimiento sintáctico, para imponer restricciones en el espacio de búsqueda, reduciendo el número de posibilidades que pueden ser hipótesis en cada instante (reducción de la perplejidad). Sin embargo, para generar un modelo gramatical estocástico (N-grama) son necesarios muchos datos de entrenamiento, convenientemente etiquetados si el modelo gramatical es de categorías, y los textos del corpus DARPA-ESPAÑOL no es suficiente, es demasiado pequeño para tal fin y daría lugar a gramáticas muy adaptadas, con baja perplejidad pero escasa cobertura. Para solucionar este problema se decidió utilizar un modelo gramatical genérico para el Castellano, obtenido dentro del marco del proyecto europeo ESPRIT 860, en el que se definieron unas categorías gramaticales básicas y una posible agrupación de éstas en macrocategorías gramaticales, buscando la reducción de complejidad y la robustez del modelo. Con el agrupamiento en los 160 grupos se consiguió lo que los expertos denominaron un conjunto óptimo de macrocategorías que caracteriza al Castellano con suficiente generalidad sin perder en exceso la información de detalle. La asociación se hizo en base al agrupamiento de categorías que se comportaban de forma similar ante las categorías que les podían preceder o seguir. La medida que se utilizó para supervisar las asociaciones fue la entropía. Las categorías se dividieron en grupos jerarquizados, donde el grupo principal representaba a las grandes categorías gramaticales (Nombre, Verbo, Adjetivo, Adverbio, Pronombre, Preposición, Artículos o Determinantes, Conjunción, Interjección y Otros). A su vez cada uno de estos grupos tiene subdivisiones más o menos complejas. En el Apéndice 5.4 podemos ver con la lista de las 160 macrocategorías definidas basadas en el conjunto de categorías básicas. La categorización básica para el Castellano conseguida es bastante completa y llega a un nivel de detalle muy elevado, pero, debido a la dificultad para categorizar una lengua tan rica como la española, según los expertos, nunca se podrán tener en cuenta todos los pequeños detalles, y toda categorización siempre presentará lagunas.
Como se ha dicho, en los modelos de lenguaje basados en clases de categorías gramaticales, es imprescindible disponer de textos categorizados, en los que cada palabra viene acompañada de su categoría gramatical de acuerdo a su contexto en la frase. Los textos de los que se dispuso para crear el modelo fueron:
Se dispuso de tres grupos de textos extraídos de publicaciones distintas para realizar las pruebas. Cada grupo se divide en dos conjuntos: el primero será utilizado en el entrenamiento o generación de los modelos gramaticales, y el segundo se usará para realizar las medidas de evaluación. La cantidad de texto dedicada a evaluación está entre 5000 y 6000 palabras, aunque en nuestro caso utilizaremos para la evaluación el corpus DARPA-ESPAÑOL, lo que supone condiciones más realistas de evaluación para un modelo que pretende ser general para el Castellano. Debido a que todos los grupos de textos no tienen el mismo número de palabras, se utilizan nuevos subgrupos extraídos del conjunto de entrenamiento que tienen el mismo número de palabras (unas 50000 aproximadamente). Esta subdivisión es importante para poder comparar sistemas en las mismas condiciones.
__ Nomenclatura
Núm. Palabras
% del total
cee total textos_cee 117542 100% evaluación textos_E_cee 7036 6% entrenamiento textos_X_cee 110506 94% entrenamiento restringido textos_XX_cee 51386 43.7% eec total textos_eec 144185 100% evaluación textos_E_eec 6022 4.2% entrenamiento textos_X_eec 138161 95.8% entrenamiento restringido textos_XX_eec 52990 36.7% spa total textos_spa 54222 100% evaluación textos_E_spa 5479 10.1% entrenamiento textos_X_spa 48743 89.9% entrenamiento restringido textos_XX_spa 48743 89.9% Tabla 5.1 Información de los textos de entrenamiento y evaluación de la gramática MC160 del Castellano desarrollada dentro del proyecto ESPRIT 860
Cobertura del modelo MC160 del corpus DARPA-ESPAÑOL
Para entender el problema de la cobertura de las frases de nuestro corpus por la gramática MC160, analizamos la matriz de macrocategorías, para conocer el nivel de llenado de la misma, es decir, el número de pares de macrocategorías entrenados (observados al menos una vez en los textos de entrenamiento de los que ya hemos hablado antes), y comparamos dicho nivel con el de la matriz suavizada GR160S-J (el suavizamiento se ha llevado a cabo utilizando el método back-off [KAT87] como se describe en el punto 5.1.3 de este mismo capítulo). La gramática GR160S-J es la gramática MC160 suavizada (S) y con los nombres propios compuestos tratados como una sola palabra y las locuciones compuestas (J).
Gramática Nº Pares Matriz Nº Pares No Observados Perplejidad (Test Set P.) MC160 26244 23495 (89.52 %) 334.25 GR160S-J 26244 324 (1.23 %) 481.22 Tabla 5.2 Tamaño de las matrices y sus índices de cobertura y perplejidad, para las gramáticas MC160 sin suavizar y con un diccionario básico y la gramática GR160S-J, suavizada y con un diccionario de nombres propios compuestos tratados como una sola palabra así como las locuciones compuestas.
Se puede observar que, antes del suavizado de la misma, eran muchos los pares de macrocategorías no entrenados (no observados), casi el 90 %. Se podría pensar que muchos de esos pares no se dan realmente en la lengua, pero lo cierto es que existen otros muchos que sí se dan y que simplemente, no se encontraban en los textos seleccionados para el entrenamiento o generación de la gramática. Cuanto más vacía se encuentre inicialmente una matriz, menos poder de restricción o guiado tendrá, ya que el suavizado rellena la matriz pero no pondera adecuadamente (al no diferenciarlos) aquellos casos de pares no observados pero que pueden aparecer en la lengua de los realmente no permitidos. Observe cómo el suavizado no afecta especialmente a la perplejidad de la gramática, aunque lógicamente la aumenta, al igual que aumenta la cobertura. En los resultados experimentales podremos comprobar cómo una gramática tan suavizada, tan poco entrenada, no apoya demasiado al decodificador acústico, no aumentando la tasa de reconocimiento tanto como se podría esperar al incorporar este conocimiento gramatical guiando al Módulo Acústico.
No sólo podemos dar una medida de cobertura global sobre el conjunto de datos (frases) de evaluación sino también un estudio de los errores a nivel de categoría, indicando las frases no cubiertas y los pares de categorías que producen el fallo de cobertura en las mismas, y que no aparecen en la matriz de pares (bigrama de categorías) (MC160).
_ Frases No Cubiertas ST100 - Evaluación 36 (36 %) Tabla 5.3 Medida de cobertura utilizando la gramática MC160 (sin suavizar) sobre las frases de DARPA-E con el diccionario D-160J (con los nombres propios compuestos tratados como una sóla palabra y algunas locuciones de varias palabras)
Se ha generado la matriz de pares de categorías asociada al corpus DARPA-ESPAÑOL utilizando sólo los textos del mismo, que denominaremos DARPA160-J, ya que mantenemos los nombres propios compuestos y las locuciones compuestas como una sola palabra. Ésta sería la matriz adaptada a la aplicación, con la que se conseguiría la mejor perplejidad y la mejor cobertura de dichos textos de entrenamiento pero no de nuevas frases que tuviese que procesar el sistema, es decir, adolecería de problemas de cobertura en general. Hemos analizado el solapamiento entre esta matriz y la matriz de pares no suavizada (MC160), y hemos comprobado que, a pesar de la cantidad de textos etiquetados utilizados en el proyecto, existen bastantes pares de categorías que aparecen en la matriz adaptada que no aparecen (no han sido observados) en la matriz general de 160 macrocategorías (MC160), y ello repercute directamente en la tasa de reconocimiento de nuestro sistema, justificando la necesidad de suavizado de la gramática general antes de incorporarla al sistema de reconocimiento.
_ Pares Cubiertos Pares No Cubiertos DARPA160-J 610 (90.5%) 64 (9.5%) Tabla 5.4 Pares entrenados y no entrenados en la matriz general MC160 que aparecen en las frases de entrenamiento y evaluación del dominio DARPA-ESPAÑOL
Se puede comprobar como casi un 10% de pares de categorías no cubiertas producen un 36% de frases de evaluación no cubiertas. Aunque el suavizado soluciona el problema de la cobertura no es, sin embargo, el mejor procedimiento para conseguir incorporar restricciones morfosintácticas en el sistema de reconocimiento, repercutiendo directamente en la tasa de reconocimiento. La mejor solución sería disponer de más textos de entrenamiento que permitiesen obtener matrices de pares con un mayor índice de cobertura sin necesidad de suavizarlas.
Perplejidad del Conjunto de Datos de Evaluación (Test Set Perplexity) de la Gramática GR160S-J sobre DARPA-ESPAÑOL
Los problemas de cobertura del conjunto de datos de evaluación del corpus DARPA-ESPAÑOL que hemos comentado imponen la necesidad de evaluar la perplejidad utilizando el modelo gramatical suavizado, porque en el fondo es el modelo que vamos a tener que utilizar y el suavizado va a modificar el valor de la perplejidad. De este modo la perplejidad medida es la de la gramática que realmente hemos empleado. El suavizado produce un aumento de la perplejidad pues ahora son posibles (están permitidos) pares de categorías que antes no estaban (ahora se permiten prácticamente todos los pares de categorías aunque con una probabilidad muy baja).
GR160S-J GR160S-S Perplejidad 481.22 501.69 Tabla 5.5 Medida de perplejidad del conjunto de datos de evaluación (Test Set Perplexity) con las gramáticas GR160S-J (suavizada con diccionario con nombres propios compuestos y locuciones tratadas como una única palabra) y GR160S-S (suavizada, con nombres propios compuestos tratados como varias palabras)
La perplejidad medida es bastante alta teniendo en cuenta el tamaño (número de entradas) del diccionario utilizado (D-160J), lo que producirá un menor efecto de guiado de la gramática sobre el Módulo Acústico. La razón para esta perplejidad tan alta es la existencia (como puede observarse en el Apéndice 5.4) de macrocategorías con un alto número de palabras, es decir, unas pocas categorías muy frecuentes son muy amplias. No existe una distribución razonablemente homogénea del diccionario de palabras en el diccionario de categorías en nuestro dominio de aplicación. Esto dependerá del dominio concreto pero además responde a la propia naturaleza del lenguaje, en el que categorías como nombres y adjetivos son muy amplias y frecuentes en una frase.
Anterior I Siguiente I Índice capítulo 5 I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |