ISSN: 1139-8736 Depósito Legal: B-8714-2001 |
6.1.3 Generación del Autómata Conceptual del Dominio de Aplicación
La gramática utilizada por el Módulo de Segmentación Conceptual es un autómata finito probabilístico cuyos estados son las categorías semánticas ya definidas. Como ya comentamos, el papel de las categorías semánticas es permitir una cierta flexibilidad en el sistema de comprensión así como una reducción del tamaño del autómata (menor número de estados). Cada concepto del dominio de aplicación está expresado o modelado mediante un pequeño autómata semántico, y representa las posibles combinaciones de categorías semánticas que se han recogido en el corpus de entrenamiento asociados a dicho concepto. Cada categoría semántica tiene asociada un conjunto de palabras (diccionario categorizado semánticamente). Los autómatas asociados a cada concepto son fusionados para dar lugar a un autómata conceptual global. Esta fusión se lleva a cabo de dos formas posibles, teniendo en cuenta las secuencias de conceptos observadas en el corpus de entrenamiento (autómata o gramática de conceptos a nivel de frase):
Ergódica: el autómata finito que define la interrelación entre los conceptos no impone restricciones, permitiendo que se reconozca cualquier secuencia de conceptos. Esta es la topología adoptada en el presente trabajo, ya que confiere una mayor cobertura cuando el conjunto de datos de entrenamiento es limitado, dando mayor robustez al sistema.
No Ergódica: el autómata finito que modela las interrelaciones conceptuales se infiere a partir de las secuencias de conceptos del conjunto de datos de entrenamiento. Es más restrictivo, pero también presenta fácilmente problemas de cobertura al no haberse observado un gran conjunto de secuencias de conceptos en los datos utilizados para aprender el modelo.
Para generar o inferir el autómata conceptual probabilístico es necesario segmentar y etiquetar un corpus de frases en lenguaje natural. Es conveniente que nos aseguremos de que los casos representados por el corpus sea lo más amplio posible, es decir, que no tenga problemas de cobertura en cuanto al tipo (estructura o topología) de las frases, al diccionario de palabras en lenguaje natural, al diccionario de categorías semánticas, y en cuanto a los conceptos de nuestro dominio, es decir, problemas de cobertura respecto de la Ontología de nuestro Dominio.
Una vez segmentadas y etiquetadas las frases del corpus de entrenamiento, agrupamos los segmentos categorizados que pertenecen a un mismo concepto, los procesamos (añadimos categorías basura, eliminamos las repeticiones, los ordenamos, etc.), y generamos con ellos el autómata finito probabilístico de categorías sintáctico-semánticas asociadas a cada concepto. Para ello utilizamos un algortimo de inferencia automática de autómatas que se describirá más tarde. Es decir, generamos una pequeña gramática regular que modela cada uno de los conceptos de nuestra ontología.
Obtenemos la secuencia de conceptos asociada a cada frase del corpus de entrenamiento, las procesamos (eliminamos las repeticiones, las ordenamos, etc) y generamos una gramática regular probabilística que modela la estructura conceptual de las frases, es decir, nos muestra las interrelaciones entre los conceptos, sus relaciones de corta distancia. Pruebas realizadas con autómatas ergódicos y no ergódicos demuestran la mayor flexibilidad (cobertura) de los ergódicos sin apenas perder en calidad de segmentación frente a los otros.
Un módulo de fusión de gramáticas regulares se encarga de pegar las gramáticas de todos los conceptos según la gramática de conceptos de las frases, generando un autómata finito probabilístico de categorías, que representa las interrelaciones encontradas entre todos los conceptos de las frases del corpus de entrenamiento, es decir, con capacidad para generar esas frases (al menos), aunque realmente, el uso del autómata ergódico y del concepto y la categoría basura, da lugar a una mayor capacidad generativa del modelo gramatical final, que supera con creces las frases de entrenamiento.
Anterior I Siguiente I Índice capítulo 6 I Índice General
ISSN: 1139-8736 Depósito Legal: B-8714-2001 |