ISSN: 1139-8736
Depósito Legal: B-8714-2001

2.8 Evaluación del Sistema de Comprensión Desarrollado

La evaluación del sistema de comprensión fruto del trabajo de esta tesis se ha basado en el criterio CAS que mencionamos anteriormente. Es cierto que este criterio es muy exigente, ya que evalúa, mediante comparación con una respuesta canónica, la salida del sistema de comprensión considerando únicamente dos posibilidades: salida completamente correcta y el resto. En nuestro caso, al no disponer, a priori, de las salidas canónicas asociadas a cada una de las frases del corpus de entrenamiento y de evaluación que se han utilizado, optamos por generarlas a partir de la frase en lenguaje natural. En este proceso de generación se respetaron las características intrínsecas del sistema de comprensión implementado (la descomposición de consultas complejas en múltiples consultas sencillas y funciones), decidiendo que respuesta canónica asociar a cada consulta en lenguaje natural. Debe tenerse en cuenta que el lenguaje SQL permite expresar una consulta en lenguaje natural de varios modos posibles y no todas compatibles el sistema de comprensión implementado.

La salida del sistema de comprensión para cada una de las frases de entrenamiento y de evaluación fue comparada por un experto con la salida canónica disponible y contabilizada como frase comprendida correctamente (coincide con la respuesta canónica) o no. Es cierto que este método de evaluación es muy estricto y no refleja los problemas que puedan tener los distintos módulos del sistema de comprensión pero nos pareció el mejor modo para evitar las posibles interpretaciones o valoraciones que un experto pudiese hacer de las salidas del sistema.

Sin embargo, se generaron también las salidas canónicas de cada uno de los módulos del sistema de comprensión para cada una de las frases en  lenguaje natural de los corpus utilizados. Estas salidas parciales nos permiten, mediante comparación, evaluar los problemas y las limitaciones en cada uno de los módulos del sistema, conociendo mejor cuantitativa y cualitativamente la naturaleza de los problemas y el funcionamiento global del sistema.

Es interesante plantear algún procedimiento de comparación automático que evalúe el funcionamiento de un sistema de comprensión igual que existe para los sistemas de reconocimiento acústico, aportando información variada útil para el desarrollo y la mejora de los sistemas. Sin embargo, todavía no se tiene esa medida o método de evaluación estándar aceptada y utilizada por la comunidad científica, pero se está trabajando en ello.

Anterior   I  Siguiente   I  Índice capítulo 2   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001