ISSN: 1139-8736
Depósito Legal: B-8714-2001

6.1.4 El Problema de la Robustez. Categoría y Concepto Basura

Uno de los principales problemas que aparecen en el diseño de un sistema de comprensión (y también en el de reconocimiento de habla) es la cobertura. Entendemos como tal la no existencia de palabras (suponemos que las categorías están todas, al menos las significativas en el dominio de aplicación) que aparecen cuando el hablante varía la forma de expresar una consulta. Aparecen palabras que introducen la consulta, nuevos nexos para algunas palabras, los errores introducidos por el módulo de reconocimiento de habla, etc. El decodificador conceptual debe ser capaz de efectuar un análisis en todos estos casos pues si no, el sistema no funcionaría en condiciones reales y no pasaría nunca de ser un prototipo del laboratorio. Además, la existencia o captura de corpus de frases de entrenamiento, su segmentación y etiquetado manual o semiautomático siempre es un proceso caro y tedioso.

Con el fin de que el sistema sea capaz de comprender aún en presencia de este tipo de problemas,  se han diseñado un concepto y una categoría especiales, que denominamos “basura” y que lo único que pretenden, es que el sistema acepte como consultas aquellas que incluso no han sido observadas en detalle durante el proceso de entrenamiento, o durante el funcionamiento real del sistema. Cuando una palabra no está en el diccionario se etiqueta como basura o cuando el análisis o segmentación no puede avanzar (faltan caminos en el autómata conceptual para que el análisis progrese), se etiquetan ciertas palabras como basura.

El problema que presenta la basura es que, a veces, palabras etiquetadas con dicha categoría contienen una información vital para la correcta comprensión de la frase, y no son utilizadas por el proceso. Sin embargo, se gana robustez aunque hay que dar simplificado el esquema de comprensión utilizado. Es decir, en un dominio semántico restringido, en el que sólo se pretende  que el sistema comprenda frases o consultas relacionadas con él, se etiquetan como basura palabras (determinantes, preposiciones, algunos verbos, algunos sustantivos, nexos, etc) que no aportan información al proceso de comprensión de la consulta en la mayoría de los casos. Sin embargo, siempre existen excepciones en los que dichas palabras son cruciales para el correcto procesamiento de la consulta. Esto constituye una limitación en este tipo de sistemas que debe tenerse en cuenta a la hora de entender errores producidos en el mismo.

Anterior   I  Siguiente   I  Índice capítulo 6   I  Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001