ISSN: 1139-8736 
    Depósito Legal: B-8714-2001 | 
  
2.7 Evaluación de los Sistemas
Los progresos realizados en un sistema deben ser medidos o evaluados para
conocer las deficiencias y problemas que éste presenta. Aunque una evaluación
cualitativa puede resultar útil en las etapas iniciales del desarrollo del sistema,
medidas cuantitativas bajo unas mismas condiciones resultan de vital importancia para ver
el progreso real del sistema y compararlo consigo mismo o con otros. Los números no
aportan información si se desconoce de dónde proceden, es decir, qué representan. La
evaluación de cualquier tecnología debe ir acompañada de un conjunto de medidas
estándar propuestas para tal fin. La disponibilidad de bases de datos y de protocolos o
procedimientos para la evaluación de estos sistemas ha sido un componente muy importante,
casi fundamental, en el progreso alcanzado en este campo y ha permitido compartir nuevas
ideas, e incluso compararlas con otras ya consolidadas. Los progresos en la evaluación de
sistemas de comprensión del lenguaje hablado están comenzando. Así vamos a mencionar a
continuación diferentes acuerdos alcanzados [PRI90] en la evaluación de sistemas: 
  - Conjuntos de Datos de Entrenamiento y de Prueba Independientes. La importancia de
    disponer de conjuntos de datos independientes para el entrenamiento/desarrollo y para la
    evaluación de sistemas de reconocimiento de habla viene siendo aceptada desde hace
    bastante tiempo por la comunidad científica. Sigue siendo igual de importante para el
    desarrollo y evaluación de los sistemas de comprensión de habla, aunque para estos
    últimos nos interesará tener datos de prueba dónde aparezcan el mayor número de
    fenómenos del habla posibles (son importantes las construcciones gramaticales, los
    efectos propios del habla espontánea, etc.), para colocar al sistema en el mayor número
    de situaciones (léxicas, sintácticas y semánticas) posible. Sin embargo, es conveniente
    resaltar que el proceso de evaluación no deja de ser parte del proceso de entrenamiento,
    pues en muchos casos los resultados de la misma sirven para depurar o mejorar el
    comportamiento final del sistema. Por tanto, es importante que exista un conjunto de datos
    independiente y realista, tan grande como sea posible, con el que se evalúe
    definitivamente un sistema y con cuyos resultados no se intente seguir desarrollando
    (mejorando) el sistema.
 
  - Evaluación del Sistema como Caja Negra. La evaluación de los componentes de un
    sistema es una tarea importante durante el desarrollo del mismo, aunque no es
    especialmente útil para comparar sistemas entre sí, al menos que los sistemas a comparar
    sean muy similares, lo que no suele ser el caso. La motivación para evaluar los
    componentes de un sistema es puramente interna, por tanto, no es absolutamente necesario
    llegar a acuerdos en la comunidad internacional sobre la metodología de evaluación de
    los mismos. Las medidas de evaluación de los componentes internos de un sistema pueden
    utilizarse para evaluar las tecnologías empleadas en cada componente como una función de
    sus parámetros de diseño; por ejemplo, el funcionamiento de un módulo de reconocimiento
    acústico puede ser evaluado como una función de la perplejidad alofónica y sintáctica,
    el funcionamiento de un analizador sintáctico (parser) como una función de la calidad
    (errores) de la secuencia de palabras (frase) de entrada. Además, estas medidas son
    útiles para evaluar el progreso conseguido, y cómo los cambios en varios componentes
    afectan al resto de los mismos.
 
  - Evaluación Cuantitativa vs. Cualitativa. Una evaluación cualitativa de un
    sistema (p. ej. lo que parece gustar a los usuarios del sistema) puede ser animador, pero
    mucho más convincente para aquellos que no pueden observar el sistema son las medidas
    cuantitativas llevadas a cabo de forma automática. Las medidas deberían ser
    estandarizadas en la medida de lo posible, y ser reproducibles, para considerarlas
    significativas. El proceso automatizado evita errores humanos debido a fatiga, falta de
    atención, malas intenciones, etc. y además, permite capturar muchos más datos que en un
    caso manual, y sacar conclusiones sobre el funcionamiento de ciertos procesos o hechos que
    ocurren, con una mayor fiabilidad.
 
  - Captura de Datos para Evaluación. Para capturar los datos que necesitamos para
    evaluar los sistemas de lenguaje hablado, se han desarrollado técnicas y sistemas
    especiales conocidos como PNAMBIC (Pay No Attention to
    the Man Behind the Curtain) o Mago de Oz (Wizard of Oz),
    que implica la existencia de un experto cooperando con un sistema más o menos automático
    y completo, pero del que no es consciente el usuario, quién piensa que interacciona sólo
    con un sistema completamente automático. Realmente, el mago introduce las
    peticiones del usuario transcribiendo la frase hablada a texto y enviándosela a la
    pantalla del usuario, así como interaccionando con un sistema de información (p.e. de
    gestión de bases de datos), para conseguir las respuesta a la pregunta o petición del
    usuario y poder mandársela. No se permite que el mago realice tareas
    complejas, sólo puede enviar los datos obtenidos de la base de datos, o frases que
    indiquen ciertos problemas, indicaciones al usuario, como su pregunta requiere un
    proceso que sobrepasa las posibilidades del sistema. En general, la actuación del
    mago viene condicionada por el hecho de que comprenda o no la pregunta del
    usuario y sobre su conocimiento sobre las posibilidades de la base de datos. Los datos
    deben ser analizados a posteriori para determinar si la actuación del mago
    fue o no correcta.
 
  - Convenios sobre las Transcripciones. La transcripción de las sesiones, es decir,
    las frases que se muestran al usuario, representan el habla natural de ese locutor. Para
    llevar a cabo evaluaciones automáticas, debemos llegar a un cierto acuerdo sobre los
    convenios a utilizar para representar lo que el usuario ha dicho, y se deben implementar
    procedimientos que aseguren que estos convenios son realmente utilizados.
 
  - Respuestas Canónicas y Obtención de Medidas. Las respuestas canónicas son, en
    general, las respuestas enviadas al usuario bajo el control del mago. Estas
    respuestas deberán ser modificadas si el mago comete un error, o si la
    respuesta depende del contexto en que fue generada debido a la posible cooperación
    (diálogo) entre el mago y el usuario. La obtención de medidas se lleva a
    cabo con programas estándar y convenios para las entradas y salidas.
 
Anterior
  I  Siguiente   I  Índice capítulo 2   I   Índice General
  
    ISSN: 1139-8736 
    Depósito Legal: B-8714-2001 |