ISSN: 1139-8736
Depósito Legal: B-8714-2001

2.1 Introducción

Las ventajas que se esperan de la comunicación hombre-máquina por medio del habla son múltiples. Este modo de relación libera completamente al primero del uso de la vista y de las manos (o sea de la pantalla y del teclado), y le deja libertad de movimientos. Las operaciones de codificación y descodificación quedan reducidas a un mínimo, principalmente cuando se utiliza el lenguaje natural.

La velocidad de transmisión de las informaciones es superior, en el sentido hombre-máquina, que la que permite el uso del teclado. La comunicación oral puede emplearse en paralelo con otras modalidades de comunicación. Además, la voz informa sobre la identidad del locutor y puede ser transportada por medios simples y muy extendidos como la red telefónica.

Estas y otras ventajas se traducen en una gran variedad de aplicaciones actuales y de futuro. En el campo industrial, es muy interesante poder controlar una máquina-herramienta, un robot, o proporcionar datos a un sistema de diseño o producción asistido por ordenador manteniendo las manos y la vista libres, e incluso poder comunicar observaciones durante una inspección o un control de calidad conservando la libertad de movimientos. Del mismo modo, el diálogo hablado permite dar órdenes y recibir informaciones guiando un automóvil o pilotando un avión. La interacción hablada, a través de la red telefónica, permite simplificar el acceso a sistemas automáticos de reservas, de aceptación de pedidos o a bancos de información. También puede permitir a ciertas categorías de disminuidos físicos controlar el funcionamiento de numerosos aparatos. Finalmente, en el universo de la oficina, se empieza a considerar la máquina de escribir con entrada vocal, disponible actualmente en el mercado a un coste muy razonable.

El problema científico de la comprensión del mensaje hablado dista mucho de estar solucionado en su generalidad. Esta situación deriva de la complejidad de un problema que constituye el objeto de investigaciones desde hace más de cincuenta años.

Actualmente, gran parte de los laboratorios y empresas dedicadas a tareas relacionadas con las tecnologías del habla, tanto en USA, Japón como Europa, centran sus esfuerzos en el desarrollo de sistemas con capacidad para comprender el habla. Esta línea de trabajo se conoce internacionalmente como Comprensión de la Lengua Hablada (Spoken Language Understanding). Hasta hace muy poco, la mayoría de los esfuerzos estuvieron encaminados hacia la obtención de un mayor conocimiento sobre diversos paradigmas como son los Modelos Ocultos de Markov (HMM), las Redes Neuronales (NN), o la combinación de Redes Neuronales y Modelos Ocultos de Markov (HMM + NN), entre otros, que permitiese reconocer habla con la mayor tasa posible a nivel acústico, es decir, descodificar la señal acústica y generar la secuencia de palabras que más probablemente habría producido la secuencia de símbolos acústicos de entrada. Pero eso no es suficiente para descodificar el significado (semántica) del mensaje reconocido acústicamente. Para resolver el problema de la Comprensión de la Lengua Hablada es necesaria la combinación de distintas fuentes de conocimiento lingüístico (fonológico, morfológico, léxico, sintáctico, semántico, pragmático) y de comportamiento humano (desde el punto de vista de modelos de diálogo hombre-máquina, modelos de usuario, etc.) y estrategias para llevar a cabo esa combinación desde un punto de vista computacional con eficiencia. Gran parte de este conocimiento es dependiente de la lengua particular del usuario potencial del sistema, y en el caso del castellano, los esfuerzos realizados hasta la fecha para adquirirlos y formalizarlos, han sido relativamente escasos en comparación con los realizados para inglés americano, japonés, francés, alemán e italiano.

Dos de los objetivos más importantes dentro del área de investigación de la Comprensión del Lenguaje Hablado son:

Como puede observarse, los nuevos objetivos necesitan de un gran componente lingüístico que interaccione con el módulo acústico, guiándolo y permitiendo al sistema recuperarse de errores e incluso traduciendo una frase incompleta o agramatical en una secuencia de órdenes que la máquina pueda interpretar. Estas nuevas interfases deben ser robustas y suficientemente “inteligentes” para permitir que la interacción con el usuario pueda desarrollarse en habla o lenguaje natural. Pero esta integración de fuentes de conocimiento lingüístico y acústico no está aún resuelta en su totalidad y la comunidad científica internacional está explorando estrategias diversas y combinando dichas fuentes con el objetivo de establecer unas bases de conocimiento que permitan la implementación real e industrial de este nuevo tipo de interfases de usuario.

Desde la última década hasta nuestros días, la mayor parte de la comunidad científica , está siguiendo las pautas establecidas por los 2 programas americanos DARPA relacionados con el problema del reconocimiento automático de habla continua (Continuous Speech Recognition) y el problema de la comprensión del lenguaje hablado (Spoken Language Understanding). De este modo, centra sus esfuerzos en resolver problemas u objetivos tecnológicos concretos, establecidos a priori en base al diseño de una aplicación (DARPA-RM - base de datos leída de habla continua en inglés americano cuyo dominio semántico era el asociado a una base de datos de recursos navales, multilocutor, ATIS - base de datos de habla espontánea multilocutor cuyo dominio semántico es el de una tarea de acceso a un sistema de información y reserva de vuelos comerciales, WSJ o Wall Street Journal - base de datos de datos de habla continua y gran vocabulario, destinada a evaluar sistemas de dictado principalmente, etc.). De este modo, los centros de investigación buscan la mejor solución para resolver un problema planteado que pueda ser generalizada. Esta estrategia ha dado muy buenos resultados en reconocimiento de habla continua leída [LEE88] [LEE89][PRIC88], estableciendo a los Modelos Ocultos de Markov o Modelos de Markov con Redes Neuronales [LEV83], a la Programación Dinámica [BEL65] , a los Modelos de Lenguaje Estocásticos [NEY90],  y la Teoría de Decisión Bayesiana [NEY93] como un buen conjunto de paradigmas para resolver este problema, aunque algunos autores han demostrado que otros algoritmos de búsqueda probabilísticos basados en el conocido algoritmo A* también conducen a soluciones óptimas [JEL69] [PAU92] [PAU95].

Anterior   I  Siguiente   I  Índice capítulo 2   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001