ISSN: 1139-8736
Depósito Legal: B-8714-2001

3.7.1 Base de Datos de Texto en Español

Para el desarrollo de otras tesis anteriores a la presente, se diseño y capturó una base de datos de habla continua en Español. El fin inicial de dicha base de datos fue, básicamente, el desarrollo y evaluación de distintas técnicas de entrenamiento de modelos HMM en habla continua, para Español, y así completar un trabajo que ya había evaluado parte de esas técnicas sobre la conocida base de datos DARPA-RM, para inglés americano. Con el fin de mantener un tamaño del vocabulario y unas estructuras sintácticas, es decir, una cierta similitud con DARPA-RM, se decidió traducir esta base a datos a Español, dando lugar a DARPA-RM-ESPAÑOL. De este modo la complejidad de las frases y el número de palabras de la aplicación se mantienen (991 palabras en Inglés y 997 en Español).

Se grabaron 4 locutores, 2 hombres (FER, LEA) y 2 mujeres (ENR, ROM), que leyeron las frases traducidas de DARPA-RM-ESPAÑOL, y al igual que en los experimentos sobre DARPA-RM, se decidió disponer de un conjunto de 600 frases de entrenamiento por locutor y 100 frases para reconocer (evaluar), aunque realmente se capturaron 300 frases más, que aunque no se utilizaron para evaluar los sistemas de reconocimiento acústico, sí se emplearon en el desarrollo y evaluación del Sistema de Comprensión.

No todas las frases de este corpus pertenecen al dominio de aplicación, quedando 485 frases para el desarrollo del Sistema de Comprensión, pertenecientes al conjunto de entrenamiento (600 SR), y 370 para evaluación (obtenidas de las 400 ST).

Anterior   I  Siguiente   I  Índice capítulo 3   I   Índice General


ISSN: 1139-8736
Depósito Legal: B-8714-2001