RedIRIS
Estudios de Lingüística del Español
  Volumen 12   (2001)
   ISSN: 1139-8736
   Depósito Legal: B-8714-2001


ESTRATEGIAS DE INCORPORACIÓN DE CONOCIMIENTO SINTÁCTICO Y SEMÁNTICO
EN SISTEMAS DE COMPRENSIÓN DE HABLA CONTINUA EN ESPAÑOL

José Colás Pasamontes
Escuela Técnica Superior de Ingenieros de Telecomunicación, Madrid (España)


Índice general

Resumen

Abstract

1 INTRODUCCIÓN

1.1 Objetivos
1.2 Contenido
2 ENCUADRE CIENTÍFICO-TECNOLÓGICO
2.1 Introducción
2.2 La Comprensión del Habla: Un Problema Abierto
2.3 Elección del Dominio
2.4 Definición de una Arquitectura para la Integración
2.4.1 Reconocimiento Automático de Habla
2.4.1.1 Definición
2.4.1.2 El Problema del Reconocimiento Automático del Habla
2.4.1.3 Clasificación del Problema de Reconocimiento
2.4.1.4 Técnicas más utilizadas aplicadas al Reconocimiento de Habla
2.4.1.5 Clasificación de los Sistemas de Reconocimiento de Habla según su Arquitectura
2.4.1.6 Incorporación de Conocimiento Lingüístico en los Sistemas de Reconocimiento de Habla
2.4.1.7 Interacción del Sistema de Reconocimiento y el Sistema de Comprensión
2.4.1.8 El Problema de la Eficiencia (Reducción del Espacio de Búsqueda)
2.4.1.9 Compilación de los Diccionarios Su influencia en el Espacio de Búsqueda
2.4.1.10 Los Problemas de Robustez y de Cobertura del Modelo Gramatical
2.4.1.11 Generación de las N Mejores Hipótesis de Salida
2.4.1.12 El Módulo de Reconocimiento
2.4.2 Interpretación Semántica
2.4.2.1 Estrategias de Interpretación Semántica
2.4.3 Interpretación Contextual
2.4.3.1 Estrategias de Interpretación Contextual
2.4.3.2 Problemas Característicos en la Representación del Conocimiento
2.4.4 Razonamiento de la Aplicación
2.4.5 Generación de una Respuesta Hablada
2.5. Descripción de la Solución Propuesta
2.6. Habla Espontánea
2.7 Evaluación de los Sistemas
2.7.1 Evaluación Acústica de los Sistemas Medidas de Calidad Acústica Objetivas
2.7.1.1 Algoritmo de Evaluación de la Calidad Acústica
2.7.1.2 Problemas de las Figuras de Mérito Descritas
2.7.1.3 Una nueva medida: el ETP (Error Total Ponderado)
2.7.1.4 Alineamiento de Palabras vs Alineamiento Fonológico
2.7.1.5 Alineamiento utilizando Marcas Temporales
2.7.1.6 Los Test de Significancia: Validación de los Sistemas
2.7.1.7 Bandas de Probabilidad
2.7.2 Evaluación de Sistemas de Comprensión de Habla
2.8 Evaluación del Sistema de Comprensión Desarrollado
3 EL DOMINIO DE LA APLICACIÓN : SISTEMA DE INFORMACIÓN NAVAL CON ACCESO A BASES DE DATOS
3.0 Introducción
3.1 Sistemas de Recuperación de Información en Lenguaje Natural
3.1.1 Definición
3.1.2 Clasificación
3.2 Descripción del Dominio Semántico Restringido de la Aplicación
3.3 Descripción de las Bases de Datos de Información Naval
3.4 Conceptos de la Aplicación (Ontología)
3.5 El Problema de la Ambigüedad Conceptual
3.6 Las Categorías Semánticas de la Aplicación
3.7 Bases de Datos de Habla y de Texto utilizadas en el Desarrollo
3.7.1 Base de Datos de Texto en Español
3.7.2 Base de Datos de Habla
3.7.3 Captura de Nuevos Datos Textuales
4 DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA DE COMPRENSIÓN DE HABLA
4.0 Introducción
4.1 Descripción General de la Arquitectura Desarrollada
5 DECODIFICADOR ACÚSTICO BASADO EN HMM
5.0 Introducción
5.1 Módulo Gramatical para N-gramas
5.1.1 Gramática Nula (GN)
5.1.2 Gramática Bigrama de 160 Macrocategorías (160MC)
5.1.3 Suavizado de la Gramática 160MC usando la técnica Back-Off
5.1.4 Gramática Semántica GRSEM-S
5.1.4.1 La Categoría y el Concepto BASURA: Robustez
5.1.4.2 Entrenamiento de la Gramática Semántica
5.1.4.3 Perplejidad y Cobertura de la Gramática GRSEM-S
5.2 Módulo Léxico para Diccionarios Lineales
5.2.1 Transiciones Fonológicas Entre Palabras en Habla Continua
5.2.2 Nombres Propios Compuestos como una Palabra
5.3 Módulo Acústico (Algoritmo de Un Paso)
5.3.1 Espacio de Búsqueda Estático (Algoritmo de Un Paso Básico)
5.3.1.1 El Problema del Silencio Acústico (Pausa entre Palabras)
5.3.2 Estrategia de Recorte de Caminos (Beam-Search): Eficiencia
5.3.2.1 Recorte basado en un Ancho de Haz Constante
5.3.2.2 Estudio del Espacio de Búsqueda: Distribución de las Distancias de los Estados del Espacio
5.3.2.3 Estimación de los Umbrales de Recorte: Método basado en un Histograma de Distancias de los Estados de los Caminos Óptimos de las Frases de E.ntrenamiento y en un Factor de Conservación
5.3.2.4 Influencia de la Gramática y del Modelado Acústico en el Umbral de Recorte
5.3.2.5 Umbrales basados en el Parámetro de la Trama Anterior
5.3.2.6 Algoritmo de Un Paso con Estrategia de Recorte
5.3.3 Generación de las N Mejores Soluciones (Pseudo N-Best)
5.3.3.1 Modificación del Algoritmo de Un Paso para la obtención de las N Mejores Hipótesis de Salida
5.3.3.2 Generando un Grafo con las N Mejores Soluciones
5.4 Evaluación del Módulo Acústico
5.4.1 Evaluación de la Calidad Acústica (Tasa de Error de Palabras) y Validación Estadística de los Resultados
5.4.1.1 Sin gramática
5.4.1.1.1 Modelos Discretos 2 Codebooks
5.4.1.1.2 Modelos Semicontinuos con Pausado 3 Codebooks
5.4.1.1.3 Comparando los Sistemas sin Gramática Análisis de la Influencia de la Gramática Léxica o Diccionario
5.4.1.2 Con las gramáticas morfosintácticas GR160S-J y GR160S-S
5.4.1.3 Con la gramática semántica GRSEM-S
5.4.2 Evaluación de las N Mejores Salidas (Recuperación de Errores)
5.4.2.1 Modificación del Algoritmo de Evaluación
5.4.2.2 Resultados de la Evaluación de la Estrategia N-Caminos
5.4.2.2.1 Sin Gramática
5.4.3 Evaluación de la Eficiencia (Reducción del Espacio de Búsqueda)
5.4.3.1 Sin Gramática
5.4.3.2 Con la Gramática GR160S-J
5.4.4 Conclusiones Generales del Capítulo 5
6 EL MÓDULO DE COMPRENSIÓN
6.1 Decodificador Conceptual
6.1.1 Introducción
6.1.2 Autómatas Finitos Conceptuales Categorías Semánticas
6.1.3 Generación del Autómata Conceptual del Dominio de Aplicación
6.1.4 El Problema de la Robustez Categoría y Concepto Basura
6.1.5 El Categorizador Semántico
6.1.6 Ambigüedad Semántica Grafo de Pares Palabra-Categoría
6.1.7 El Módulo de Segmentación Conceptual en el Sistema de Comprensión
6.1.8 Limitaciones del Segmentador Conceptual
6.2 Mapeador Conceptual
6.2.1 Introducción
6.2.2 Descripción General
6.2.3 Lenguaje de Reglas Primitivas y Sintáxis
6.2.4 Reglas del Mapeador
6.2.5 El Módulo de Mapeado Conceptual en el Sistema de Comprensión
6.3 Analizador-Clasificador Estructural
6.3.1 Introducción Justificación
6.3.2 Descripción General
6.3.3 Clasificación Conceptual (Taxonomía)
6.3.4 Clasificación Estructural de las Frases de Entrenamiento
6.3.5 Reglas Estructurales Libres de Contexto
6.3.6 El Módulo de Análisis Estructural en el Sistema de Comprensión
6.4 Transformador Estructural
6.4.1 Introducción
6.4.2 Descripción General
6.4.3 Lenguaje de Reglas Primitivas y Sintáxis
6.4.4 Reglas de Transformación
6.4.5 El Módulo de Transformación Estructural en el Sistema de Comprensión
6.5 Control
6.5.1 Introducción
6.5.2 Descripción General
6.6 Traductor a SQL
6.6.1 Introducción
6.6.2 Descripción General
6.6.3 Reglas de Traducción SQL
6.6.4 El Módulo Traductor a SQL en el Sistema de Comprensión
6.7 Procesador Funcional
6.7.1 Introducción
6.7.2 Descripción General
6.7.3 Funciones Monarias (Internas)
6.7.4 Funciones Binarias (Externas)
6.7.5 Método Alternativo
6.8 Conclusiones
6.8.1 Cobertura
6.8.2 Limitaciones
6.9 Evaluación del Sistema de Comprensión Desarrollado
7 CONCLUSIONES Y LÍNEAS DE TRABAJO FUTURAS
7.1 Conclusiones
7.2 Líneas de Trabajo Futuras
APÉNDICES
Apéndice 5.1 Gramática 3-gram de Categorías
Apéndice 5.2 Tabla de Alófonos Independientes del Contexto
Apéndice 5.3 Lista de Nombres Propios Compuestos Compilados como una sóla Palabra (Diccionarios D-C y D-J)
Apéndice 5.4 Detalles del Diccionario Categorizado asociado a la Gramática GR160S-J
Apéndice 5.5 Categorías Semánticas utilizadas en la Gramática Semántica (Conceptual) GRSEM-S
Apéndice 5.6 Recorte de Caminos (Beam-Search): Umbrales y Resultados de Reconocimiento
Apéndice 6.1 Conceptos del Dominio de Aplicación del Sistema de Información Naval
Apéndice 6.2 Categorías Semánticas y Conceptos del Dominio de Aplicación (Sistema de Información Naval)
BIBLIOGRAFÍA
 



ISSN:  1139-8736 
Depósito Legal: B-8714-2001