La transcripción fonética automática

ISSN: 1139-8736
Depósito Legal: B-39200-99

2. La transcripción fonética automática.

Un sistema de transcripción fonética automática, al que también denominaremos transcriptor o fonetizador¹, es una aplicación, o un conjunto de aplicaciones informáticas, que transforma un texto de entrada representado en caracteres ortográficos en un texto de salida representado en caracteres fonéticos. Un transcriptor ha de ser capaz de representar mediante símbolos fonéticos la pronunciación de los enunciados de una lengua con un margen de error virtualmente nulo y el menor coste informático, por lo que constituye un campo de trabajo en el que confluyen la investigación lingüística y el desarrollo de los medios técnicos apropiados para cumplir dicho objetivo.

En el diseño de un sistema de transcripción fonética automática deberá tenerse en cuenta el fin para el que ha sido diseñado (cuál es su utilidad), y deberá determinarse cómo ha de ser el resultado de la aplicación del fonetizador (la transcripción fonética que se quiere obtener), el procedimiento de transcripción, la información necesaria para realizarla y el formalismo con el que se codifica (cf. Dutoit, 1997).

2.1. Las aplicaciones de la transcripción fonética automática.

Los sistemas de fonetización automática tienen, fundamentalmente, una aplicación industrial, están concebidos como módulos integrantes de los sistemas de conversión texto a habla², en los que la transcripción fonética del texto ortográfico procesado es un paso previo para la conversión del mismo en una serie de parámetros acústicos, controlados por el sintetizador, que finalmente serán transformados en voz³. Para la lengua española existen varios conversores texto a habla, algunos de ellos en el marco de sistemas multilingües, desarrollados por empresas y universidades:

- Universidad Politécnica de Madrid: Grupo de Tecnología del Habla, del Departamento de Ingeniería Electrónica.

- Telefónica I+D: AMIGO (cf. Rodríguez et al., 1993).

- Enginyeria La Salle, Universitat Ramon Llull, Barcelona (antiguo Departamento de Acústica de la antigua Escuela de Telecomunicación La Salle Bonanova): SINCAS (cf. Martí y Niñerola, 1987).

- Departamento de Sistemas Informáticos y Computación, de la Universidad Politécnica de Valencia (cf. Pérez y Vidal, 1991).

- Grupo de Procesamiento Digital de Señales, Pontificia Universidad Católica del Perú.

- Lernout & Hauspie Speech Products: BeSTspeech (cf. Conejo y van Coile, 1991).

- Bell Laboratories: Bell Labs Multilingual TTS System.

- Elam informatique - CNET: ProVerbe Speech Engine.

- LIMSI-CNRS (Laboratoire d’Informatique pour la Mécanique et les Sciencies de l’Ingénieur - Centre National de la Recherche Scientifique).

- MULTIVOX (cf. López et al., 1993).

- TCTSLab - Faculté Polytechnique de Mons, Bégica: MBROLA.

- Telia Promotor / KHT Stockholm: Infovox.

- SoftVoice, Inc.: SVTTS (SoftVoice text-to-speech system).

- Technology & Revalidate (T&R) : EUROVOCS.

- JSoft: Sistema Lector en Idioma Español.

Un fonetizador puede tener otras aplicaciones. Berendsen (1987) menciona que el módulo de transcripción grafema-fonema del UEL (un sistema de síntesis para el holandés desarrollado por las universidades de Utrech y Leyden y el IPO –Institute of Perception Research– de Eindoven) también puede generar fácilmente listas fonemizadas a partir de una entrada en formato ortográfico; permite obtener automáticamente información sobre la relación entre grafemas y fonemas en los textos; y puede ser utilizado por lingüistas sin preparación en informática para comprobar, por ejemplo, la adecuación de las reglas fonológicas que propongan. La última aplicación se basa en la idea de que se ha separar el conocimiento lingüístico del conocimiento computacional: se trata de implementar computacionalmente una gramática elaborada por un lingüista de modo que éste pueda acceder a ella directamente y modificar las reglas en tiempo real; el sistema de transcripción lo permite en la medida en que las reglas tienen el formato propuesto por Chomsky y Halle (1968), de uso generalizado en los estudios lingüísticos. La relación entre grafemas y fonemas queda explicitada en la propia estructura del transcriptor, organizado en dos niveles: una entrada grafemática y una salida fonémica:

La fonetización también puede ser aplicada a la enseñanza de lenguas y a la corrección ortográfica (Laporte, 1988, y Belrhali et al., 1992). Añadimos la codificación de las bases de datos lingüísticos, escritos y orales. Kohler (1991) señala que un corpus de palabras transcrito constituye una base de datos de habla simbólica que, además de poder ser utilizada en los sistemas de conversión texto a habla, puede ser fuente de datos estadísticos: frecuencia de fonemas, de secuencias y de grupos de fonemas, de tipos silábicos y de palabras que contienen un determinado número de sílabas. Estas estadísticas en el nivel fonético simbólico pueden guiar la selección de palabras, de oraciones y de textos para la elaboración de bases de datos acústicos.

La fonetización de textos puede formar parte de proyectos generales, con amplios objetivos; por ejemplo, el Proyecto ESPRIT-860, "Análisis lingüístico de las lenguas europeas", desarrollado entre 1984 y 1988, tenía como fin el desarrollo de herramientas informáticas para obtener datos estadísticos sobre frecuencia de uso de palabras en textos oficiales de Unión Europea y en textos periodísticos, sobre frecuencia de grafemas y alófonos, y sobre ambigüedades gráficas y fonéticas, además de desarrollar un modelo lingüístico para la resolución de las ambigüedades y para ser aplicado en la tecnología del habla (cf. Boves y Recife, 1987; Boves et al., 1987a, 1987b, 1988). Las estrategias, técnicas y herramientas aplicadas y desarrolladas eran las mismas para todas las lenguas del proyecto (italiano, inglés, francés, holandés, alemán, español y griego). En los estudios sobre el español participaron el Departamento de Lengua Española de la Universidad Nacional de Educación a Distancia (UNED) y Departamento de Electrónica y Sistemas Digitales de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la Universidad Politécnica de Madrid (UPM). Este proyecto tuvo su continuación en el Proyecto ESPRIT-2014, POLYGLOT (cf. Boves, 1991; Pardo et al., 1992). La transcripción grafema-fonema formaba parte del conjunto de investigaciones realizadas.

Evidentemente, todo sistema de fonetización automática puede ser objeto de investigación lingüística, y su carácter utilitario no implica necesariamente que se desvincule de los estudios teóricos. El trabajo de Laporte (1988) para el francés, que describimos en el siguiente capítulo, se vincula con la gramática léxica de la escuela de Gross (1975).

Un sistema de transcripción fonética automática puede implementar las propuestas de un modelo fonológico, como hacen Howard y Goldman (1994) en su silabador del español, en el que las reglas siguen el algoritmo de Hualde (1991), inscrito en la fonología generativa. Las operaciones se llevan a cabo mediante transductores de estados finitos. El paso previo a la silabación es la conversión de grafemas en fonemas, puesto que, en la fonología generativa, son fonemas lo que se adjuntan en los constituyentes silábicos, no grafemas. En la conversión grafema-fonema, además de las irregularidades ortográficas, el conversor decide la silabicidad de la vocales [+altas], (i, u), analizando la información contextual: se interpretan como vocales silábicas si no son adyacentes a una vocal o están acentuadas, de lo contrario, se interpretan como asilábicas. El silabador proyecta los núcleos, forma los ataques simples y complejos y, posteriormente, las codas, en una representación arbórea. El sistema silabea sin atender las idiosincrasias léxicas no deducibles por el contexto, como el hiato de /kli.én.te/. Tras haber sido probado en un diccionario de 80.000 palabras, encuentran una parte residual de 200 en las que la silabación es incorrecta; por ejemplo, el grupo ui de construido se transcribe como diptongo decreciente /uj/ y no como creciente /wi/⁴.

De hecho, la creación de un conversor conlleva el estudio de todos aquellos fenómenos lingüísticos implicados en el habla: fonéticos, fonológicos, morfológicos, sintácticos, semánticos y pragmáticos. Los sistemas de síntesis pueden vincularse con las teorías fonológicas, como el DELTA (cf. Hertz et al., 1985) y el PANTOME (cf. Iles y Edmondson, 1993), basados en los formalismos de la fonología no lineal generativista. Existen conversores que están concebidos como objeto de investigación lingüística, más allá de lo meramente utilitario; citamos, a modo de ejemplo, el desarrollado en el Instituto Real de Tecnología de Estocolmo (KHT) para el islandés (cf. Granström et al., 1992): los autores estudian la interacción entre fonética, fonología y morfología: la síntesis constituye la implementación fonética que verifica las hipótesis fonológicas y morfofonológicas.

2.2. La pronunciación transcrita: modelo de habla y número de segmentos.

Las aplicaciones industriales de la fonetización suelen trabajar con la variedad estándar de la lengua, por la ventaja que ofrece de ser una norma común a todos los hablantes; por ejemplo, Bakamidis y Carayannis (1987), en el sistema PHONEMIA, para la transcripción automática del griego moderno, rechazan las pronunciaciones dialectales, de modo que las reglas no contemplan fenómenos como la palatalización de [l] y [n] ante [i]; su conversor se adapta a la pronunciación más común. No sucede igual en el conversor del vasco realizado por Hernáez et al. (1994). Aunque en esta lengua está normalizada en su expresión escrita (el Euskara Batua, o Lengua Unificada Vasca), no existe una norma clara de pronunciación. Los autores han diseñado un sistema abierto a todas las posibles pronunciaciones: las reglas para la transcripción fonética se especifican en un fichero de texto y el sistema permite su adaptación a las distintas variantes. Por otro lado, los sistemas de fonetización creados para los conversores texto a habla suelen trabajar con una transcripción fonética ancha. Para el español, al repertorio de fonemas se añaden a lo sumo las aproximantes [], [] y [], los alófonos no silábicos de /i/ y /u/ y el alófono sonoro de /s/ (cf. Santos, 1981; Martí y Niñerola, 1987; Martínez Martín, 1987; Conejo y van Coile, 1991; Pérez y Vidal, 1991; Rodríguez et al., 1993; López, 1993).

No obstante, en la conversión texto a habla, no es nueva la investigación dirigida a crear productos capaces de reproducir distintas variedades dialectales y estilísticas de una lengua; por ejemplo, la versión inglesa del sistema multilingüe Infovox desarrollado en el Instituto Real de Tecnología de Estocolmo (KHT) incorpora las normas de pronunciación británica y americana (cf. Bladom et al., 1987). En ese sistema se ha desarrollado también la síntesis de variantes estilísticas, dependientes de las actitudes y emociones del hablante y de la velocidad de elocución (cf. Granström, 1991). La versión para el español del sistema multilingüe Bell Labs Multilingual TTS System reproduce dos variantes de la lengua castellano y mejicano⁵.

2.3. Los procedimientos de transcripción.

Existen dos procedimientos tradicionales de transcripción: por reglas (seleccionan grafemas como unidades de entrada) o por diccionario (seleccionan unidades léxicas: morfemas o palabras). Con la evolución de la inteligencia artificial se han desarrollado, además, sistemas de fonetización basados en el aprendizaje inducido, capaces de calcular una transcripción fonética a partir de un conjunto de datos previamente procesados; su origen está en la denominada "pronunciación por analogía" (cf. Gaved, 1993).

Coker et al. (1990) (citado por Lindström et al., 1993) indican que la transcripción fonética automática mediante diccionarios es capaz de conseguir, de modo inherente, una mayor exactitud que el sistema de reglas. Lammens (1987a y 1987b) encuentra ventajas y desventajas en ambos procedimientos:

Los sistemas basados en reglas son más fáciles de implementar computacionalmente y su formato permite fáciles modificaciones; las reglas pueden reflejar los conocimientos lingüísticos implicados en la conversión; permiten evaluar su adecuación con grandes bases de datos y estudiar los errores producidos y corregirlos. No obstante, tienen la desventaja de que la velocidad de ejecución es menor cuanto mayor es el número de reglas, aunque es un problema que puede ser solventado con los avances informáticos.

Los sistemas basados en el léxico, en cambio, tienen una mayor velocidad de procesamiento y las transcripciones siempre son correctas (si la unidad léxica está contenida en el diccionario previamente transcrito); el diccionario puede ser utilizado también para recoger otro tipo de información. Sin embargo, presentan la desventaja de necesitar una mayor capacidad de memoria (cuya solución también reside en los avances informáticos), y no se puede obtener una respuesta cuando la palabra no ha sido almacenada.

No obstante, la elección de un determinado procedimiento depende, fundamentalmente, de la relación grafema-fonema en la lengua que se transcribe.

2.3.1. La transcripción por reglas.

Un sistema de fonetización será más eficaz cuanto más extensa sea su aplicación con un menor coste, de los medios informáticos empleados y de la información requerida. La fonetización por reglas es el medio más apropiado en aquellas lenguas que se alejan poco del principio fonémico de la representación ortográfica, por el que cada fonema se representa con un único grafema y cada grafema representa un único fonema; es la práctica habitual en los trabajos de conversión texto a habla del español (cf. Santos, 1981; Martí y Niñerola, 1987; Martínez Martín, 1987; Pérez y Vidal, 1991; Conejo y van Coile, 1991; Rodríguez et al., 1993; López, 1993). La versión española del conversor multilingüe MULTIVOX –desarrollado inicialmente para el húngaro (cf. Olaszy et al., 1992) y aplicado también al finlandés, alemán, holandés, italiano, esperanto, francés y español– utiliza un conjunto de 100 reglas para transcribir 33 sonidos (cf. López et al., 1993).

Otras lenguas para las que también se ha aplicado la fonetización por reglas son, por ejemplo, el griego (Bakamidis y Carayannis, 1987), el italiano (Debello et al. 1987; Belestri et al., 1993), el alemán (Fellbaum y Rook, 1987; Jekosch, 1987), el polaco (Steffen-Batóg y Nowakowski, 1992), el escocés (Murray y Black, 1993) y el galés (Williams, 1993 y 1995). El transcriptor del sistema multilingüe Infovox, también se basa en reglas (cf. Carlson y Gränstrom, 1986; Barber et al., 1989; Granström et al., 1992); pero en la aplicación al danés, se introdujo un componente de normalización ortográfica, basado en un análisis morfológico, por la arbitrariedad de la ortografía de esa lengua (cf. Granström et al., 1987).

Si la pronunciación de los enunciados no siempre es predecible a partir de la ortografía, se ha de contar con mecanismos específicos para el tratamiento de las irregularidades o con listas de excepciones que corrijan la aplicación de las reglas. Molbæk Hansen (1982 y 1983), en su trabajo para la fonetización del danés, desarrollado en el Instituto de Fonética de la Universidad de Copenhague, indica que los fenómenos ortográfico-fonológicos que pueden ser descritos como regularidades se deben tratar mediante reglas de transformación sin hacer referencia a la unidad léxica particular (cf. Molbæk Hansen, 1982: 128); pero en esa lengua la pronunciación de una palabra no siempre puede deducirse de la ortografía de forma unívoca, de ahí que un fonetizador por reglas de aplicación regular no pueda ofrecer un resultado plenamente satisfactorio. En su primera propuesta, el transcriptor de Molbæk Hansen para el danés incluye dos componentes: el módulo denominado XCO regulariza las excepciones ortográficas para adaptarlas a la aplicación del segundo módulo, RCO, que incluye un conjunto ordenado de reglas de transcripción regulares que actúa sobre las entradas previamente normalizadas.

Laporte (1988: 9-18) señala la inadecuación de los fonetizadores por reglas para el francés; por ejemplo, los desarrollados para su aplicación en la síntesis por Teil (1969) y por Poirot y Rodet (1976). Por las irregularidades de la interpretación fónica de la ortografía de esta lengua, una regla de transcripción general puede estar asociada a otras reglas de excepciones y a reglas de excepciones de las excepciones; por ejemplo⁶:

Regla R₁:

La letra s se pronuncia [s]

Ejemplo: piste [pist]

Excepción E1 a la Regla R₁:

Una s entre vocales se pronuncia [z]

Ejemplo: rasoir [razwar]

Excepción E₂ a la Excepción E₁:

Después de determinados sufijos, como para-, la s entre vocales se pronuncia [s] y no [z]

Ejemplo: parasol [parasl]

Excepción E₃ a la Excepción E₂:

En algunas palabras como parasite y sus derivados, s se pronuncia [z] y no [s]

En la fonetización del francés, Catach (1984) recurre a listas de palabras para el tratamiento de la liaison y de las ambigüedades fonéticas de la lengua escrita. Belrhali et al. (1992), en la transcripción fonética del diccionario Le 60 000, creado en el Institut de la Communication Parlée de la Universidad Sthendal de Grenoble, emplean una aplicación informática desarrollada en ese centro para la síntesis multilingüe: el TOPH (Transcription Orthographique PHonétique), que permite integrar reglas y léxico (cf. Aubergé et al., 1987); las reglas para cada grafema se aplican ordenadamente desde lo particular a lo general. Mostramos su funcionamiento con la transcripción del grafema a:

(1) Se extrae una lista de palabras (25) en las que el grafema a forma parte del dígrafo ai, en posición inicial, en la representación de la vocal [e], y no de [], como es regular: aider, aigri, aigrir, aigu, aiguillage... Las reglas que se aplican para el grafema a omiten este contexto ortográfico, por lo que esas palabras se fonetizan separadamente.

(2) Se aplica un conjunto de reglas de excepciones (29), en su mayoría para el tratamiento de extranjerismos, cuya gramática reproduce el contexto ortográfico necesario para su aplicación; en ocasiones, el contexto ortográfico llega a reproducir toda la palabra⁷:

("#"+c)+au+(dillo) = [aw] caudillo (préstamo del español)

("#"+schn)+au+(zer) = [aw] schauzer (préstamo del alemán)

(3) Una vez aplicadas las reglas de excepciones, actúan las reglas generales (12); por ejemplo, la regla que convierte ai en [].

El sistema TOPH también ha sido utilizado en la fonetización del español (Cabrera et al., 1991), concretamente, de una base de datos creada a partir del GDLE. En el primer capítulo de nuestro trabajo hemos analizado los problemas de la transcripción fonética contenida en esta obra. Para transcribir el grafema g se necesitan 19 reglas, si se quiere dar cuenta de las irregularidades que encontramos en los extranjerismos. Observamos que, cuando se reproduce íntegro el contexto ortográfico, las reglas están ligadas a la palabra o a las palabras sobre las que se aplican; el sistema es poco generalizador en el tratamiento de las excepciones. Por ejemplo, en la regla de elisión de g en posición final constan todas las palabras con ese contexto⁸:

("#"+ban, campin, smokin, bumeran, boomeran, rin, puddin, pin, pon, parkin, maretin, dumpin, dopin)+g+("#") = [ ]

Para elidir g en posición medial existen cuatro reglas:

("#"+tun)+g+(steno) = [ ]

("#"+rémin)+g+(ton) = [ ]

("#"+gan)+g+(ster,sterismo,#) = [ ]

("#"+copyri,bri)+g+(ht) = [ ]

2.3.2. La transcripción por diccionario.

Cuanto más se aleje la lengua del principio fonémico antes enunciado, más necesaria es la transcripción mediante unidades léxicas. El trabajo pionero en la transcripción mediante diccionario –de palabras– es el de Coker et al. (1973), para el inglés.

Los autores del MITalk (Allen et al., 1987), el conversor texto a habla desarrollado en el MIT, presentan los siguientes argumentos para defender la transcripción mediante un diccionario de morfemas para el inglés:

La unidad más pequeña reconocible en un texto ortográfico de entrada es la palabra. El número de palabras del inglés es importante, pero limitado, por lo que se puede concebir la idea de transcribir mediante un diccionario de palabras en el que estén asociadas la representación ortográfica y la pronunciación. Este diccionario tendría un tamaño considerable y no podría cubrir todo el léxico, puesto que siempre se incorporan nuevas palabras a la lengua. La transcripción mediante reglas no puede realizarse sin incurrir en errores, por las irregularidades de la ortografía inglesa, y es inevitable el uso de un diccionario de excepciones, por ejemplo, para los extranjerismos que conserven su pronunciación de origen: parfait, tortilla. En este diccionario también podrían tener cabida las irregularidades fónicas de las palabras de uso habitual: por ejemplo, f siempre se pronuncia como fricativa sorda, excepto en of; la s final, de atlas y canvas, se pronuncia sorda, pero en algunas palabras de uso más frecuente es sonora: is, was, has. Además, podría incluirse la pronunciación de las formas flexivas irregulares. Un diccionario capaz de dar cuenta de todos los problemas de la transcripción fonética del inglés también tendría un tamaño considerable. Sin embargo, existen fenómenos en la pronunciación de esta lengua que dependen de la estructura de la palabra, incluida la asignación acentual. La transcripción mediante un diccionario de morfemas ofrece una solución intermedia entre el uso de un diccionario de palabras y el sistema de reglas, y permite transcribir la palabras existentes y los neologismos que tengan una estructura regular.

El diccionario de morfemas del MITalk contiene 12.000 entradas (prefijos, raíces y sufijos flexivos y derivativos) en las que consta la representación ortográfica y la pronunciación de esos elementos, así como los datos sobre las irregularidades. En el proceso de transcripción se lleva a cabo un análisis morfológico que divide la palabra en constituyentes morfemáticos, indicándose el tipo de morfema, su forma ortográfica y su pronunciación, y los datos sobre los homógrafos, si existen. Un conjunto de reglas morfofonológicas resuelve la concatenación de los morfemas en la palabra. Además, existen reglas de transcripción grafema-sonido para aquellas palabras que no están en el diccionario. El módulo de asignación del acento léxico tiene acceso a la información morfológica.

En los primeros trabajos sobre la fonetización del holandés se utilizó el sistema de reglas, por ejemplo, el del UEL; pero existen propuestas posteriores para la fonetización mediante el léxico, como la de Lammens (1987a y 1987b), la de Guliks y Willemse (1992) y el MORPHON (Nunn y van Heuven, 1993). La fonetización por diccionario también se ha aplicado, por ejemplo, para el noruego (Stensby et al., 1993) y para el sueco: el sistema PROPHON (PROlog and PHOnetics), de Ceder y Lyberg (1992).

2.4. El formalismo de las reglas de transcripción.

Existen dos tipos de reglas: dependientes e independientes del contexto.

Las reglas dependientes del contexto pueden expresar distintos tipos de relaciones entre la entrada y la salida:

(a) Correspondencia biunívoca: una letra se transcribe como un fonema.

(b) Correspondencia dos a uno: dos letras adyacentes se transcriben como un fonema.

(d) Correspondencia uno a cero: una letra no tiene transcripción fonética.

El formalismo habitual de las reglas de transcripción sigue el modelo de Chomsky y Halle (1968); son reglas de reescritura contextuales, con el siguiente formato:

Foco ---> cambio / contexto izquierdo ___ contexto derecho,

donde el foco, el cambio y el contexto pueden ser: unidades o grupos⁹ de grafemas, fonemas, rasgos de fonemas, o elemento vacío. La regla asigna un cambio estructural a un foco a condición de que éste vaya precedido por el "contexto izquierdo" y seguido del "contexto derecho".

Los grafemas se relacionan con los fonemas a través de las reglas. La cadena de grafemas se examina secuencialmente (generalmente de izquierda a derecha, aunque también puede efectuarse de derecha a izquierda; por ejemplo, en el sistema del UEL), repitiéndose la operación que asigna los segmentos fónicos (fonemas o fonos). Para cada grafema sólo es necesario activar las reglas relacionadas con él.

Al formato tradicional de las reglas de reescritura se le pueden añadir determinados mecanismos, si es necesario (cf. van Leuwen, 1987 y 1989), como en el sistema de transcripción del UEL (cf. Berendsen, 1986 y 1987):

(1) Se pueden negar elementos o grupos de elementos, de modo que sólo se aplique un cambio cuando no se dé un determinado contexto.

(2) Se pueden utilizar rasgos –con forma de definiciones– en lugar de secuencias.

(3) Se pueden coordinar dos reglas para los casos en que el cambio está sometido a más de una condición.

(4) Se pueden utilizar reglas denominadas 'globales', transderivacionales, que permiten referirse a estadios anteriores de la derivación.

La modificación del formato tradicional de las reglas evidencia sus propias limitaciones formales, aunque constituyen una herramienta indudablemente útil. Iles y Edmondson (1993) critican la falta de actualidad del modelo fonológico en el que se basan las reglas contextuales: en la evolución de la fonología generativista han surgido otras formalizaciones.

2.5. La información requerida en la transcripción.

Un transcriptor, al poner en relación dos representaciones de un mismo texto –la ortográfica y la fonética– a través de una operación informática, realiza la misma lectura que haría un hablante-lector de la lengua, por lo que necesita la información que éste posee: ha de conocer la pronunciación y la interpretación fónica de la ortografía de la lengua que se transcribe.

La información lingüística que necesita un transcriptor depende de la complejidad de la relación ortografía-pronunciación y de la mayor o menor complejidad de los fenómenos fonológicos de la lengua; cada una tiene sus propios requerimientos, que condicionan la fonetización. Así, en griego moderno (Bakamidis y Carayannis, 1987), a diferencia de otras lenguas europeas entre las que se cuenta el español, todas las sílabas acentuadas van marcadas en los textos escritos mediante un acento ortográfico, por lo que se eliminan las reglas de predicción acentual. El francés es una lengua con acento léxico fijo, en la última sílaba de la palabra, por lo que en una transcripción fonética automática de esa lengua no tiene por qué reflejarse la acentuación, como en el diccionario de Laporte (1988)..

2.5.1. Preprocesamiento del texto.

Un fonetizador se ha de aplicar a un texto ortográfico normalizado. Existe un paso previo a la transcripción: el preprocesamiento lingüístico del texto, que interpreta ortográficamente todos aquellos signos que no tienen un formato de "palabra"; nos referimos a las siglas, los números y las abreviaturas.

El sistema de conversión de texto-voz para el español desarrollado en el Laboratorio de Fonética de la Universidad Católica de Nimega (Vieregge et al., 1987) contiene un conjunto de módulos de preprocesamiento del texto, de aplicación ordenada, que realizan las siguientes operaciones:

Un primer módulo (ROMEIN) se ocupa del tratamiento de los números romanos, a los que transforma en cifras arábigas. Un segundo módulo (CIJFER) convierte cadenas de hasta doce dígitos en su correspondiente versión ortográfica; agrupa los números de teléfono de dos en dos, y si se trata de una expresión numérica impar, el dígito situado más a la izquierda se pronuncia aisladamente; si en un número decimal aparece una coma, ésta se interpreta como "coma". Un tercer módulo (AFKORT) convierte las mayúsculas en minúsculas y las abreviaturas, en una expresión ortográfica completa. Tras la aplicación de los módulos de preprocesamiento, con los que se obtiene un texto ortográfico normalizado, actúa el de conversión grafema-sonido (TEST), que consiste en un conjunto ordenado de reglas de reescritura de las que forman parte las reglas de acentuación, que asignan una marca acentual a las sílabas sin tilde.

En el preprocesamiento también puede incluirse el tratamiento de los signos de puntuación y la realización de operaciones que también podrían desarrollarse en la propia fonetización, como es la asignación acentual. Por ejemplo, el módulo de preprocesamiento lingüístico del conversor texto a habla desarrollado en el Departamento de Electrónica de la Escuela Técnica Superior de Ingenieros de Telecomunicación del Madrid realiza las siguientes operaciones (cf. Martínez Martín et al., 1986: 369-371):

(1) La conversión de números en texto:

(1.1) Si en un texto hay números cardinales, una subrutina convierte en una expresión ortográfica las secuencias de menos de siete dígitos sin puntuación intermedia y las secuencias de hasta trece dígitos cuando están separados en grupos de tres.

(1.2) Si un número cardinal está seguido de una abreviatura (por ejemplo: km., m., pts.), se establecen concordancias de género y número con las unidades, centenas y centenas de millar; también se inserta la preposición de cuando es necesario: veintiún kilómetros, un metro, doscientos millones de pesetas.

(1.3) Si una expresión numérica tiene decimales, se expande con la palabra coma; por ejemplo: 234,46 = doscientos treinta y cuatro coma cuarenta y seis.

(1.4) Los números decimales son convertidos en expresión ortográfica desde el 1º al 19º.

(1.5) Las fechas con la forma « x-y-z » (en la x es el día; y el mes; z el año, en dos o cuatro cifras) se transcriben, por ejemplo, como catorce de octubre del ochenta y cinco y catorce de octubre de mil novecientos ochenta y cinco.

(1.6) La representación ortográfica de las horas ( xx : yy : zz) se procesan concordando en género y número con las palabras horas, minutos y segundos.

(2) La expansión de las abreviaturas que tengan cierta normalización. La lista de abreviaturas tratadas se organizan en tablas que contienen aquellas más usuales, las que suelen seguir a los números, las que suelen ir separadas por puntos (por ejemplo: S.A., F.F.C.C.) y las que contienen otros signos ortográficos (por ejemplo: « c/c » = cuenta corriente).

(3) La inserción del acento fonético en las palabras que deban llevarlo.

(4) El tratamiento de los signos de puntuación: se crean variables que serán utilizadas en otros módulos del sintetizador como información prosódica sobre el tipo de inflexión y el lugar donde debe marcarse, el lugar de las pausas y su duración, la entonación de los tipos de oraciones: interrogativas, exclamativas, parentéticas.

(5) La omisión de cualquier carácter no previsto en los anteriores pasos, de modo que sea eliminado de la cadena de análisis.

Las operaciones realizadas por el módulo de preprocesamiento pueden ser incluidas en la propia fonetización; así lo proponen Lindströn et al. (1993) en su trabajo sobre el sueco.

2.5.2. Información lingüística.

Ya hemos citado el ejemplo del MITalk (Allen et al., 1987), que recurre al análisis morfológico para poder realizar la conversión grafema-fonema del inglés.

Un transcriptor puede necesitar información morfosintáctica:

Berendsen y Don (1987) analizan la interacción entre la estructura morfológica en la posición del acento en holandés:

(1) En las palabras monomorfemáticas, el acento se sitúa en una de las tres últimas sílabas, y se puede calcular en cuál de ellas atendiendo a la forma de las rimas (cf. Berendsen y Don, 1987: 240).

(2) En las palabras derivadas por sufijación, la posición del acento depende del tipo de sufijo que se haya adjuntado a la base: existen sufijos cuyo comportamiento es neutro en cuanto a la complejidad de la palabra: (el acento se asigna atendiendo a las reglas generales de la palabras monomorfemáticas); otros sufijos mantienen el acento de la raíz y otro grupo traslada el acento desde la raíz hasta la primera vocal no reducida situada a la derecha del sufijo.

(3) En las palabras compuestas, el acento se sitúa en el componente derecho, siguiendo las reglas que se aplican a las palabras monomorfemáticas y polimorfemáticas.

Para asignar correctamente el acento en holandés (acento primario y secundario), las palabras se han de dividir en sus constituyentes morfemáticos, pero esa división no está reflejada en la ortografía. El trancriptor del UEL incorpora tres módulos morfológicos, cuyo cometido es convertir las secuencias de grafemas sin marca de división morfológica en secuencias de grafemas que incluyen dichas marcas; actúan antes de la conversión grafema-fonema, y únicamente en aquellas palabras en las que la división morfológica es pertinente. El primer módulo se aplica para los procesos de sufijación y composición (actúa de derecha a izquierda); el segundo, para la prefijación (los autores no describen el comportamiento de este proceso); y el tercero trata las irregularidades: borra aquellas marcas que se hayan insertado sin efecto en la acentuación, e introduce marcas en los casos excepcionales. Los dos últimos actúan de izquierda a derecha.

Tras la conversión de grafemas en fonemas, actúa el módulo de acentuación, que realiza dos operaciones ordenadas (cf. Berendsen y Don, 1987: 242):

(1) La cadena de fonemas de entrada es analizada de derecha a izquierda y las reglas de acento monomorfemático asignan el acento secundario. En este módulo, las reglas tienen en cuenta las marcas de división morfológica. Las fronteras de composición (#) actúan como fronteras de palabras, y el acento monomorfemático se asigna a los dos miembros del compuesto. Las fronteras de sufijación (%) de las palabras derivadas que mantienen el acento en la raíz también actúan como fronteras de palabras y las reglas no se aplican en el sufijo.

(2) Los acentos secundarios se convierten en primarios en dos casos: en el componente izquierdo de un compuesto y en las palabras no compuestas.

Ceder y Lyberg (1992) señalan que el sueco (al igual que el alemán y el holandés) es una lengua que se caracteriza por la creación constante de nuevos compuestos por la concatenación de palabras ya existentes. El tamaño de un diccionario de fonetización para esta lengua –es el medio que utilizan– se incrementaría notablemente con la inclusión de todos esos compuestos de formación regular. En su sistema de transcripción introducen un Módulo de Compuestos que divide esas palabras a partir de las contenidas en el diccionario y que reasigna el acento. Los autores también introducen un analizador sintáctico que rompe las ambigüedades de los homógrafos heterófonos.

Aunque el italiano ha sido descrito como una lengua de fácil transcripción (cf. Debello et al. 1987:17), no siempre se puede determinar la posición del acento a partir de reglas fonológicas. Quazza y Vivalda (1987) abordan el problema construyendo un analizador morfológico que permite situar el acento teniendo en cuenta la forma de los finales de palabras. No obstante, existen homógrafos ambiguos por la acentuación, como «'ancora / an'cora»; para esos casos se necesita información sobre la categoría gramatical: un componente sintáctico analiza la situación de la palabra en la oración y detecta la categoría por la información del contexto, recurriendo a datos estadísticos sobre la frecuencia de coaparición de las unidades. El sistema se completa con un diccionario de excepciones. Cosi (1987) diseña un sistema de transcripción grafema-fonema para el italiano mediante autómatas de estados finitos. Las reglas que aplican los autómatas se basan únicamente en la forma ortográfica de las palabras (las restricciones fonotácticas de la lengua) y no consideran ningún tipo de conocimiento gramatical; son reglas contextuales que sólo tienen en cuenta el contexto derecho; pero la entrada de la aplicación del sistema son palabras acentuadas, tras un análisis preliminar que asigna automáticamente el acento. El transcriptor está concebido como un conjunto de grupos independientes de autómatas, destinado cada uno a realizar una operación determinada; por ejemplo, la transcripción de un grafema. El procedimiento de transcripción se divide en dos niveles: la salida del primero es una transcripción fonética ancha, y la del segundo, una trancripción fonética estrecha (alofónica), que incluye los alófonos labiodental, palatal y velar del fonema nasal /n/, las glides pre y postnucleares y las vocales largas acentuadas. El sistema se completa con un conjunto de excepciones asociadas a las reglas.

En el desarrollo de su investigación sobre la transcripción fonética automática del danés, que ya hemos citado, Molbæk Hansen observa la necesidad de introducir información morfológica y sintáctica. Propone dos componentes lingüísticos en su transcriptor (cf. Molbæk Hansen, 1989 y 1990-91; y Molbæk Hansen et al., 1991):

(1) Un sistema de análisis sintáctico-morfológico, que consta de un diccionario de morfemas con información fonológica (unas 9.000 entradas), una gramática de estructura de frase y un analizador que relaciona las unidades léxicas del diccionario y la gramática.

(2) Un sistema de transformación fonológica, formado por un conjunto ordenado de reglas sensibles al contexto que siguen el modelo de las reglas de Chomsky y Halle (1968).

El primer componente analiza el texto ortográfico de entrada y le asigna una estructura morfofonémica lineal; el segundo, transforma la salida del análisis en una cadena de signos fonéticos que representan fonos.

El análisis del texto tiene como objetivo resolver dos problemas de la fonetización del danés: la ambigüedad en la interpretación fónica de los homógrafos heterófonos y la posición del acento en el sintagma. Existe un importante número de homógrafos con distinta pronunciación, según la categoría a la que pertenecen; esos homógrafos no pueden ser interpretados fónicamente de modo correcto si no se conoce su categoría, la cual se puede deducir por la posición de la palabra en la frase. Ciertos fenómenos regulares de reducción del acento léxico, que se subordina al de la unidad de acentuación, tampoco se pueden deducir de la ortografía: están condicionados por las propiedades semánticas de las palabras y por las propiedades sintácticas de la oración. Por ejemplo: en las secuencias hipotácticas de nombres propios, todos pierden el acento menos el nombre final (Hans Møller, Jens Peter Jensen); se desacentúa el sustantivo que precede a un numeral (nummer ét: 'número uno', indgang 5: 'entrada 5'); en las construcciones formadas por un verbo transitivo y un sintagma nominal indeterminado con función de CD, el verbo pierde su acento léxico (brænde bøger: 'quemar libros'), pero lo conserva cuando el sintagma nominal es determinado (brænde bøgerne: 'quemar los libros').

En un sistema de síntesis, la salida de la aplicación del transcriptor puede ser modificada en el módulo fonético (el que asigna los parámetros acústicos que serán transformados en voz). Para obtener una pronunciación más natural, Henriksen y Reinholt Petersen (1990-91) introducen un módulo de reglas de ajuste que detalla la transcripción obtenida del fonetizador creado por Molbæk Hansen (1989 y 1990-91) para el danés. La pronunciación transcrita corresponde a la lectura de palabras aisladas, pero en el habla se producen asimilaciones de la vocal neutra ante sonorante, aspiraciones y africaciones que deben ser tenidas en cuenta en la síntesis.

Para construir las reglas del sistema TOPH, Belrhali et al. (1992) tuvieron en cuenta la siguiente información, perteneciente a distintos niveles:

(1) El nivel grafemático, que corresponde a la conversión regular de secuencias ortográficas en secuencias fonéticas; ninguna información perteneciente a los otros niveles es necesaria. Por ejemplo: la secuencia ortográfica eau se transcribe como [o].

(2) Nivel morfofonémico. La estructura morfológica de la palabra puede tener incidencia en la pronunciación.

(2.1) Ejemplos de prefijación:

Según la regla general, la consonante s entre vocales se pronuncia sonora [z], pero si ese mismo contexto ortográfico corresponde a un prefijo acabado en vocal que se adjunta a una base que empieza por s, pronunciada sorda [s], esa regla general no ha de aplicarse: asocial = a + social, s = [s].

En la palabra polyacide, formada por poly + acide, el grupo ortográfico ya se pronuncia con dos vocales silábicas [ia] y no como glide y vocal silábica, que sería la interpretación fónica regular.

(2.2) Ejemplos de sufijación:

La letra t de los grupos ortográficos tie y tion, cuando no está precedida por s, se pronuncia como [s] si esos grupos son la representación ortográfica de sufijos, y como [t] si no lo son; por ejemplo: acrobatie [s] / sortie [t]; aunque también existen idiosincrasias léxicas.

(2.3) Ejemplos de composición:

En la palabra tournesol (tourne + sol) se pronuncia la vocal medial, que se elidiría de no ser compuesto.

(3) Nivel léxico.

Existen multitud de idiosincrasias léxicas en la pronunciación: por ejemplo, el grupo ch se pronuncia [k] en las palabras de origen griego, y no como fricativa []; el italianismo corrousel se pronuncia con [s] y no con [z].

(4) Nivel categorial.

Existen muchos homógrafos heterófonos cuya pronunciación puede deducirse por la categoría. Por ejemplo, fier se pronuncia [fie] si es la forma verbal de se fier, y [fiR] si es adjetivo.

(5) Nivel semántico.

La ambigüedad de los homógrafos heterófonos pertenecientes a la misma categoría sólo puede romperse en el nivel semántico: les fils [fis] ("los hijos") / les fils [fil] ("los hilos").

Hemos mostrado ejemplos de problemas que derivan de las discordancias entre ortografía y pronunciación de lenguas con sistemas ortográficos latinos. La situación es aún más compleja en japonés, cuya norma no contempla la división entre palabras en las oraciones mediante espacios en blanco. El procesador lingüístico del sistema de conversión de texto a habla desarrollado por la empresa Fujitsu para esa lengua (Katae et al., 1995) consta de tres módulos: un detector de palabras, que también genera la representación en signos fonéticos; un algoritmo de acentuación de los bunsetsu, un sintagma formado por una palabra contenido, o por una palabra contenido con una o más palabras función, que constituye una unidad acentual; y un analizador de la estructura sintáctica, cuya función es marcar las fronteras prosódicas: pausas de respiración, frontera de sintagma, frontera de unidad acentual. El procesador lingüístico localiza las palabras en una oración de entrada mediante un diccionario de 120.000 palabras; esta operación es imprescindible para realizar correctamente el paso de la representación ortográfica a la representación en signos fonéticos: un carácter Kanji tiene múltiples pronunciaciones posibles, y para seleccionar la pronunciación adecuada se ha de tener en cuenta la palabra que lo incluye. Evidentemente, sin haber detectado las unidades léxicas no es posible detectar los bunsetsu para asignarles el acento (el acento del bunsetsu no siempre coincide con el acento de palabra, pero puede ser calculado mediante reglas), ni marcar los límites prosódicos, que se establecen de acuerdo a las relaciones de dependencias entre los bunsetsu.

2.6. La modularidad de los sistemas de transcripción.

En los transcriptores, es habitual que el conjunto de las operaciones se ordenen modularmente, de modo que la salida de la aplicación de un módulo constituye la entrada del siguiente: cada uno tiene un cometido específico, y la ordenación responde a las necesidades de las operaciones que se han de realizar para obtener un texto correctamente transcrito.

En el sistema UEL se distinguen tres tipos de módulos, atendiendo al formato de la entrada y de la salida (grafemas y fonemas) (cf. Berendsen, 1987):

(1) El que convierte una secuencia de grafemas en otra secuencia de grafemas (por ejemplo, las reglas de inserción de marcas morfológicas).

(2) El que convierte una secuencia de grafemas en una secuencia de fonemas (las reglas de transcripción grafema-fonema).

(3) El que convierte una secuencia de fonemas en otra secuencia de fonemas (por ejemplo, las reglas de asignación acentual).

El segundo tipo de módulo debe ser único, ya que en él se relacionan los dos niveles propuestos: el grafemático y el fonémico; del primero y el tercero puede haber varios.

Las distintas operaciones que se realizan en este sistema de transcripción se ordenan del siguiente modo:

(1) Conversión de las abreviaturas y de los acrónimos del texto.

(2) Análisis de la estructura morfológica de la palabra derivada a partir de su representación ortográfica, especialmente en el caso de los compuestos y de los afijos que puedan afectar la derivación.

(3) Conversión de grafema a fonema, asignando un fonema a cada grafema o grupo de grafemas.

(4) Asignación del acento.

(5) Tratamiento de los procesos fonológicos en los límites entre morfemas: se convierten fonemas en fonemas.

(6) Tratamiento de los detalles alofónicos, convirtiendo fonemas en alófonos, de modo que se obtenga una representación fonética detallada para la síntesis.

La complejidad de un sistema de transcripción se pone de manifiesto en el número de módulos que lo componen, citamos como ejemplo el desarrollado para el inglés por McAllister (1987), en el Centro de Investigación de Tecnología del Habla, de la Universidad de Edimburgo; consta de los siguientes módulos ordenados:

(1) Procesador de anomalías (preprocesador), para el tratamiento de los signos de puntuación, abreviaturas, dígitos y tipografía.

(2) Módulo de descomposición morfológica, que separa la palabra en sus morfemas componentes introduciendo marcas que separan los afijos de la raíz, los miembros de los compuestos y los clíticos.

(3) Diccionario de morfos, que permite realizar los ajustes fonológicos necesarios en los miembros de una misma familia léxica, por ejemplo, la modificación de la raíz divine al añadirle el sufijo -ity en divinity.

(4) Módulo de construcción de listas de clases de palabras, que asigna las posibles categorías léxicas a las que puede pertenecer cada una.

(5) Módulo de desambiguación de las clases de palabras, que decide la categoría de cada palabra a través de un análisis gramatical.

(6) Módulo de desambiguación de afijos, que elige entre las posibles pronunciaciones y acentuación de cada afijo aquella que corresponde a la clase de palabra y a la estructura morfológica.

(7) Módulo morfofonológico, que ajusta la transcripción fonémica de las fronteras morfológicas de las palabras complejas.

(8) Módulo de asignación del acento, que asigna los acentos primarios y secundarios en función de la estructura de la palabra.

(9) Módulo de reducción vocálica, que atiende a la posición de la vocal, a la acentuación y a su composición fonémica.

(10) Módulo de fonología del nivel oración, que ajusta la pronunciación de los límites entre palabras.

(11) Nivel de entonación, que asigna la representación prosódica.

Para transformar un texto ya normalizado en una representación fonética apta para la síntesis, el transcriptor de Santos (1981) realiza las siguientes operaciones ordenadas:

Primero se determina la posición de las pausas lingüísticas partiendo de los signos de puntuación del texto; se especifica a continuación la posición del acento, tanto en las palabras que llevan acento ortográfico como en las que carecen de él; se realiza la conversión grafema-alófono aplicando un conjunto ordenado de reglas; finalmente, se aplica otro conjunto ordenado de reglas que simplifica los grupos de sonidos homólogos que se encuentran en interior de palabra o entre palabras consecutivas.

El sistema de López (1993) tiene una mayor complejidad:

(1) Análisis morfológico, a través de un diccionario de palabras pertenecientes a series cerradas (preposiciones, conjunciones...), sufijos y raíces. Se obtiene una lista posible de categorías para cada palabra, con sus propiedades flexivas.

(2) Análisis gramatical dependiente del contexto, que categoriza definitivamente las palabras.

(3) Análisis de la estructura de la oración. Divide las palabras en "palabras contenido" y "palabras función", que permitirá la asignación acentual, y determina el grado de cohesión sintáctica entre ellas, que permitirá asignar las pausas.

(4) Análisis de la estructura prosódica del texto, en la que se marcan las sílabas, los grupos acentuales (lo que implica determinar la posición de los acentos) y de los grupos entonativos.

(5) Transcripción fonética, en dos etapas: grafema-fonema y fonema alófono. Para realizar las variantes alofónicas, el transcriptor tiene en cuenta la posición del acento, la división silábica y las pausas.

En el conversor AMIGO (Rodríguez et al., 1993), las distintas operaciones se ordenan del siguiente modo:

(1) Módulo de preproceso, en el que se marca la división silábica y la acentuación fonética, y se transforman los acrónimos en una expresión lingüística.

(2) Categorizador, que determina la categoría gramatical de las palabras.

(3) Módulo estructurador, que realiza un análisis sintáctico.

(4) Módulo pausador, que asigna las pausas atendiendo a los signos de puntuación y a los datos del análisis sintáctico.

(5) Módulo conversor grafema-alófono, que transforma la representación ortográfica en una representación fonética. Emplea la siguiente información: letras, límite de palabras, límite entre sílabas dentro de la palabra, acentuación, localización de las pausas.

El conversor de Conejo y van Coile (1993) se enmarca en el proyecto multilingüe DEPES (Development Enviroment for Pronunciation Expert Systems), para el desarrollo de herramientas lingüísticas destinadas la síntesis del habla. La sección lingüística del conversor –tras la normalización del texto– convierte la representación ortográfica en fonética, obteniéndose una secuencia de fonemas, con asignación de acento y marcas de división silábica.

2.7. De la transcripción basada en el conocimiento a la pronunciación por analogía y por aprendizaje inducido.

Hemos mostrado ejemplos de transcriptores que necesitan información lingüística para realizar óptimamente su cometido.

La evolución de las técnicas informáticas ha permitido construir bases de conocimiento, susceptibles de ser aplicadas a la fonetización, que pueden contener todos aquellos datos que sean necesarios: ortográficos, fonológicos, morfológicos, sintácticos, léxicos y semánticos.

Por ejemplo, Lindström et al. (1993), en su trabajo sobre el sueco, utilizan el diccionario desarrollado en el Chalmers Institute of Technology, Department of Information Theory. Contiene aproximadamente 116.000 entradas, incluyendo abreviaturas, acrónimos, compuestos comunes y nombres propios. El diccionario está lematizado, indicándose la categoría de cada palabra raíz y un código de flexión que está asociado a un conjunto de 500 reglas que permiten generar todas las formas flexivas; también consta la pronunciación, los constituyentes morfológicos e información sobre compuestos y derivados.

Contar con instrumentos de ese tipo permite flexibilizar las aplicaciones. En el transcriptor de Lindström et al. (1993) todos los módulos están interconectados a través de la base de conocimiento, organizada en niveles; se rompe así la rigidez de los sistemas tradicionales de transcripción, en los que cada módulo sólo tiene acceso a los datos internos y no a los del resto.

Todos los módulos del transcriptor del sistema de conversión PHRITTS, para el alemán (Meyer et al., 1993), actúan con los datos de una base de conocimiento común, lo que permite sincronizar los distintos tipos de información implicados en el proceso; las reglas pueden incorporar información de distinto nivel: grafema, fonema, morfema, palabra, sintagma, oración, texto.

Evidentemente, un problema que deriva del uso de una gran cantidad de información lingüística es la lentitud del proceso.

Todas las lenguas incorporan neologismos: préstamos, o creaciones que resultan de la aplicación de los propios procesos morfológicos. En la transcripción por diccionario, si una unidad léxica no está contenida en él, un sistema de reglas realiza la transcripción pertinente; los neologismos se pueden introducir en el diccionario. En la transcripción por reglas, todas las palabras, conocidas o nuevas, siguen el proceso previsto en el sistema. Existen técnicas que deducen la pronunciación de las palabras de nueva incorporación por analogía con las ya existentes. Se parte del principio, tomado de la psicología (Glushko, 1981), de que el lector de una lengua pronuncia las palabras que se incorporan a ella por analogía con los patrones grafema-fonema que conoce; no, usando "reglas". En la pronunciación por analogía aplicada a la transcripción fonética, se crean algoritmos que deducen la pronunciación consultando bases de datos fonéticas (tablas de comparaciones que contienen palabras representadas ortográfica y fonéticamente) y teniendo en cuenta datos estadísticos sobre la frecuencia de las relaciones que se establecen entre letras y fonemas; no emplean información gramatical, sólo contextual. Citamos las obras de Lawrence y Kaye (1986), Dedina y Nusbaum (1991), Sullivan y Damper (1992) y Gaved (1993).

Con el desarrollo de la inteligencia artificial se han desarrollado métodos inductivos para el aprendizaje de los sistemas computacionales, que perfeccionan esa técnica. El aprendizaje reduce el volumen de la base de datos, que puede limitarse a un corpus de palabras frecuentes; el sistema acumula la información que obtiene en el entrenamiento a través de las sucesivas aplicaciones y crea una memoria en la aparecen emparejadas cadenas de grafemas con cadenas de fonemas, y su distribución: se tiene en cuenta la información contextual. El cálculo de la pronunciación más probable se realiza siguiendo modelos estadísticos inspirados en los que se usan en el reconocimiento. Se cita como primer trabajo en esta línea de investigación el sistema NETtalk, de Sejnowsky y Rosenberg (1987) (cf. Hunnicutt et al., 1993: 763), que ha sido aplicado a otras lenguas, como el polaco (PolTalk) (cf. Dymarsky et al., 1995). También se inscriben en la misma de investigación el sistema TabTalk, de Daelemans y van den Bosch (1993), para el holandés, y el SELEGRAPH, de Andersen y Dalsgaard (1995), un sistema multilingüe aplicado al danés, al inglés, al noruego, al italiano y al español.

Los trabajos de Ainsworth y Pell (1989) y Ainsworth y Warren (1991) muestran dos fases del desarrollo de un sistema de transcripción basado en las técnicas de aprendizaje –parten del modelo de McCulloch et al. (1987), NETspeak, una reimplementación del NETtalk– que combina el análisis morfológico con reglas de transcripción que se aplican sobre las palabras segmentadas; la base de datos de entrenamiento está formada por dos subdiccionarios, de palabras con pronunciación regular y de palabras con pronunciación irregular.

Hunnicutt et al. (1993) crean un sistema de transcripción bidireccional, grafema-fonema / fonema-grafema, para el inglés en el que se combinan estrategias basadas en las técnicas de aprendizaje inducido y formalismos basados en las reglas tradicionales de reescritura. Parten de un análisis jerárquico de la palabra, que contiene la siguiente información: estructura morfológica, división de los morfemas en sílabas, información de los patrones acentuales, constituyentes silábicos, segmentos-grafemas; estos distintos niveles se relacionan mediante las reglas. La aplicación que asigna representaciones ortográficas a las representaciones fonéticas y calcula la pronunciación de las representaciones ortográficas tiene en cuenta las restricciones que se producen en cada nivel. El sistema establece las distintas posibilidades de asociación entre grafemas y fonemas y entre fonemas y grafemas, y toma las decisiones pertinentes basándose en métodos estadísticos.

Tajchman et al. (1995) crean un sistema que calcula la pronunciación de neologismos usando reglas fonológicas. Se combinan bases de datos formadas por varios diccionarios de pronunciación, técnicas de entrenamiento para los sistemas informáticos y métodos estadísticos; el sistema genera todas las probables reglas fonológicas que transcribirían la palabra y toma las decisiones pertinentes.

Los sistemas de reglas para la fonetización pueden ser perfeccionados con la información contenida en los diccionarios ya fonetizados a través de los mecanismos de la inteligencia artificial.

Van Coile (1990, 1991 y 1993) desarrolla un sistema de reglas de conversión grafema-fonema para seis lenguas: francés, holandés, alemán, español, inglés y coreano, basándose en una base de datos léxicos con 500.000 entradas (en total para las seis lenguas). Este trabajo forma parte del sistema multilingüe DEPES, al que ya hemos hecho referencia (cf. Van Coile, 1989; Conejo y van Coile, 1991). Los datos del español están tomados del diccionario de frecuencias de Juilland et al. (1964), transportado a formato electrónico (no indica el número de entradas incluidas). En una etapa inicial, la transcripción fonética de las entradas se fue introduciendo durante el transcurso de la investigación mediante la aplicación automática de un conjunto de reglas; el resultado fue corregido manualmente por nativos de español. La base de datos léxicos sirve para entrenar y probar el sistema de reglas. Para cada palabra ortográfica, el sistema genera la transcripción fonética y alinea grafemas con fonemas (en una primera etapa, mediante Modelos Ocultos de Markov; posteriormente, mediante el algoritmo de Viterbi). Se pueden detectar los errores en la formulación de las reglas, y el propio programa calcula las pronunciaciones posibles y genera la correspondiente regla de corrección. Citamos dos ejemplos de actuación del sistema:

(1) Alineamiento obtenido tras la transcripción grafema-fonema de la palabra del holandés meisje.

Representación ortográfica

Representación fonética (de la base de datos)

Representación fonética (obtenida por las reglas)

Existe un error en la transcripción de las reglas (lo marcamos en negrita). El programa genera la siguiente corrección, específica para la palabra transcrita:

| sj | ---> | S | / #mei__e#;

(2) Alineamiento obtenido tras la transcripción grafema-fonema de la palabra del inglés computer.

Representación ortográfica

Representación fonética (de la base de datos)

Representación fonética (obtenida por las reglas)

Existe un error de transcripción, y el programa sugiere la siguiente regla:

| | ---> | j | / #compu_ter#;

2.8. La codificación de los símbolos de transcripción.

El desarrollo de los sistemas de fonetización automática ha planteado el problema de la codificación de los símbolos fonéticos. Existe un condicionamiento técnico que deriva de las limitaciones del medio informático: la configuración de los teclados de los ordenadores no representa todos los símbolos y diacríticos del alfabeto fonético comúnmente utilizado en el ámbito de la lingüística (el AFI) y, por tanto, dichos símbolos no tienen representación en el código ASCII (American Standard Code for Information Interchange), el sistema internacional de intercambio de información mediante ordenador. Por otro lado, para representar determinados sonidos con el AFI se han de usar signos y diacríticos; como cada carácter ocupa un determinado espacio en la memoria del ordenador (1 byte), una transcripción informatizada con ese alfabeto conlleva la ampliación de dicho espacio y la consiguiente complicación del sistema.

Existen programas que pueden diseñar los caracteres que sean necesarios para la descripción fonética, como Better Letter Setter (LST Software, Richmond, CA) para ordenadores IBM, y fuentes ya diseñadas con versiones del AFI, como el IPAplus (UCLA, Los Angeles) para ordenadores Macintosh de Apple, o el IPAPhon, un grupo de cuatro fuentes para la versión revisada del AFI (IPA, 1995). Con dichos programas y fuentes se puede conseguir una representación mediante símbolos fonéticos, tanto en la pantalla, como en la salida por impresora, pero la entrada en el ordenador ha de realizarse necesariamente mediante caracteres y combinaciones de caracteres ASCII, por lo que la arbitrariedad es difícilmente inevitable en la relación que se establece entre el signo fonético representado y su entrada en el teclado.

También se han desarrollado diversos sistemas que utilizan los signos codificados en ASCII (letras mayúsculas, minúsculas y diacríticos), para representar los caracteres y diacríticos del AFI: son los trabajos de Wells (1987, 1990, 1995), Allen (1988), Esling (1988 y 1990) y Esling y Gaylord (1993). Algunas de estas propuestas se han llevado a cabo en el marco de proyectos lingüísticos. El sistema PHONASCII, propuesto por Allen (1988), fue diseñado como codificación informática de los signos fonéticos para el proyecto CHILDES (Child Language Data Exchange System), cuyo objetivo era la creación de bases de datos lingüísticos y el desarrollo de herramientas informáticas para el estudio del habla infantil (cf. MacWinney, 1991). El sistema SAMPA, de Wells (1987, 1989), fue utilizado en la transcripción de los corpus orales del proyecto SAM (Multilingual Speech Input/Output Assessment Methodology and Standardisation), cuyo objetivo era el desarrollo de métodos, herramientas y bases de datos –de las lenguas de la Unión Europea– aplicables a la síntesis, el reconocimiento y la verificación de sistemas informáticos (cf. Autesserre et al., 1989). En su origen, el SAMPA tenía un enfoque fonológico, y posteriormente fue complementado con codificaciones del AFI de carácter más fonético (Wells, 1995).

NOTAS

1.     Introducimos los neologismos fonetizador como sinónimo de transcriptor; fonetización, para denominar la transcripción en caracteres fonéticos de una cadena de caracteres ortográficos, ya sean palabras aisladas o textos; y fonetizar, con el significado de transcribir en caracteres fonéticos.

2.     Para el español, dos excepciones son los trabajos de Ueda (1982) y de Pérez y Guerrero (1994). El primero está dirigido a la obtención de datos estadísticos; el segundo es un programa para ordenadores personales destinado a la fonetización de textos ortográficos de modo interactivo por parte del usuario. Fue concebido como un producto de fácil manejo, en un entorno de menús desplegables y de ventanas en las que aparecen las transformaciones realizadas en los textos. Realiza transcripciones fonéticas y fonológicas, en AFI o en RFE, de un texto en formato ASCII. Las transformaciones son excluyentes, no se deriva una de otra. El proceso sigue el siguiente orden: (1) normalización del texto, (2) separación de grupos fónicos, a partir de los signos de puntuación, (3) conversión de los signos ortográficos en fonéticos, (4) silabación sobre la representación ortográfica: división de vocales y consonantes, y entre vocales (las irregularidades han de ser corregidas por el usuario, que cuenta con un vocabulario de excepciones, (5) acentuación, (6) aplicación de reglas fonotácticas o de elisión vocálica.

3.     Sobre el mecanismo opuesto –la conversión fonema-grafema– pueden consultarse, para el español, los trabajos de Enríquez (1991) y Enríquez y Casado (1991).

4.     Existen otros silabadores del español: los de Amela (1982) y Mañas (1987). El último sigue el mismo procedimiento que Howard y Goldman (1994), aunque no se inscriba en ninguna propuesta teórica: identifica los núcleos silábicos, a los que se adjuntan los segmentos adyacentes en las posiciones de coda y ataque. Lamentablemente, todos estos trabajos, enfocan la división silábica desde la regularidad, sin detenerse en estudiar las idiosincrasias léxicas sobre los hiatos no marcados ortográficamente.

5.      Información en: http://www.bell-labs.com/project/tts/spanish.html

6.      Reproducimos la notación fonética utilizada por Laporte (1988: 10).

7.      El signo « # » representa un límite de palabra; el signo « + » indica la concatenación de letras.

8.      La coma se interpreta como "o".

9.      Por ejemplo, los transcriptores para el alemán de Fellbaum y Rook (1987) y de Jekosch (1987) utilizan como unidades de entradas grupos de grafemas consonánticos y grupos de grafemas vocálicos, que pueden coincidir, o no, con límites morfológicos.

Anterior I Siguiente I Índice General

ISSN: 1139-8736
Depósito Legal: B-39200-99