Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR

Mallqui Merma, Rodrigo Roel

Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR

Ver principales metadatos en formato legible

dc.contributor.advisor	Oncevay Matos, Félix Arturo
dc.contributor.author	Mallqui Merma, Rodrigo Roel
dc.date.accessioned	2026-01-13T17:15:55Z
dc.date.available	2026-01-13T17:15:55Z
dc.date.created	2025
dc.date.issued	2026-01-13
dc.description.abstract	Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el desarrollo de este modelo se utilizaron las arquitecturas Tacotron 2 y HiFi-GAN, ampliamente utilizadas en la generación de voz de calidad. El proceso metodológico incluyó la recolección, limpieza y alineación de un conjunto de datos compuesto por audios y textos en lengua Awajún, obtenidos de las plataformas Scripture Earth y Ojo Público. Posteriormente, los datos fueron utilizados para entrenar a diferentes modelos TTS, generando muestras de audio a partir de texto escrito. La evaluación de los modelos TTS se realizó mediante la métrica CER (Character Error Rate), utilizando un modelo de Automatic Speech Recognition (ASR). Los resultados permitieron identificar el modelo con mejor desempeño que logró generar el habla en lengua Awajún, demostrando el potencial de las redes neuronales para el procesamiento de lenguas de bajos recursos. Finalmente, se utilizó la métrica MOS, en la que hablantes nativos calificaron la naturalidad de los audios generados del mejor modelo identificado. Este trabajo constituye un aporte significativo a la preservación de la lengua Awajún, y abre la posibilidad de futuras investigaciones orientadas a la creación de herramientas tecnológicas para la lengua Awajún y otras lenguas originarias del Perú.
dc.description.abstract	This research aims to develop a Text-to-Speech (TTS) model for the Awajún language, one of the 48 indigenous languages of Peru, with the purpose of contributing to its preservation through a voice synthesis model based on deep learning. For the development of this model, the Tacotron 2 and HiFi-GAN architectures were used, both widely recognized for generating high-quality speech. The methodological process included the collection, cleaning, and alignment of a dataset composed of audio recordings and Awajún text, obtained from the Scripture Earth and Ojo Público platforms. Subsequently, the data were used to train different TTS models, generating audio samples from written text. The evaluation of the TTS models was carried out using the Character Error Rate (CER) metric, with the support of an Automatic Speech Recognition (ASR) model. The results made it possible to identify the best-performing model, which successfully generated speech in the Awajún language, demonstrating the potential of neural networks for processing low-resource languages. Finally, the Mean Opinion Score (MOS) metric was employed, in which native speakers rated the naturalness of the audios generated by the best-identified model. This work represents a significant contribution to the preservation of the Awajún language and opens the door to future research focused on developing technological tools for the Awajún language and other indigenous languages of Peru.
dc.identifier.uri	http://hdl.handle.net/20.500.12404/32901
dc.language.iso	spa
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.publisher.country	PE
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.subject	Aprendizaje profundo (Aprendizaje automático)
dc.subject	Aguaruna
dc.subject	Lenguas indígenas--Perú--Amazonía, Región
dc.subject	Procesamieto en lenguaje natural (Computación)
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#1.02.02
dc.title	Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
dc.type	info:eu-repo/semantics/masterThesis
renati.advisor.dni	46440101
renati.advisor.orcid	https://orcid.org/0000-0001-7675-6208
renati.author.dni	44884967
renati.discipline	611087
renati.juror	Gómez Montoya, Héctor Erasmo
renati.juror	Oncevay Marcos, Félix Arturo
renati.juror	Sobrevilla Cabezudo, Marco Antonio
renati.level	https://purl.org/pe-repo/renati/level#maestro
renati.type	https://purl.org/pe-repo/renati/type#trabajoDeInvestigacion
thesis.degree.discipline	Informática con mención en Ciencias de la Computación	es_ES
thesis.degree.grantor	Pontificia Universidad Católica del Perú. Escuela de Posgrado.	es_ES
thesis.degree.level	Maestría	es_ES
thesis.degree.name	Maestro en Informática con mención en Ciencias de la Computación	es_ES