Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
Abstract
Esta tesis abordó el desarrollo de recursos computacionales para la
detección y clasificación de disfluencias de tartamudez en español, cubriendo
desde la recolección y anotación de audios hasta la implementación de un
modelo de aprendizaje automático y estrategias de aumento de datos. Se
recolectaron audios en español de cinco participantes con tartamudez,
conformes a los estándares del dataset SEP-28K y con apoyo de dos
especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones
limitó la diversidad de disfluencias observadas, estos audios proporcionaron una
base sólida para el desarrollo del modelo. El modelo presentado se basó en el
modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0
XLSR53 aprovechando su robusta base de datos multilingüe. El modelo
demostró su capacidad para identificar y clasificar disfluencias en español,
aunque su rendimiento fue inferior comparado con modelos equivalentes en
inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la
detección de disfluencias, se implementaron dos estrategias de aumento de
datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido
blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta
estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y
F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el
modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales,
como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en
rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo
desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de
disfluencias en contextos de habla espontánea y procesar los audios restantes
del corpus inicial para explorar mejoras en la clasificación y detección de
disfluencias. Además, se explorarán métodos avanzados de clonación de voz y
otras técnicas de modificación de audios para enriquecer los datasets y mejorar
los modelos de detección y clasificación de disfluencias. This thesis focused on the development of computational resources for the
detection and classification of stuttering disfluencies in Spanish, spanning from
the collection and annotation of audio data to the implementation of a machine
learning model and data augmentation strategies. Audios in Spanish from five
participants with stuttering were collected, adhering to the SEP-28K dataset
standards and supported by two specialists in stuttering. Although the controlled
nature of the recordings limited the diversity of observed disfluencies, these
audios provided a solid foundation for the model development. The model was
based on the DisfluencyNet and pre-trained using wav2vec 2.0 XLSR53,
leveraging its robust multilingual database. The model demonstrated its ability to
identify and classify disfluencies in Spanish, though its performance was inferior
compared to similar models in English, highlighting the need for more data. To
enhance disfluency detection, two data augmentation strategies were
implemented. The first involved pitch variations, reverberation addition, and white
noise, effectively doubling the available data. Although this strategy improved
recall for certain disfluencies, precision and F1 results were mixed. The second
strategy, using voice cloning with the XTTS-v2 model, generated new audios that
emulated natural disfluencies, such as prolongations and blocks. While it
enhanced recall, particularly in later rounds of data augmentation, precision and
F1 continued to be challenging. Future research will focus on expanding the
annotation of disfluencies in spontaneous speech contexts and processing the
remaining audios from the initial corpus to explore improvements in classification
and detection of disfluencies. Additionally, advanced voice cloning methods and
other audio modification techniques will be explored to enrich the datasets and
enhance the detection and classification models.
Temas
Tartamudez--Procesamiento de datos
Aprendizaje automático (Inteligencia artificial)
Aprendizaje profundo (Aprendizaje automático)
Reconocimiento automático del habla
Aprendizaje automático (Inteligencia artificial)
Aprendizaje profundo (Aprendizaje automático)
Reconocimiento automático del habla
Para optar el título de
Maestro en Informática con mención en Ciencias de la Computación
The following license files are associated with this item: