Informática
Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/765
Browse
1 results
Search Results
Item Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos(Pontificia Universidad Católica del Perú, 2024-10-31) Tarazona Cruz, Luz Silvana; Fonseca Arroyo, Pablo AlejandroEl presente trabajo de investigación aborda la tarea del reconocimiento automático de texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en los manuscritos históricos de autores peruanos, que están bajo la custodia de la Biblioteca Nacional del Perú (BNP), enfrentando diversas dificultades como la variabilidad caligráfica, el deterioro del papel, entre otras. Para esta tarea, se emplearon modelos de reconocimiento de imágenes preentrenados en otros idiomas disponibles en la plataforma de código abierto denominado OCR4all. Se entrenaron tres modelos utilizando el conjunto de datos SPA-Sentences, conjunto que consta de imágenes y traducciones de aproximadamente 13,000 oraciones en idioma español, logrando una tasa de error de caracteres (character error rate - CER) promedio de 4.11% en el conjunto de validación. Posteriormente, este modelo elaborado se aplica en los manuscritos históricos peruanos, obteniendo una tasa de error promedio de 9.39%. El CER obtenido, ligeramente menor en comparación con el conjunto de datos SPA-Sentences utilizado en la etapa de entrenamiento, es atribuible a las diferencias en la calidad de las imágenes, así como en las características propias de los manuscritos. Este trabajo y el enfoque desarrollado en él demuestran la utilidad de los modelos de reconocimiento de imágenes preentrenados para abordar la tarea de HTR en manuscritos históricos, y se identifican áreas para futuras mejoras, como la optimización de la calidad de las imágenes, la diversidad del conjunto de datos y la exploración de modelos avanzados con la arquitectura Transformer.