Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
Abstract
El presente trabajo de investigación aborda la tarea del reconocimiento automático de
texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en
los manuscritos históricos de autores peruanos, que están bajo la custodia de la
Biblioteca Nacional del Perú (BNP), enfrentando diversas dificultades como la
variabilidad caligráfica, el deterioro del papel, entre otras. Para esta tarea, se
emplearon modelos de reconocimiento de imágenes preentrenados en otros idiomas
disponibles en la plataforma de código abierto denominado OCR4all. Se entrenaron
tres modelos utilizando el conjunto de datos SPA-Sentences, conjunto que consta de
imágenes y traducciones de aproximadamente 13,000 oraciones en idioma español,
logrando una tasa de error de caracteres (character error rate - CER) promedio de
4.11% en el conjunto de validación.
Posteriormente, este modelo elaborado se aplica en los manuscritos históricos
peruanos, obteniendo una tasa de error promedio de 9.39%. El CER obtenido,
ligeramente menor en comparación con el conjunto de datos SPA-Sentences utilizado
en la etapa de entrenamiento, es atribuible a las diferencias en la calidad de las
imágenes, así como en las características propias de los manuscritos.
Este trabajo y el enfoque desarrollado en él demuestran la utilidad de los modelos de
reconocimiento de imágenes preentrenados para abordar la tarea de HTR en
manuscritos históricos, y se identifican áreas para futuras mejoras, como la
optimización de la calidad de las imágenes, la diversidad del conjunto de datos y la
exploración de modelos avanzados con la arquitectura Transformer. This paper addresses the task of automatic handwritting text recognition (HTR) in
historical manuscripts of Peruvian authors held by the National Library of Peru, facing
various challenges such as calligraphy variability, paper deterioration, among others.
To achieve this, pre-trained mixed models in other languages available on the opensource
OCR platform called OCR4all were employed. Three models were trained
using the SPA-Sentences dataset, which consists of a written Spanish collection of
approximately 13,000 sentences, achieving an average Character Error Rate (CER)
of 4.11% on the validation set.
Subsequently, this developed model is applied to the Peruvian historical manuscripts,
obtaining an average error rate of 9.39%. Although this value indicates slightly lower
accuracy compared to processing the SPA-Sentences dataset, this is attributed to
differences in the image’s quality, as well as the specific characteristics of the
manuscripts.
This approach demonstrates the usefulness of pre-trained models for addressing HTR
in historical manuscripts in historical manuscripts, and areas for future improvements
are identified, such as optimizing image quality, dataset diversity, and exploring
advanced models with Transformer architecture.
Temas
Manuscritos peruanos
Software para computadoras
Reconocimiento óptico de caracteres
Software para computadoras
Reconocimiento óptico de caracteres
Para optar el título de
Maestro en Informática
Collections
The following license files are associated with this item: