Show simple item record

dc.contributor.advisorFonseca Arroyo, Pablo Alejandro
dc.contributor.authorTarazona Cruz, Luz Silvana
dc.date.accessioned2024-10-31T16:52:36Z
dc.date.available2024-10-31T16:52:36Z
dc.date.created2024
dc.date.issued2024-10-31
dc.identifier.urihttp://hdl.handle.net/20.500.12404/29310
dc.description.abstractEl presente trabajo de investigación aborda la tarea del reconocimiento automático de texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en los manuscritos históricos de autores peruanos, que están bajo la custodia de la Biblioteca Nacional del Perú (BNP), enfrentando diversas dificultades como la variabilidad caligráfica, el deterioro del papel, entre otras. Para esta tarea, se emplearon modelos de reconocimiento de imágenes preentrenados en otros idiomas disponibles en la plataforma de código abierto denominado OCR4all. Se entrenaron tres modelos utilizando el conjunto de datos SPA-Sentences, conjunto que consta de imágenes y traducciones de aproximadamente 13,000 oraciones en idioma español, logrando una tasa de error de caracteres (character error rate - CER) promedio de 4.11% en el conjunto de validación. Posteriormente, este modelo elaborado se aplica en los manuscritos históricos peruanos, obteniendo una tasa de error promedio de 9.39%. El CER obtenido, ligeramente menor en comparación con el conjunto de datos SPA-Sentences utilizado en la etapa de entrenamiento, es atribuible a las diferencias en la calidad de las imágenes, así como en las características propias de los manuscritos. Este trabajo y el enfoque desarrollado en él demuestran la utilidad de los modelos de reconocimiento de imágenes preentrenados para abordar la tarea de HTR en manuscritos históricos, y se identifican áreas para futuras mejoras, como la optimización de la calidad de las imágenes, la diversidad del conjunto de datos y la exploración de modelos avanzados con la arquitectura Transformer.es_ES
dc.description.abstractThis paper addresses the task of automatic handwritting text recognition (HTR) in historical manuscripts of Peruvian authors held by the National Library of Peru, facing various challenges such as calligraphy variability, paper deterioration, among others. To achieve this, pre-trained mixed models in other languages available on the opensource OCR platform called OCR4all were employed. Three models were trained using the SPA-Sentences dataset, which consists of a written Spanish collection of approximately 13,000 sentences, achieving an average Character Error Rate (CER) of 4.11% on the validation set. Subsequently, this developed model is applied to the Peruvian historical manuscripts, obtaining an average error rate of 9.39%. Although this value indicates slightly lower accuracy compared to processing the SPA-Sentences dataset, this is attributed to differences in the image’s quality, as well as the specific characteristics of the manuscripts. This approach demonstrates the usefulness of pre-trained models for addressing HTR in historical manuscripts in historical manuscripts, and areas for future improvements are identified, such as optimizing image quality, dataset diversity, and exploring advanced models with Transformer architecture.es_ES
dc.language.isospaes_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nd/2.5/pe/*
dc.subjectManuscritos peruanoses_ES
dc.subjectSoftware para computadorases_ES
dc.subjectReconocimiento óptico de caractereses_ES
dc.titleReconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtoses_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
thesis.degree.nameMaestro en Informáticaes_ES
thesis.degree.levelMaestríaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgrado.es_ES
thesis.degree.disciplineInformáticaes_ES
renati.advisor.dni44695174
renati.advisor.orcidhttps://orcid.org/0000-0002-0208-2842es_ES
renati.author.dni41281069
renati.discipline611077es_ES
renati.jurorGalarreta Asian, Ana Paulaes_ES
renati.jurorFonseca Arroyo, Pablo Alejandroes_ES
renati.jurorHuiza Pereyra, Eric Raphaeles_ES
renati.levelhttps://purl.org/pe-repo/renati/level#maestroes_ES
renati.typehttps://purl.org/pe-repo/renati/type#trabajoDeInvestigaciones_ES
dc.publisher.countryPEes_ES
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.02.00es_ES


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess