Extracción de textos escritos en lenguas nativas peruanas utilizando OCR

dc.contributor.advisorOncevay Marcos, Félix Arturo
dc.contributor.authorSánchez Carrera, Shadya Nyzeth
dc.date.accessioned2025-07-01T19:45:17Z
dc.date.available2025-07-01T19:45:17Z
dc.date.created2024
dc.date.issued2025-07-01
dc.description.abstractLa incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos.
dc.identifier.urihttp://hdl.handle.net/20.500.12404/31148
dc.language.isospa
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc/2.5/pe/
dc.subjectLenguas indigenas--Perú
dc.subjectReconocimiento óptico de caracteres
dc.subjectProcesamiento de lenguaje natural (Computación)
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#5.08.02
dc.titleExtracción de textos escritos en lenguas nativas peruanas utilizando OCR
dc.typeinfo:eu-repo/semantics/masterThesis
renati.advisor.dni46440101
renati.advisor.orcidhttps://orcid.org/0000-0001-7675-6208
renati.author.dni70169185
renati.discipline611087
renati.jurorBrossard Nuñez, Ian Paul
renati.jurorOncevay Marcos, Felix Arturo
renati.jurorSobrevilla Cabezudo, Marco Antonio
renati.levelhttps://purl.org/pe-repo/renati/level#maestro
renati.typehttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacion
thesis.degree.disciplineInformática con mención en Ciencias de la Computaciónes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgrado.es_ES
thesis.degree.levelMaestríaes_ES
thesis.degree.nameMaestro en Informática con mención en Ciencias de la Computaciónes_ES

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
SANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf
Tamaño:
549.96 KB
Formato:
Adobe Portable Document Format
Descripción:
Texto completo
Cargando...
Miniatura
Nombre:
SANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf
Tamaño:
2.47 MB
Formato:
Adobe Portable Document Format
Descripción:
Reporte de originalidad

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: