Extracción de textos escritos en lenguas nativas peruanas utilizando OCR

Sánchez Carrera, Shadya Nyzeth

Extracción de textos escritos en lenguas nativas peruanas utilizando OCR

Archivos

Texto completo (549.96 KB)

Reporte de originalidad (2.47 MB)

Fecha

2025-07-01

Autores

Sánchez Carrera, Shadya Nyzeth

Editor

Pontificia Universidad Católica del Perú

URI

http://hdl.handle.net/20.500.12404/31148

Resumen

La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos.

Palabras clave

Lenguas indigenas--Perú, Reconocimiento óptico de caracteres, Procesamiento de lenguaje natural (Computación)

Colecciones

Informática con mención en Ciencias de la Computación

Licencia Creative Commons

Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/embargoedAccess

Ver todos los metadatos en formato Dublin Core

Extracción de textos escritos en lenguas nativas peruanas utilizando OCR

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Acceso al texto completo solo para la Comunidad PUCP

URI

Resumen

Descripción

Palabras clave

Citación

Colecciones

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licencia Creative Commons