Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Pontificia Universidad Católica del Perú
Acceso al texto completo solo para la Comunidad PUCP
Resumen
La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un
desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles.
Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro
lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de
Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los
errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación
de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo
para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una
interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos.
Descripción
Palabras clave
Lenguas indigenas--Perú, Reconocimiento óptico de caracteres, Procesamiento de lenguaje natural (Computación)
Citación
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Licencia Creative Commons
Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/embargoedAccess
