Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
| dc.contributor.advisor | Oncevay Marcos, Félix Arturo | |
| dc.contributor.author | Sánchez Carrera, Shadya Nyzeth | |
| dc.date.accessioned | 2025-07-01T19:45:17Z | |
| dc.date.available | 2025-07-01T19:45:17Z | |
| dc.date.created | 2024 | |
| dc.date.issued | 2025-07-01 | |
| dc.description.abstract | La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos. | |
| dc.identifier.uri | http://hdl.handle.net/20.500.12404/31148 | |
| dc.language.iso | spa | |
| dc.publisher | Pontificia Universidad Católica del Perú | es_ES |
| dc.publisher.country | PE | |
| dc.rights | info:eu-repo/semantics/embargoedAccess | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/2.5/pe/ | |
| dc.subject | Lenguas indigenas--Perú | |
| dc.subject | Reconocimiento óptico de caracteres | |
| dc.subject | Procesamiento de lenguaje natural (Computación) | |
| dc.subject.ocde | https://purl.org/pe-repo/ocde/ford#5.08.02 | |
| dc.title | Extracción de textos escritos en lenguas nativas peruanas utilizando OCR | |
| dc.type | info:eu-repo/semantics/masterThesis | |
| renati.advisor.dni | 46440101 | |
| renati.advisor.orcid | https://orcid.org/0000-0001-7675-6208 | |
| renati.author.dni | 70169185 | |
| renati.discipline | 611087 | |
| renati.juror | Brossard Nuñez, Ian Paul | |
| renati.juror | Oncevay Marcos, Felix Arturo | |
| renati.juror | Sobrevilla Cabezudo, Marco Antonio | |
| renati.level | https://purl.org/pe-repo/renati/level#maestro | |
| renati.type | https://purl.org/pe-repo/renati/type#trabajoDeInvestigacion | |
| thesis.degree.discipline | Informática con mención en Ciencias de la Computación | es_ES |
| thesis.degree.grantor | Pontificia Universidad Católica del Perú. Escuela de Posgrado. | es_ES |
| thesis.degree.level | Maestría | es_ES |
| thesis.degree.name | Maestro en Informática con mención en Ciencias de la Computación | es_ES |
Archivos
Bloque original
1 - 2 de 2
Cargando...
- Nombre:
- SANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf
- Tamaño:
- 549.96 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Texto completo
Cargando...
- Nombre:
- SANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf
- Tamaño:
- 2.47 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Reporte de originalidad
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: