Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital

dc.contributor.advisorOncevay Marcos, Félix Arturoes_ES
dc.contributor.authorEspichán Linares, Alexandra Mercedeses_ES
dc.date.accessioned2019-02-12T15:46:41Zes_ES
dc.date.available2019-02-12T15:46:41Zes_ES
dc.date.created2019es_ES
dc.date.issued2019-02-12es_ES
dc.description.abstractDebido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e investigación de dichas lenguas. De este modo, y desde el punto de vista de la informática, una de las primeras y principales tareas lingüísticas que incorporan métodos computacionales es la identificación automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es un paso esencial en el procesamiento automático de los datos del mundo real, donde una multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del lenguaje natural típicamente presuponen que todos los documentos a ser procesados están escritos en un lenguaje dado. Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y (3) en comparar estadísticamente los resultados obtenidos. Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.es_ES
dc.identifier.urihttp://hdl.handle.net/20.500.12404/13482
dc.language.isospaes_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPEes_ES
dc.rightsAtribución-NoComercial-SinDerivadas 2.5 Perú*
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/*
dc.subjectSistema de reconocimiento de patrones--Lingüísticaes_ES
dc.subjectLenguas índigenas--Perúes_ES
dc.subjectLingüística--Procesamiento de datoses_ES
dc.subjectLingüística computacionales_ES
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.02.00es_ES
dc.titleImplementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digitales_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
renati.advisor.dni46440101
renati.advisor.orcidhttps://orcid.org/0000-0001-7675-6208es_ES
renati.discipline612286es_ES
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesionales_ES
renati.typehttps://purl.org/pe-repo/renati/type#tesises_ES
thesis.degree.disciplineIngeniería Informáticaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Facultad de Ciencias e Ingenieríaes_ES
thesis.degree.levelTítulo Profesionales_ES
thesis.degree.nameIngeniero Informáticoes_ES

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
ESPICHAN_LINARES_ALEXANDRA_MERCEDES.pdf
Size:
1.75 MB
Format:
Adobe Portable Document Format
Description:
Texto completo

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: