2. Maestría

Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/2

Tesis de la Escuela de Posgrado

Browse

Search Results

Now showing 1 - 8 of 8

Corrector ortográfico neuronal para errores ortográficos multilingües adversarios para lenguas amazónicas peruanas
(Pontificia Universidad Católica del Perú, 2022-11-09) Cardoso Yllanes, Gerardo; Gómez Montoya, Héctor Erasmo
Para combatir los ataques de ejemplos adversarios, se propuso implementar un modelo de reconocimiento de palabras y entrenarlo con oraciones creadas a través de diferentes técnicas de generación de data aumentada para cuatro lenguas amazónicas peruanas de pocos recursos: Shipibo-Konibo, Asháninka, Yanesha y Yine. Observamos que, para la gran mayoría de experimentos, el modelo propuesto logró corregir oraciones con palabras con errores ortográficos. Los modelos que fueron entrenados mediante oraciones creadas a través de los canales de errores de ambigüedad fonema-grafema y desnormalización; y, el modelo de ensamble, se desempeñaron mejor al momento de evaluarlos con los corpus creados por profesores de las lenguas. Finalmente, se implementó un prototipo del corrector ortográfico neuronal, en donde se encuentran todos los modelos entrenados en la presente investigación.
Awajunnum kuntin aidau: categorización etnozoológica en awajún
(Pontificia Universidad Católica del Perú, 2022-06-14) Espejo Apikai, Hermenegildo; Peña Torrejon, Jaime German
La presente investigación busca describir y analizar la categorización taxonómica propia de la cosmovisión awajún para las categorías que se pueden encontrar dentro del concepto de ANIMAL. A partir de la teoría de taxonomías etnolingüísticas propuesta por Berlin, B. (1992) Ethnobiological classification: principles of categorization of plants and animals in traditional societies, la tesis plantea que existen diferentes tipos de categorías etnozoológicas en awajún, algunas de las cuales cuentan con etiquetas terminológicas y otras son categorías encubiertas que no cuentan con una etiqueta terminológica, pero que de acuerdo con esta investigación conforman taxones para los hablantes awajún. La metodología sigue pasos de gabinete para extraer información de diccionarios, así como trabajo de campo y entrevistas a profundidad a hablantes de awajún de la variedad todavía poco descrita del Cenepa.
Data augmentation and subword segmentation for spell-checking in amazonian languages
(Pontificia Universidad Católica del Perú, 2021-09-24) Alva Cohello, Carlo André; Oncevay Marcos, Félix Arturo
En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas.
Ideologías lingüísticas sobre la lengua muchik en el discurso etnoidentitario en el norte peruano: autenticidad y mercantilización
(Pontificia Universidad Católica del Perú, 2021-02-01) Tavera Peña, María Elizabeth; Zavala Cisneros, Virginia
Este trabajo tiene por propósito analizar los discursos alrededor del idioma mochica o muchik, un idioma extinto desde las primeras décadas del siglo XX en la región norteña peruana de Lambayeque, que se pretende «rescatar» como parte de una reconfiguración identitaria regional. El contexto de esta revaloración de la lengua es el surgimiento de una nueva identidad étnica, que llamo el Nosotros étnico muchik, emergida a finales del siglo XX, y relacionada directamente con la nueva valoración de la región norteña motivada por el descubrimiento de las Tumbas Reales del Señor de Sipán en la década de 1980. Específicamente, propongo que, en la región Lambayeque, se puede identificar la circulación de dos ideologías lingüísticas sobre el muchik que deben ser analizadas no solo como representaciones de la lengua, sino también como prácticas sociales que impactan de modo diverso la realidad. La primera es la ideología de la autenticidad de la lengua muchik, según la cual esta lengua es construida como el idioma legítimo de los «actuales» descendientes de los legendarios mochicas y que es preciso traer del pasado para recuperar la «esencia» del pueblo muchik. La segunda es la ideología de la mercantilización de la lengua muchik, según la cual este idioma es construido como una etnomercancía (Comaroff & Comaroff, 2011) al ser instrumentalizado como un bien cultural atractivo para el consumo del sector turístico. De este modo, la lengua muchik no solo es valorada por su valor cultural, sino también por su potencial económico. Esta investigación se ubica teóricamente dentro de la lingüística sociocultural y el construccionismo social. A partir de un enfoque cualitativo, y siguiendo una metodología etnográfica y de análisis del discurso, pretendo aportar en los estudios lingüísticos sobre el poder de los discursos en las (re)configuraciones históricas, culturales y económicas de una región del Perú.
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
(Pontificia Universidad Católica del Perú, 2020-05-26) Lara Avila, César Jesús; Oncevay Marcos, Félix Arturo
De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.
El acento nominal en Ese Eja (Takana)
(Pontificia Universidad Católica del Perú, 2019-09-16) Valero Vega, Gildo Martín; Zariquiey Biondi, Roberto Daniel
La presente tesis aborda el análisis del acento nominal en la lengua ese eja de la familia Takana. Esta es una lengua muy poco documentada que se encuentra en peligro de extinción, lo cual justifica su documentación con fines patrimoniales además de académicos. La finalidad de esta tesis es describir apropiadamente las características del acento en la palabra nominal del ese eja y describir los parámetros que rigen su cómputo dentro del marco de la teoría métrica autosegmental. Para ello, aplica encuestas y grabaciones que brindan la evidencia necesaria para el análisis que contrasta los parámetros propuestos por la teoría para este fin. El principal resultado de esta tesis es la demostración de que el ese eja es una lengua que basa su cómputo acentual en la mora, y que esta unidad es pertinente tanto para la construcción de pies trocaicos como para la aplicación de la extrametricalidad, ambos fenómenos muy escasos en las lenguas documentadas del mundo. Nuestra propuesta muestra al ese eja como una lengua muy regular en términos de acento nominal, en la cual las escasísimas “irregularidades” halladas no son tales a la luz de nuestra propuesta: la mora como unidad de análisis.
Un estudio del proceso de elaboración del tejido quechua en telar de cuatro estacas. Aportes para la enseñanza de las matemáticas en la educación básica
(Pontificia Universidad Católica del Perú, 2019-06-25) Bonilla Tumialán, María del Carmen; Gaita Iparraguirre, Rosa Cecilia
El presente trabajo pretende aportar a la solución de la problemática educativa de los estudiantes de Educación Intercultural Bilingüe y de Educación Rural de la Región de Puno, que presentan un bajo desempeño en el logro de sus aprendizajes en el área de Matemática, en comparación con los estudiantes de las zonas urbanas. La búsqueda de la solución está relacionada con el estudio, reconocimiento y revalorización de los saberes matemáticos ancestrales desarrollados por la cultura quechua-collao, en específico aquellos que subyacen en la elaboración de los tejidos en telar de cuatro estacas (TTCE), saberes que han sido sistemáticamente invisibilizados por la cultura oficial desde la invasión española. Es así como, desde las dimensiones política, antropológica e histórica aportadas por la Etnomatemática, y, considerando la dimensión epistemológica abordada desde la Teoría Antropológica de lo Didáctico (TAD), se determina la Organización Praxeológica Personal (OPP) del proceso de elaboración del TTCE realizada por una tejedora informante de Puno, con el propósito de dar a conocer elementos de su dimensión matemática. Se identifican los tipos de tareas, técnicas, tecnologías en las primeras fases del proceso de elaboración del tejido. Lo que se persigue es develar algunas nociones y propiedades matemáticas que emergen de la OPP del TTCE, con la finalidad futura de dar orientaciones didácticas e incorporarlas en el diseño de procesos de aprendizaje y enseñanza de las matemáticas de los estudiantes de Educación Básica de la región. La metodología que se utiliza es cualitativa pues se aplica, en primer lugar, el método etnográfico, el trabajo de campo en Puno, la observación participante y entrevistas semiestructuradas a los informantes claves. Posteriormente, se analizan los datos registrados por medios audiovisuales utilizando los elementos teóricos de la TAD para determinar la OPP del TTCE de la informante, por lo cual se puede afirmar que el presente trabajo es un estudio de caso. En tercer lugar, se realiza el análisis de las primeras fases del proceso de elaboración del tejido, y se identifican algunas nociones y propiedades matemáticas que son utilizadas por la tejedora en el proceso, así como nociones matemáticas que pueden visualizarse en el proceso del tejido. Producto del análisis efectuado, es posible afirmar que las tejedoras quechuas construyen un rectángulo en la fase en que instalan el armazón del telar, utilizando inconscientemente definiciones y propiedades matemáticas. En la fase relacionada al tejido propiamente dicho, las tejedoras quechuas manipulan las urdimbres y los palos, de una manera tal, que tienen un comportamiento semejante a las circunferencias y las tangentes a ellas. La investigación pone en evidencia que la cultura quechua posee conocimientos matemáticos, trasmitidos de generación en generación, y que son utilizados por los pobladores en el proceso de elaboración del tejido en telar.
La derivación verbal en el aimara de Pomata
(Pontificia Universidad Católica del Perú, 2015-06-22) Gonzalo Segura, Roger Ricardo; Cerrón-Palomino, Rodolfo
Los temas centrales que son objetos de nuestra investigación son dos: (i) la clasificación y el ordenamiento de los sufijos derivativos verbales del aimara de Pomata y (ii) la descripción morfológica y semántica de los sufijos, explicando su polisemia y sus restricciones, en base a nuestros datos elicitados en el trabajo de campo y los provenientes de los documentos coloniales, en especial, del Vocabvlario (1612) y el Arte (1603, 1612),del jesuita aimarista Ludovico Bertonio. La interpretación se realiza considerando la interrelación existente principalmente entre la morfología y la semántica. En algunos casos, hemos observado, también, las correspondencias sintácticas resultantes luego delproceso morfológico, en especial, al realizar el análisis de los sufijos que implican cambio de valencia. Finalmente, el conocimiento del trasfondo de la cultura, la experiencia y la cognición de los hablantes de la lengua nos ayudó, en gran medida, en la identificación de variados matices estos sufijos.

2. Maestría

Browse

Filters

Settings

Sort By

Results per page

Search Results