Informática con mención en Ciencias de la Computación

Permanent URI for this collectionhttps://hdl.handle.net/20.500.12404/6357

Browse

Search Results

Now showing 1 - 4 of 4
  • Item
    Extracción automática de terminología multilingüe empleada en la implementación de tecnologías de la información y las comunicaciones, aplicada a castellano e inglés
    (Pontificia Universidad Católica del Perú) Peralta Melgar, Daniel Miguel; Oncevay Marcos, Félix Arturo
    Actualmente se observa una presión creciente sobre las organizaciones para implementar herramientas de Inteligencia Artificial y otros tipos de Tecnologías de la Información y las Comunicaciones –TIC. Sin embargo, la rápida evolución de las TIC y la carencia de metodologías de implementación actualizadas en varios idiomas dificultan el avance. El objetivo del presente trabajo es facilitar la actualización de las metodologías de implementación. Para esto se elaboran listas de términos, en castellano e inglés, para la implementación de dos tipos de TIC con la ayuda de varios modelos especializados en la Extracción Automática de Términos – EAT. Las listas de términos luego pueden ser usadas para afinar modelos de clasificación de textos, elaboración de resúmenes y traducción, que a su vez pueden ayudar en la actualización de las metodologías de implementación. Las listas de términos fueron elaboradas mediante una metodología incremental, combinando el uso de modelos y revisiones manuales. Se probaron 5 modelos pre- entrenados de tipo BERT y uno XLNet con resultados superiores a los de investigaciones similares, apoyando la posibilidad de hacer EAT en temas e idiomas para los cuales se cuente con pocos datos de entrenamiento. Se plantea una forma de medir la similitud entre listas de términos. Se observa que los corpus en diferentes idiomas sobre un mismo tema pueden tener enfoques diferentes, sugiriendo que el conocimiento se enriquecería si se tomaran como insumo juntas publicaciones en varios idiomas. Una métrica propuesta para evaluar la capacidad de un modelo para identificar términos no vistos antes estaría mostrando que esta capacidad no dependería solamente de identificar palabras vistas anteriormente.
  • Thumbnail Image
    Item
    Data augmentation and subword segmentation for spell-checking in amazonian languages
    (Pontificia Universidad Católica del Perú, 2021-09-24) Alva Cohello, Carlo André; Oncevay Marcos, Félix Arturo
    En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas.
  • Thumbnail Image
    Item
    Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
    (Pontificia Universidad Católica del Perú, 2020-05-26) Lara Avila, César Jesús; Oncevay Marcos, Félix Arturo
    De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.
  • Thumbnail Image
    Item
    Generación de corpus paralelos para la implementación de un traductor automático estadístico entre shipibo-konibo y español
    (Pontificia Universidad Católica del Perú, 2017-03-31) Galarreta Asian, Ana Paula; Melgar Sasieta, Héctor Andrés; Oncevay Marcos, Félix Arturo
    Actualmente, existe información que debe estar disponible para todos los habitantes de nuestro país, tales como textos educativos, leyes y noticias. Sin embargo, a pesar que el Perú es un país multilingüe, la mayoría de textos se encuentran redactados únicamente en español. Una de las razones por las que no se traducen estos textos a otras lenguas habladas en nuestro país es porque el proceso es costoso y requiere de mucho tiempo. Por este motivo se propone desarrollar un traductor automático basado en colecciones de textos, también llamados corpus, que utilice métodos estadísticos y pueda servir de apoyo una plataforma de software de traducción automática de texto entre el español y el shipibo-konibo. Para implementar un método estadístico, es necesario contar con corpus paralelos en los idiomas a traducir. Esto representa un problema, pues existen muy pocos textos escritos en shipibokonibo, y la mayoría de estos no cuenta con una traducción al español. Por este motivo es necesario construir corpus paralelos en base a dos procesos: la traducción de textos del shipibo-konibo al español (y viceversa) y la alineación semi-automática de los textos bilingües disponibles. Con los corpus paralelos obtenidos, se puede entrenar y validar un traductor automático, a fin de encontrar los parámetros que generan las mejores traducciones. Además, en base a los resultados obtenidos, se determinará la etapa en la que el traductor estadístico se integrará a la plataforma de software de traducción automática que será implementada por investigadores del Grupo de Reconocimiento de Patrones e Inteligencia Artificial Aplicada (GRPIAA) y el departamento de lingüística de la PUCP.