Browsing by Author "Gómez Montoya, Héctor Erasmo"

Now showing 1 - 6 of 6

A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
(Pontificia Universidad Católica del Perú, 2019-09-13) Gómez Montoya, Héctor Erasmo; Oncevay Marcos, Felix Arturo
Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos. Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable. El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones. En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas.
Corrector ortográfico neuronal para errores ortográficos multilingües adversarios para lenguas amazónicas peruanas
(Pontificia Universidad Católica del Perú, 2022-11-09) Cardoso Yllanes, Gerardo; Gómez Montoya, Héctor Erasmo
Para combatir los ataques de ejemplos adversarios, se propuso implementar un modelo de reconocimiento de palabras y entrenarlo con oraciones creadas a través de diferentes técnicas de generación de data aumentada para cuatro lenguas amazónicas peruanas de pocos recursos: Shipibo-Konibo, Asháninka, Yanesha y Yine. Observamos que, para la gran mayoría de experimentos, el modelo propuesto logró corregir oraciones con palabras con errores ortográficos. Los modelos que fueron entrenados mediante oraciones creadas a través de los canales de errores de ambigüedad fonema-grafema y desnormalización; y, el modelo de ensamble, se desempeñaron mejor al momento de evaluarlos con los corpus creados por profesores de las lenguas. Finalmente, se implementó un prototipo del corrector ortográfico neuronal, en donde se encuentran todos los modelos entrenados en la presente investigación.
Desarrollo de recursos léxicos multi-dialécticos para el quechua
(Pontificia Universidad Católica del Perú, 2023-03-13) Melgarejo Vergara, Nelsi Belly; Gómez Montoya, Héctor Erasmo
Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.
Detección de ciberbullying en español para el dominio de corpus de texto teatrales aplicado a redes sociales usando transferencia de aprendizaje y validación adversarial
(Pontificia Universidad Católica del Perú, 2024-11-20) Marquez Zavaleta, Esli Samuel; Gómez Montoya, Héctor Erasmo
El aprendizaje de los modelos de detección de ciberbullying en redes sociales depende significativamente del conjunto de datos en cual fue entrenado lo que puede limitar su capacidad de generalización a otros conjuntos de datos. Este estudio propone un enfoque innovador utilizando transferencia de aprendizaje. Se desarrolló un modelo robusto de detección de ciberbullying basado en guiones teatrales, que ofrecen contextos ricos y variados. Para ello, se creó un corpus en español a partir de estos guiones, el cual fue meticulosamente etiquetado por expertos. Posteriormente, el modelo fue entrenado con este corpus para establecer una base de conocimiento que se aplicó luego a otros corpus de redes sociales. Los resultados mostraron una exactitud del 83% en las pruebas realizadas. Complementamos dicho modelo con una validación utilizando ejemplos adversarios, a partir de técnicas de data aumentada generamos más oraciones para fortalecer su capacidad de generalización, mejorando su desempeño tanto en su corpus como en distintos dominios de ciberbullying.
Diseño de un modelo explicativo basado en ontologías aplicado a un chatbot conversacional
(Pontificia Universidad Católica del Perú, 2024-01-15) Arteaga Meléndez, Daniel Martin; Gómez Montoya, Héctor Erasmo
Actualmente, la inteligencia artificial es una de las áreas de investigación más importantes para el desarrollo de tecnología en múltiples disciplinas. Aunque ha tenido un crecimiento exponencial en los últimos años, el entendimiento de cómo funciona es mínimo para la mayoría de las personas. En consecuencia de ello, su uso en actividades que implican una toma de decisiones es limitado, lo cual se evidencia en el Reporte 2023 de Artificial Intelligence Index [1]. Según este reporte, el cambio porcentual en las respuestas de adopción de la inteligencia artificial por industria y actividad entre el 2021 y 2022 ha sido de -15% y -13% para las actividades de marketing y ventas, y desarrollo de productos y/o servicios, respectivamente. Frente a esto se propone el diseño de un modelo que permita explicar los componentes básicos de un sistema basado en inteligencia artificial a través de un chatbot conversacional en idioma inglés. De este modo, la explicación se brinda en un formato sencillo (texto) y a través de un medio interactivo (conversación). El modelo explicativo se basa en la ontología XAIO, propuesta en este estudio y desarrollada a partir de dos ontologías de aprendizaje de máquina e inteligencia artificial explicable. Haciendo uso de un modelo de generación de lenguaje natural a partir de datos estructurados, el modelo explicativo genera explicaciones en lenguaje natural basadas en el conocimiento descrito en las tripletas de la ontología XAIO. Para evaluar el modelo se implementó un chatbot conversacional que utiliza un modelo de entendimiento de lenguaje natural para identificar intenciones y entidades, a partir de las cuales se realizan las consultas en la ontología que permiten obtener las tripletas. En la evaluación cuantitativa se obtuvo un BLEU promedio de 76.97, lo cual indica un buen desempeño en la tarea de generación de lenguaje natural a partir de datos estructurados. Asimismo, se desarrollaron sistemas de inteligencia artificial explicable con chatbot para la prueba con usuarios y se obtuvo un SUS de 69, indicando una usabilidad por encima del promedio. Finalmente, también se realizó una evaluación cualitativa para obtener las apreciaciones de los participantes acerca de los sistemas, las cuales señalan la coherencia al momento de responder, la sencillez de las respuestas y la interacción amigable con el chatbot.
Diseño de un modelo para la recuperación de documentos basado en ontologías en el dominio de la ingeniería informática
(Pontificia Universidad Católica del Perú, 2014-11-25) Gómez Montoya, Héctor Erasmo; Melgar Sasieta, Héctor Andrés
La selección de información relevante de documentos digitales es uno de los principales problemas para los estudiantes de pregrado de la especialidad de Ingeniería Informática. Para facilitar dicha tarea, es necesario un modelo que represente la relación entre las entidades en las que se define toda la información disponible. Por ello, se decidió llevar a cabo una revisión sistemática acerca de las posibles soluciones que representen dicho domino. Como resultado de la revisión realizada, se propone el uso de ontologías como estructura básica para la representación del conocimiento por su eficacia a la hora de realizar la recuperación. Además, se plantea utilizar un proceso de etiquetación semántica de documentos para relacionar cada documento digital con - al menos - una entidad de la ontología con la finalidad de poder realizar búsquedas mediante el uso de etiquetas y lenguaje natural. Se concluye que las ontologías son una estructura flexible y que soportan la recuperación de conocimiento en un dominio específico y que el modelo planteado cumple con las necesidades de búsqueda y etiquetación para los usuarios.