Facultad de Ciencias e Ingeniería
Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/7
Browse
5 results
Search Results
Item Desarrollo de una base de datos léxica basada en sinonimia para Shipibo-Konibo(Pontificia Universidad Católica del Perú, 2021-11-24) Maguiño Valencia, Diego Arturo; Oncevay Marcos, Félix ArturoEste proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y para la validación del mismo. Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en español disponible a través de Internet. Para que la lectura del diccionario fuera posible, se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y las guardaba de forma ordenada en una base de datos. Entre los datos guardados por cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos de uso. Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del diccionario y compararla con todos los synsets de la WordNet en español para determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores que las representan matemáticamente. Realizado el cálculo, está relación es guardada en una base de datos, una vez que se completa el algoritmo la base de datos resultante es la WordNet. También se implementó una interfaz web de consulta así hacer posible el acceso a cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación, extracción de información y traducción automática gracias a la flexibilidad en las búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar sino también expandir el alcance y la posibilidad de integrar a la lengua con otras personas interesadasItem Extracción de información para la generación de reportes estructurados a partir de noticias peruanas relacionadas a crímenes(Pontificia Universidad Católica del Perú, 2019-09-12) Bustamante Alvarez, Gina; Oncevay Marcos, Félix ArturoActualmente, múltiples fuerzas policiales y agencias de inteligencia han decidido enfocar parte de sus esfuerzos en la recolección de todo tipo de información sobre crímenes. Esto con el objetivo de poder analizar los datos disponibles y utilizar los resultados de esta tarea para la mejora de procesos actuales, e incluso, para la prevención de ataques y delitos futuros. No obstante, debido a la velocidad con la que se generan datos e información en la última década, las técnicas de análisis tradicional han resultado en baja productividad y en un uso ineficiente de recursos. Es por esta razón, que desde el campo de la informática, y específicamente desde las ciencias de la computación, se vienen realizado múltiples intentos para ayudar a identificar y obtener la información más importante dentro de estos grandes volúmenes de datos. Hasta el momento los estudios previos realizados para este dominio, abarcan desde la predicción del lugar de un delito utilizando data numérica, hasta la identificación de nombres y entidades en descripciones textuales. En este contexto, este trabajo propone la creación de una herramienta de extracción de información para noticias relacionadas al dominio criminal peruano. Buscando identificar automáticamente culpables, víctimas y locaciones mediante los siguientes pasos: (1) Procesamiento y generación de un conjunto de datos en base a noticias criminales, (2) Implementación y validación de algoritmos de extracción e información, y (3) Elaboración de una interfaz de programación de aplicaciones para el consumo del modelo desarrollado. Los resultados obtenidos evidencian que el enfoque utilizado, basado en dependencias sintácticas y reconocimiento de entidades nombradas, es exitoso. Además, se espera que en el futuro se puedan mejorar los resultados obtenidos con técnicas de procesamiento de lenguaje natural para dominios con pocos recursos.Item Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa(Pontificia Universidad Católica del Perú, 2019-09-02) Monsalve Escudero, Fabricio Andrés; Oncevay Marcos, Félix ArturoDesde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.Item Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital(Pontificia Universidad Católica del Perú, 2019-02-12) Espichán Linares, Alexandra Mercedes; Oncevay Marcos, Félix ArturoDebido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e investigación de dichas lenguas. De este modo, y desde el punto de vista de la informática, una de las primeras y principales tareas lingüísticas que incorporan métodos computacionales es la identificación automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es un paso esencial en el procesamiento automático de los datos del mundo real, donde una multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del lenguaje natural típicamente presuponen que todos los documentos a ser procesados están escritos en un lenguaje dado. Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y (3) en comparar estadísticamente los resultados obtenidos. Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.Item Implementación de una aplicación para el análisis y visualización de eventos en español usando extracción automática de ontologías(Pontificia Universidad Católica del Perú, 2019-02-12) Valeriano Loli, Enrique; Oncevay Marcos, Félix ArturoLa globalización y la aparición de diferentes tecnologías como las redes sociales han ocasionado que la información relacionada a noticias y eventos se propague de una manera más rápida. Ahora las empresas deben estar siempre pendientes a los datos generados para así ser más eficaces en su relación con ellos. Sin embargo, esta es una tarea difícil debido a la gran cantidad de datos y a la falta de procesos automáticos para analizar estos, sobre todo en el idioma español. Como objetivo de este proyecto, se busca brindar una aplicación la cual de manera automática pueda realizar análisis de datos de eventos en español y permitan visualizar los aspectos más importantes relacionados a estos datos. Para esto se implementarán algoritmos de Análisis de Formal de Conceptos y Análisis de Patrones Léxico-Sintácticos. Además, se usarán ontologías para poder estructurar la información recolectada a partir de los algoritmos. Se concluye que los algoritmos desarrollados permiten obtener las entidades y relaciones más relevantes encontradas en los datos con porcentajes relativamente altos de precisión y exhaustividad sobre todo usando datos limpios. Además, es posible mostrar la información recolectada de manera adecuada debido a la flexibilidad de las ontologías.