Informática con mención en Ciencias de la Computación
Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/6357
Browse
Item Estudio del lenguaje de programación Haskell, ventajas y desventajas con respecto a otros lenguajes de programación(Pontificia Universidad Católica del Perú, 2013-04-08) Inca Chiroque, Julita; Kong Moreno, Maynard JorgeEl trabajo de tesis presenta al lenguaje de programación Haskell y realiza un estudio comparativo con respecto a lenguajes de programación que son promovidos con gran impacto en la actualidad en los ambientes: académico, industrial y científico. Los lenguajes de programación que servirán como puntos de referencia de comparación para el presente estudio son: C/C++, Java y GOlang. Los criterios de comparación tomados en cuenta en el estudio son: fácil escritura, fácil lectura, confiabilidad, soporte de genéricos y reflexión. Se elige comparar los lenguajes mencionados con el lenguaje de programación Haskell, porque es un lenguaje que ha significado un reto para los estudiosos en Ciencias de la Computación de las universidades más prestigiosas del mundo, quienes diseñaron un lenguaje de programación que mejora y supera errores de diseño de lenguajes de programación convencionales. En el primer capítulo se referencia estudios realizados acerca de los lenguajes de programación en las últimas décadas, la popularidad e impacto que tienen en el ámbito académico, industrial y científico, los lenguajes de programación C/C++, Java y GOlang. En el segundo capítulo se referencia estudios realizados acerca de la categorización de los lenguajes de programación a lo largo de la historia de los lenguajes de programación. En el tercer capítulo se detalla cada uno de los lenguajes de programación en mención, su origen, evolución, aplicaciones y tecnologías desarrolladas en las últimas décadas. En el cuarto capítulo se describen los criterios de evaluación de un lenguaje de programación, según autores de prestigio en el campo de las ciencias de la computación. En el quinto capítulo se realiza un estudio y desarrollo de programas en los lenguajes de programación elegidos para poder evaluar las ventajas y desventajas, con respecto a los criterios de evaluación elegidos: fácil escritura, fácil lectura, confiabilidad, soporte de genéricos y reflexión.Item Recuperación de la información musical por similitud usando redes neuronales(Pontificia Universidad Católica del Perú, 2013-04-08) Rojas Miguel, Jael Nora; Kong Moreno, Maynard JorgeEn los últimos años, la distribución de música digital en la web ha permitido a los usuarios acceder a grandes cantidades de información musical, con ello surge la necesidad de obtener esa información de manera eficaz y eficiente. En la actualidad, los sistemas de recuperación han ayudado a los usuarios a encontrar información basada en texto, pero esos modelos tradicionales no son adecuados si deseamos encontrar canciones que se parezcan en contenido de audio, de allí la necesidad de modelar e implementar métodos de recuperación basado en audio musical. En este estudio se describe un sistema que permite recuperar y clasificar canciones por similitud basado en contenido de audio musical. Se aplica un modelo de red neuronal a características de canciones. Primero se obtiene descriptores de canciones polifónicas en formato mp3 con características tales como: Análisis Espectral, Patrones de ritmo, Histograma de ritmo. Segundo, se realiza un análisis estadístico para seleccionar los descriptores válidos. Finalmente se ingresa a una red neuronal estos descriptores y se entrena. El objetivo de este trabajo es implementar el sistema y determinar, a partir de los resultados experimentales, la eficiencia de acierto o no para clasificar y recuperar contenido de audio musical por similitud.Item Evaluación del rendimiento académico y de la presencia social y cognitiva en estudiantes de nivel secundaria usando un modelo de e-learning 2.0 para nativos digitales(Pontificia Universidad Católica del Perú, 2013-04-15) Durán Chero, César Wilian; Yrigoyen Montestruque, José IsaacLos estudiantes de ahora, denominados como nativos digitales o Generación N, están muy familiarizados con la tecnología que nos aborda día a día y las aplicaciones on line que ofrece la denominada Web 2.0, mostrando un mayor interés por aprender con un nuevo estilo que va acorde con los tiempos que viven. El uso de los medios digitales en los centros educativos es esencial para reducir la brecha digital. ―…La tecnología ha eliminado ya (o está cerca de hacerlo) la mayoría de las barreras tradicionales, al generalizarse el acceso (al menos en los países desarrollados) a elementos clave tales como ordenadores personales o accesos de banda ancha a Internet. Por supuesto, el mero hecho de disponer de las tecnologías necesarias no se traducirá de forma automática en una mejora de los resultados y eso justamente (conseguir una mejora sustancial de los resultados de los procesos educativos) parece una de las principales tareas aún pendientes en lo relativo a las aplicaciones de las TICs en la Educación‖ (Telefónica, 2010). Por ello, existen diferentes esfuerzos por facilitar este proceso e incidir en su uso como un medio facilitador del aprendizaje. Uno de ellos es enseñar a usar un software educativo en determinado tema o unidad didáctica de su programación anual, más aún enseñar cómo seleccionar las aplicaciones on line a usar y cuándo y cómo usarlas en su sesión de aprendizaje. En tal sentido, esta investigación está orientada a la evaluación del rendimiento académico y de la presencia social y cognitiva usando un modelo E-learning 2.0 para nativos digitales. El presente informe se divide en ocho capítulos. En el primero nos muestra una breve mirada sobre el problema tratado. Evaluación del rendimiento académico y de la presencia social y cognitiva en estudiantes de nivel secundaria usando un modelo E-learning 2.0 para nativos digitales 11 El capítulo segundo nos muestra la descripción detallada de la problemática, haciendo un diagnóstico integral de la situación real en el nivel de educación secundaria; luego se determinan los objetivos. En el capítulo tercero se presenta el marco conceptual donde se realiza una exposición de conceptos que se desarrollan en los capítulos siguientes. En el capítulo cuarto se revisa el estado de arte de la investigación. En el capítulo quinto, se presenta el marco teórico que orienta y sustenta el trabajo de investigación. Se da a conocer la presencia social en el contexto educativo, así como también la presencia cognitiva y el rendimiento académico. Además, trata sobre el aprendizaje por descubrimiento y el aprendizaje y la adquisición de capacidades. Así mismo se plantea y especifica los detalles del modelo E-learning 2.0 para nativos digitales que se usará con toda la secuencia de pasos a considerar y se plantea el modelo conceptual e Hipótesis. En el capítulo sexto, se revisa con más detalle la investigación. Se describe el diseño de la investigación utilizada con la muestra, se expone la planificación, se informa del sistema de variables e indicadores, se presenta el instrumento para la recolección de datos, el procesamiento estadístico de datos, el tiempo y proceso de experimentación, así como el tratamiento de grupos en esta investigación cuasi experimental. En el capítulo sétimo, se describe los procedimientos estadísticos y análisis que se han desarrollado con los resultados obtenidos en el experimento para cada hipótesis de la investigación; para luego dar las conclusiones a partir de los resultados del trabajo experimental realizado. En el capítulo octavo, se presenta las conclusiones que se ha obtenido del desarrollo del presente trabajo y, de la misma forma, se plantea recomendaciones para trabajos futuros.Item Análisis, diseño e implementación de un módulo de planificación de construcción de casos de uso(Pontificia Universidad Católica del Perú, 2014-04-24) Moquillaza Vizarreta, Arturo; Pow Sang Portillo, José AntonioLos procesos actuales de desarrollo de software implican la utilización de una serie de herramientas y de metodologías que permitan dirigir y soportar el proceso de desarrollo y la gestión adecuada del proyecto mismo. Con el paso del tiempo, estas metodologías se han hecho más útiles a medida que la complejidad del software que se desarrolla ha ido en aumento. RUP, por ejemplo, es una metodología que nos guía para lograr este propósito [1]. Uno de los grandes desafíos de la comunidad de investigadores en ingenie ría de software, es involucrar a los stakeholders en el proceso de captura de requerimientos. Un stakeholder se puede definir como aquella persona que está materialmente afectada por el resultado del proyecto. En ese sentido, todo proyecto involucra la satisfacción de necesidades de un grupo diverso de stakeholders. Típicamente, estos tienen diferentes perspectivas sobre el problema, y diferentes necesidades que deben ser convenientemente identificadas [4]. No obstante los avances logrados en los últimos años, hay algunas partes del proceso de desarrollo de software que aún no están adecuadamente soportadas por alguna metodología, y en ese sentido, requieren de la experiencia de quienes manejan el proyecto de software. El proceso de elección del orden de construcción de los casos de uso a partir de los requerimientos capturados, es un ejemplo de lo anterior. El presente proyecto muestra una propuesta de solución a este tema. Se ha implementado un módulo de software que permite capturar la opinión de los stakeholders y a partir de estas, generar una secuencia de construcción de casos de uso.Item Extracción de patrones semánticamente distintos a partir de los datos almacenados en la plataforma Paideia(Pontificia Universidad Católica del Perú, 2016-06-25) Flores Lafosse, Natali; Alatrista Salas, HugoEn la actualidad el uso de plataformas LMS (Learning Management System) se ha convertido en una necesidad en las instituciones de educación superior. Una de las plataformas más populares es Moodle, la cual se enfoca en el uso de módulos para distribuir el contenido educativo. Sin embargo, los docentes que utilizan la plataforma no suelen recibir una retroalimentación sobre el comportamiento de sus alumnos en sus cursos. Existen muchos métodos para conseguir dicha retroalimentación, encuestas o entrevistas, sin embargo el uso de los logs del sistema presenta la ventaja de almacenar información verídica del comportamiento de los usuarios. La presente tesis busca utilizar algoritmos de Minería de Datos para extraer patrones de comportamiento semánticamente distintos de los usuarios de la plataforma, a fin de brindar retroalimentación tanto a los administradores de la plataforma como a los docentes. Se buscan patrones semánticamente distintos para así hacer un análisis con diferentes acercamientos a la misma búsqueda de información. Para ello se hace uso de la metodología Descubrimiento de Conocimiento a partir de bases de Datos (KDD por sus siglas en inglés), la cual establece una serie de pasos a seguir. Aplicando dicha metodología, en principio, se realizó una selección de los datos a utilizar. A esta selección, luego, se le aplica un pre-procesamiento antes de utilizarla como entrada de los algoritmos de Minería de Datos, usando la librería SPMF y la aplicación Weka según sea el caso. Se usaron distintos algoritmos tanto para clusterizar datos, descubrir itemsets frecuentes y reglas de asociación y obtener patrones secuenciales. Los resultados de clusterización resultaron en tres grupos, caracterizados por las acciones que realizan. Las reglas de asociación e itemsets frecuentes mostraron un comportamiento regular de los usuarios, quienes principalmente ingresan para “ver” tanto “cursos” como “recursos”. Una conclusión similar se deriva la los patrones secuenciales, los cuales repiten la acción de “ver” frecuentemente. Finalmente, los resultados de reglas de asociación se visualizan en un grafo de fuerzas. Parte de los patrones secuenciales se usan para un grafo similar. Estos grafos junto a las figuras de clusterización sirven como resultados de los objetivos. La tesis está dividida en seis capítulos. El primero es la introducción y contexto. Le sigue el capítulo de estado del arte y marco teórico. El capítulo 3 establece los objetivos. El capítulo 4 describe la experimentación y resultados. En el capítulo 5 se analizan y discuten los datos recabados de la experimentación. Finalmente, en el capítulo 6 se presentan las conclusiones, limitaciones del estudio y trabajos futuros.Item Caracterización y reconocimiento de objetos mediante algoritmos de visión computacional para la interacción de un robot con su entorno(Pontificia Universidad Católica del Perú, 2016-10-27) Robles Pizarro, Luis David; Beltrán Castañón, César ArmandoEn el campo de la robótica, se han desarrollado distintos algoritmos y métodos con el objetivo de mejorar la interacción de los robots con las personas y con su entorno de trabajo en tiempo real; es así, como el sistema reacciona y evoluciona constantemente ante cambios que podrían ocurrir durante su funcionamiento. Para alcanzar los objetivos mencionados, una de las habilidades que se le confiere a la máquina es la capacidad de detectar, registrar y reconocer objetos. La presente tesis es un trabajo de investigación aplicada que tiene como objetivo desarrollar un procedimiento que permita a un sistema robótico reconocer y detectar objetos en tiempo real dentro de un entorno controlado; para ello, nos enfocamos en utilizar dos métodos conocidos de reconocimientos de objetos (métodos SIFT y SURF) con los cuales categorizaremos un objeto de un dominio predefinido y comparamos los resultados obtenidos. Se eligieron el método SIFT y el método SURF por la similitud en los pasos que siguen para obtener la información de un objeto; cabe resaltar que el método SURF es un método alterno al SIFT. Los resultados finales mostraron una mejor predicción en la categorización utilizando el método SIFT, pero ésta requería de mayor tiempo para extraer los puntos característicos de los objetos. Por otro lado, el método SURF generaba más puntos característicos de los objetos y en mejor tiempo. La extracción de puntos de interés se analizó en tiempo real; mientras, que la etapa de categorización no consideró este parámetro, sino la cantidad de puntos de interés necesarios para predecir con exactitud la categoría de un objeto.Item Caracterización espacio temporal de la ecofisiología de la "apodanthera biflora" utilizando minería de patrones secuenciales(Pontificia Universidad Católica del Perú, 2016-10-28) Barturén Larrea, José Luis; Alatrista Salas, HugoEn los últimos años, los investigadores del Laboratorio de Ecología Evolutiva de la Universidad Peruana Cayetano Heredia (UPCH) han venido estudiando especies nativas del Bosque Seco Ecuatorial del norte del Perú. Este es el caso de la Apodanthera Biflora, raíz comestible de potencial uso alimentario e industrial. Con la finalidad de desarrollar planes de sostenibilidad y preservación de la especie, los expertos requieren realizar estudios más extensos sobre los factores que afectan las características nutricionales e industriales de la especie. Para determinar estos factores se deben descubrir correlaciones temporales a partir de fuentes de datos heterogéneas. Debido a la dificultad de explotar este tipo de datos no estandarizados ni agrupados, los métodos estadísticos tradicionales no son suficientes, por lo que se requiere herramientas permitan al experto identificar qué correlaciones temporales representan patrones frecuentes relevantes. El presente trabajo evalúa el uso de las técnicas de minería de patrones secuenciales y visualización espacial, con el objetivo de determinar si su aplicación facilita la obtención de patrones frecuentes relevantes a partir de distintas fuentes de datos heterogéneos relacionados a la Apodanthera Biflora. Para lograr este objetivo, se utiliza una metodología basada en el Descubrimiento de Conocimiento a partir de Bases de Datos (KDD por sus siglas en inglés), el cuál define fases para la selección, pre procesamiento, transformación, minería y evaluación (visualización) de los datos. Los resultados obtenidos demostraron que la técnica de minería de patrones secuenciales PrefixSpan y la visualización espacial, utilizando librerías de Google Maps API y D3 Js, permitieron a los expertos la obtención de patrones frecuentes relevantes. Así mismo, la técnica de transformación GIS para datos geográficos, y la técnica de discretización por entropía y frecuencia, han permitido el pre procesamiento de datos heterogéneos. A partir de las correlaciones descubiertas, los expertos identificaron patrones frecuentes relevantes, en las localidades de Chulucanas, Cerrato, El Morante, P. Mora y El Porvenir; principalmente relacionados a las características del suelo, precipitaciones y composición química de la raíz.Item Revisión sistemática sobre la aplicación de ontologías de dominio en el análisis de sentimiento(Pontificia Universidad Católica del Perú, 2016-11-26) Olivares Poggi, César Augusto; Melgar Sasieta, Héctor AndrésEl análisis de sentimiento es un área de creciente investigación en los campos del procesamiento de lenguaje natural y la recuperación de información. En los últimos años ha habido un aumento en la aplicación de técnicas semánticas en el análisis de sentimiento, en particular con el apoyo de la aplicación de ontologías de dominio. Sin embargo, en la literatura actual no se cuenta con un estudio que reporte de manera sistemática los beneficios alcanzados con la aplicación de ontologías de dominio al análisis de sentimiento. Esta revisión sistemática tiene por objetivos realizar dicha síntesis, reportar el grado de generalización de las investigaciones realizadas, verificar el aprovechamiento de la riqueza expresiva de las ontologías de dominio y señalar el estado del arte actual en la representación de las emociones humanas por medio de ontologías de dominio en su aplicación al análisis de sentimiento. Se identificó 9 distintos problemas del análisis del sentimiento a los que se aplicó ontologías de dominio y un total de 22 beneficios de dicha aplicación. Los beneficios más reportados son: (1) el soporte para una representación estructurada de las opiniones y la vinculación de datos; (2) mayor precisión y exhaustividad en la clasificación de la polaridad; y (3) soporte para la representación de modelos emocionales. Como investigación futura se sugiere profundizar en el empleo de ontologías de dominios para analizar el sentimiento a nivel de conceptos, modelar el proceso de análisis de sentimiento, estandarizar la elaboración de ontologías de productos e integrar diversos modelos emocionales, así como aprovechar mejor la expresividad semántica y capacidad de razonamiento de las ontologías de dominio.Item Modelo computacional de minería de microblogs para el análisis del comportamiento del consumidor de telefonía celular(Pontificia Universidad Católica del Perú, 2016-11-26) Apaza Delgado, Santiago Hernán; Beltrán Castañón, César ArmandoLos mensajes de Twitter están siendo cada vez más usados para determinar el sentimiento de los consumidores de servicios o productos. Para ello se hacen uso de diversas técnicas computacionales, desde las tradicionales adaptadas de problemas de clasificación de textos y las recientes que usan modelos de aprendizaje de máquina. En ambos enfoques se debe desarrollar una serie de etapas que van desde el pre–procesamiento hasta la evaluación. El presente documento muestra el resultado del proceso de aplicación de diversas técnicas de Análisis de Sentimiento para poder asignar una polaridad positiva, negativa o neutral a los tweets de los consumidores de telefonía celular en el Perú, con la finalidad de poder identificar cual es el comportamiento que presentan los clientes de las empresas de telefonía celular representado en opiniones vertidas en la red social Twitter. Para ello se extrajeron 26,917,539 publicaciones de la red social Twiter durante 2 periodos, cada uno de 30 días. Estas publicaciones corresponden a los tweets de los seguidores de tres empresas de telefonía celular en el Perú, incluyendo una relativamente nueva en el mercado peruano. El procedimiento seguido comprendió las siguientes tareas: a) Recolección de tweets de los seguidores de las empresas de telefonía celular; b) Pre–procesamiento de la data obtenida para poder identificar elementos importantes de cada tweet; c) Filtrado de elementos poco relevantes, o ruido; y d) Clasificación de cada publicación basado en las características obtenidas en etapas previas. Los resultados obtenidos nos muestran que la introducción de un diccionario de lexicones incrementó el número de términos que pueden ser considerados para la clasificación. Así mismo, el uso de este diccionario al cual se le aumento nuevos términos permitió incrementar la tasa de clasificación en un 0,75%. Finalmente, gracias a estas técnicas de análisis de sentimiento, es posible explotar el contenido de redes sociales de manera que puedan servir a las corporaciones para la toma de decisiones, especialmente de servicio a sus usuarios.Item Mapeo y revisión sistemática de los algoritmos de guía, navegación y control para el desarrollo de software de aeronaves(Pontificia Universidad Católica del Perú, 2016-11-29) Soto Torres, César Vladimir; Pow Sang Portillo, José AntonioLos sistemas para la Guía, Navegación y Control (GNC) es una rama de la ingeniería que trata del diseño de sistemas para el control de movimiento de vehículos, sobre todo, automóviles, barcos, aviones y naves espaciales. En este estudio, se desarrolló un mapeo sistemático y una revisión sistemática para presentar una revisión de los estudios primarios relacionados con los algoritmos para el desarrollo de controladores de vuelo de sistemas para la Guía, Navegación y Control de aeronaves. Un mapeo sistemático es una metodología que brinda después de un proceso de investigación sistemática, un mapa resumen visual de sus resultados. Una revisión sistemática es una revisión de la literatura enfocada en un tema de investigación que trata de identificar, evaluar, seleccionar y sintetizar todas las pruebas de investigación de alta calidad relevante a una pregunta específica. El procedimiento de mapeo sistemático identificó 13 014 estudios, de los cuales 179 fueron identificados como relevantes para responder la pregunta de investigación en referencia a los algoritmos para guía, navegación y control de aeronaves más usados por los investigadores aeroespaciales. Sobre la base del mapeo sistemático, se realizó el procedimiento de búsqueda sistemática, de este procedimiento se seleccionaron 12 estudios relevantes para responder la pregunta de investigación en referencia a lo que se sabe actualmente sobre los algoritmos usados para el desarrollo de sistemas de control no lineal y sistema de control adaptativo de aeronaves. Basado en la respuesta del mapeo sistemático realizado, los algoritmos de investigación usados para los Controladores de vuelo de sistemas para la Guía, Navegación y Control de Aviones (GNC) se concentran en 3 ejes principales: Guía, Navegación y Control; de estos ejes de estudio los investigadores mayormente se enfocan en el desarrollo de algoritmos para control de aviones. Basado en la respuesta de la revisión sistemática realizada, se llegó a la conclusión que los investigadores aeronáuticos están enfocados en el desarrollo de Controladores Adaptativos no lineares basados en el algoritmo de Lyapunov y/o en el algoritmo Dynamic Inversion para sistemas con comportamiento no linear , y el algoritmo de Redes Neuronales para sistemas con comportamiento adaptativo. El documento está destinado a profesionales y académicos que investigan en el campo del desarrollo de software para la Guía, Navegación y Control de Aviones ( GNC). Contribuye a resumir el conjunto de conocimientos en el campo y los esfuerzos directos para las investigaciones futuras en el desarrollo de software para GNC de AeronavesItem Histograma de orientación de gradientes aplicado al seguimiento múltiple de personas basado en video(Pontificia Universidad Católica del Perú, 2017-03-31) Tolentino Urbina, Álvaro Junior; Beltrán Castañón, César ArmandoEl seguimiento múltiple de personas en escenas reales es un tema muy importante en el campo de Visión Computacional dada sus múltiples aplicaciones en áreas como en los sistemas de vigilancia, robótica, seguridad peatonal, marketing, etc., además de los retos inherentes que representa la identificación de personas en escenas reales como son la complejidad de la escena misma, la concurrencia de personas y la presencia de oclusiones dentro del video debido a dicha concurrencia. Existen diversas técnicas que abordan el problema de la segmentación de imágenes y en particular la identificación de personas, desde diversas perspectivas; por su parte el presente trabajo tiene por finalidad desarrollar una propuesta basada en Histograma de Orientación de Gradientes (HOG) para el seguimiento múltiple de personas basado en video. El procedimiento propuesto se descompone en las siguientes etapas: Procesamiento de Video, este proceso consiste en la captura de los frames que componen la secuencia de video, para este propósito se usa la librería OpenCV de tal manera que se pueda capturar la secuencia desde cualquier fuente; la siguiente etapa es la Clasificación de Candidatos, esta etapa se agrupa el proceso de descripción de nuestro objeto, que para el caso de este trabajo son personas y la selección de los candidatos, para esto se hace uso de la implementación del algoritmo de HOG; por último la etapa final es el Seguimiento y Asociación, mediante el uso del algoritmo de Kalman Filter, permite determinar las asociaciones de las secuencias de objetos previamente detectados. La propuesta se aplicó sobre tres conjuntos de datos, tales son: TownCentre (960x540px), TownCentre (1920x1080px) y PETS 2009, obteniéndose los resultados para precisión: 94.47%, 90.63% y 97.30% respectivamente. Los resultados obtenidos durante las experimentaciones validan la propuesta del modelo haciendo de esta una herramienta que puede encontrar múltiples campos de aplicación, además de ser una propuesta innovadora a nivel nacional dentro del campo de Vision Computacional.Item Generación de corpus paralelos para la implementación de un traductor automático estadístico entre shipibo-konibo y español(Pontificia Universidad Católica del Perú, 2017-03-31) Galarreta Asian, Ana Paula; Melgar Sasieta, Héctor Andrés; Oncevay Marcos, Félix ArturoActualmente, existe información que debe estar disponible para todos los habitantes de nuestro país, tales como textos educativos, leyes y noticias. Sin embargo, a pesar que el Perú es un país multilingüe, la mayoría de textos se encuentran redactados únicamente en español. Una de las razones por las que no se traducen estos textos a otras lenguas habladas en nuestro país es porque el proceso es costoso y requiere de mucho tiempo. Por este motivo se propone desarrollar un traductor automático basado en colecciones de textos, también llamados corpus, que utilice métodos estadísticos y pueda servir de apoyo una plataforma de software de traducción automática de texto entre el español y el shipibo-konibo. Para implementar un método estadístico, es necesario contar con corpus paralelos en los idiomas a traducir. Esto representa un problema, pues existen muy pocos textos escritos en shipibokonibo, y la mayoría de estos no cuenta con una traducción al español. Por este motivo es necesario construir corpus paralelos en base a dos procesos: la traducción de textos del shipibo-konibo al español (y viceversa) y la alineación semi-automática de los textos bilingües disponibles. Con los corpus paralelos obtenidos, se puede entrenar y validar un traductor automático, a fin de encontrar los parámetros que generan las mejores traducciones. Además, en base a los resultados obtenidos, se determinará la etapa en la que el traductor estadístico se integrará a la plataforma de software de traducción automática que será implementada por investigadores del Grupo de Reconocimiento de Patrones e Inteligencia Artificial Aplicada (GRPIAA) y el departamento de lingüística de la PUCP.Item Análisis de publicaciones en una red social de microblogging para la detección automática de sucesos violentos durante manifestaciones públicas(Pontificia Universidad Católica del Perú, 2017-05-04) Oncevay Marcos, Félix Arturo; Melgar Sasieta, Héctor AndrésEl activismo social en el Perú se encuentra en crecimiento, principalmente en las zonas urbanas y en los sectores de ingresos medios, donde las redes sociales han llegado a influir en las diversas acciones de la población, y en el modo de informar, influir y convocar a las personas. Es por ello que se han observado casos recientes como las marchas contra la Ley Laboral Juvenil o ‘Ley Pulpín’, donde se movilizó una gran cantidad de personas, y se podían observar dos manifestaciones en paralelo pero afines: en la calle y en las redes sociales, principalmente en Twitter. Sin embargo, a pesar de ser convocada como marcha pacífica, sucedieron actos de violencia y enfrentamientos, los cuales lamentablemente son frecuentes en la realidad peruana. En este contexto, se propone el desarrollo de un mecanismo para analizar los mensajes publicados en Twitter durante una manifestación real. El objetivo principal es identificar y caracterizar automáticamente los diferentes sucesos de violencia que pueden ocurrir durante la protesta. Para esto, luego de recolectar publicaciones de Twitter durante manifestaciones reales, se analizarán cuáles son las mejores técnicas a aplicar para el tratamiento y transformación de estos mensajes a información relevante para nuestro objetivo. El enfoque de esta investigación se plantea desde las áreas de la ingeniería del conocimiento (análisis del dominio del conocimiento sobre violencia), la minería de textos (detección, resumen y descripción de eventos a partir de textos) y el procesamiento de lenguaje natural. Finalmente, se calcularán métricas de evaluación sobre los sucesos violentos identificados, para validar la eficacia del procedimiento propuesto.Item Generación automática de resúmenes abstractivos mono documento utilizando análisis semántico y del discurso(Pontificia Universidad Católica del Perú, 2017-09-20) Valderrama Vilca, Gregory Cesar; Sobrevilla Cabezudo, Marco AntonioThe web is a giant resource of data and information about security, health, education, and others, matters that have great utility for people, but to get a synthesis or abstract about one or many documents is an expensive labor, which with manual process might be impossible due to the huge amount of data. Abstract generation is a challenging task, due to that involves analysis and comprehension of the written text in non structural natural language dependent of a context and it must describe an events synthesis or knowledge in a simple form, becoming natural for any reader. There are diverse approaches to summarize. These categorized into extractive or abstractive. On abstractive technique, summaries are generated starting from selecting outstanding sentences on source text. Abstractive summaries are created by regenerating the content extracted from source text, through that phrases are reformulated by terms fusion, compression or suppression processes. In this manner, paraphrasing sentences are obtained or even sentences were not in the original text. This summarize type has a major probability to reach coherence and smoothness like one generated by human beings. The present work implements a method that allows to integrate syntactic, semantic (AMR annotator) and discursive (RST) information into a conceptual graph. This will be summarized through the use of a new measure of concept similarity on WordNet.To find the most relevant concepts we use PageRank, considering all discursive information given by the O”Donell method application. With the most important concepts and semantic roles information got from the PropBank, a natural language generation method was implemented with tool SimpleNLG. In this work we can appreciated the results of applying this method to the corpus of Document Understanding Conference 2002 and tested by Rouge metric, widely used in the automatic summarization task. Our method reaches a measure F1 of 24 % in Rouge-1 metric for the mono-document abstract generation task. This shows that using these techniques are workable and even more profitable and recommended configurations and useful tools for this task.Item Diseño de un proceso computacional basado en técnicas de minería de datos para el análisis del fenómeno de "El Niño"(Pontificia Universidad Católica del Perú, 2018-01-19) Díaz Barriga, Oscar Antonio; Alatrista Salas, HugoEl Perú es afectado recurrentemente por el fenómeno El Niño, el cual es un fenómeno climático que consiste en el aumento de la temperatura del mar en el Pacifico Ecuatorial. Este a su vez forma parte del ENSO (El Niño - Oscilación del Sur) que tiene un periodo de actuación de 2 a 7 años, con una fase cálida conocida como El Niño y una fase fría, La Niña. En la actualidad mediante un juicio experto se analizan las diversas fuentes de datos heterogéneas para poder encontrar posibles correlaciones útiles entre ellos. En el presente trabajo se propone un proceso computacional basado en técnicas de minería de datos que permita determinar la existencia de correlaciones espacio-temporales en relación a la temperatura superficial del mar y las variables meteorológicas pertenecientes a las regiones de la costa norte del Perú, en el periodo 2015 al 2016, último intervalo de tiempo en el que se presentó El Nino. Para esto se utiliza una metodología basada en KDD (Knowledge Discovery in Database), la cual está conformada por una serie de pasos como: la recolección de diferentes fuentes de datos, la integración en una base de datos explotable, limpieza y pretratamiento de los datos, creación de escenarios que permitan validar las posibles correlaciones, extracción de patrones mediante la librería SPMF y finalmente una propuesta de visualización, de los patrones encontrados, que permita comprender mejor el fenómeno. Los resultados obtenidos muestran la existencia de correlaciones espaciotemporales en las regiones del norte del Perú principalmente entre la temperatura de la superficie del mar y el caudal de los ríos de la costa, siendo estas correlaciones validadas por un experto miembro del IGP.Item Automatic lymphocyte detection on gastric cancer IHC images using deep learning(Pontificia Universidad Católica del Perú, 2018-01-19) García Ríos, Emilio Rafael; Beltrán Castañón, César ArmandoTumor-infiltrating lymphocytes (TILs) have received considerable attention in recent years, as evidence suggests they are related to cancer prognosis. Distribution and localization of these and other types of immune cells are of special interest for pathologists, and frequently involve manual examination on Immunohistochemistry (IHC) Images. We present a model based on Deep Convolutional Neural Networks for Automatic lymphocyte detection on IHC images of gastric cancer. The dataset created as part of this work is publicly available for future research.Item Caracterización de textura en imágenes digitales de hojas de plantas mediante dimensión fractal multiescala(Pontificia Universidad Católica del Perú, 2018-04-11) Khlebnikov Núñez, Sofía; Beltrán Castañón, César Armando; Martinez Bruno, OdemirActualmente aún existen áreas de la Amazonía donde se puede encontrar especies de plantas que necesitan ser identificadas y estudiadas para poder conocer sus propiedades médicas, nutricionales, industriales, etc. En muchos casos, los especialistas realizan un análisis manual, confiando en sus habilidades sensoriales y experiencia, pero eso demanda tiempo y dinero. Por eso, es importante tener una herramienta efectiva que permita hacer un rápido y eficiente reconocimiento de las plantas. Con este trabajo queremos dar un aporte al área de la investigación de reconocimiento y clasificación de plantas, presentando los resultados de la caracterización de plantas a través de la textura de la hoja. El objetivo es evaluar el método Bouligand-Minkowski basado en dimensión fractal multiescala, usando imágenes digitales para la caracterización de la textura de hojas de la Amazonía del Perú´, con el fin de ayudar a mejorar su identificación y catalogación. Para lograr el objetivo de la investigación se trabajó con dos bases de datos: ImageCLEF 2012, con 101 especies de plantas y PERALD de 27 especies. La primera es la base de datos de validación y la segunda es objeto de la investigación. El paso inicial de este trabajo fue la aplicación de un pre- procesamiento de las imágenes de las plantas. Luego, las imágenes fueron divididas en cuadrados de 128 x 128 pixeles, seleccionando los 5 mejores por cada imagen. Este paso era necesario para facilitar la caracterización de la textura. Después se aplicó el método Bouligand-Minkowski a cada muestra para obtener los descriptores de la textura de la planta. Estos descriptores fueron la entrada al clasificador Multilayer Perceptron generando así un modelo de clasificación de plantas de base de datos PERALD.Item Inteligencia competitiva de promociones aplicando ontologías de dominio en Facebook de empresas de telecomunicaciones del Perú(Pontificia Universidad Católica del Perú, 2018-05-22) Colchado Ruiz, Geraldo; Melgar Sasieta, Héctor AndrésEl mercado de telecomunicaciones en el Perú es muy competitivo y es uno de los sectores económicos que más crecimiento tuvo en los últimos años lo que se refleja en que actualmente existan más celulares que población. Las 5 empresas de telecomunicaciones (Operadores) ofrecen sus promociones en redes sociales, principalmente en Facebook, para mantener a sus clientes existentes y obtener nuevos clientes. Hay una gran cantidad de datos en Facebook escrita en lenguaje natural sin significado para el computador que los operadores no están utilizando para tener Inteligencia Competitiva. La Inteligencia Competitiva es un proceso que identifica las necesidades de información de los tomadores de decisiones acerca de los competidores, recolecta datos de fuentes públicas y legales, les da significado o semántica y los analiza para dar respuesta a las necesidades de información comunicando los resultados a los tomadores de decisiones. En esta tesis se propone e implementa un proceso de Inteligencia Competitiva de promociones para los operadores que incluye la recolección de 15,634 posts y 1,411,698 comentarios de Facebook como corpus, el proceso de creación manual de una ontología de dominio en telecomunicaciones con 119 palabras, 27 conceptos y 6 relaciones en 5 niveles jerárquicos, la clasificación de los posts usando la ontología de telecomunicaciones, el proceso de creación semiautomático de una ontología de dominio en polaridad a partir de WordNet en español y SentiWordNet con 9,344 palabras, el análisis de polaridad o clasificación de polaridad positiva, negativa o neutra de cada comentario, la implementación de una aplicación web para que los tomadores de decisiones puedan realizar búsquedas de posts basadas en la ontología de telecomunicaciones y responder a sus necesidades de información o preguntas relevantes y la implementación de una aplicación web que compara los resultados de los posts por operador en un formato de línea de tiempo incluyendo comentarios positivos y negativos logrando la Inteligencia Competitiva. El proceso de Inteligencia Competitiva como el proceso de creación de la ontología de dominio en telecomunicaciones podrían ser aplicados en empresas de telecomunicaciones de otros países y también en otros contextos donde existan varios competidores que ofrezcan productos o servicios equivalentes que puedan compararse. El proceso de creación de ontología en polaridad puede ser replicado por otros investigadores para análisis de polaridad en otros idiomas distintos al inglés y español dada la disponibilidad de WordNet en varios idiomas.Item 3D Reconstruction of Incomplete Archaeological Objects Using a Generative Adversarial Network(Pontificia Universidad Católica del Perú, 2018-07-09) Hermoza Aragonés, Renato; Sipiran Mendoza, Iván AnselmoWe introduce a data-driven approach to aid the repairing and conservation of archaeological objects: ORGAN, an object reconstruction generative adversarial network (GAN). By using an encoder-decoder 3D deep neural network on a GAN architecture, and combining two loss objectives: a completion loss and an Improved Wasserstein GAN loss, we can train a network to effectively predict the missing geometry of damaged objects. As archaeological objects can greatly differ between them, the network is conditioned on a variable, which can be a culture, a region or any metadata of the object. In our results, we show that our method can recover most of the information from damaged objects, even in cases where more than half of the voxels are missing, without producing many errors.Item Identificación automática de acciones humanas en secuencias de video para soporte de videovigilancia(Pontificia Universidad Católica del Perú, 2018-11-28) Fernández Martínez, Luis Christian; Beltrán Castañón, César ArmandoLa identificación de acciones en secuencias de video es un tema de especial interés para aplicaciones como detección de peleas, identificación de vandalismo, detección de asaltos a transeúntes, detección de contenido no apto para menores, etc. Este interés se encuentra asociado al incremento de cámaras de videovigilancia alrededor del mundo y a la masiva producción de videos en línea cargados a las diferentes plataformas sociales de almacenamiento y distribución de contenido bajo demanda. Debido a ello, se decide utilizar un modelo de detección de acciones humanas y aplicarlo en secuencias de videovigilancia. Dicho modelo utiliza redes neuronales profundas, con la finalidad de poder realizar la tarea de clasificación. El modelo aplicado se basa en el extracción de características convolucionales y temporales utilizando una parte de la red Inception V3 para lo primero y una red LSTM para lo segundo. Finalmente, se aplica el modelo en el dataset UCF101 el cual contiene acciones humanas diversas y luego sobre el dataset VIRAT 2.0 Ground, el cual contiene secuencias de videovigilancia.