1. Doctorado

Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/1

Tesis de la Escuela de Posgrado y de la Escuela de Negocios de CENTRUM Católica

Browse

Search Results

Now showing 1 - 4 of 4
  • Thumbnail Image
    Item
    Towards automatic detection of lexical borrowings in wordlists - with application to Latin American languages
    (Pontificia Universidad Católica del Perú, 2024-11-18) Miller, John Edward; Beltrán Castañón, César Armando; Zariquiey Biondi, Roberto Daniel; List, Johann-Mattis
    Knowing what words of a language are inherited from the ancestor language, which are borrowed from contact languages, which are recently created, and the timing of critical events in the culture, enables modeling of language history including language phylogeny, language contact, and other novel influences on the culture. However, determining which words or forms are borrowed and from whom is a difficult, time consuming, and often fascinating task, usually performed by historical linguists, which is limited by the time and expertise available. While there are semi-automated methods available to identify borrowed words and their word donors, there is still substantial opportunity for improvement. We construct a new language model based monolingual method, competing cross-entropies, based on word source groupings within monolingual wordlists; improve existing multilingual sequence comparison methods, closest match on language pairs and cognate-based on multiple languages; and construct a classifier based meta-method, combining closest match and cross-entropy functions. We also define an alternative goal of borrowing detection for dominant donor languages, which allows determination of both borrowing and source. We apply monolingual methods to a global dataset of 41 languages, and multilingual and meta methods to a newly constituted dataset of seven Latin American languages. We also initiate work on a dataset of 21 Pano-Tacanan and regional languages with added Spanish, Portuguese, and Quechua donor languages for subsequent application of borrowing detection methods. The competing cross-entropies method establishes a benchmark for automatic borrowing detection for the world online loan database, the dominant donor multiple sequence comparison method improves over the competing cross-entropies method, and the classifier meta-method with sequence comparison and crossentropy functions performs substantially better overall.
  • Thumbnail Image
    Item
    Propuesta metodológica para la optimización de modelos predictivos de generación de residuos sólidos municipales en zonas urbanas
    (Pontificia Universidad Católica del Perú, 2024-06-19) Izquierdo Horna, Luis Antonio; Kahhat Abedrabbo, Ramzy Francis
    El pronóstico de la generación de residuos sólidos municipales (RSM) desempeña un papel esencial en la toma de decisiones y proporciona información relevante para la gestión de residuos, así como una comprensión profunda de los factores que influyen en este proceso. En este trabajo, se desarrolló un modelo de predicción de RSM específico para Lima Metropolitana, basado en variables socioculturales, ambientales y económicas, teniendo al 2019 como año de referencia, debido a la influencia del COVID-19 en los datos sobre este tema en años posteriores a la pandemia. El modelo se construyó utilizando las cantidades per cápita de RSM generadas en cada distrito, junto con parámetros relacionados con el consumo de combustibles en el hogar (como gas natural, electricidad y gas licuado de petróleo) y características demográficas de la población (como edad, nivel de educación y gasto mensual). Dada la calidad y disponibilidad de datos, se optó por utilizar el algoritmo de random forest como técnica de predicción. Las variables analizadas se obtuvieron a partir de la Encuesta Residencial de Consumo y Uso de Energía (ERCUE) a nivel municipal. Los resultados indicaron que el algoritmo implementado explica el 51% de la variabilidad de los datos. Se espera que las recomendaciones presentadas en este estudio sirvan para investigaciones futuras relacionadas con la predicción de RSM, contribuyendo a obtener resultados más precisos y aplicables a contextos específicos.
  • Thumbnail Image
    Item
    Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
    (Pontificia Universidad Católica del Perú, 2023-01-31) Acuña Caicedo, Roberto Wellington; Melgar Sasieta, Héctor Andrés
    La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados.
  • Thumbnail Image
    Item
    Classifier based on straight line segments: an overview and theoretical improvements
    (Pontificia Universidad Católica del Perú, 2022-09-09) Medina Rodríguez, Rosario Alejandra; Beltrán Castañón, César Armando
    Literature offers several supervised machine learning algorithms focused on binary classification for solving daily problems. Compared to well-known conventional classifiers, the Straight-line Segment Classifier (SLS Classifier) stands out for its low complexity and competitiveness. It takes advantage of some good characteristics of Learning Vector Quantization and Nearest Feature Line. In addition, it has lower computational complexity than Support Vector Machines. The SLS binary classifier is based on distances between a set of points and two sets of straight line segments. Therefore, it involves finding the optimal placement of straight line segment extremities to achieve the minimum mean square error. In previous works, we explored three different evolutive algorithms as optimization methods to increase the possibilities of finding a global optimum generating different solutions as the initial population. Additionally, we proposed a new way of estimating the number of straight line segments by applying an unsupervised clustering method. However, some interesting questions remained to be further analyzed, such as a detailed analysis of the parameters and base definitions of the optimization algorithm. Furthermore, it was straightforward that the straight-line segment lengths can grow significantly during the training phase, negatively impacting the classification rate. Therefore, the main goal of this thesis is to outline the SLS Classifier baseline and propose some theoretical improvements, such as (i) Formulating an optimization approach to provide optimal final positions for the straight line segments; (ii) Proposing a model selection approach for the SLS Classifier; and, (iii) Determining the SLS Classifier performance when applied on real problems (10 artificial and 8 UCI public datasets). The proposed methodology showed promising results compared to the original SLS Classifier version and other classifiers. Moreover, this classifier can be used in research and industry for decisionmaking problems due to the straightforward interpretation and classification rates.