Informática con mención en Ciencias de la Computación

Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/6357

Browse

Search Results

Now showing 1 - 5 of 5
  • Thumbnail Image
    Item
    Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
    (Pontificia Universidad Católica del Perú, 2024-09-18) Cabrera Díaz, Daniel Alonso; Sobrevilla Cabezudo, Marco Antonio
    Esta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectaron audios en español de cinco participantes con tartamudez, conformes a los estándares del dataset SEP-28K y con apoyo de dos especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones limitó la diversidad de disfluencias observadas, estos audios proporcionaron una base sólida para el desarrollo del modelo. El modelo presentado se basó en el modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0 XLSR53 aprovechando su robusta base de datos multilingüe. El modelo demostró su capacidad para identificar y clasificar disfluencias en español, aunque su rendimiento fue inferior comparado con modelos equivalentes en inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la detección de disfluencias, se implementaron dos estrategias de aumento de datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales, como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de disfluencias en contextos de habla espontánea y procesar los audios restantes del corpus inicial para explorar mejoras en la clasificación y detección de disfluencias. Además, se explorarán métodos avanzados de clonación de voz y otras técnicas de modificación de audios para enriquecer los datasets y mejorar los modelos de detección y clasificación de disfluencias.
  • Thumbnail Image
    Item
    Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica
    (Pontificia Universidad Católica del Perú, 2024-08-28) Donayre Gamboa, Gustavo Miguel; Fonseca Arroyo, Pablo Alejandro
    El presente trabajo de investigación evalúa la técnica de regresión de mapas de calor (heatmap regression - HR) para la detección automática de puntos de referencia (landmark detection) en imágenes médicas, específicamente en las imágenes de huellas plantares en dos dimensiones. El estudio se basa en la regresión de mapas de calor con aprendizaje profundo, una técnica que ha demostrado ser efectiva en la detección de puntos en rostros y en la estimación de la pose humana. Se propone un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares que servirán de referencia para el diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de forma manual y artesanal en la mayoría de los países de América Latina. La detección automática de estos puntos de referencia en las huellas plantares tiene el potencial de agilizar este proceso y mejorar la precisión de las plantillas. Los resultados del estudio mostraron un error absoluto promedio normalizado de 0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y compresión de imágenes para capturar el contexto, y una ruta de expansión simétrica que permite una localización precisa de puntos de interés en un tiempo razonable gracias al uso de los procesadores GPU actuales.
  • Thumbnail Image
    Item
    Predicción de la aceptación de pedidos por parte de los repartidores en la industria de entregas a domicilio utilizando machine learning
    (Pontificia Universidad Católica del Perú, 2024-08-14) Alarcon Flores, Jorge Brian; Beltrán Castañón, César Armando
    La industria de entregas a domicilio ha experimentado un auge significativo debido a la creciente demanda de los consumidores que buscan la comodidad de recibir productos y alimentos directamente en sus hogares. El avance de tecnologías y aplicaciones móviles ha impulsado el crecimiento de este mercado, permitiéndole adaptarse a las preferencias cambiantes de los consumidores [10] [19]. Sin embargo, un componente crítico en este proceso son los repartidores, quienes, tras la realización de un pedido por parte del cliente en la plataforma de la empresa, reciben notificaciones que les ofrecen una serie de pedidos sugeridos. Si aceptan, asumen la responsabilidad de recoger y entregar el pedido a los consumidores, así como la ganancia asociada, pero en ocasiones, los repartidores pueden declinar la aceptación de un pedido, lo que potencialmente conlleva a retrasos en la entrega, generando experiencias insatisfactorias para los usuarios. Este aspecto se presenta como un desafío significativo en la optimización de las operaciones de entrega a domicilio, el cual puede abordarse con soluciones de aprendizaje de máquina. En este artículo se presentan los resultados de la experimentación realizada con diversos modelos de aprendizaje de máquina, aplicándose la técnica de balanceo Smartly OverSampling con SMOTE. Los modelos se aplicaron a un conjunto de datos proporcionado por una institución latinoamericana líder en el sector de entregas a domicilio, reportando el algoritmo LightGBM, los mejores resultados con un AUC de 0.88 y un Average Precision Recall de 0.47.
  • Thumbnail Image
    Item
    Aprendizaje profundo para transcripción de textos históricos manuscritos en español
    (Pontificia Universidad Católica del Perú, 2024-07-16) Choque Dextre, Gustavo Jorge; Beltrán Castañón, Cesar Armando
    El reconocimiento de textos historicos es considerado un problema desafiante debido a los muchos factores que ´ alteran el estado de los manuscritos y la complejidad de los diferentes estilos de escritura involucrados en este tipo de documentos; en los anos recientes se han creado muchos modelos de Reconocimiento de textos manuscritos ˜ enfocados en diversos idiomas como el ingles, chino, ´ arabe y japon ´ es entre otros, sin embargo no se han ´ encontrado muchas iniciativas de reconocimiento de texto orientadas al idioma espanol debido fundamentalmente ˜ a un escasez de datasets publicos disponibles para ayudar a solucionar la problem ´ atica en dicho idioma. ´ En esta publicacion se presenta la aplicaci ´ on de t ´ ecnicas de Deep Learning basadas en una arquitectura de ´ red neuronal encoder-decoder y convoluciones compuerta Gated-CNN las cuales en los ultimos ha demostrado ´ resultados sobresalientes para resolver dicha problematica, as ´ ´ı mismo se propone la aplicacion de mecanismos de ´ Transferencia de Aprendizaje para el reconocimiento de textos historicos en espa ´ nol. Los experimentos demuestran ˜ que la aplicacion de estos m ´ etodos puede brindar resultados sobresalientes, adem ´ as la aplicaci ´ on de otras t ´ ecnicas ´ tales como Aumentacion de Datos y Modelos de Lenguaje conllevan a mejoras significativas en los resultados finales. ´ Se propone ademas el uso de un nuevo dataset de textos hist ´ oricos en espa ´ nol conformado por 1000 elementos ˜ tomados de textos historicos peruanos referentes al siglo XVIII.
  • Thumbnail Image
    Item
    Evaluación de modelos de segmentación semántica para el monitoreo de deslizamiento de tierra utilizando imágenes satelitales
    (Pontificia Universidad Católica del Perú, 2024-04-03) Yali Samaniego, Roy Marco; Fonseca Arroyo, Pablo Alejandro
    En el ámbito del aprendizaje automático, un desafío persistente es la disponibilidad de datos suficientes, especialmente en tareas de visión por computadora. Este desafío se amplifica cuando se trabaja con sensores remotos, donde las bases de datos etiquetadas para abordar problemas son escasas. Este manuscrito examina críticamente el monitoreo de deslizamientos de tierra en el paisaje peruano y presenta tres contribuciones en esta dirección. La primera contribución expande un conjunto de datos de imágenes satelital es sobre deslizamientos de tierra (Landslide4Sense) proveniente de territorios asiáticos, con 3799 imágenes debidamente etiquetadas. Reconociendo la dinámica geoespacial de Perú, se incrementó este conjunto de datos con 838 escenarios locales. Estas adiciones mantienen congruencia con el conjunto de datos original en términos de atributos y configuración, asegurando replicabilidad y escalabilidad para futuras investigaciones. La segunda evalúa varios modelos de segmentación semántica basados en la arquitectura U-net, reforzada por la función de pérdida de Entropía Cruzada Ponderada + Dice Loss, óptima en tareas de segmentación con conjuntos de datos desequilibrados. Los resultados permiten alcanzar un F1-Score del 75.5% con la arquitectura U-net (vanilla) superando el benchmark de referencia del 71.65%. La última contribución muestra un desarrollado integral para la adquisición de datos, procesamiento y entrenamiento/evaluación de modelos. Dado que este marco tiene el potencial de impulsar una aplicabilidad general de sistemas de segmentación a sistemas de monitoreo de deslizamientos de tierra, y detener un alcance más amplio a la comunidad académica y partes interesadas gubernamentales en Latinoamérica y en todo el mundo.