Ideal step size estimation for the multinomial logistic regression

dc.contributor.advisorRodríguez Valderrama, Paul Antonio
dc.contributor.authorRamirez Orihuela, Gabriel
dc.date.accessioned2025-01-22T20:44:12Z
dc.date.created2024
dc.date.issued2025-01-22
dc.description.abstractEn la base de los problemas de optimización en aprendizaje profundo residen algoritmos como el Gradiente Descendiente Estocástico (SGD, por sus siglas en inglés), el cual emplea un subconjunto de los datos por iteración para estimar el gradiente con el fin de minimizar una función de costo. Los algoritmos adaptativos, basados en el SGD, son ampliamente reconocidos por su efectividad al utilizar la información del gradiente de iteraciones previas, generando un momento o memoria que permite una predicción más precisa de la pendiente real del gradiente en iteraciones futuras, acelerando así la convergencia. No obstante, estos algoritmos aún requieren una tasa de aprendizaje (learning rate o LR) inicial (escalar), así como un programador de LR. En este trabajo proponemos un nuevo algoritmo de SGD que estima la LR inicial (escalar) mediante una adaptación del tamaño de paso ideal de Cauchy para la regresión logística multinomial; además, la LR se actualiza de manera recursiva hasta un número determinado de épocas, tras lo cual se emplea un programador de LR decreciente. El método propuesto se evalúa en varias arquitecturas de clasificación multiclase bien conocidas y se compara favorablemente con otras alternativas adaptativas (escalares y espaciales) bien optimizadas, incluyendo el algoritmo Adam.
dc.description.abstractAt the core of deep learning optimization problems reside algorithms such as the Stochastic Gradient Descent (SGD), which employs a subset of the data per iteration to estimate the gradient in order to minimize a cost function. Adaptive algorithms, based on SGD, are well known for being effective in using gradient information from past iterations, generating momentum or memory that enables a more accurate prediction of the true gradient slope in future iterations, thus accelerating convergence. Nevertheless, these algorithms still need an initial (scalar) learning rate (LR) as well as a LR scheduler. In this work we propose a new SGD algorithm that estimates the initial (scalar) LR via an adaptation of the ideal Cauchy step size for the multinomial logistic regression; furthermore, the LR is recursively updated up to a given number of epochs, after which a decaying LR scheduler is used. The proposed method is assessed for several well-known multiclass classification architectures and favorably compares against other well-tuned (scalar and spatially) adaptive alternatives, including the Adam algorithm.
dc.identifier.urihttp://hdl.handle.net/20.500.12404/29791
dc.language.isoeng
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-sa/2.5/pe/
dc.subjectAprendizaje automático (Inteligencia artificial)
dc.subjectAprendizaje profundo (Aprendizaje automático)
dc.subjectOptimización matemática
dc.subjectAnálisis de regresión
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#2.00.00
dc.titleIdeal step size estimation for the multinomial logistic regression
dc.typeinfo:eu-repo/semantics/masterThesis
renati.advisor.dni07754238
renati.advisor.orcidhttps://orcid.org/0000-0002-8501-0907
renati.author.dni70352996
renati.discipline613077
renati.jurorSilva Obregón, Gustavo Manuel
renati.jurorRodríguez Valderrama, Paul Antonio
renati.jurorBeltrán Castañón, César Armando
renati.levelhttp://purl.org/pe-repo/renati/level#maestro
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineProcesamiento de Señales e Imágenes Digitaleses_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgradoes_ES
thesis.degree.levelMaestríaes_ES
thesis.degree.nameMaestro en Procesamiento de Señales e Imágenes Digitales.es_ES

Files

Original bundle

Now showing 1 - 2 of 2
No Thumbnail Available
Name:
RAMIREZ_ORIHUELA_GABRIEL.pdf
Size:
960.54 KB
Format:
Adobe Portable Document Format
Description:
Texto completo
No Thumbnail Available
Name:
RAMIREZ_ORIHUELA_GABRIEL_T.pdf
Size:
5.07 MB
Format:
Adobe Portable Document Format
Description:
Reporte de originalidad

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: