Bipedal locomotion based on a hybrid RL model in IS-MPC
dc.contributor.advisor | Tafur Sotelo, Julio César | |
dc.contributor.advisor | Kheddar, Abderrahmane | |
dc.contributor.author | Figueroa Mosquera, Nícolas Francisco | |
dc.date.accessioned | 2025-08-14T15:40:48Z | |
dc.date.available | 2025-08-14T15:40:48Z | |
dc.date.created | 2025 | |
dc.date.issued | 2025-08-14 | |
dc.description.abstract | Maintaining the stability of bipedal walking remains a major challenge in humanoid robotics, primarily due to the large number of hyperparameters involved and the need to adapt to dynamic environments and external disturbances. Traditional methods for determining these hyperparameters, such as heuristic approaches, are often time- consuming and potentially suboptimal. In this thesis, we present an integrated approach combining advanced control and reinforcement learning techniques to improve the stability of bipedal walking, particularly in the face of ground disturbances and speed variations. Our main contribution lies in the integration of two complementary approaches: (1) an intrinsically stable model predictive control (IS-MPC) combined with whole-body admittance control, and (2) a reinforcement learning module implemented in the mc_rtc framework. This system allows for continuous monitoring of the robot’s current states, maintaining recursive feasibility, and optimizing parameters in real time. Additionally, we propose an innovative reward function that combines changes in single and double support times, postural recovery, divergent motion control, and action generation based on training optimization. The optimization of the weights of this reward function plays a crucial role, and we systematically explore different configurations to maximize the robot’s stability and performance. Furthermore, this thesis introduces a novel approach that integrates experience variabil- ity (a criterion for determining changes in locomotion-manipulation) and experience accumulation (an efficient way to store and select acquired experiences) in the develop- ment of reinforcement learning (RL) agents and humanoid robots. This approach not only improves adaptability and efficiency in unpredictable environments but also facili- tates more sophisticated modeling of these environments, significantly enhancing the systems’ ability to cope with real-world complexities. By combining these techniques with advanced reinforcement learning methods, such as Proximal Policy Optimization (PPO) and Model-Agnostic Meta-Learning (MAML), and integrating stability-based self-learning, we strengthen the systems’ generalization capabilities, enabling rapid and effective learning in new and unprecedented situations. The evaluation of our approach was conducted through simulations and real-world experiments using the HRP-4 robot, demonstrating the effectiveness of the intrinsically stable predictive controller and the proposed reinforcement learning system. The results show a significant improvement in the robot’s stability and adaptability, thereby consolidating our contribution to the field of humanoid robotics. | |
dc.description.abstract | Maintenir la stabilité de la marche bipède reste un défi majeur en robotique humanoïde, principalement en raison du grand nombre d’hyperparamètres impliqués et de la nécessité de s’adapter à des environnements dynamiques et à des perturbations externes. Les méthodes traditionnelles pour déterminer ces hyperparamètres, telles que les approches heuristiques, sont souvent chronophages et potentiellement sous-optimales. Dans cette thèse, nous présentons une approche intégrée combinant des techniques avancées de contrôle et d’apprentissage par renforcement pour améliorer la stabilité de la marche bipède, en particulier face à des perturbations du sol et à des variations de vitesse. Notre contribution principale réside dans l’intégration de deux approches complémen- taires : (1) un système de contrôle prédictif intrinsèquement stable (IS-MPC) combiné à un contrôle d’admittance pour l’ensemble du corps, et (2) un module d’apprentissage par renforcement implémenté dans le cadre mc_rtc. Ce système permet de surveiller en continu les états actuels du robot, de maintenir la faisabilité récursive et d’optimiser les paramètres en temps réel. De plus, nous proposons une fonction de récompense innovante qui combine les changements dans les temps de support simple et double, la récupération posturale, le contrôle divergent du mouvement et la génération d’actions basées sur l’optimisation de l’entraînement. L’optimisation des poids de cette fonction de récompense joue un rôle crucial, et nous explorons systématiquement différentes configurations pour maximiser la stabilité et les performances du robot. Par ailleurs, cette thèse introduit une approche novatrice qui intègre la variabilité de l’expérience (un critère pour déterminer les changements dans la locomotion- manipulation) et l’accumulation de l’expérience (une manière efficace de stocker et de sélectionner les expériences acquises) dans le développement d’agents d’apprentissage par renforcement (RL) et de robots humanoïdes. Cette approche améliore non seule- ment l’adaptabilité et l’efficacité dans des environnements imprévisibles, mais facilite également une modélisation plus sophistiquée de ces environnements, améliorant con- sidérablement la capacité des systèmes à faire face aux complexités du monde réel. En combinant ces techniques avec des méthodes avancées d’apprentissage par ren- forcement, telles que l’Optimisation de Politique Proximale (PPO) et l’Apprentissage Meta-Agnostique de Modèles (MAML), et en intégrant l’auto-apprentissage basé sur la stabilité, nous renforçons les capacités de généralisation des systèmes, permettant un apprentissage rapide et efficace dans des situations nouvelles et inédites. L’évaluation de notre approche a été réalisée à travers des simulations et des expériences en conditions réelles utilisant le robot HRP-4, démontrant l’efficacité du contrôleur pré- dictif intrinsèquement stable et du système d’apprentissage par renforcement proposé. Les résultats montrent une amélioration significative de la stabilité et de l’adaptabilité du robot, consolidant ainsi notre contribution au domaine de la robotique humanoïde. | |
dc.description.abstract | Mantener la estabilidad de la marcha bípeda sigue siendo un desafío importante en la robótica humanoide, principalmente debido al gran número de hiperparámetros involucrados y a la necesidad de adaptarse a entornos dinámicos y perturbaciones externas. Los métodos tradicionales para determinar estos hiperparámetros, como los enfoques heurísticos, suelen ser consumidores de tiempo y potencialmente subóptimos. En esta tesis, presentamos un enfoque integral que combina técnicas avanzadas de control y aprendizaje por refuerzo para mejorar la estabilidad de la marcha bípeda, especialmente frente a perturbaciones del suelo y variaciones de velocidad. Nuestra contribución principal radica en la integración de dos enfoques complementar- ios: (1) un sistema de control predictivo intrínsecamente estable (IS-MPC) combinado con un control de admisión para todo el cuerpo, y (2) un módulo de aprendizaje por refuerzo implementado en el marco mc_rtc. Este sistema permite monitorear continu- amente los estados actuales del robot, mantener la factibilidad recursiva y optimizar los parámetros en tiempo real. Además, proponemos una función de recompensa inno- vadora que combina cambios en los tiempos de soporte simple y doble, recuperación postural, control divergente del movimiento y generación de acciones basadas en la optimización del entrenamiento. La optimización de los pesos de esta función de recom- pensa juega un papel crucial, y exploramos sistemáticamente diferentes configuraciones para maximizar la estabilidad y el rendimiento del robot. Asimismo, esta tesis introduce un enfoque novedoso que integra la variabilidad de la experiencia (un criterio para determinar cambios en la locomoción-manipulación) y la acumulación de experiencia (una forma eficiente de almacenar y seleccionar ex- periencias adquiridas) en el desarrollo de agentes de aprendizaje por refuerzo (RL) y robots humanoides. Este enfoque no solo mejora la adaptabilidad y eficiencia en entornos impredecibles, sino que también facilita un modelado más sofisticado de estos entornos, mejorando significativamente la capacidad de los sistemas para enfrentar las complejidades del mundo real. Al combinar estas técnicas con métodos avanzados de aprendizaje por refuerzo, como la Optimización de Política Proximal (PPO) y el Aprendizaje Meta-Agnóstico de Modelos (MAML), y al integrar el autoaprendizaje basado en la estabilidad, reforzamos las capacidades de generalización de los sistemas, permitiendo un aprendizaje rápido y efectivo en situaciones nuevas y sin precedentes. La evaluación de nuestro enfoque se realizó a través de simulaciones y experimentos en condiciones reales utilizando el robot HRP-4, demostrando la eficacia del controlador predictivo intrínsecamente estable y del sistema de aprendizaje por refuerzo propuesto. Los resultados evidencian una mejora significativa en la estabilidad y adaptabilidad del robot, consolidando nuestra contribución al campo de la robótica humanoide. | |
dc.identifier.uri | http://hdl.handle.net/20.500.12404/31525 | |
dc.language.iso | eng | |
dc.publisher | Pontificia Universidad Católica del Perú | es_ES |
dc.publisher.country | PE | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/2.5/pe/ | |
dc.subject | Androides--Locomoción | |
dc.subject | Control predictivo | |
dc.subject | Aprendizaje automático (Inteligencia artificial) | |
dc.subject.ocde | https://purl.org/pe-repo/ocde/ford#2.00.00 | |
dc.title | Bipedal locomotion based on a hybrid RL model in IS-MPC | |
dc.type | info:eu-repo/semantics/doctoralThesis | |
renati.advisor.dni | 06470028 | |
renati.advisor.orcid | https://orcid.org/0000-0003-3415-1969 | |
renati.advisor.orcid | https://orcid.org/0000-0001-9033-9742 | |
renati.author.dni | 44192217 | |
renati.discipline | 732028 | |
renati.juror | Perez Zuñiga, Carlos Gustavo | |
renati.juror | Tafur Sotelo, Julio César | |
renati.juror | Kheddar, Abderrahmane | |
renati.juror | Barrientos, Antonio | |
renati.juror | Rossi, Alessandra | |
renati.juror | Bayro Corrochano, Eduardo José | |
renati.juror | Seriai, Abdelhak-Djamel | |
renati.juror | Slawiñski, Emanuel | |
renati.level | https://purl.org/pe-repo/renati/level#doctor | |
renati.type | https://purl.org/pe-repo/renati/type#tesis | |
thesis.degree.discipline | Ingeniería | es_ES |
thesis.degree.grantor | Pontificia Universidad Católica del Perú. Escuela de Posgrado | es_ES |
thesis.degree.level | Doctorado | es_ES |
thesis.degree.name | Doctor en Ingeniería | es_ES |
Archivos
Bloque original
1 - 2 de 2
Cargando...
- Nombre:
- FIGUEROA_MOSQUERA_NICOLAS_FRANCISCO_BIPEDAL_LOCOMOTION.pdf
- Tamaño:
- 13.24 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Texto completo
Cargando...
- Nombre:
- FIGUEROA_MOSQUERA_NICOLAS_FRANCISCO_T.pdf
- Tamaño:
- 28 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Reporte de originalidad
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: