Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning

dc.contributor.advisorBeltrán Castañón, César Armando
dc.contributor.authorMatos Rios, Hans
dc.date.accessioned2022-03-21T21:47:38Z
dc.date.available2022-03-21T21:47:38Z
dc.date.created2022
dc.date.issued2022-03-21
dc.description.abstractLa generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.es_ES
dc.identifier.urihttp://hdl.handle.net/20.500.12404/21844
dc.language.isospaes_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPEes_ES
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/*
dc.subjectAlgoritmoses_ES
dc.subjectAprendizaje automático (Inteligencia artificial)es_ES
dc.subjectInteligencia artificiales_ES
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.02.00es_ES
dc.titleDesarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learninges_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
renati.advisor.dni29561260
renati.advisor.orcidhttps://orcid.org/0000-0002-0173-4140es_ES
renati.author.dni72191674
renati.discipline612286es_ES
renati.jurorHirsh Martinez, Laylaes_ES
renati.jurorBeltran Castañon, Cesar Armandoes_ES
renati.jurorCueva Moscoso, Ronyes_ES
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesionales_ES
renati.typehttps://purl.org/pe-repo/renati/type#tesises_ES
thesis.degree.disciplineIngeniería Informáticaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Facultad de Ciencias e Ingenieríaes_ES
thesis.degree.levelTítulo Profesionales_ES
thesis.degree.nameIngeniero Informáticoes_ES

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf
Size:
1.46 MB
Format:
Adobe Portable Document Format
Description:
Texto completo

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: