Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa

Monsalve Escudero, Fabricio Andrés

dc.contributor.advisor	Oncevay Marcos, Félix Arturo	es_ES
dc.contributor.author	Monsalve Escudero, Fabricio Andrés	es_ES
dc.date.accessioned	2019-09-02T19:55:17Z	es_ES
dc.date.available	2019-09-02T19:55:17Z	es_ES
dc.date.created	2019	es_ES
dc.date.issued	2019-09-02	es_ES
dc.identifier.uri	http://hdl.handle.net/20.500.12404/14894
dc.description.abstract	Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc/2.5/pe/	*
dc.subject	Traducción automática	es_ES
dc.subject	Lectura--Enseñanza con ayuda de computadoras	es_ES
dc.subject	Procesamiento de lenguaje natural (Computación)	es_ES
dc.title	Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
thesis.degree.name	Ingeniero Informático	es_ES
thesis.degree.level	Título Profesional	es_ES
thesis.degree.grantor	Pontificia Universidad Católica del Perú. Facultad de Ciencias e Ingeniería	es_ES
thesis.degree.discipline	Ingeniería Informática	es_ES
renati.advisor.dni	46440101
renati.advisor.orcid	https://orcid.org/0000-0001-7675-6208	es_ES
renati.discipline	612286	es_ES
renati.level	https://purl.org/pe-repo/renati/level#tituloProfesional	es_ES
renati.type	https://purl.org/pe-repo/renati/type#tesis	es_ES
dc.publisher.country	PE	es_ES
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#1.02.00	es_ES