Extracción automática de terminología multilingüe empleada en la implementación de tecnologías de la información y las comunicaciones, aplicada a castellano e inglés

dc.contributor.advisorOncevay Marcos, Félix Arturo
dc.contributor.authorPeralta Melgar, Daniel Miguel
dc.date.accessioned2025-04-01T17:50:08Z
dc.date.created2025
dc.date.issued2025-04-01
dc.description.abstractActualmente se observa una presión creciente sobre las organizaciones para implementar herramientas de Inteligencia Artificial y otros tipos de Tecnologías de la Información y las Comunicaciones –TIC. Sin embargo, la rápida evolución de las TIC y la carencia de metodologías de implementación actualizadas en varios idiomas dificultan el avance. El objetivo del presente trabajo es facilitar la actualización de las metodologías de implementación. Para esto se elaboran listas de términos, en castellano e inglés, para la implementación de dos tipos de TIC con la ayuda de varios modelos especializados en la Extracción Automática de Términos – EAT. Las listas de términos luego pueden ser usadas para afinar modelos de clasificación de textos, elaboración de resúmenes y traducción, que a su vez pueden ayudar en la actualización de las metodologías de implementación. Las listas de términos fueron elaboradas mediante una metodología incremental, combinando el uso de modelos y revisiones manuales. Se probaron 5 modelos pre- entrenados de tipo BERT y uno XLNet con resultados superiores a los de investigaciones similares, apoyando la posibilidad de hacer EAT en temas e idiomas para los cuales se cuente con pocos datos de entrenamiento. Se plantea una forma de medir la similitud entre listas de términos. Se observa que los corpus en diferentes idiomas sobre un mismo tema pueden tener enfoques diferentes, sugiriendo que el conocimiento se enriquecería si se tomaran como insumo juntas publicaciones en varios idiomas. Una métrica propuesta para evaluar la capacidad de un modelo para identificar términos no vistos antes estaría mostrando que esta capacidad no dependería solamente de identificar palabras vistas anteriormente.
dc.description.abstractCurrently, a growing pressure on organizations to implement Artificial Intelligence tools and other types of Information and Communication Technologies (ICT) is observed. However, the rapid evolution of ICTs and the lack of up-to-date implementation methodologies in several languages hinder progress. The goal of this work is to make a contribution to facilitate the updating of implementation methodologies. To this end, lists of terms in Spanish and English are created for the implementation of two types of ICT using several models trained in Automatic Term Extraction (ATE). These lists of terms can later on be used to fine- tune text classification, abstracting, and translation models, which in turn can help updating implementation methodologies. Term lists were created using an incremental methodology, combining the use of models and manual reviews. 5 pre-trained BERT models and one XLNet model were tested with results superior to previous research, providing support to the possibility of doing ATE in topics and languages for which there is little training data. A method to measure the similarity between lists of terms is proposed. Experiments results indicate that corpora in different languages on the same topic could have different approaches, suggesting that knowledge would be enriched if publications in several languages were used together as sources. A metric proposed to evaluate a model's ability to identify previously unseen terms would be showing that this ability would not depend solely on identifying previously viewed words.
dc.identifier.urihttp://hdl.handle.net/20.500.12404/30393
dc.language.isospa
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by/2.5/pe/
dc.subjectProcesamiento de lenguaje natural (Computación)
dc.subjectAprendizaje automático (Inteligencia artificial)
dc.subjectTecnología de la información
dc.subjectMinería de textos
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.02.02
dc.titleExtracción automática de terminología multilingüe empleada en la implementación de tecnologías de la información y las comunicaciones, aplicada a castellano e inglés
dc.typeinfo:eu-repo/semantics/masterThesis
renati.advisor.dni46440101
renati.advisor.orcidhttps://orcid.org/0000-0001-7675-6208
renati.author.dni08192451
renati.discipline611087
renati.jurorGómez Montoya, Héctor Erasmo
renati.jurorOncevay Marcos, Félix Arturo
renati.jurorSobrevilla Cabezudo, Marco Antonio
renati.levelhttps://purl.org/pe-repo/renati/level#maestro
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineInformática con mención en Ciencias de la Computaciónes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgrado.es_ES
thesis.degree.levelMaestríaes_ES
thesis.degree.nameMaestro en Informática con mención en Ciencias de la Computaciónes_ES

Files

Original bundle

Now showing 1 - 2 of 2
No Thumbnail Available
Name:
PERALTA_MELGAR_DANIEL_MIGUEL_EXTRACCION_AUTOMATICA.pdf
Size:
1.73 MB
Format:
Adobe Portable Document Format
Description:
Texto completo
No Thumbnail Available
Name:
PERALTA_MELGAR_DANIEL_MIGUEL_T.pdf
Size:
4.7 MB
Format:
Adobe Portable Document Format
Description:
Reporte de originalidad

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: