Informática con mención en Ciencias de la Computación
Permanent URI for this collectionhttps://hdl.handle.net/20.500.12404/6357
Browse
2 results
Search Results
Item Extracción automática de terminología multilingüe empleada en la implementación de tecnologías de la información y las comunicaciones, aplicada a castellano e inglés(Pontificia Universidad Católica del Perú, 2025-04-01) Peralta Melgar, Daniel Miguel; Oncevay Marcos, Félix ArturoActualmente se observa una presión creciente sobre las organizaciones para implementar herramientas de Inteligencia Artificial y otros tipos de Tecnologías de la Información y las Comunicaciones –TIC. Sin embargo, la rápida evolución de las TIC y la carencia de metodologías de implementación actualizadas en varios idiomas dificultan el avance. El objetivo del presente trabajo es facilitar la actualización de las metodologías de implementación. Para esto se elaboran listas de términos, en castellano e inglés, para la implementación de dos tipos de TIC con la ayuda de varios modelos especializados en la Extracción Automática de Términos – EAT. Las listas de términos luego pueden ser usadas para afinar modelos de clasificación de textos, elaboración de resúmenes y traducción, que a su vez pueden ayudar en la actualización de las metodologías de implementación. Las listas de términos fueron elaboradas mediante una metodología incremental, combinando el uso de modelos y revisiones manuales. Se probaron 5 modelos pre- entrenados de tipo BERT y uno XLNet con resultados superiores a los de investigaciones similares, apoyando la posibilidad de hacer EAT en temas e idiomas para los cuales se cuente con pocos datos de entrenamiento. Se plantea una forma de medir la similitud entre listas de términos. Se observa que los corpus en diferentes idiomas sobre un mismo tema pueden tener enfoques diferentes, sugiriendo que el conocimiento se enriquecería si se tomaran como insumo juntas publicaciones en varios idiomas. Una métrica propuesta para evaluar la capacidad de un modelo para identificar términos no vistos antes estaría mostrando que esta capacidad no dependería solamente de identificar palabras vistas anteriormente.Item Representación vectorial de relación de hiponimia e hiperonimia en español(Pontificia Universidad Católica del Perú, 2020-09-03) Utia Deza, Jose Vicente; Oncevay Marcos, Felix ArturoActualmente, gracias a Internet y a la Web se dispone de información casi ilimitada, la cual está representada a nivel de textos en su mayoría. Así, dado que acceder a estos textos en su mayoría es de libre acceso, nace el interés por su manipulación de una manera automatizada para poder extraer información que se considere relevante. El presente trabajo de investigación se ubica dentro de la detección automática de relaciones léxicas entre palabras, que son relaciones que se establecen entre los significados de las palabras tal como se consigna en el diccionario. En particular, se centra en la detección de relaciones de hiponimia e hiperonimia, debido a que éstas son relaciones de palabras en las que una de ellas engloba el significado de otra o viceversa, lo cual podría considerarse como categorización de palabras. Básicamente, el método propuesto se basa en la manipulación de una representación vectorial de palabras denominado Word Embeddings, para resaltar especialmente áquellas que tengan relación jerárquica, proceso que se realiza a partir de textos no estructurados. Tradicionalmente, los Word Embeddings son utilizados para tareas de analogía, es decir, para detectar relaciones de sinonimia, por lo que se considera un poco más complejo utilizar estos vectores para la detección de relaciones jerárquicas (hiperonimia e hiponimia), por consecuencia se proponen métodos adicionales para que, en conjunto con los Word Embeddings, se puedan obtener resultados eficientes al momento de detectar las relaciones entre distintos pares de palabras.