Desarrollo de una base de datos léxica basada en sinonimia para Shipibo-Konibo
Abstract
Este proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en
sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó
con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda
más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo
de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y
para la validación del mismo.
Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en
español disponible a través de Internet. Para que la lectura del diccionario fuera posible,
se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y
las guardaba de forma ordenada en una base de datos. Entre los datos guardados por
cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos
de uso.
Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada
para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo
consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del
diccionario y compararla con todos los synsets de la WordNet en español para
determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo
Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores
que las representan matemáticamente. Realizado el cálculo, está relación es guardada en
una base de datos, una vez que se completa el algoritmo la base de datos resultante es la
WordNet.
También se implementó una interfaz web de consulta así hacer posible el acceso a
cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación,
extracción de información y traducción automática gracias a la flexibilidad en las
búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar
sino también expandir el alcance y la posibilidad de integrar a la lengua con otras
personas interesadas
Temas
Lenguas indígenas--Perú
Shipibo-Conibo--Léxico
Lingüística computacional
Léxico--Bases de datos
Shipibo-Conibo--Léxico
Lingüística computacional
Léxico--Bases de datos
Para optar el título de
Ingeniero Informático
Collections
The following license files are associated with this item: