Implementación de un software para búsqueda de publicaciones científicas en bases de datos estructuradas mediante datos enlazados
Abstract
En la actualidad, la información es uno de los activos más importantes tanto en niveles
personales, educativos y organizacionales. La información permite el desarrollo y el avance de
los estados del conocimiento. Desde la aparición del Internet y su exponencial evolución, el
acceso a la información se ha vuelto universal y su cantidad disponible sigue aumentando
considerablemente.
Para las organizaciones es muy valioso el resguardo y uso de la información ya que, de
esta administración depende su capacidad para seguir creciendo y obteniendo valor dentro de sus
respectivos campos de acción. Del mismo modo, para una persona el obtener información
importante es adquirir conocimientos que serán relevantes para la consecución de sus objetivos
planteados. En cualquiera de los ámbitos el uso de la información permite la formulación y la
ejecución de los planes estratégicos. Sin embargo, el encontrar aquella información que
realmente se necesita se ha vuelto una tarea cada vez más complicada.
En el campo de la investigación científica la recopilación de fuentes de información
representa el punto de partida. Trasladando esta necesidad al contexto peruano, se observa que la
producción científica está en aumento y en un ritmo acorde al crecimiento de otras naciones. Sin
embargo, actualmente resulta complicado para los investigadores el obtener la información
relevante para iniciar sus investigaciones con la certeza de que no existen investigaciones
previas o que abarquen el mismo campo de estudio. Para lograr una buena recopilación se debe
navegar entre los distintos repositorios digitales existentes que son de libre acceso o incluso
pagados.
En tal sentido, existe una solución conocida como Datos Enlazados, un enfoque que no
se contrapone a la web actual que permite el vínculo entre páginas web (documentos HTML),
pero sí lo complementa ya que permite la vinculación de datos entre distintos contextos y fuentes
de información. El presente trabajo de fin de carrera propone una alternativa de solución para la búsqueda integral y automatizada en distintos repositorios digitales que son de libre acceso y
cuyas bases de datos están estructuradas mediante Datos Enlazados.
Se implementó un método de búsqueda adaptativo en base a las ontologías que manejan
los distintos repositorios digitales (datasets). De tal manera, se obtiene una ontología de dominio
adaptable que permite la extracción de datos relevantes de cada repositorio, para su posterior
reestructuración y su visualización. Para lograr la ontología dinámica se implementó un
algoritmo adaptador que analiza el vocabulario ontológico del dataset e identifica las entidades
relevantes para el dominio de investigaciones y publicaciones. Luego, se implementaron
métodos de extracción con funciones en SPARQL que dependen de la ontología y finalmente,
los datos relevantes son guardados en grafos RDF para luego ser serializados en documentos
RDF/XML y Turtle.
Se concluye que el proyecto ha sido exitoso en cuanto que el software permite realizar la
búsqueda de publicaciones de distintos autores peruanos que tienen indexados sus documentos
en repositorios digitales como DBLP o IEEE Library Project, contribuyendo de esta manera a la
búsqueda integral de información.
Temas
Motores de búsqueda
Programas para computadoras--Desarrollo
Programas para computadoras--Desarrollo
Para optar el título de
Ingeniero Informático