PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ 
FACULTAD DE CIENCIAS E INGENIERÍA 
 
 
Elaboración de un Sistema de Recomendación de 
Publicaciones Científicas Nacionales de Acceso Abierto para 
los investigadores calificados del SINACYT 
 
 
Tesis Para optar por el Título de Ingeniero Informático que presenta la bachillera: 
 
Elizabeth Jenisse Vereau Zagastizábal 
 
Asesor: Mg. César Augusto Olivares Poggi  
Lima, junio de 2018 
  
 
 
 
A mis padres y hermana por su apoyo incondicional. 
A Gladys, Gilmer y Blanca por depositar su confianza en mí. 
 
 
 
 
 
 
Agradecimientos 
  
A mi asesor, por su apoyo y orientación brindados en el desarrollo de mi tesis.  
A todos los profesores que contribuyeron a mi formación académica. 
 
 
 
 
 
Resumen 
Actualmente existe un crecimiento sostenido sobre la producción científica mundial. 
Esta producción científica es preservada a través de repositorios de acceso abierto 
digitales, los cuales se crean como herramientas de apoyo para el desarrollo de 
producción científica. Sin embargo, existen deficiencias en la funcionalidad de los 
mismos como herramientas de apoyo para el aumento de la visibilidad, uso e impacto 
de la producción científica que albergan. 
El Perú, no es ajeno al crecimiento de la producción científica mundial. Con el avance 
del mismo, se implementaron nuevas plataformas (ALICIA y DINA) de difusión y 
promoción del intercambio de información entre las distintas instituciones y 
universidades locales. No obstante, estas plataformas se muestran como plataformas 
aisladas dentro del sistema científico-investigador, ya que no se encuentran integradas 
con las herramientas y procesos de los investigadores. 
El objetivo de este Proyecto es el de presentar una alternativa de solución para la 
resolución del problema de carencia de mecanismos adecuados para la visualización 
de la producción científica peruana a través de la implementación de un Sistema de 
Recomendación de Publicaciones Científicas Nacionales de Acceso Abierto para los 
investigadores calificados del SINACYT.  
Esta alternativa se basa en la generación de recomendaciones personalizadas de 
publicaciones en ALICIA, a través del uso del filtrado basado en contenido tomando en 
cuenta un perfil de investigador. Este perfil se construyó a partir de la información 
relevante sobre su producción científica publicada en Scopus y Orcid. La generación de 
recomendaciones se basó en la técnica de LSA (Latent Semantic Analysis), para 
descubrir estructuras semánticas escondidas sobre un conjunto de publicaciones 
científicas, y la técnica de Similitud Coseno, para encontrar aquellas publicaciones 
científicas con el mayor nivel de similitud.  
Para el Proyecto, se implementaron los módulos de extracción, en donde se recoge la 
data de las publicaciones en ALICIA y las publicaciones en Scopus y Orcid para cada 
uno de los investigadores registrados en DINA a través de la técnica de extracción de 
datos de sitios web (web scrapping); de pre procesamiento, en donde se busca la mejora 
de la calidad de la data previamente extraída para su posterior uso en el modelo analítico 
dentro del marco de la minería de texto; de recomendación, en donde se capacita un 
modelo LSA y se generan recomendaciones sobre qué publicaciones científicas pueden 
interesar a los usuarios basado en sus publicaciones científicas en Scopus y Orcid; y de 
servicio, en donde se permite a otras aplicaciones consumir las recomendaciones 
generadas por el sistema. 
  
 
 
 
 
 
Palabras Clave 
Sistema de Recomendación; Producción Científica; Repositorios de Acceso Abierto, 
DINA; ALICIA; LSA; Similitud Coseno; Filtrado Basado en Contenido 
 
 
 
 
 
Tema FCI 
Tabla de Contenido 
Tabla de Contenido 6 
Capítulo 1. Generalidades 15 
1.1 Problemática 15 
1.2 Objetivos 17 
1.2.1 Objetivo general 17 
1.2.2 Objetivos específicos 17 
1.2.3 Resultados esperados 18 
1.2.4 Mapeo de objetivos, resultados y verificación 19 
1.3 Herramienta, métodos y procedimientos 22 
1.3.1 Herramientas 24 
1.3.1.1 Python 24 
1.3.1.2 Beautiful Soap 24 
1.3.1.3 Sickle 25 
1.3.1.4 Pyscopus 25 
1.3.1.5 NLTK 26 
1.3.1.6 Luigi 26 
1.3.1.7 Gensim 26 
1.3.2 Métodos 27 
1.3.2.1 Term Frequency Inverse Document Frequency (TF-IDF) 27 
1.3.2.2 Latent Semantic Analysis (LSA) 27 
1.3.2.3 Singular Value Decomposition (SVD) 28 
 
 
 
 
 
1.3.2.4 Similitud coseno 29 
1.3.2.5 Precisión 29 
1.3.3 Procedimientos 30 
1.3.3.1 Estudio de la literatura 30 
1.3.3.2 Adquisición de la base de datos de usuarios investigadores de DINA 
y documentos de investigación en ALICIA 30 
1.3.3.3 Desarrollo del sistema de recomendación 30 
1.3.3.4 Evaluación del sistema y conclusiones obtenidas 31 
1.4 Alcance y limitaciones 31 
1.4.1 Alcances 31 
1.4.2 Limitaciones 32 
1.5 Justificación y viabilidad 32 
1.5.1 Justificación 32 
1.5.2 Viabilidad 33 
Capítulo 2. Marco Conceptual y Legal 34 
2.1 Marco Conceptual 34 
2.1.1 Producción Científica 34 
2.1.2 Repositorio de Acceso Abierto 35 
2.1.3 SINACYT 36 
2.1.4 ALICIA 37 
2.1.5 REGINA 37 
2.1.6 DINA 38 
2.2 Marco Legal 38 
 
 
 
 
 
2.2.1 Ley N° 30035 que regula el Repositorio Nacional Digital de Ciencia, 
Tecnología e Innovación de Acceso Abierto 38 
2.2.2 Reglamento de la Ley N° 30035 que regula el Repositorio Nacional Digital 
de Ciencia, Tecnología e Innovación de Acceso Abierto 39 
2.2.3 Directiva Nº 004-2016-CONCYTEC-DEGC que regula el Repositorio 
Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto 39 
2.2.4 Reglamento del Registro Nacional Científico, Tecnológico y de 
Innovación Tecnológica - RENACYT 40 
2.2.5 Reglamento de Calificación y Registro de Investigadores en Ciencia y 
Tecnología del Sistema Nacional de Ciencia, Tecnología e Innovación Científica - 
SINACYT 41 
Capítulo 3. Estado del Arte 43 
3.1 Método usado en la revisión 43 
3.1.1 Formulación de la pregunta 43 
3.1.2 Selección de las Fuentes 43 
3.2 Síntesis del Estado del Arte 44 
3.2.2 Filtrado basado en contenido 44 
3.2.3 Filtrado colaborativo 45 
3.2.4 Co-ocurrencia 46 
3.2.5 Basado en grafos 46 
3.2.6 Enfoques de recomendaciones híbridas 46 
3.3 Conclusiones sobre el Estado del Arte 47 
Capítulo 4. Recolección y Pre procesamiento de la información 49 
4.1 Modelamiento de los datos 49 
4.2 Arquitectura del sistema 51 
 
 
 
 
 
4.3 Extracción de los datos 53 
4.4 Pre procesamiento de los datos 55 
4.4.1 Eliminación de caracteres extraños 56 
4.4.2 Estandarización del idioma 58 
4.4.3 Reducción del ruido 59 
4.4.4 Tokenización y Normalización 61 
4.4.5 Filtrado de stems con baja frecuencia 66 
4.5 Implementación de los módulos de Extracción y de Pre procesamiento 67 
4.5.1 Interfaz Gráfica de Ejecución 68 
Capítulo 5. Modelo de Recomendación 70 
5.1 Selección del enfoque de recomendación 70 
5.2 Modelo de recomendación 70 
5.3 Implementación del módulo de recomendación 71 
5.3.1 Reducción de dimensionalidad 71 
5.3.2 Obtención del Corpus 72 
5.3.3 Obtención del corpus bajo TF-IDF 74 
5.3.4 Obtención del modelo LSA 75 
5.3.5 Calculo de Similitud Coseno 76 
5.3.6 Cálculo de Recomendaciones 77 
Capítulo 6. Implementación del Servicio de Recomendación 78 
6.1 Servicio Web REST 78 
Capítulo 7. Evaluación de Resultados 80 
7.1 Muestra de la población 81 
7.2 Desarrollo del cuestionario 81 
 
 
 
 
 
7.3 Implementación de la encuesta 82 
7.4 Modelo de medición y análisis de resultados 82 
Capítulo 8. Conclusiones y trabajos futuros 84 
8.1 Conclusiones 84 
8.2 Trabajos futuros 85 
Referencias 86 
Anexos 97 
Anexo 1:   Revisión de Fuentes: investigaciones y productos 97 
Anexo 2:   Protocolo de Consentimiento Informado 105 
Anexo 3:   Formato del Cuestionario para Calificación de Recomendaciones de 
Publicaciones Científicas 106 
Anexo 4:   Protocolos de Consentimiento Informado y Cuestionarios de la 
Evaluación. 114 
Anexo 5: Cronograma de Proyecto 133 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Índice de Ilustraciones 
Ilustración 1. Producción Científica Peruana almacenada en el repositorio nacional 
ALICIA. Extraído de («Inicio de Búsqueda», s. f.). .......................................................35 
Ilustración 2. Porcentaje del uso de software de repositorios de acceso abierto en el 
mundo. Extraído de (Millington, 2006). ........................................................................36 
Ilustración 3 Diagrama de Clases para los modelos de datos correspondientes a las 
publicaciones de ALICIA y el perfil del investigador del SINACYT. El perfil del 
investigador consta también de las clases Pub_Scopus_Investigador y 
Pub_Orcid_Investigador que representan las publicaciones del autor contenidas en 
dichas plataformas. (Elaboración propia) ....................................................................50 
Ilustración 4 Arquitectura del sistema (Elaboración propia) .........................................51 
Ilustración 5 Registros de publicaciones científicas con los atributos identificador, titulo, 
descripción, tema, editor y dirección web almacenados en un archivo plano (Elaboración 
propia). ........................................................................................................................53 
Ilustración 6 Registros de publicaciones científicas extraídas de Orcid y Scopus 
perteneciente a los investigadores (Elaboración propia). ............................................54 
Ilustración 7 Marco de trabajo para el pre procesamiento de textos. (Elaboración propia)
 ....................................................................................................................................55 
Ilustración 8 Texto pre procesado para cada uno de las publicaciones científicas 
(Elaboración propia). ...................................................................................................56 
Ilustración 9 Valor del atributo descripción para una de las publicaciones extraídas. Se 
visualiza la existencia de caracteres extraños (ej. caracteres con tildes) (Elaboración 
propia). ........................................................................................................................58 
Ilustración 10 Valor del atributo título para uno de los registros Scopus que pertenecen 
a un determinado investigador. El registro se encuentra en el idioma inglés (Elaboración 
propia). ........................................................................................................................59 
 
 
 
 
 
Ilustración 11 Lista de palabras vacías definidas para el filtrado sobre la data 
correspondiente a las publicaciones de ALICIA, y las publicaciones ORCID y Scopus de 
los investigadores (Elaboración propia). ......................................................................60 
Ilustración 12 Separación de las palabras y normalización de las mismas en un texto, 
utilizando la técnica de Porter Stemming (Elaboración propia). ...................................62 
Ilustración 13 Interfaz Gráfica de Ejecución del sistema de recomendación. Pantalla que 
permite la interacción con el usuario para el inicio de ejecución del sistema (Elaboración 
propia). ........................................................................................................................69 
Ilustración 14 Etapas dentro del modelo de recomendación. (Elaboración propia) ......71 
Ilustración 15 Algunos de los términos (pre procesados) que conforman el diccionario 
de datos generado. Se muestra el término junto con su identificador único (Elaboración 
propia). ........................................................................................................................73 
Ilustración 16 Corpus correspondiente a una publicación ALICIA. El término 
'colecistectom' aparece 14 veces para la primera publicación ALICIA del corpus 
(Elaboración propia). ...................................................................................................74 
Ilustración 17 Corpus bajo TF-IDF vs Corpus simple correspondiente a una publicación 
ALICIA. El término 'colecistectom' ahora está representado por el valor numérico 
obtenido luego del cálculo de TF-ID (0.71129). Específicamente, para este ejemplo se 
puede ver como el término 'colecistectom' tiene mayor peso sobre los demás y posee 
un alto grado de relevancia para la primera publicación ALICIA (Elaboración propia). 75 
Ilustración 18 Temas generados por el modelo LSA. Solo se muestran 5 de los 300 
temas generados. Cada tema cuenta con tuplas de valor numérico-termino. Los valores 
numéricos representan el aporte de similitud que el término tiene sobre la dimensión 
(tema). Los valores negativos señalan disimilitud (la ocurrencia del concepto semántico 
acompaña la ausencia de la palabra dentro de la dimensión (Elaboración propia). .....76 
Ilustración 19 Esquema de la arquitectura de un servicio web REST (P Waller, 
Dresselhaus, & Yang, 2013) ........................................................................................78 
 
 
 
 
 
Ilustración 20 Ejemplo de un cliente android, que hace uso del servicio de 
recomendación aleatoria. Se debe especificar el id del investigador para hacer uso del 
servicio (Elaboración propia). ......................................................................................79 
Ilustración 21 Cuadro de Precisión en N. Se muestra la precisión obtenida para cada 
investigador para N=5 y N=10, así como, la precisión promedio (Elaboración propia).84 
 
 
Índice de Tablas 
Tabla 1. Mapeo de Objetivos y Resultados (Elaboración propia).................................22 
Tabla 2. Mapeo de Resultados con Herramientas y Métodos utilizados (Elaboración 
propia) .........................................................................................................................24 
Tabla 3. Cadena General de Búsqueda (Elaboración propia) ......................................43 
 
Índice de Algoritmos 
Algoritmo 1 Algoritmo para la normalización de caracteres de la forma NFKD 
(Elaboración propia). ...................................................................................................57 
Algoritmo 2 Algoritmo para la estandarización de textos al idioma español (Elaboración 
propia). ........................................................................................................................58 
Algoritmo 3 Algoritmo para la reducción del ruido  (Elaboración propia). .....................61 
Algoritmo 4 Algoritmo Porter Stemming (Elaboración propia). .....................................63 
Algoritmo 5 Tercer paso del Algoritmo de Porter Stemming para la transformación de 
sufijos (Elaboración propia). ........................................................................................65 
Algoritmo 6 Cuarto paso del Algoritmo de Porter Stemming para la transformación de 
sufijos (Elaboración propia). ........................................................................................66 
Algoritmo 7 Algoritmo para el filtrado de Stems de poca frecuencia (Elaboración propia).
 ....................................................................................................................................67 
 
 
 
 
 
Algoritmo 8 Algoritmo para la reducción de dimensionalidad (Elaboración propia). .....72 
Algoritmo 9 Algoritmo para el cálculo de recomendaciones (Elaboración propia). .......77 
Algoritmo 10 Algoritmo para la obtención de la métrica de Precisión en N (Elaboración 
propia). ........................................................................................................................83 
 
 
  
 
 
15 
 
Capítulo 1. Generalidades 
1.1 Problemática 
La investigación es “un proceso que, mediante la aplicación del método científico, 
procura obtener información relevante y fidedigna, para entender, verificar, corregir y/o 
aplicar el conocimiento” (Tamayo, 2004). Esta investigación deriva en la producción de 
literatura científica, la cual es clave en el proceso de desarrollo tecnológico, económico 
y social de una nación (Tamayo, 2004). 
La producción científica es considerada como “la parte materializada del conocimiento 
generado, es más que un conjunto de documentos almacenados en una institución de 
información. Se considera también que contempla todas las actividades académicas y 
científicas de un investigador” («La producción científica», 2013).  Constituyen como 
producción científica publicaciones de carácter científico; entre las que se destacan 
tesis, artículos, libros, reportes, revistas indizadas nacionales, datos de investigación, 
entre otros («La producción científica», 2013). 
En los últimos años, la producción científica mundial se ha expandido notablemente. De 
acuerdo al SCImago Journal & Country Rank (SJR), entre 1996 y 2016, el volumen total 
de documentos científicos considerados son de 44.7 millones («Scimago Journal & 
Country Rank», 2017). Para la región de América Latina, este volumen total es de 1.5 
millones, teniendo a Brasil como mayor productor de literatura científica de la región, y 
a Perú representando solo el 1.1% del total («Scimago Journal & Country Rank», 2017). 
Hablando estrictamente del Perú, el SCImago Journal & Country Rank (SJR) muestra el 
incremento notable de la producción científica del país con 164 documentos indexados 
en 1996 a más de 17000 en 2016 («Scimago Journal & Country Rank», 2017). Todos 
los países producen más literatura científica que hace veinte años («Scimago Journal & 
Country Rank», 2017). Sin embargo, el índice de crecimiento es diferente para cada uno 
de ellos («Scimago Journal & Country Rank», 2017). Así, se expone que el promedio 
regional para América Latina del índice de crecimiento de la producción científica en el 
2012 fue de 4.7 (4.7 veces la producción de 1996) («Scimago Journal & Country Rank», 
2017). En el caso peruano, este índice fue de 7.3, cifra que se encuentra por encima del 
promedio regional y lo posiciona como el segundo país con mayor índice de crecimiento 
después de Colombia («Scimago Journal & Country Rank», 2007).  
De esta manera, el continuo crecimiento de la producción científica en la región, supone 
también el uso de la tecnología en materia de colección y preservación de la producción 
científica (María Inés Bravo, Ken Norsworthy, & Paula Pardo Lorca, 2004). Esto se 
explica en la aparición de dos tendencias claves: la “tremenda expansión en la cantidad 
 
 
16 
 
de información y análisis producida y ‘publicada’, sobre todo electrónicamente” (María 
Inés Bravo et al., 2004), además de la “demanda creciente dentro de la región por la 
información publicada por otros investigadores latinoamericanos” (María Inés Bravo 
et al., 2004).  
En este contexto surgen los repositorios de acceso abierto. El movimiento de acceso 
abierto cuenta en el mundo con una amplia comunidad, que trata de compartir todo el 
acervo científico de las organizaciones (María Inés Bravo et al., 2004). Sin embargo, 
existen deficiencias en la funcionalidad de los mismos como herramienta de apoyo al 
desarrollo de investigaciones científicas (María Inés Bravo et al., 2004). 
En América Latina, iniciativas como Dspace, SciELO, E-Prints y Open Journal System 
son los más utilizados por la comunidad científica como herramienta para el aporte en 
el desarrollo de investigaciones (Córdoba, 2011). Así mismo, en la región, existe LA 
Referencia (La Red Federada de Repositorios Institucionales de Publicaciones 
Científicas), red latinoamericana de repositorios de acceso abierto, de la cual el Perú es 
un país miembro con el repositorio nacional ALICIA (Acceso Libre de la Información de 
Ciencia y tecnología). ALICIA contribuye a La Referencia, albergando cerca de 100,000 
documentos científicos («ALICIA», 2017). 
Los principales objetivos que abordan estas iniciativas son la de promover la 
preservación digital («DSpace: un manual específico para gestores de la información y 
la documentación», s. f.), y la de aumentar la visibilidad, uso e impacto de las 
publicaciones científicas que albergan (Packer, Cop, Luccisano, Ramalho, & Spinak, 
2014). Bajo estos mismos lineamientos es que nacen ALICIA y DINA. ALICIA como 
plataforma de difusión y promoción del intercambio de información entre las instituciones 
y universidades del Perú en distintas áreas («ALICIA», 2017), esto mediante la 
integración de repositorios nacionales que contienen publicaciones científicas para la 
generación de nuevo conocimiento (Atamari-Anahui & Díaz-Vélez, 2015), y DINA  como 
plataforma virtual del Directorio Nacional de Investigadores e Innovadores con el 
objetivo de “dar visibilidad a la labor de los investigadores e innovadores peruanos, así 
como a vincularlos con sus pares para que puedan generar múltiples oportunidades de 
potenciar sus redes de colaboración” («CONCYTEC pone a disposición nueva 
plataforma virtual DINA para investigadores, innovadores y profesionales», s. f.). 
Sin embargo, actualmente, estas iniciativas se muestran como plataformas aisladas 
dentro del sistema científico-investigador, ya que no se encuentran integradas con las 
herramientas y procesos de los investigadores a partir de la falta de integración de los 
repositorios de acceso abierto dentro de lo que concierne la labor investigadora (Lorenzo 
Gil, Braña Ferreiro, & Nieto Caramés, 2015). 
 
 
17 
 
En el caso peruano, las plataformas DINA y ALICIA se muestran aisladas y no 
contribuyen de manera eficiente en cumplir con los objetivos para los que fueron 
creados. La falta de interoperabilidad entre estas plataformas no facilita el cumplimiento 
del objetivo de creación y fortalecimiento de redes de colaboración entre los  
investigadores nacionales, representado en la dificultad para la agrupación natural de 
investigadores con temas afines en las distintas instituciones/regiones del Perú.  
Por otro lado, la visibilidad se establece como una característica importante de la 
producción científica almacenada en los repositorios de acceso abierto y se encuentra 
fuertemente relacionado con la interoperabilidad (Ferreras-Fernández, García-Peñalvo, 
& Merlo-Vega, 2015).  
En el caso peruano, la falta de mecanismos de integración para la visualización de 
producción científica de ALICIA para usuarios de DINA, es una de las causas para el 
desconocimiento por parte de los investigadores peruanos, sobre la producción 
científica nacional existentes. La existencia de estos mecanismos promovería la 
obtención de información sobre aquellos investigadores con líneas de investigación 
afines, así como el conocimiento las variantes de temas afines a los investigadores. 
Por último, ante todo lo anteriormente expuesto, el objetivo de este proyecto de fin de 
carrera es proponer una alternativa de solución para la resolución del problema de 
carencia de mecanismos adecuados para la visualización de la producción científica de 
acceso abierto para los investigadores calificados del SINACYT. 
 
1.2 Objetivos 
1.2.1 Objetivo general 
Implementar un sistema de recomendación que permita sugerir publicaciones científicas 
relevantes del Repositorio Nacional de Acceso Abierto (ALICIA) para los investigadores 
calificados del Sistema Nacional de Ciencia y Tecnología (SINACYT) a partir de su 
producción científica en Scopus y Orcid. 
1.2.2 Objetivos específicos  
O 1. Extraer, pre-procesar y modelar de los datos correspondientes a los 
investigadores calificados del SINACYT, así como también para las 
publicaciones científicas almacenadas en ALICIA. 
 
 
18 
 
O 2. Desarrollar un modelo de recomendación basado en los enfoques 
investigados. 
O 3. Implementar un servicio web para la publicación de las recomendaciones 
generadas por el sistema de recomendación construido a partir de los 
componentes de arquitectura definidos. 
O 4. Evaluar las recomendaciones generadas bajo la técnica de evaluación 
offline utilizando la métrica de Precisión en N. 
 
1.2.3 Resultados esperados 
R 1. Modelo de datos que representa el perfil del usuario (investigadores 
calificados del SINACYT) y provee conocimiento de los intereses del mismo 
(O1). 
R 2. Modelo de datos que representa el elemento a recomendar 
(publicaciones científicas almacenados en ALICIA) (O1). 
R 3. Definición de la arquitectura del sistema de recomendación (O1). 
R 4. Módulo relacionado a la Extracción de Datos de las plataformas web de 
ALICIA y DINA (O1). 
R 5. Módulo relacionado al Pre procesamiento de Datos (O1). 
R 6. Datos normalizados de las publicaciones científicas de ALICIA y de los 
investigadores calificados de DINA (O1) 
R 7. GUI para la interacción con los módulos del sistema (O1). 
R 8. Definición de los enfoques de recomendación que se implementaran 
(O2). 
R 9. Módulo relacionado al Modelo de Recomendación (O2). 
R 10. Definición de la arquitectura para el servicio web (O3). 
R 11. Integración de los componentes de arquitectura (03) 
R 12. Servicio web REST para la trasferencia de las recomendaciones 
obtenidas hacia una plataforma de visualización (O3). 
R 13. Cuestionario para la obtención de información sobre la relevancia de las 
recomendaciones generadas 
 
 
19 
 
R 14. Definición de las métricas que deben satisfacerse en la evaluación del 
rendimiento del sistema de recomendación (O4). 
R 15. Evaluación offline de los resultados obtenidos utilizando la métrica de 
Precisión en N(O4). 
1.2.4 Mapeo de objetivos, resultados y verificación 
En la Tabla 1 se muestra el mapeo de objetivos, resultados y verificación. 
Objetivo: (O1) Extraer, pre-procesar y modelar de los datos correspondientes a los 
investigadores calificados del SINACYT, así como también para las publicaciones 
científicas almacenadas en ALICIA.  
 
Resultado Meta física Medio de verificación 
- Diagrama de Clases 
(R1) Modelo de datos que Documento 
representa el perfil del 
usuario (investigadores 
calificados del SINACYT) y 
provee conocimiento de los 
intereses del mismo 
- Diagrama de Clases 
(R2) Modelo de datos que Documento 
representa el elemento a 
recomendar (publicaciones 
científicas almacenados en 
ALICIA) 
- Documento que describe la 
(R3) Definición de la Documento 
arquitectura del sistema de 
arquitectura del sistema de 
recomendación 
recomendación.  
 
 
20 
 
Resultado Meta física Medio de verificación 
- Pruebas unitarias 
(R4) Módulo relacionado a Software 
 
la Extracción de Datos de 
 
las plataformas web de 
ALICIA y DINA, Scopus y 
Orcid  
- Pruebas de consistencia 
(R5) Módulo relacionado al Software 
- Pruebas unitarias 
Procesamiento de Datos 
 
- Pruebas de consistencia 
(R6) Datos normalizados Data 
 
de las publicaciones 
científicas de ALICIA y de 
los investigadores 
calificados de DINA 
- Pruebas unitarias 
(R7) GUI para la Software 
 
interacción con los 
módulos del sistema 
 
Objetivo: (O2) Desarrollar un modelo de recomendación basado en los enfoques 
investigados  
 
Resultado Meta física Medio de verificación 
- Documento que describe los 
(R8) Definición de los Documento 
enfoques seleccionados y que 
enfoques de 
se adecuen a la 
recomendación que se 
recomendación de 
implementaran 
documentos científicos 
 
 
21 
 
Resultado Meta física Medio de verificación 
- Pruebas de consistencia 
(R9) Módulo relacionado al Software 
- Pruebas unitarias 
Modelo de Recomendación  
 
 
Objetivo: (O3) Implementar un servicio web para la publicación de las 
recomendaciones generadas por el sistema de recomendación construido a partir 
de los componentes de arquitectura definidos. 
 
Resultado Meta física Medio de verificación 
- Documento que describe la 
(R10) Definición de la Documento 
arquitectura del sistema de 
arquitectura para el servicio 
 
recomendación 
web 
- Pruebas de consistencia 
(R11) Integración de los Software 
- Pruebas unitarias 
componentes de 
 
arquitectura 
- Reporte técnico que describe 
(R12) Servicio web REST Software 
el funcionamiento del servicio 
para la trasferencia de las 
web 
recomendaciones 
- pruebas unitarias realizadas 
obtenidas hacia una 
sobre las recomendaciones 
plataforma de visualización 
generadas 
 
Objetivo: (O4) Evaluar las recomendaciones generadas bajo la técnica de 
evaluación offline utilizando la métrica de Precisión. 
 
 
 
22 
 
Resultado Meta física Medio de verificación 
- Formulario de encuesta 
(R13) Cuestionario para la Documento 
obtención de información 
sobre la relevancia de las 
recomendaciones 
generadas 
- Documento que describe las 
(R14) Definición de las Documento 
métricas seleccionadas para la 
métricas que deben 
evaluación del sistema 
satisfacerse en la 
evaluación del rendimiento 
del sistema de 
recomendación 
- Reporte de evaluación de 
(R15) Evaluación offline de Datos 
métricas 
los resultados utilizando la 
métrica de Precisión en N 
Tabla 1. Mapeo de Objetivos y Resultados (Elaboración propia) 
1.3 Herramienta, métodos y procedimientos 
Esta sección tiene como finalidad el dar a conocer las herramientas, métodos y 
procedimientos definidos para el logro del objetivo general del presente proyecto de fin 
de carrera.  
A continuación en la Tabla 2 se muestra un mapeo resumido las herramientas y métodos 
alineados a cada resultado esperado del presente proyecto de fin de carrera. 
Resultados Esperados Herramientas y Métodos 
- Beautiful soap 
(R3) Componente 
- Sickle 
relacionado a la Extracción 
- Pyscopus 
de Datos de las 
 
 
23 
 
Resultados Esperados Herramientas y Métodos 
plataformas web de ALICIA  
y DINA 
- NLTK 
(R4) Componente 
 
relacionado al 
Procesamiento de Datos 
- NLTK 
(R5) Datos normalizados 
 
de las publicaciones 
científicas de ALICIA y de 
los investigadores 
calificados de DINA 
- TF-IDF 
(R7) Componente 
- VSD 
relacionado al Modelo de 
- LSA 
Recomendación 
- Similitud coseno 
- Gensim 
- Python  
(R9) Integración de los 
- Luigi 
componentes de 
 
arquitectura 
- Python 
(R10) Servicio web REST 
para la trasferencia de las 
recomendaciones 
obtenidas hacia una 
plataforma de visualización 
- Precisión  
(R12) Evaluación de los 
 
resultados obtenidos a 
 
partir de las 
 
 
24 
 
Resultados Esperados Herramientas y Métodos 
recomendaciones 
generadas utilizando las 
métricas previamente 
definidas 
Tabla 2. Mapeo de Resultados con Herramientas y Métodos utilizados (Elaboración propia) 
 
1.3.1 Herramientas 
1.3.1.1 Python 
Python es un lenguaje de programación multiparadigma, el cual soporta la programación 
orientada a objetos, imperativa y funcional («Welcome to Python.org», s. f.). Así mismo, 
posee una gran cantidad de librerías las cuales proveen de herramientas facilitadoras 
en el proceso de desarrollo («Welcome to Python.org», s. f.). Por esta última 
característica, es que Python es tan utilizada en la programación dentro del campo de 
las ciencias de la computación («Python Data Science Handbook | Python Data Science 
Handbook», s. f.). La existencia de librerías para el Análisis de Datos y sus aplicaciones 
en el campo del Aprendizaje Maquina («Python Data Science Handbook | Python Data 
Science Handbook», s. f.).  
Su elección para el desarrollo del sistema de recomendación, se basa principalmente 
en la utilización de las librerías relacionadas al tratamiento de los datos como NumPy, 
Pandas, Scikit-learn, entre otros (Dolgert, s. f.). Así mismo, herramientas como Surprise, 
Crab y RecSys son librerías que están directamente relacionadas a la construcción y el 
análisis de los sistemas de recomendación («Python Libraries For Building 
Recommender Systems», s. f.).  
1.3.1.2 Beautiful Soap 
Beautiful soap es una librería de Python que ayuda en la tarea de extracción de páginas 
web (web scrapping). Esta herramienta permite la extracción de data almacenada en 
 
 
25 
 
archivos HTML y XML, proporcionando al desarrollador de funciones simples y útiles en 
la navegación y búsqueda de elementos contenidos dentro de las estructuras de páginas 
web estáticas («Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation», 
s. f.). 
Su elección como herramienta en el proceso de extracción de la data de los 
investigadores, se basa principalmente en la facilidad para la navegación y obtención 
de elementos HTML contenidos, en este caso, en cada una de las páginas web de los 
usuarios investigadores registrados en DINA («Web Scraping with Beautiful Soup», s. f.).  
1.3.1.3 Sickle 
Sickle es una librería de Python cuya funcionalidad principal es la de recuperar la 
metadata de publicaciones científicas almacenadas en repositorios de acceso abierto 
(«Sickle: OAI-PMH for Humans — Sickle 0.6.2 documentation», s. f.). Sickle utiliza la 
interface OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), el cual 
es un mecanismo para la interoperabilidad de repositorios de acceso abierto («Sickle: 
OAI-PMH for Humans — Sickle 0.6.2 documentation», s. f.). 
Su elección para la extracción de la información correspondiente a la producción 
científica almacenada en ALICIA, se basa en la fácil y limpia extracción de la metadata. 
Sickle facilita el acceso de esta metadata mediante la utilización de diccionarios, los 
cuales almacenan atributos como autor, descripción, fecha de publicación, y demás 
información específica para el modelo de metadatos Dublin Core.  
1.3.1.4 Pyscopus 
Pyscopus es una librería de Python que utiliza el API de Scopus para la ejecución de 
servicios relacionados con la obtención de información sobre los investigadores 
registrados y sus publicaciones científicas (Zuo, Zhao, & Eichmann, s. f.).  
Su elección para la extracción de información contenida en Scopus, se basa 
principalmente, en la simplicidad en la obtención de las publicaciones (título y abstract) 
pertenecientes a un determinado usuario Scopus. 
 
 
26 
 
1.3.1.5 NLTK 
NLTK (Natural Language Toolkit, por sus siglas en inglés), es un paquete de librerías 
para el procesamiento de lenguaje natural en Python. Esta herramienta fue creada con 
la intención de facilitar el procesamiento del lenguaje humano, ya que contiene librerías 
de procesamiento de texto para transformación de la data, así como también más de 50 
conjuntos de textos (corpus) y recursos léxicos («Natural Language Toolkit — NLTK 3.3 
documentation», s. f.). 
Su elección como herramienta en el proceso de pre procesamiento de la data radica 
principalmente en el fácil uso de sus componentes para las tareas de reducción del ruido 
y normalización de palabras, que juntas permiten la obtención de características claves 
y fundamentales en el proceso de recomendación («Natural Language Toolkit — NLTK 
3.3 documentation», s. f.).  
1.3.1.6 Luigi 
Es un marco de trabajo en Python puro que facilita la implementación de tuberías para 
procesos batch; así mismo, gestiona la resolución de dependencias, el flujo de procesos, 
visualización de procesos y fallas (luigi, 2012/2018). 
La elección de Luigi como herramienta para la integración de los módulos como 
procesos interrelacionados, se basa en la buena abstracción que otorga esta librería 
para definir flujos de procesos en términos de entrada y salida además de resolver las 
dependencias necesarias (Marco, 2015). 
1.3.1.7 Gensim 
Gensim es un marco de software que facilita el procesamiento de lenguaje natural. 
Dentro de esta herramienta se implementan distintos algoritmos populares para la 
inferencia tópica, como el análisis semántico latente y el análisis latente Dirichlet, 
independientemente del tamaño del corpus de entrenamiento (Rehurek & Sojka, 2010). 
Se eligió el uso de esta herramienta ya que facilita la implementación de distintos 
algoritmos que se utilizan en el análisis de lenguaje natural, así como su eficiencia en el 
 
 
27 
 
procesamiento de grandes corpus sin la necesidad de cargar toda la data a memoria 
(Rehurek & Sojka, 2010). 
1.3.2 Métodos 
1.3.2.1  Term Frequency Inverse Document Frequency (TF-IDF)  
TF-IDF (Term frequency – Inverse document frequency, por sus siglas en inglés) es una 
medida la cual señala el nivel de relevancia de una palabra para un documento en un 
conjunto de los mismos (Bean, 2016). Es decir, las palabras que sean comunes para el 
conjunto de documentos en su totalidad tendrán un peso menor; mientras que, aquellas 
palabras que sean comunes solo en el ámbito del documento más no en el conjunto de 
estos tendrán un peso mayor.  
El modelo TF-IDF se basa en el uso de una matriz de palabras vs. documentos donde 
se almacena el peso correspondiente a una determinada palabra en un documento del 
conjunto de documentos (Bean, 2016).  
Este modelo TF-IDF se seleccionó por ser un modelo robusto y de fácil manejo para las 
tareas de recomendación bajo un enfoque de filtrado basado en contenido (Lops, de 
Gemmis, & Semeraro, 2011).  
En la Ecuación 1, se muestra la ecuación matemática que representa el modelo TF-IDF 
 
𝑊𝑑 =  𝑓𝑤,𝑑 ×  log(|𝐷|/𝑓𝑤,𝐷) 
Ecuación 1 Descripción formal del modelo TF-IDF. Donde f w,d es el número de veces w aparece en d, |D| 
es el tamaño del corpus, y  f w,D es el número de documentos en los que w aparece en D (Berger, Caruana, 
Cohn, Freitag, & Mittal, 2000; Salton & BuckLey, 1988). 
 
1.3.2.2 Latent Semantic Analysis (LSA) 
LSA se basa en el principio de que las palabras utilizadas dentro de los mismos 
contextos tienden a tener significados similares (Landauer, Foltz, & Laham, 1998).  
 
 
28 
 
Este método tiene como principal función el de extraer e inferir relaciones de las 
palabras bajo el uso contextual de los mismos, utilizando bases de conocimiento, redes 
semánticas, gramáticas, sintácticas, analizadores, morfologías, o demás herramientas 
que facilitan el descubrimiento de relaciones conceptuales entre palabras en un texto 
(Landauer et al., 1998). Cabe resaltar que, el método dentro del marco de la actividad 
de IR (Information Retrieval, por sus siglas en inglés) también es llamado Latent 
Semantic Indexing. 
Este método utiliza la representación de texto como una matriz TF-IDF, donde cada una 
de las frecuencias es ponderada a razón de la importancia que la palabra tiene en el 
texto y el grado en el que este tipo de palabra posee información en el dominio del 
conjunto de documentos analizados (Landauer et al., 1998). Esta matriz, luego, pasa 
por un proceso de descomposición, llamado SVD (Singular Value Decomposition). Esta 
descomposición da lugar a la conservación de aquellas dimensiones con mayor 
importancia asociadas con los mayores valores singulares de la matriz de coocurrencia 
(Pilato & Vassallo, 2015). 
La elección de este método para el modelado por características (topic modelling) se 
basa en la mejor adaptabilidad que posee en cuanto a la mejor selección de textos 
relacionados, lo que afecta en el proceso de recomendación de documentos. Su 
superioridad a menudo se refleja en su capacidad para hacer coincidir correctamente 
documentos conceptualmente similares pero con palabras distintas (Landauer et al., 
1998). Además, LSA soluciona los típicos problemas de sinonimia, polisemia, palabras 
compuestas, entre otros.   
1.3.2.3 Singular Value Decomposition (SVD) 
La técnica de descomposición utilizada en el método de LSA es la de SVD donde luego 
de aplicada se obtienen 3 matrices: Matriz de Término por Dimensión, Matriz de Valor 
Singular (dimensión por dimensión) y Matriz de Documento por Dimensión (Kontostathis 
& Pottenger, 2006). La técnica de descomposición utilizada es la SVD (Singular Value 
Decomposition, por sus siglas en inglés) (Kontostathis & Pottenger, 2006). La matriz 
descompuesta se define en la Ecuación 2.  
 
 
29 
 
𝐴𝑘 = 𝑇𝑘 𝑆𝑘𝐷 
Ecuación 2 Ecuación para la Matriz Descompuesta, donde T y D tienen columnas orto normales y S es 
normal. La selección de la técnica de SVD es útil en muchas tareas. A partir de la descomposición del valor 
singular de A, podemos obtener la matriz B del rango k que mejor se aproxima a A, la cual es una matriz 
reducida. 
1.3.2.4 Similitud coseno 
La similitud coseno es la medida de similitud entre dos vectores derivados del coseno 
del ángulo entre ellos (Ye, 2011). Bajo la aplicación de los sistemas de recomendación, 
los ítems a recomendar son tratados como un vector en el espacio de los usuarios a los 
que se les da las recomendaciones. Es el coseno entre estos vectores lo que se obtiene 
como medida de similitud (Ye, 2011). 
En la Ecuación 3 se muestra l función matemática que representa el cálculo de la medida 
de similitud coseno 
𝑖  ∙  𝑗
𝑠𝑖𝑚(𝑖, 𝑗) = cos(𝑖, 𝑗) =   
∥ 𝑖 ∥ ∙ ∥ 𝑗 ∥
Ecuación 3 Ecuación para el cálculo de la medida de Similitud Coseno, donde i, j son los vectores a 
comparar. La selección de esta técnica se basa principalmente sobre su uso para identificar similitudes de 
documentos de texto y páginas web. Es una de las técnicas más populares y efectivas en la recuperación 
de información, la agrupación e incluso aplicada al reconocimiento de patrones y al diagnóstico médico (Ye, 
2011). 
1.3.2.5 Precisión 
La medida más popular dentro el ámbito de la extracción de información es la precisión. 
La precisión se define por la fracción de documentos extraídos que son relevantes como 
resultado de una consulta a un sistema de recuperación de información (IR, Information 
Retrieval por sus siglas en ingles) (Gunawardana & Shani, s. f.). 
En la Ecuación 3, se muestra la fórmula para el cálculo de la métrica de precisión. 
 
 
30 
 
#𝑡𝑝
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =   
#𝑡𝑝 + #𝑓𝑝
Ecuación 4 Fórmula para el cálculo de la Precisión, donde #tp es el número de verdaderos positivos (número 
de elementos relevantes recuperados) y #fp es el número de falsos positivos (número de elementos no 
relevantes que fueron recuperados) (Gunawardana & Shani, s. f.). 
 
1.3.3 Procedimientos 
Para la culminación del presente Proyecto se ha seguido la siguiente estructura de 
trabajo:  
1.3.3.1 Estudio de la literatura  
Para el presente Proyecto, se realizó la búsqueda de literatura relacionada a los 
sistemas de recomendación de literatura científica, con el fin de obtener los 
conocimientos necesarios para el desarrollo de la solución al problema presentado. En 
el caso de este proyecto se realizó un estudio de cada uno de los métodos aplicados en 
la construcción de soluciones de recomendación de artículos científicos para usuarios 
investigadores.  
1.3.3.2 Adquisición de la base de datos de usuarios investigadores de DINA y 
documentos de investigación en ALICIA  
Previo al inicio del desarrollo del prototipo fue necesario considerar sobre qué base de 
datos se realizaría la implementación, ya que bajo esta data es que se tendría que definir 
los modelos de datos a utilizar.  
1.3.3.3 Desarrollo del sistema de recomendación  
La etapa central del proyecto es la del desarrollo del sistema de recomendación, el cual 
incluye las siguientes etapas: 
1. Pre-procesamiento 
La data obtenida correspondiente a los usuarios investigadores de DINA, así como la 
correspondiente a los artículos científicos almacenados en ALICIA, deben pasar por el 
 
 
31 
 
proceso de pre-procesamiento. Esta etapa es muy importante para la generación de 
recomendaciones relevantes, ya que un mal pre procesamiento o uno incompleto puede 
influir en la obtención de resultados con cierto grado de error. 
2. Modelamiento de datos 
Esta etapa refiere a la construcción de los modelos de datos para el usuario investigador 
y al artículo científico almacenado en ALICIA.  
3. Recomendación 
Esta etapa se inicia el proceso de recomendación propiamente dicho, en base a los 
modelos de datos generados en la etapa previa se realiza el procesamiento 
correspondiente para la obtención de la recomendación de artículos científicos 
relevantes para cada uno de los usuarios investigadores registrados en DINA. 
4. Publicación  
Esta etapa es la cual se hace utilización del servicio web para el envío de las 
recomendaciones generadas. 
1.3.3.4 Evaluación del sistema y conclusiones obtenidas 
Posterior a la ejecución del sistema para la obtención de sus resultados. Se llevara a 
cabo una evaluación cuantitativa sobre la precisión de los resultados generados por el 
sistema de recomendación. Esto permitirá medir la eficiencia del sistema de 
recomendación. 
1.4 Alcance y limitaciones  
1.4.1 Alcances 
El presente Proyecto se encuentra orientado a la generación de recomendaciones  de 
artículos científicos de ALICIA para usuarios investigadores de DINA. El universo de 
datos solo comprenderán estos dos conjuntos de datos, los cuales son de acceso 
público a través de los correspondientes sitios web a cargo del CONCYTEC. Así mismo, 
se ejecutó las pruebas de validación del sistema solo mediante la utilización de técnicas 
 
 
32 
 
offline, y se aplicó los métodos y métricas de evaluación propuestas en la sección 1.3 
Herramientas, métodos y procedimientos. 
Cabe destacar que la utilización de técnicas offline para la evaluación no comprende la 
interacción del usuario con las recomendaciones generadas por lo que no existe un 
proceso de evaluación de la recomendación por parte del usuario. Así tenemos que la 
captación y tratamiento de la interacción del usuario con la recomendación a través de 
puntuaciones, esta fuera del alcance del presente Proyecto. 
Por otro lado se hace mención que el presente proyecto de fin de carrera se limita a la 
construcción de una solución para la recomendación de artículos científicos, mas no 
contempla la implantación del mismo en los ambientes de producción del CONCYTEC. 
Así se tiene que, la instalación y puesta en marcha del sistema de recomendación se 
encuentra fuera del alcance del Proyecto.  
1.4.2 Limitaciones 
El presente Proyecto posee una limitación que afecta al desarrollo del proyecto, la cual 
está relacionada a la completitud y exactitud de los datos recopilados. Esta limitación 
recae en el hecho que la data recopilada correspondiente a los usuarios investigadores 
de DINA puede ser incompleta lo que repercute en el diseño de los perfiles de usuarios 
utilizados por el sistema de recomendación y por ende en la generación de la 
recomendación. Así mismo, en base a esto se puede concluir que esta data no es 
representativa del universo real de datos de los investigadores del SINACYT.  
1.5 Justificación y viabilidad  
1.5.1 Justificación 
Este Proyecto se realizó con el fin de facilitar el trabajo de los investigadores peruanos 
en la producción de literatura científica, a través de una herramienta de recomendación. 
Así, se permitirá reducir los efectos relacionados a los problemas identificados en la 
sección 1.1 Problemática del presente documento. 
Finalmente, cabe destacar que la comunidad científica peruana se beneficiara del 
presente proyecto ya que influirá en la identificación de aquellos trabajos de 
 
 
33 
 
investigación afines al investigador y la agrupación de investigadores con líneas de 
investigación afines. 
1.5.2 Viabilidad 
Esta sección tiene como propósito mostrar la viabilidad del proyecto de fin de carrera 
planteado, en términos de ejecución, económicos, de tiempo y de acceso a la 
información necesaria para su realización y culminación plena.     
En primer lugar, en relación a la viabilidad técnica, se puede mencionar que los métodos 
elegidos para el desarrollo del sistema de recomendación cuentan con el soporte de 
diversas investigaciones en el campo que validan sus usos en el proyecto, lo cual se ve 
reflejado en el Estado del Arte. Así mismo, cabe destacar, el conocimiento básico 
necesario que posee el autor sobre los distintos métodos elegidos.  
El Proyecto es viable en términos económicos, debido a que el software necesario para 
la desarrollo del sistema de recomendación se pueden adquirir de forma gratuita y legal. 
Tanto Sublime Text como Python y sus librerías son software libre, por lo que su 
adquisición no incurre en costo alguno.    
Con respecto a la viabilidad temporal del Proyecto (dos semestres académicos), esta 
se demuestra a partir de la identificación de los tiempos necesarios para el aprendizaje, 
desarrollo y pruebas del sistema de recomendación. Ver Anexo 5 – Cronograma de 
Proyecto.    
Finalmente, en relación a la viabilidad del acceso a la información, se demuestra su 
viabilidad gracias al abundante material bibliográfico de fácil acceso sobre los métodos 
y procedimientos necesarios para la construcción del sistema de recomendación. Casi 
la totalidad de los recursos literarios relacionados al presente proyecto de fin de carrera 
se encuentran de forma virtual y libre. 
 
 
 
34 
 
Capítulo 2. Marco Conceptual y Legal 
2.1 Marco Conceptual 
Esta sección tiene como objetivo exponer los conceptos que permitirán el entendimiento 
del problema: cómo mejorar la visibilidad de la producción científica de acceso abierto 
almacenada en el repositorio nacional ALICIA para los investigadores calificados del 
SINACYT. 
2.1.1 Producción Científica 
La producción científica ha sido definida como “la creación (es decir: producción) 
propiamente de los aportes científicos (nuevas teorías, nuevos métodos y 
procedimientos de investigación, nuevos productos científicos, etc.) que logran en su 
quehacer científico, los que pueden generar uno o más artículos por cada uno de dichos 
aportes obtenidos” (Morales Morejón & Morales Aguilera, 1997).  
Esta “producción científica”  se inicia a partir de la concepción por parte de los 
investigadores para generar nuevos aportes a un conjunto de conocimientos 
sólidamente establecidos (Silva, Oliveira, & Filho, 2005), y concluye en la difusión de 
esos nuevos aportes científicos a través de publicaciones de carácter científico (Filho & 
Siqueira, 2008). 
En este sentido, se define a la producción científica como “toda producción documental 
sobre un determinado asunto de interés de una comunidad científica específica que 
contribuya al desarrollo de la ciencia y para la apertura de nuevos horizontes de 
investigación” (Lourenço, 2005).  
Moura, a su vez, señala a la producción científica como el producto final del proceso 
que recorre la generación de ideas, el desarrollo de la investigación y la comunicación 
que impulsa el desarrollo científico, tecnología y social  del país (Moura, A. M. S, Mattos, 
C. V, & Silva, D. C, 2002). 
Por otro lado, autores como Witter y Skeef señalan a la producción científica como 
medio de difusión y de posicionamiento de las universidades a la hora de hacer ciencia 
 
 
35 
 
a través de métodos y procedimientos científicos en aras de la superación de una 
sociedad (Skeef, 1997; Witter, 1997).  
Finalmente, la producción científica es una forma de expresión de conocimiento (tesis, 
artículos, libros, reportes, revistas indizadas nacionales, datos de investigación, entre 
otros), la cual resulta del proceso de generación de nuevos aportes científicos en 
determinadas áreas de conocimiento, y que conlleva al desarrollo tecnológico, 
económico y social. 
En la Ilustración 1 se muestra la producción científica peruana almacenada en el 
repositorio de acceso libre a la información Alicia. 
 
Ilustración 1. Producción Científica Peruana almacenada en el repositorio nacional ALICIA. Extraído de 
(«Inicio de Búsqueda», s. f.). 
2.1.2 Repositorio de Acceso Abierto  
Se denomina repositorio a sistemas que almacenan recursos digitales (texto, imagen y 
sonido) de forma perpetua («What are Open Access repositories? - University of 
 
 
36 
 
Bradford», s. f.). Entre los recursos almacenados se tienen pre-publicaciones o post-
publicaciones, ponencias de eventos, conferencias, informes de investigación, 
presentaciones a seminarios, tesis, textos de enseñanza y todo aquello que se defina 
como producción científica (Luque & M, 2009). De tal forma, se denomina acceso abierto 
a “la disponibilidad de contenido de forma gratuita, inmediata e irrestricta” (Pinfield, 
2005). En consecuencia, se define como repositorio de acceso abierto a la colección de 
contenido en línea a través de la Internet donde su acceso es de forma gratuita, 
inmediata y sin ninguna restricción (Pinfield, 2005). 
En la Ilustración 2 se muestra los porcentajes de uso para cada una de las tecnologías 
de Repositorios de Acceso Abierto. 
 
Ilustración 2. Porcentaje del uso de software de repositorios de acceso abierto en el mundo. Extraído de 
(Millington, 2006). 
2.1.3 SINACYT 
El Sistema Nacional de Ciencia, Tecnología e Innovación Tecnológica (SINACYT) son 
las instituciones y personas de origen peruano que se dedican a la Investigación, 
 
 
37 
 
Desarrollo e Innovación Tecnológica (I+D+I) en ciencia y tecnología así como a la 
promoción de la misma (Congreso de la República del Perú, 2004). Este sistema se rige 
bajo la Ley Marco de Ciencia, Tecnología e Innovación Tecnológica -N° 28303.  
2.1.4 ALICIA  
El Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto  
es una plataforma centralizada donde se almacena la información digital del resultado 
de la producción de ciencia tecnología e innovación, como lo son: libros, publicaciones, 
artículos de revistas especializada, trabajos técnico-científicos, programas informáticos, 
datos procesados y estadísticas de monitoreo, tesis académicas y similares. La 
información almacenada es “de acceso abierto, sin fines de lucro y sin requerimientos 
de registro, suscripción o pago alguno y está disponible para leer, descargar, reproducir, 
distribuir, imprimir, buscar o enlazar textos completos; considerando los derechos de 
autor” (Congreso de la República del Perú, 2013). 
En base a la Ley N°30035 promulgada en junio de 2013, todas las instituciones que 
reciben financiamiento del Estado, tienen como obligatorio el uso de ALICIA, dando así 
a conocer el acceso libre a la información digital relacionada a la producción científica 
del país (Atamari-Anahui & Díaz-Vélez, 2015). ALICIA se rige bajo la Directiva 087-2016-
CONCYTEC-P para su regulación.  
. 
2.1.5 REGINA 
Se denomina REGINA al Registro Nacional de Investigadores en Ciencia y Tecnología, 
de la cual forman parte personas naturales que cumplan con las capacidades 
establecidas de acuerdo a una calificación, para el desarrollo de actividades de 
investigación científica y/o desarrollo tecnológico (Presidencia de la República del Perú, 
2015a). En relación a la calificación, se tiene que la Dirección de Evaluación y Gestión 
del Conocimiento es la responsable de administrar los procedimientos relacionados al 
registro del Investigador, gestión de datos y las comunicaciones derivadas de los 
procedimientos establecidos en el Reglamento de Calificación y Registro de 
Investigadores en Ciencia y Tecnología del Sistema Nacional de Ciencia, Tecnología e 
 
 
38 
 
Innovación Tecnológica – SINACYT (Presidencia de la República del Perú, 2015a). Así 
mismo, en relación a la duración del registro del investigador en el REGINA, esta tiene 
una de dos (02) años, salvo se incurran en causales de expulsión (Presidencia de la 
República del Perú, 2015a). 
 
2.1.6 DINA  
El Directorio Nacional de Investigadores e Innovadores es una base de datos donde se 
registra y almacena la información de personas naturales que están relacionadas al 
campo de la ciencia, tecnología e innovación, tanto en el país como en el extranjero  
(Presidencia de la República del Perú, 2016b). Así mismo, cabe destacar que la relación 
existente entre el REGINA y DINA se basa en la utilización del segundo como fuente de 
información para el proceso calificador del primero. Así, REGINA se puede describir 
como la base de datos de miembros calificados de DINA. 
 
2.2 Marco Legal 
Esta sección tiene como objetivo exponer los fundamentos por los cuales se rigen 
ALICIA, DINA, REGINA y el SINACYT. 
2.2.1 Ley N° 30035 que regula el Repositorio Nacional Digital de Ciencia, 
Tecnología e Innovación de Acceso Abierto  
Esta Ley tiene como objetivo establecer el marco normativo del Repositorio Nacional 
Digital de Ciencia, Tecnología e Innovación de Acceso Abierto. Así mismo, define sus 
lineamientos rectores, los cuales son: 
 Establecer y adoptar estrategias y políticas a fin de garantizar el acceso libre y 
abierto a la producción en ciencia, tecnología e innovación. 
 Garantizar la gestión, divulgación y preservación a largo plazo de la información 
del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso 
Abierto. 
 
 
39 
 
 Garantizar la seguridad y la calidad de la información y establecer las 
condiciones necesarias a fin de salvaguardar la propiedad intelectual. 
 Fomentar el fortalecimiento de la red científica peruana. 
 
Dentro de las disposiciones generales de esta Ley, se hace mención a la definición del 
Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto, el 
cual fue descrito líneas arriba. Así mismo, se hace mención al ámbito en donde se aplica 
la Ley: entidades del sector público, entidades del sector privado o personas naturales 
que deseen compartir información bajo el marco del Reglamento de la presente Ley,  
entidades privadas y personas naturales que hayan obtenido financiación del Estado 
para su investigación, y personas y entidades que componen el SINACYT (Congreso de 
la República del Perú, 2013, p. 30) 
2.2.2 Reglamento de la Ley N° 30035 que regula el Repositorio Nacional 
Digital de Ciencia, Tecnología e Innovación de Acceso Abierto 
Este Reglamento tiene como finalidad desarrollar la Ley que regula el Repositorio 
Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto. Así mismo, se 
hace mención al ámbito en donde se aplica el presente Reglamento: entidades públicas 
miembros o no del SINACYT,  entidades privadas y personas naturales que hayan 
obtenido financiación del Estado para su investigación, personas de nacionalidad 
peruana y extranjeros cuya producción intelectual se haya realizado dentro del país y 
no se encuentren afiliados a una institución que cuente con algún repositorio y que 
cumplan con las disposiciones técnicas académicas reguladas para ALICIA (Presidencia 
de la República del Perú, 2015b). 
2.2.3 Directiva Nº 004-2016-CONCYTEC-DEGC que regula el Repositorio 
Nacional Digital de Ciencia, Tecnología e Innovación de Acceso 
Abierto 
Esta directiva tiene como finalidad dar conocimiento sobre la regulación del Repositorio 
Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto, también 
denominado “Acceso Libre a la Información Científica para la Innovación” – ALICIA. Así 
 
 
40 
 
mismo, esta Directiva es de aplicación para el Consejo Nacional de Ciencia, Tecnología 
e Innovación Tecnológica – CONCYTEC y para todas aquellas personas naturales y 
jurídicas, públicas o privadas mencionadas descritas en el Artículo 3º del Decreto 
Supremo Nº 006-2015-PCM, Reglamento de la Ley Nº 30035, cuyas obras, datos 
procesados o estadísticas de monitoreo, se incorporen o deban incorporarse a ALICIA 
en el marco de la Ley, su Reglamento y su Directiva. De tal forma, la presente Directiva 
define disposiciones específicas que se relacionan con la producción científica no 
susceptible a ser incorporada a ALICIA, como lo son toda información calificada como 
secreta, confidencial, reservada, con carácter de inteligencia y contrainteligencia, 
además de disposiciones relacionadas al aseguramiento de la calidad de la información 
almacenada en ALICIA. Así mismo, la presente Directiva también define los 
procedimientos para: la adhesión de repositorios institucionales, la incorporación de 
resultados de investigación de personas naturales, la solicitud de orientación técnica del 
CONCYTEC, el   monitoreo y evaluación para la verificación de los metadatos, la 
exclusión de ALICIA y la postergación de una obra, resultado de una investigación o 
aquella que requiera de un periodo de exclusividad. De la misma manera, la Directiva 
define a las entidades públicas y privadas como responsables del cumplimiento de las 
disposiciones contenidas en la Ley , su Reglamento, la presente Directiva y los anexos 
de la misma (Presidencia de la República del Perú, 2016a). 
2.2.4 Reglamento del Registro Nacional Científico, Tecnológico y de 
Innovación Tecnológica - RENACYT 
El presente Reglamento tiene como finalidad regular el proceso de inscripción en el 
Registro Nacional Científico, Tecnológico y de Innovación Tecnológica – RENACYT, de 
las personas naturales y jurídicas relacionadas con la ciencia, tecnología o innovación 
tecnológica (CTI), dentro del territorio nacional, así como de nacionales residentes en 
territorio extranjero. El Reglamento también describe la relación que el Directorio 
Nacional de Investigadores e Innovadores (DINA) y el Directorio Nacional de 
Instituciones en CTI (DANI) tienen con el RENACYT, a partir de las dos categorías de 
inscripción existentes: personas naturales y jurídicas. La información consignada por las 
personas naturales y definidas en el presente Reglamento deben ser registradas en el 
 
 
41 
 
DINA, así mismo, la información consignada por las personas jurídicas definidas en el 
Reglamento deben ser registradas en el DANI. En el caso del registro de personas 
naturales que soliciten la calificación de Investigador en Ciencia y Tecnología del 
SINACYT, estas deberán cumplir con los criterios establecidos en el Reglamento de 
Calificación y Registro de Investigadores en Ciencia y Tecnología del Sistema Nacional 
de Ciencia, Tecnología e Innovación Científica – SINACYT, denominado REGINA. De 
tal forma, las personas que soliciten la calificación Evaluador en Ciencia y Tecnología 
y/o Evaluador en Innovación y Financiamiento de Proyectos deberán  cumplir con los 
criterios establecidos en la Directiva que regula el Directorio Nacional de Evaluadores 
en  Ciencia, Tecnología e Innovación – EVA (Presidencia de la República del Perú, 
2016b). 
2.2.5 Reglamento de Calificación y Registro de Investigadores en Ciencia 
y Tecnología del Sistema Nacional de Ciencia, Tecnología e 
Innovación Científica - SINACYT 
El presente Reglamento tiene por objetivo regular el procedimiento para calificar y 
registrar como investigadores en Ciencia y Tecnología en el Perú a personas naturales 
que realizan labores de investigación. Este Reglamento describe los lineamientos en 
relación a los criterios de calificación, procedimientos para la calificación, así como 
también las características propias del registro de investigadores peruanos. El presente 
Reglamento fue publicado en Febrero de 2017 por Resolución de Presidencia Nº 023-
2017-CONCYTEC-P y es un sustituto al publicado en Diciembre de 2017 a través de la 
Resolución de Presidencia Nº 184 -2015-CONCYTEC-P. Este Reglamento describe los 
lineamientos en relación a los criterios de calificación, procedimientos para la 
calificación, así como también las características propias del registro de investigadores 
peruanos. Cabe resaltar que el presente Reglamento define ocho criterios para la 
calificación de Investigador en Ciencia y Tecnología del SINACYT, los cuales son: grado 
de Bachiller, Maestro o Doctor, o título profesional, publicaciones en revistas científicas 
indexadas,   publicación de libros y/o capítulos de libros o edición de libros de su 
especialidad, registro de propiedad intelectual como patentes u otras modalidades de 
protección de invenciones o nuevas tecnologías, asesoramiento de tesis sustentadas 
 
 
42 
 
de bachillerato, título profesional, maestría y/o doctorado, valor del índice h de Scopus, 
experiencia en proyectos de investigación científica y/o desarrollo tecnológico, y 
ponencias en congresos, seminarios u otros eventos de su especialidad a nivel nacional 
y/o internacional (Presidencia de la República del Perú, 2015a). 
   . 
 
 
 
43 
 
Capítulo 3. Estado del Arte 
3.1 Método usado en la revisión 
Para la revisión del Estado del Arte se utilizó la revisión sistemática. Se realizaron 
búsquedas a través de Google Scholar, buscador de Google enfocado en documentos 
académicos y científicos. 
3.1.1 Formulación de la pregunta 
Para realizar la búsqueda, se formuló la siguiente pregunta: ¿Qué tipos de sistemas de 
recomendación son más apropiados para la recomendación de publicaciones 
científicas? Para la resolución de la pregunta se utilizaron los siguientes términos: 
“scientific”, “article”, “articles”, “recommender”, “recommending”, “academics”, “cientific”, 
“journal”, “articles”, “article”, “papers”, “paper”, “publication”, “publications”. 
3.1.2 Selección de las Fuentes 
A partir de los términos anteriormente mencionados, se construyó una cadena de 
búsqueda utilizando los conectores lógicos AND y OR. Esta cadena de búsqueda fue la 
siguiente: 
 
 Cadena de búsqueda generada 
1 (“recommending” OR “recommender”) AND (“academic” OR “scientific” OR 
“journal”) AND (“articles” OR “article” OR “papers” OR “paper” OR “publication” OR 
“publications”) 
Tabla 3. Cadena General de Búsqueda (Elaboración propia) 
 
Para la selección de la información, se tomó en cuenta la fecha de publicación del 
documento encontrado. Fue así que, solo se seleccionó información con fecha de 
publicación desde el año 2008 hasta la actualidad. Además, solo se seleccionó los 
documentos que contengan la cadena de búsqueda en sus títulos o resúmenes. 
 
 
44 
 
3.2 Síntesis del Estado del Arte 
En esta Sección se presenta un resumen sobre los distintos conceptos encontrados 
luego de la revisión de las fuentes de investigación mencionadas en el Anexo 1.  
3.2.1 Filtrado basado en estereotipos 
Esta clase se basa en la generación de recomendaciones a partir de características 
propias de los usuarios, las cuales a su vez se relacionan con algún estereotipo 
existente (Beel, Dinesh, Mayr, Carevic, & Raghvendra, 2017). No obstante, dos de los 
principales problemas con este enfoque son el estricto encasillamiento de los usuarios 
dentro de estereotipos definidos, así como la tarea exhaustiva de construcción de 
estereotipos (cada ítem a recomendar debe ser relacionado manualmente con algún 
estereotipo existente) (Barla, 2010). Por otro lado, cabe destacar, que los alcances 
basados en estereotipos no necesitan grandes capacidades de procesamiento para la 
obtención de sus resultados pero sí un esfuerzo manual para la creación de los 
estereotipos (Beel, Gipp, Langer, & Breitinger, 2015).  
3.2.2 Filtrado basado en contenido 
Esta clase es la más utilizada para la implementación de sistemas de recomendación 
(Ricci, Rokach, Shapira, & Kantor, 2010). Se base en la inferencia de los intereses de 
un determinado usuario a través de su interacción con los elementos de repositorios 
digitales (Seroussi, 2010). El modelo de datos del usuario comprende las características 
de los elementos seleccionados por el usuario; de manera que, las recomendaciones 
nacen a partir de la comparación del modelo de datos y las recomendaciones candidatas 
son comparadas, mediante la utilización, por ejemplo, de un modelo de espacio vectorial 
y el coseno del coeficiente de similitud (Beel et al., 2015). Así mismo, cabe resaltar, la 
ventaja que este enfoque posee sobre el de estereotipos permite una personalización 
basada en el usuario para que el sistema de recomendación pueda determinar las 
mejores recomendaciones para cada usuario individualmente, en lugar de limitarse a 
estereotipos (Beel et al., 2015). Sin embargo, algunas de las desventajas de este 
enfoque es: su baja serendipidad y sobre especialización (Ricci et al., 2010), lo que da 
lugar a la recomendación de elementos muy parecidos a los que el usuario ya conoce, 
 
 
45 
 
además de, ignorar características como la calidad y la popularidad de los elementos 
(Dong, Tokarchuk, & Ma, 2009). Ejemplo de la implementación de esta clase para la 
recomendación de elementos, dentro del dominio de los sistemas de recomendación de 
publicaciones científicas, es Docear (Beel, Langer, Genzmehr, & Nürnberger, 2013). 
3.2.3 Filtrado colaborativo 
Esta clase se basa en la teoría de recomendación a partir de la semejanza en la 
interacción de usuarios con los elementos de los repositorios digitales. La semejanza en 
la interacción de usuarios con los elementos se explica en cómo estos califican a los 
elementos del repositorio, esto a su vez da lugar a la identificación de usuarios con 
gustos similares (Beel et al., 2015). Así, aquellos elementos calificados positivamente 
por algún usuario, serán recomendados a otros con gustos similares. El filtrado 
colaborativo posee tres ventajas:  
 Es independiente del contenido (Palopoli, Rosaci, & Sarné, 2013) 
 Toma en consideración evaluaciones de calidad reales (Dong et al., 2009) 
 Genera recomendaciones serendipitarias al no basarse en la similitud de los 
elementos sino en la similitud de los usuarios (Palopoli et al., 2013) 
Por otro lado, algunos de los principales problemas del filtrado colaborativo recae en: 
 El nivel de participación de los usuarios para calificar los elementos (Yang, Wei, 
wu, Zhang, & Zhang, 2009). 
 El alto grado de dispersión dentro del dominio de los sistemas de recomendación 
de publicaciones científicas causado por la diferente proporción entre usuarios 
(menos científicos) y elementos (más publicaciones científicas), lo cual dificulta 
la búsqueda de usuarios afines (Vellino, 2013). 
 Menor escalabilidad y mayor procesamiento de datos fuera de línea que el 
filtrado basado en contenido (Sosnovsky & Dicheva, 2010). 
 
 
 
46 
 
3.2.4 Co-ocurrencia 
Esta clase se basa en la relatividad que tienen entre si los elementos; es decir, el 
enfoque de las recomendaciones generadas están basadas en las relaciones que los 
elementos tienen entre sí, mas no en su semejanza (Beel et al., 2015). Esta clase genera 
recomendaciones serendipitarias lo que la hace comparable con la clase de filtrado 
colaborativo (Sugiyama & Kan, 2011). Por otro lado, algunas de sus desventajas son la 
generación de recomendaciones que no son altamente personalizadas y que los 
elementos pueden ser recomendados solo cuando haya surgido, al menos una vez, una 
co-ocurrencia con alguno de ellos (Beel et al., 2015). Ejemplos de la implementación de 
esta clase para la recomendación de elementos, dentro del dominio de los sistemas de 
recomendación de publicaciones científicas, son  los recomendores bX and BibTip, las 
cuales generan millones de recomendaciones mensuales  (Mönnich & Spiering, 2008). 
 
3.2.5 Basado en grafos 
Esta clase se basa en la construcción de redes de grafos a partir de conexiones 
inherentes que, en el caso de publicaciones científicas, muestran como están 
conectadas a través de citas (Liang, Li, & Qian, 2011), lugar de publicación, autor, 
relación entre genes , entre otros (Beel et al., 2015). 
3.2.6 Enfoques de recomendaciones híbridas 
Esta clase se basa en la combinación de dos o más clases puras, las cuales resultan en 
la obtención de mejor rendimiento con un menor número de inconvenientes causados 
por la utilización de una sola clase (Beel et al., 2015). Generalmente, el filtrado 
colaborativo se combina con otra clase en un intento de reducir inconvenientes que 
puedan presentarse (Çano & Morisio, 2017). Ejemplos de la implementación de esta 
clase para la recomendación de elementos, dentro del dominio de los sistemas de 
recomendación de publicaciones científicas,  son ARSYS (Bancu et al., 2012), Papyres 
(Naak, 2009) y Scienstein (Gipp, Beel, & Hentschel, 2009).  
 
 
47 
 
3.3 Conclusiones sobre el Estado del Arte 
A partir de la pregunta planteada inicialmente y la revisión realizada a los documentos 
seleccionados, se puede concluir que, las investigaciones realizadas en el campo de los 
sistemas de recomendación relacionados a artículos de investigación centran su 
atención en la combinación de distintos métodos o técnicas para la resolución de los 
diversos problemas que se presentan en la construcción de recomendadores de 
artículos de investigación. Sin embargo, todas las investigaciones convergen en un 
mismo objetivo: proponer sistemas híbridos para la mejora en la generación de 
recomendaciones de artículos de investigación. 
Además, la investigación “Sistemas de recomendación de documentos de investigación: 
una encuesta bibliográfica” recopila información importante sobre los enfoques 
aplicados en la construcción de los sistemas de recomendación de artículos científicos, 
y muestra los desafíos que se pueden encontrar en este campo. Así mismo la 
investigación expone los distintos métodos de evaluación para los sistemas de 
recomendación de artículos de investigación, concluyendo que no solo la métrica de 
exactitud refleja la satisfacción del usuario. La investigación también concluye y resalta 
la importancia del uso de un modelo de datos con el objetivo de identificar las 
necesidades de información del usuario y así generar recomendaciones relevantes para 
el mismo. 
Por otro lado, en los últimos años, productos relacionados a la gestión de documentos 
de investigación han incluido funcionalidades para la recomendación de estos a sus 
usuarios investigadores. Así, Docear implementó la función de recomendación de 
documentos científicos a sus usuarios, diferenciándose así de sus competidores Zotero 
y Mendeley. De tal manera, Scienstein se presenta como una alternativa a los motores 
de búsqueda académicos, mejorando el enfoque de la tradicional técnica de búsqueda 
por palabra bajo un esquema hibrido de recomendación. Así mismo, ARSYS y Papyres 
implementan enfoques híbridos compuestos por filtrado baso en contenido y 
colaborativo. Cabe resaltar que, ambas soluciones utilizan la combinación de dos o más 
técnicas para la generación de recomendaciones a sus usuarios. 
 
 
48 
 
Finalmente, se concluye que, tanto las investigaciones como productos relacionados al 
tema del presente proyecto de fin de carrera, sugieren la aplicación de más de un 
enfoque para el desarrollo de sistemas de recomendación de artículos de investigación. 
De esta forma, se concluye que los sistemas con aplicación de enfoques híbridos son 
los más apropiados para la recomendación de publicaciones científicas. 
 
 
 
49 
 
Capítulo 4. Recolección y Pre procesamiento de la información  
Este capítulo muestra cómo se desarrolló el primer objetivo específico, el cual consiste 
en el proceso de extracción, pre procesamiento y modelamiento de la información 
correspondiente a las publicaciones científicas almacenadas en ALICIA y los datos 
pertenecientes a los investigadores calificados del SINACYT registrados en el DINA. 
Tres fueron las etapas que se ejecutaron para la obtención de los resultados:  
 Modelamiento 
 Extracción 
 Pre procesamiento. 
Los resultados esperados obtenidos, luego del desarrollo de cada una las etapas 
definidas, son: los modelos de datos que representan tanto el perfil del investigador y 
las publicaciones científicas de ALICIA, y los componentes Extractor y de Pre 
procesamiento. 
4.1 Modelamiento de los datos 
Para el caso de las publicaciones científicas, la data a modelar fue obtenida de las 
fuentes de acceso abierto de los repositorios pertenecientes a ALICIA. Por otro lado, 
para el caso de los investigadores calificados del SINACYT, la data a modelar fue 
obtenida del DINA, Scopus y Orcid. La información contenida dentro de estas 
plataformas web era extensa por lo que para el análisis solo se utilizó aquella que fuera 
relevante dentro del proceso de recomendación de publicaciones. 
En la ilustración 3 se muestra el modelo de datos que se desarrolló como parte de la 
ejecución del primer objetivo específico del presente Proyecto. Para la generación de 
los modelos de datos se tomó en cuenta la relevancia de cada uno de los atributos 
dentro del proceso de recomendación.  
 
 
50 
 
 
Ilustración 3 Diagrama de Clases para los modelos de datos correspondientes a las publicaciones de ALICIA 
y el perfil del investigador del SINACYT. El perfil del investigador consta también de las clases 
Pub_Scopus_Investigador y Pub_Orcid_Investigador que representan las publicaciones del autor 
contenidas en dichas plataformas. (Elaboración propia) 
El modelo de datos del investigador está definido por tres estructuras: 
 La estructura Investigador presenta los atributos básicos de los investigadores 
como su identificador DINA, nombre e identificadores Orcid y Scopus.  
 La estructura Pub_Scopus_Investigador contiene los atributos relacionados a las 
publicaciones en Scopus del investigador. Los atributos relevantes son el 
identificador Scopus de la publicación, así como título y descripción. 
 La estructura Pub_Orcid_Investigadores presenta los atributos relacionados a 
las publicaciones en Orcid del investigador. En este caso el título y la fuente son 
relevantes dentro del modelado. 
El modelo de datos de Publicaciones está definido por una estructura: 
 La estructura Publicacion_Alicia contiene atributos como identificador de la 
publicación, título, descripción, tema, editor y dirección web (url) de la publicación 
científica, los cuales son elementos relevantes dentro del proceso de 
recomendación. 
 
 
51 
 
Asimismo, cabe destacar la existencia de las estructuras Similares_Scopus y 
Similares_Orcid donde se relacionará cada publicación de Scopus u Orcid con todas 
aquellas recomendaciones de publicaciones de ALICIA.  
4.2 Arquitectura del sistema  
Para el presente Proyecto se identificó como módulos del sistema a cada uno de los 
procesos que intervienen para la obtención del resultado final. De esta manera, las 
tareas comprendidas dentro de los procesos de Extracción y Preprocesamiento 
pertenecen a los módulos del mismo nombre. Así mismo, se definieron los módulos 
asociados al proceso de generación del modelo de recomendación, a la provisión del 
servicio y a la interfaz gráfica. En la Ilustración 4 se muestra el diseño de la arquitectura 
a alto nivel. 
 
Ilustración 4 Arquitectura del sistema (Elaboración propia) 
 
 
52 
 
El diseño de la arquitectura se basa en las etapas de construcción del sistema de 
recomendación como solución integral, es así que está compuesto de 5 módulos: 
 Módulo de Extracción: recoge la data correspondiente a las publicaciones 
científicas almacenadas en ALICIA, como también los datos sobre los 
investigadores registrados en la plataforma web del DINA junto con los datos 
concernientes a las publicaciones de estos en las plataformas Scopus y Orcid. 
Por tal motivo, este componente cuenta con la implementación de funciones que 
ayudan en el proceso de extracción utilizando técnicas extracción de datos de 
sitios web (web scrapping). Finalmente, este módulo ejecuta el almacenamiento 
de la data extraída siguiendo la estructura de los modelos de datos definidos 
tanto para las publicaciones científicas y los investigadores. 
 Módulo de Pre procesamiento: se encarga de la transformación de la data en 
crudo extraída previamente. Esta transformación tiene como finalidad la mejora 
de la calidad de los datos de entrada de un modelo analítico dentro del marco de 
actividades de la minería de texto y/o el procesamiento de lenguaje natural. El 
resultado se almacena en forma de documentos donde un documento es una 
lista de términos pre procesados y que se relaciona con cada uno de las 
publicaciones científicas en ALICIA, así como las publicaciones de Scopus y 
Orcid de los investigadores. 
 Módulo de Recomendación: se encarga de la implementación del modelo de 
recomendación. Es aquí donde los datos previamente extraídos y pre 
procesados son ingresados de manera que, se capacita a un modelo y se 
generan recomendaciones sobre qué publicaciones científicas pueden interesar 
a los usuarios basado en sus publicaciones científicas en Scopus y Orcid.  
 Módulo de Servicio: capa de integración que permite a otras aplicaciones 
externas al sistema consumir la información generada por el sistema. 
 Interfaz Gráfica de Ejecución: capa de interacción entre el sistema y el usuario 
del mismo. Permite la ejecución a demanda de los módulos de extracción y pre 
procesamiento. 
 
 
 
53 
 
4.3 Extracción de los datos 
El proceso de extracción de datos implicó la creación del módulo de extracción de 
información de las plataformas web de ALICIA, DINA, Scopus y Orcid (Ver Ilustración 
7).  
Para la extracción de los metadatos de las publicaciones científicas en ALICIA se utilizó 
el protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Se 
utilizó la librería de Python Sickle para la implementación de un cliente OAI-PMH y así 
obtener las listas de registros de publicaciones para cada uno de los repositorios dentro 
de la comunidad de ALICIA. 
De tal manera, para la extracción de la data correspondiente a los investigadores 
registrados en DINA, se utilizó la técnica de extracción de datos de sitios web (web 
scrapping) para la obtención de sus identificadores Scopus y Orcid. Para la ejecución 
del web scrapping, se utilizó la librería Beautiful Soap para las páginas web de DINA y 
Orcid, mientras que para la extracción de información sobre las publicaciones 
registradas en Scopus por los investigadores nacionales se utilizó la librería Pyscopus.  
Los pasos que se deben seguir para el proceso de extracción son los siguientes: 
Para la extracción de Publicaciones: 
1- Lectura del archivo que contiene las url OAI-PMH de cada uno de los repositorios 
asociados a ALICIA. 
2- Extracción de la meta data de los registros existentes en los repositorios (ID 
publicación, titulo, descripción, tema, editor, url del sitio web). 
3- Almacenamiento de los registros de publicaciones ALICIA en Base de datos y en 
archivos planos (Ver Ilustración 5). 
 
Ilustración 5 Registros de publicaciones científicas con los atributos identificador, titulo, descripción, tema, 
editor y dirección web almacenados en un archivo plano (Elaboración propia). 
 
 
54 
 
Para la extracción de Investigadores: 
1- Lectura del archivo que contiene las direcciones web DINA de cada uno de los 
investigadores calificados del SINACYT. 
2- Extracción de los datos de los investigadores (nombre, ID scopus, ID orcid) 
publicados en los perfiles DINA. 
3- Extracción de la información de las publicaciones (ID scopus, titulo, descripción) 
encontradas en los perfiles de Scopus de los investigadores. 
4- Extracción de la información de las publicaciones (título, fuente) encontradas en 
los perfiles de Orcid de los investigadores. 
5- Almacenamiento de los registros datos de investigador, publicaciones orcid, 
publicaciones scopus en Base de Datos y en archivos planos (Ver Ilustración 6). 
 
Ilustración 6 Registros de publicaciones científicas extraídas de Orcid y Scopus perteneciente a los 
investigadores (Elaboración propia). 
 
 
55 
 
4.4 Pre procesamiento de los datos   
Las técnicas de pre procesamiento de datos dentro de la minería de textos, son 
empleadas para el tratamiento de data incompleta, irrelevante, redundante e 
inconsistente (Tyagi, Solanki, & Tyagi, s. f.). Estas características de inconsistencia, 
incompletitud, irrelevancia y redundancia son latentes en cualquier conjunto de datos 
reales y dificultan el proceso de extracción de conocimiento durante la etapa de 
entrenamiento del modelo de recomendación (Kotsiantis, Kanellopoulos, & Pintelas, 
2006). 
De esta manera, la etapa de pre procesamiento  es de  suma importancia y critica, dentro 
de las actividades de minería de textos, procesamiento de lenguaje natural, 
recuperación de información y cualquier otra actividad relacionada con el análisis de 
datos, ya que influye directamente en la calidad de los resultados (Kotsiantis et al., 
2006).  
Para el presente Proyecto, el pre procesamiento de los datos obtenidos tras la ejecución 
de las funciones definidas en el componente extractor, está definido bajo el siguiente 
marco de trabajo (Ver Ilustración 7) 
Eliminacion de 
Estandarizacion Reduccion del 
caracteres Tokenizacion Normalizacion
del idioma ruido
extraños
 
Ilustración 7 Marco de trabajo para el pre procesamiento de textos. (Elaboración propia) 
La ejecución de todas las fases del ciclo de pre procesamiento, finaliza con la obtención 
de la data normalizada y lista para ser utilizada como dato de entrada para el 
componente de recomendación.  
Así mismo, cabe destacar que la data a pre procesar la componen los valores de los 
atributos título y descripción de las publicaciones de ALICIA y las publicaciones del 
investigador en Scopus y Orcid. 
Finalmente, luego de ejecutado el pre procesamiento de la data, el resultado del mismo 
se almacenó en un archivo plano (Ver Ilustración 8). 
 
 
56 
 
 
 
Ilustración 8 Texto pre procesado para cada uno de las publicaciones científicas (Elaboración propia). 
 
4.4.1 Eliminación de caracteres extraños 
Para los procesos de minería de textos, los valores de entrada son típicamente bytes en 
un archivo o en un servidor web (Manning, Raghavan, & Schütze, 2008). Estas entradas 
al ser convertidas a secuencias lineales de caracteres, a menudo presentan distintos 
esquemas de codificación como Unicode UTF-8 entre otros. Es así que, caracteres 
como ®, ©, tildes y otros similares al pertenecer a un esquema de codificación distinto 
al ASCII, suelen generar ruido dentro de la data.  
En este Proyecto la data predominante son textos en español, lo que implica la 
existencia de caracteres que no pertenecen al esquema de codificación ASCII. En la 
Ilustración 9, se puede ver como el valor del atributo descripción de una de las 
publicaciones extraídas contiene tanto caracteres ASCII y otros perteneciente al 
esquema de codificación UTF-8. 
Para la eliminación de caracteres bajo un esquema de codificación diferente al ASCII, 
se utilizó la normalización de caracteres, mediante el uso de la librería unicodedata. Esta 
librería permite hacer uso de las varias formas de normalización (NF) basándose en la 
definición de equivalencia canónica y equivalencia de compatibilidad («7.9. unicodedata 
— Unicode Database — Python 2.7.15 documentation», 2018). Las formas normales 
son (Moran & Cysouw, 2018): 
 La forma normal D (NFD) también se conoce como descomposición canónica, y 
traduce cada carácter en su forma descompuesta. 
 La forma normal C (NFC) primero aplica una descomposición canónica y luego 
vuelve a componer caracteres pre combinados. 
 
 
57 
 
 La forma normal KD (NFKD) aplicará la descomposición de compatibilidad, es 
decir, reemplazará todos los caracteres de compatibilidad con sus equivalentes. 
Esta normalización y posterior codificación y decodificación permite la transformación 
de letras tildadas a solo su equivalente sin tilde. Así se tiene: 
á, é, í, ó, ú, ñ -> a, e, i, o, u, n 
El Algoritmo 1 busca obtener el texto limpio de aquellos caracteres que no formen parte 
del esquema ASCII (caracteres extraños como ®, ©, tildes, y demás). Para esto, se 
normalizó y codificó cada palabra contenida en cada uno de los registros de ALICIA y 
DINA obtenidos en la etapa de extracción. La normalización a la forma NFKD implicó la 
descomposición de los caracteres y su conversión en caracteres compatibles. Luego, la 
codificación permitió obtener la versión codificada, bajo el esquema ASCII, del texto 
analizado.  
1- Para cada palabra del texto 
 2- Normalizar palabra a la forma NFKD 
 3- Codificar al esquema ASCII  
4- Fin para 
Algoritmo 1 Algoritmo para la normalización de caracteres de la forma NFKD (Elaboración propia).  
En la Ilustración 9 se muestra los caracteres extraños presentes en la data extraída tanto 
en las publicaciones ALICIA, ORCID y Scopus, los cuales fueron eliminados luego de 
ejecutado el proceso descrito anteriormente. 
 
 
58 
 
 
Ilustración 9 Valor del atributo descripción para una de las publicaciones extraídas. Se visualiza la existencia 
de caracteres extraños (ej. caracteres con tildes) (Elaboración propia). 
4.4.2 Estandarización del idioma 
Para el presente Proyecto, se tuvo que tomar como consideración el manejo de distintos 
idiomas, ya que se contaba tanto con data en inglés así como en español. (Ver 
Ilustración 10).  
Sin embargo, la data en español fue la más predominante, es por eso que se decidió 
estandarizar el texto al idioma español mediante el uso de funciones de la librería de 
Python Googletrans, la cual es un cliente Google Traductor, así como langdetect para la 
detección del idioma. Fue así que se pudo obtener toda la data extraída en un mismo 
idioma.  
1- Si texto no es vacío 
 2- Detectar idioma 
 3- Si idioma es diferente al español 
  4- Traducir texto con cliente Google Traductor 
 5- Fin si 
6- Fin si 
Algoritmo 2 Algoritmo para la estandarización de textos al idioma español (Elaboración propia). 
  
 
 
59 
 
El algoritmo 2 busca realizar la estandarización del idioma de los textos extraídos. Para 
esto, primero se identificó el idioma del texto mediante el uso de la función detect de la 
librería de  langdetect de Python. Si esta función no devolvía como resultado el valor 
‘es’ (valor referido al español) pero sí otros valores como ‘en’ (referido al ingles), ‘fr’ 
(referido al frances), ‘de’ (referido al alemán), se procedía a su traducción mediante el 
uso de la función translate de la librería googletrans. 
 
 
Ilustración 10 Valor del atributo título para uno de los registros Scopus que pertenecen a un determinado 
investigador. El registro se encuentra en el idioma inglés (Elaboración propia). 
 
4.4.3 Reducción del ruido 
La reducción de elementos ruidosos es clave en la limpieza de datos, ya que el ruido 
dificulta la mayoría de los tipos de análisis de datos (Bidgoli, 2010). La presencia de 
ruido hace que la dimensionalidad del problema sea alta y, por lo tanto, la clasificación 
más difícil ya que cada palabra en el texto se trata como una dimensión (Haddi, Liu, & 
Shi, 2013). 
El proceso de reducción de elementos con ruidos, se basa en la eliminación de aquellas 
palabras que no juegan ningún papel importante para la extracción de información 
dentro del proceso de recomendación ya que las mismas no aportan significado a los 
documentos (publicaciones de ALICIA, ORCID y Scopus) y por el contrario dificultan la 
tarea de recomendación a partir de conceptos (Vijayarani & Ilamathi, s. f.). En la 
Ilustración 11 se muestran la lista de palabras definidas como palabras vacías.  
 
 
60 
 
 
Ilustración 11 Lista de palabras vacías definidas para el filtrado sobre la data correspondiente a las 
publicaciones de ALICIA, y las publicaciones ORCID y Scopus de los investigadores (Elaboración propia). 
Por otro lado, el proceso de reducción de elementos con ruidos, implicó también la 
evaluación de cada una de las palabras que no fueron filtradas como palabras vacías, 
de manera que se pudiera identificar si estas contenían caracteres diferentes a las letras 
del vocabulario español. Estos caracteres son considerados como ruidos dentro del 
procesamiento de lenguaje natural ya que no aportan ningún significado al texto 
analizado. 
Para el presente Proyecto, la reducción de ruido se basó principalmente en la 
eliminación de caracteres que no conformen palabras, además de la eliminación de 
palabras vacías (stop words). El Algoritmo 3 define los pasos necesarios para la 
obtención de datos  limpios. 
Primero, se evaluó cada una de las palabras contenidas en el texto. La evaluación 
consistió en identificar si la palabra pertenecía a la lista de palabras vacías definidas 
(ver Ilustración 11). En caso, la palabra estuviera dentro de esta lista, se eliminaba. Caso 
contrario, se verificaba cada uno de los caracteres que la componían eliminando todos 
aquellos que no se encuentren dentro de los valores  ASCII para los caracteres: 
A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z y sus equivalentes en 
minúsculas. 
 
 
61 
 
 
1- Para cada palabra del texto 
 2- Si palabra esta en lista de palabras vacías entonces 
  3- Eliminar palabra 
 4– Sino  
5- Para cada carácter de la palabra 
6- Si (el código en ASCII del carácter > 90  y < 65) o 
(el código en ASCII del carácter > 122  y < 97) 
entonces 
    7- Eliminar caracter  
   8- Fin si 
  9- Fin para 
 10- Fin si 
9- Fin para 
Algoritmo 3 Algoritmo para la reducción del ruido  (Elaboración propia). 
 
4.4.4 Tokenización y Normalización  
La tokenización es un paso que divide cadenas de texto más largas en piezas más 
pequeñas o tokens. También se conoce como segmentación de texto o análisis léxico a 
nivel de palabras (Karthikeyan & Aruna, 2013). 
Para la data analizada se utilizó la librería NLTK donde se encuentra implementada un 
tokenizador para texto natural para el idioma español (Ver Ilustración 12). 
 
 
62 
 
 
Ilustración 12 Separación de las palabras y normalización de las mismas en un texto, utilizando la técnica 
de Porter Stemming (Elaboración propia). 
La normalización de textos se basa en la transformación de palabras en una forma base 
de manera que palabras que contengan esta forma base puedan coincidir en similitud 
(Toman, Tesar, & Jezek, s. f.). Así mismo, este proceso tiene como objetivo la 
estandarización y representación de rasgos semánticos existentes dentro de textos 
analizados (Rölleke, Tsikrika, & Kazai, 2006). Existen muchas enfoques para el proceso 
de normalización, siendo los más populares los de stemming y lemmatizing. 
La técnica de stemming se relaciona con el proceso heurístico de cortar los extremos 
de las palabras, lo que incluye las derivaciones inflexionales; por otro lado, la técnica de 
lemmatizing se refiere a la normalización a través del uso un análisis morfológico y un 
vocabulario con la misma finalidad de eliminar las derivaciones inflexionales (Jivani, 
2011).  
La técnica de normalización utilizada en el Proyecto es la de Porter Stemming, la cual 
tiene como función la reducción de una determinada palabra a su raíz léxica (lexema), 
mediante la eliminación de terminaciones morfológicas e inflexionales más comunes en 
las palabras (Jivani, 2011). Esta técnica da la oportunidad de obtención de mejores 
valores de exhaustividad, medida sobre el número de documentos que se pueden 
encontrar con una consulta (Kraaij & Pohlmann, 1996). 
La elección de la técnica de stemming, se fundamentó en la gran reducción en el 
almacenamiento requerida por un diccionario de (Bell & Jones, 2018) y al aumento en el 
rendimiento debido al uso de variantes de palabras (Hull, 2018). Así mismo, estudios 
comprueban la mejora, de hasta un 10%, en la precisión promedio mediante el uso de la 
técnica de stemming para el español; mientras que para la técnica de lemmatizing, las 
mejoras no son muy significativas (Hollink, Kamps, Monz, & de Rijke, 2004).  
 
 
63 
 
El algoritmo de Porter Stemming (Algoritmo 4) se basa principalmente en la aplicación de 
reglas de transformación de palabras para la remoción de sufijos definidos, a través de 5 
pasos: el primero trabaja sobre los sufijos inflexionales, los cuatro siguientes trabajan sobre 
los sufijos derivacionales (Willett, 2006). La aplicación del algoritmo da como resultado la 
obtención de los denominados stems, los cuales representan las raíces léxicas de las 
palabras analizadas. 
1- Para cada palabra en el texto 
2- Para cada paso en la lista de pasos de transformación 
  3- Para cada patrón de transformación en el paso 
4- Si patrón coincide entonces 
   5-Transforma palabra 
6- Fin si 
7- Fin para 
8- Fin para 
9- Fin para 
Al goritmo 4 Algoritmo Porter Stemming (Elaboración propia). 
Dentro de los patrones de transformación se tiene 5 pasos que agrupan reglas relacionadas 
con la transformación de sufijos y prefijos de palabras.  
Así mismo, las reglas de transformación se verifican sobre las siguientes regiones 
(Barrenechea, 2006): 
 R1: región que va desde la primera no vocal precedida por una vocal hasta el final 
de la palabra. 
 R2: región que va desde la primera no vocal precedida por una vocal en R1. 
 RV: Si la segunda letra es una consonante, RV es la región que va desde la siguiente 
vocal hasta el final de la palabra. Si las dos primeras letras son vocales, RV es la 
región que va desde la siguiente consonante hasta el final de la palabra. Para el 
caso contrario (caso consonante-vocal), RV es la región que va desde la tercera letra 
hasta el final de la palabra. 
 
 
64 
 
Con respecto a los pasos que se deben seguir para el proceso de Porter Stemming, estos 
se muestran en los Algoritmos 5, 6, 7 y 8  (Barrenechea, 2006): 
1- Obtener el sufijo de mayor tamaño entre los sufijos: me, se, sela, selo, selas, 
selos, la, le, lo, las, les, los, nos, te, telo, melo, telos, melos, tela, mela, telas, melas 
2- Si sufijo encontrado en RV entonces 
3- Si sufijo se encuentra después de: iéndo, ándo, ár, ér, ír, ando, 
iendo, ar, er, ir y (u)yendo en R1entonces 
4- Eliminar sufijo 
5- Fin si 
6- Fin si 
Algoritmo 5 Primer paso del Algoritmo de Porter Stemming para la transformación de sufijos (Elaboración 
propia). 
1- Obtener el sufijo de mayor tamaño entre los sufijos: anza, anzas, ico, ica, 
icos, icas, ismo, ismos, able   ables, ible, ibles, ista, istas, oso, osa, osos, osas, amiento, 
amientos, imiento, imientos, icadora, icador, icacion, icadoras, icadores, icaciones, icante, 
icantes, icancia, icancias, adora, ador, acion, adoras, adores, aciones, ante, antes, ancia, ancias, 
logía, logías, ución, uciones, encia, encías, ativamente, ivamente, osamente, icamente, 
adamente, amente, antemente, ablemente, iblemente, mente, abilidad, abilidades, icidad, 
icidades, ividad, ividades, idad, idades, ativa, ativo, ativas, ativos, iva, ivo, ivas, ivos. 
2- Si sufijo encontrado entonces 
3- Si sufijo encontrado se encuentra en R2 entonces 
4- Si sufijo eliminado es igual a logía o logías entonces 
5- Reemplazar prefijo con log 
6- De lo contrario si sufijo eliminado es igual a ución o 
uciones entonces 
7- Reemplazar prefijo con u 
8- De lo contrario si sufijo eliminado es igual a encia o encías 
entonces 
9- Reemplazar prefijo con ente 
  10- Sino  
   11- Eliminar sufijo 
 
 Al goritmo 6  Segundo1 2pa-s oF dinel  Aslig oritm o de Porter Stemming para la transformación de sufijos 
(Elaboración propia). 
13- Fin si 
14- Fin si 
 
65 
 
 
1- Si en el Paso 2 no se realizó modificaciones en RV entonces 
2- Obtener el sufijo de mayor tamaño entre los sufijos: ya, ye, yan, 
yen, yeron, yendo, yo, yo, yas, yes, yais, yamos 
3- Si sufijo encontrado entonces 
4- Si sufijo se encuentra después de: u entonces 
5- Eliminar sufijo 
6- Fin si 
7- Fin si 
8- Si no se eliminó sufijo entonces 
9- Obtener el sufijo de mayor tamaño entre los sufijos: arıan, 
arias, aran, aras, arıais, aria, areis, arıamos, aremos, ara, are, erıan, erıas, 
eran, eras, erıais, erıa, ereis, erıamos, eremos, era, ere, irıan, irıas, iran, iras, 
irıais, irıa, ireis, irıamos, iremos, ira, ire, aba, ada, ida, ıa, ara, iera, ad, ed, id, 
ase, iese, aste, iste, an, aban, ıan, aran, ieran, asen, iesen, aron, ieron, ado, 
ido, ando, iendo, io, ar, er, ir, as, abas, adas, idas, ıas, aras, ieras, ases, ieses, 
ıs, ais, abais, ıais, arias, ierais, aseis, ieseis, asteis, isteis, ados, idos, amos, 
abamos, ıamos, imos, aramos, ieramos, iesemos, asemos, en, es,  ́eis, emos, 
guen, gues, gueis, guemos 
10- Si sufijo encontrado en RV entonces 
11- Si sufijo encontrado es guen o gues o gueis o 
guemos entonces 
12- Reemplazar sufijo con g 
13- Sino  
 14- Eliminar sufijo 
15- Fin si  
16- Fin si 
17- Fin si 
Algoritmo 5 Tercer paso del Algoritmo de Porter Stemming para la transformación de sufijos (Elaboración 
pr1op8ia-) .F in si 
 
 
 
66 
 
1- Obtener el sufijo de mayor tamaño entre los sufijos: os , a , o , á , í , ó , 
e , é , ue , ué  
2- Si sufijo encontrado en RV entonces 
3- Si sufijo encontrados es igual a e o é entonces 
4- Si sufijo se encuentra después de: gu y la u en RV 
entonces 
5- Eliminar u  
  6- Fin si 
 7- Sino  
  8- Eliminar sufijo  
 9- Fin si 
Algoritmo 6 Cuarto paso del Algoritmo de Porter Stemming para la transformación de sufijos 
10- Fin si 
(Elaboración propia). 
  
4.4.5 Filtrado de stems con baja frecuencia  
Como paso final dentro de la etapa de pre procesamiento y como técnica adicional para 
la reducción de la dimensionalidad de los datos, se realizó un proceso de filtrado sobre 
los stems obtenidos del proceso de tokenización y normalización. Esto permitió  la 
eliminación de aquellos stems con poca representatividad dentro del conjunto de datos. 
La representatividad se midió a través de la frecuencia de aparición de un stem dentro 
del conjunto de publicaciones ALICIA.   
Es así que, se calculó el promedio de veces que un stem apareció a lo largo del conjunto 
de publicaciones ALICIA, y fue a partir de esto que se eliminó aquellos stems con menor 
frecuencia a la del promedio. 
La aplicación de esta técnica de filtrado adicional permitió la reducción de aquellos 
términos muy específicos y que no ayudan dentro del proceso de conceptualización en 
el proceso de recomendación.  
 
 
 
67 
 
1- Inicialización de la variable frecuencia del tipo Diccionario 
2- Para cada uno de las publicaciones ALICIA: 
3- Para cada token de la publicación ALICIA: 
4- Incrementar la frecuencia del token en 1 
5- Fin para  
6- Fin para 
7- Obtener promedio de frecuencias 
8- Para cada uno de las publicaciones ALICIA: 
9- Para cada token de la publicacion ALICIA: 
10- Si frecuencia del token < promedio: 
 11- Eliminar token 
12- Fin si 
13- Fin para  
14- Fin para 
Algoritmo 7 Algoritmo para el filtrado de Stems de poca frecuencia (Elaboración propia). 
 
 
4.5 Implementación de los módulos de Extracción y de Pre procesamiento 
El proceso de pre procesamiento se muestra como un proceso dependiente del proceso 
de extracción, así mismo las tareas ejecutadas en cada uno de los módulos describen 
un flujo de trabajo continuo donde el resultado final será un registro (publicación 
científica de Alicia, publicación Scopus u Orcid de investigador) pre procesado y listo 
para ser usado en el entrenamiento del modelo de recomendación. 
Como parte de un flujo de trabajo ágil en el campo del análisis de datos, el uso de 
tuberías para la automatización, manejo de errores, parametrización, y ejecución de 
 
 
68 
 
pruebas aparece como una tecnología fácil de implementar («Using Luigi Pipelines in a 
Data Science Workflow», s. f.). 
Para el Proyecto, se hizo uso de la librería Luigi que permite construir tuberías de 
procesos, manejando resolución de dependencias, flujo de trabajo y errores. Fue así 
que, se definieron 2 tareas, una para la extracción del registro y otra para el 
procesamiento de ese registro. Estas tareas corresponden a los módulos tanto de 
Extracción como el de Pre procesamiento.  
Por otro lado, en relación a la ejecución del sistema, la implementación de un patrón de 
diseño basado en tareas permite que el sistema de recomendación pueda ser ejecutado 
manualmente a demanda a través de la interacción con una Interfaz Gráfica de 
Ejecución, o también programado para su ejecución automática como proceso batch.  
4.5.1 Interfaz Gráfica de Ejecución 
Como parte del desarrollo del sistema de recomendación, se desarrolló una Interfaz 
Gráfica de Ejecución, de manera que la ejecución del sistema pueda ser a demanda.  
Esta interfaz simula el comportamiento de una consola de log, con el fin de permitir el 
seguimiento en tiempo real del estado de los procesos que se están ejecutando. En la 
Ilustración 13 se muestra la interfaz implementada. Esta cuenta con tres botones: 
 Comenzar: este botón da inicio a la ejecución del sistema de recomendación. 
 Limpiar Log: este botón limpia la consola, borra el contenido que se muestra.  
 Parar/Empezar Log: este botón detiene la visualización del log en la pantalla. Así 
mismo, el botón play permite retomar la visualización del log en la pantalla.  
 
 
69 
 
 
Ilustración 13 Interfaz Gráfica de Ejecución del sistema de recomendación. Pantalla que permite la 
interacción con el usuario para el inicio de ejecución del sistema (Elaboración propia). 
 
 
70 
 
Capítulo 5. Modelo de Recomendación  
En este capítulo se muestra cómo se desarrolló el segundo objetivo específico, el cual 
consiste en la implementación del modelo de recomendación de las publicaciones 
científicas de ALICIA para los investigadores calificados del SINACYT.  
5.1 Selección del enfoque de recomendación 
Para la selección del enfoque adecuado se tuvo en cuenta las siguientes 
consideraciones: 
 ¿Qué enfoque se adecua mejor en la recomendación de elementos cuyo 
contenido es principalmente texto? 
 ¿Qué enfoque se adecua mejor en la recomendación de elementos si no se tiene 
la relación de puntuación-ítem-usuario? 
Bajo estas consideraciones se pudo seleccionar al Filtrado Basado en Contenido, como 
el enfoque que mejor se adapta dentro del contexto de recomendación de literatura 
científica. 
5.2 Modelo de recomendación 
Ya definido el enfoque adecuado para el sistema de recomendación, se continúa con la 
implementación del mismo.  
Previo a la implementación del enfoque de recomendación para el componente del 
mismo nombre, se utilizó la técnica de LSA (Latent Semantic Analysis) con el propósito 
de poder descubrir estructuras semánticas escondidas sobre un conjunto de 
documentos. 
Para la obtención del LSA, se tuvo que crear un corpus a partir de cada uno de los 
registros de las publicaciones científicas, y a su vez una matriz TF-IDF.  
Finalmente, se construyó la matriz de similitud utilizando la técnica similitud coseno y el 
modelo LSA obtenido previamente.  
En la Ilustración 14, se muestra gráficamente el proceso anteriormente mencionado, con 
mayor detalle: 
 
 
71 
 
 
Ilustración 14 Etapas dentro del modelo de recomendación. (Elaboración propia) 
 
5.3 Implementación del módulo de recomendación 
El módulo de recomendación implementa las funciones necesarias para la ejecución de 
cada una de las etapas para la obtención del modelo de recomendación propuesto. Las 
funciones que se implementaron fueron las siguientes: 
1- Reducción de dimensionalidad 
2- Obtención del Corpus  
3- Obtención del Corpus bajo TF-IDF 
4- Obtención del Modelo LSA 
5- Obtención de la Matriz de Similitud 
6- Calculo de Recomendaciones 
Estas funciones utilizan algunos de los métodos implementados en la librería Gensim.  
Por otro, lado, la ejecución del módulo de recomendación depende de la finalización 
exitosa del flujo de trabajo integral de la tubería compuesta por los módulos de 
Extracción y Pre procesamiento. La razón de esta dependencia es la necesidad de 
utilizar toda la data pre procesada en la creación del modelo de recomendación. Este 
módulo toma como datos de entrada el archivo generado por el módulo Batch.  
Finalmente, este módulo termina su ejecución con el almacenamiento de las 
recomendaciones generadas en la base de datos utilizada por el sistema.  
5.3.1 Reducción de dimensionalidad 
Como paso previo a la construcción del corpus, se aplicó un método de reducción de la 
dimensión de la data pre procesado. Esto, con el fin de eliminar aquellos términos muy 
específicos y particulares. 
 
 
72 
 
La poca representatividad del término sobre el conjunto de los mismos se relaciona con 
su característica de particularidad, la cual no influye en el proceso de obtención de 
dimensiones conceptuales. 
Para el proyecto se definió eliminar aquellos términos que solo aparecieran una vez en 
el conjunto de términos. En el Algoritmo 10 se definen los pasos para la reducción de 
dimensionalidad. 
1- Inicializar variable frecuencia de tokens 
2- Para documento en lista de documentos 
3- Para token en lista de tokens 
4- Incrementar frecuencia de token en 1 
5- Fin para 
6- Fin para 
7- Para documento en lista de documentos 
8- Si frecuencia de token < 2 hacer 
 9 Eliminar token 
10- Fin si 
11- Fin para 
Algoritmo 8 Algoritmo para la reducción de dimensionalidad (Elaboración propia). 
 
5.3.2 Obtención del Corpus 
El corpus se define como una colección de textos producidos dentro de contextos reales 
de aplicación de la lengua, los cuales son seleccionados y ordenados bajo una serie de 
criterios lingüísticos, de forma que aseguren su utilización como muestra representativa 
de una lengua determinada.(«What is a corpus?», 2018).  
Para el Proyecto, el corpus fue obtenido a partir del uso de funciones de la librería 
Gensim de Python. Primero, se construyó el diccionario de palabras que consiste en el 
 
 
73 
 
conjunto de palabras únicas existentes que representan los datos a analizar, en este 
caso los títulos y descripciones de las publicaciones de ALICIA y de los investigadores.  
En la Ilustración 15 se muestra algunos de los términos pertenecientes al diccionario de 
datos creado. 
 
Ilustración 15 Algunos de los términos (pre procesados) que conforman el diccionario de datos generado. 
Se muestra el término junto con su identificador único (Elaboración propia). 
A partir del diccionario, se entrenó un corpus, el cual es la colección de los documentos 
obtenidos luego de ejecutado el pre procesamiento. Este corpus contiene los títulos y 
descripciones representadas como vectores dispersos, con la información sobre la 
palabra y el número de veces que esta aparece dentro del documento al que pertenece. 
En la Ilustración 16 se muestra algunos de los elementos correspondientes al corpus 
generado. 
 
 
74 
 
 
Ilustración 16 Corpus correspondiente a una publicación ALICIA. El término 'colecistectom' aparece 14 
veces para la primera publicación ALICIA del corpus (Elaboración propia). 
5.3.3 Obtención del corpus bajo TF-IDF 
El uso de TF-IDF para el presente Proyecto tiene como finalidad la de reflejar la 
importancia de los términos en el corpus. La idea en la aplicación de esta técnica es la 
de otorgar una medida de relevancia a diferentes términos. Así, el TF-IDF asocia un 
peso bajo a los términos que aparecen con frecuencia en el corpus y aumenta el peso 
de los términos que rara vez aparecen.  
Bajo la aplicación de este método, el corpus entrenado define características existentes 
en las publicaciones científicas (términos con alto grado de relevancia). Se utilizó la 
función "TfidfModel" de la librería Gensim, la cual reemplaza el valor del contador 
asociado a cada término por el peso TFIDF obtenido luego de aplicada la técnica. 
En la Ilustración 17, se muestra el resultado de los cálculos TF-IDF sobre el corpus 
previamente generado. 
 
 
75 
 
 
Ilustración 17 Corpus bajo TF-IDF vs Corpus simple correspondiente a una publicación ALICIA. El término 
'colecistectom' ahora está representado por el valor numérico obtenido luego del cálculo de TF-ID (0.71129). 
Específicamente, para este ejemplo se puede ver como el término 'colecistectom' tiene mayor peso sobre 
los demás y posee un alto grado de relevancia para la primera publicación ALICIA (Elaboración propia). 
  
5.3.4 Obtención del modelo LSA 
La aplicación del método de Descomposición de Valores Singulares (SVD) tiene como 
finalidad la de encontrar una representación dimensional reducida de la matriz del 
corpus, enfatizando las relaciones más fuertes y desechando el ruido. En consecuencia, 
se efectúa mejor la reconstrucción de la matriz con la menor información posible (X. 
Zhang, Tang, Zhang, & Ji, 2016).  
Así mismo, el modelo LSA busca identificar un conjunto de temas relacionados con las 
representaciones de las publicaciones científicas. El número de estos temas es igual a 
la dimensión de la matriz de aproximación resultante de la técnica de SVD. Este valor 
se obtiene de la selección de los N mayores valores singulares de la matriz del corpus 
(número de dimensiones). Así, LSA genera un espacio de rango reducido donde se 
pueden realizar comparaciones en distintos niveles conceptuales. 
 
 
76 
 
Para la construcción del modelo de dimensiones latentes, se utilizó la función LsiModel 
de la librería Gensim, la cual transforma al corpus TF-IDF en un espacio latente de un 
determinado número de dimensiones.  
En relación al número de dimensiones, se tiene conocimiento que a 300 dimensiones 
las correlaciones entre el análisis semántico latente y los juicios de similitud de texto por 
parte de humanos, son empíricamente más altas (Landauer, Laham, & Derr, 2004). Se 
pueden usar menos dimensiones para comparaciones amplias (más conceptuales), 
mientras que utilizando una mayor cantidad de dimensiones para comparaciones 
específicas (más literales).  
En la Ilustración 18 se muestran 5 de los temas generados por el modelo LSA. 
 
Ilustración 18 Temas generados por el modelo LSA. Solo se muestran 5 de los 300 temas generados. Cada 
tema cuenta con tuplas de valor numérico-termino. Los valores numéricos representan el aporte de similitud 
que el término tiene sobre la dimensión (tema). Los valores negativos señalan disimilitud (la ocurrencia del 
concepto semántico acompaña la ausencia de la palabra dentro de la dimensión (Elaboración propia).  
 
5.3.5 Calculo de Similitud Coseno 
El algoritmo de la similitud coseno se implementa a través del uso de la función 
MatrixSimilarity de la librería Gensim, la cual calcula la similitud coseno contra un corpus 
de documentos almacenando la matriz de índice en memoria.  
Esta matriz será utilizada para el posterior cálculo de recomendaciones. 
 
 
77 
 
5.3.6 Cálculo de Recomendaciones 
Para la generación de recomendaciones, se implementó una función donde se evalúa 
cada una de las publicaciones de los investigadores tanto en Orcid como en Scopus. 
Cada una de estas publicaciones (en formato documento) se las vectoriza dentro del 
espacio LSI para luego aplicar un vector de similitud con relación al corpus. Luego, se 
seleccionan aquellos documentos con un nivel de similitud mayor o igual al definido en 
la función. En el Algoritmo 9 se muestran los pasos para el cálculo de recomendaciones. 
1- Para cada investigador en investigadores 
 2- Para cada publicación orcid en publicaciones orcid del investigador 
  3- Convertir la publicación orcid al espacio LSA 
4- Realizar la comparación (similitud) de la publicación orcid en 
espacio LSA con el corpus para obtener similitudes  
5- Inicializar lista de recomendaciones vacía 
6- Para cada publicación Alicia en publicaciones Alicia  
7- Si grado de similitud de publicación orcid con publicación 
Alicia > NIVEL 
 8- Agregar publicación Alicia a lista de recomendación 
9- Fin si 
  10- Fin para 
  11- Guardar lista de recomendación para publicación orcid 
 11- Fin para 
 12- Para cada publicación scopus en publicaciones scopus del investigador 
  13- Convertir la publicación scopus al espacio LSA 
14- Realizar la comparación (similitud) de la publicación scopus en 
espacio LSA con el corpus para obtener similitudes  
15- Inicializar lista de recomendaciones vacía 
16- Para cada publicación Alicia en publicaciones Alicia  
17- Si grado de similitud de publicación scopus con publicación 
Alicia > NIVEL 
 18- Agregar publicación Alicia a lista de recomendación 
19- Fin si 
  20- Fin para 
  21- Guardar lista de recomendación para publicación scopus 
Al goritmo 92 A2l-g oFritnm op apraara  el cálculo de recomendaciones (Elaboración propia). 
23- Fin para  
 
78 
 
 
 
Finalmente, las recomendaciones generadas son guardadas en la Base de Datos del 
sistema. 
 
Capítulo 6. Implementación del Servicio de Recomendación 
En este capítulo se muestra cómo se desarrolló el tercer objetivo específico del presente 
Proyecto, el cual consiste en la implementación del servicio web para la publicación de 
las recomendaciones a partir de una arquitectura definida para la solución de 
recomendación. 
6.1 Servicio Web REST 
 
Ilustración 19 Esquema de la arquitectura de un servicio web REST (P Waller, Dresselhaus, & Yang, 2013) 
El servicio web REST es un estilo arquitectónico, donde los datos o los componentes 
estructurales de un sistema se describen en forma de URI (identificador uniforme de 
recursos) y los comportamientos se describen en términos de métodos (Potti, 2011). Los 
recursos se pueden manipular usando operaciones CRUD (Crear, Leer, Actualizar y 
Eliminar). En la ilustración 19 se muestra la arquitectura seguida para el despliegue del 
servicio. 
Para el Proyecto, se definieron los siguientes recursos: 
 GET/recommendation/{#id_investigador}  La cual devolverá el detalle de 
alguna recomendación (publicación de ALICIA) generada para el investigador 
que posea el id especificado. La elección de la recomendación se realiza de 
manera aleatoria.  
 
 
79 
 
 GET/recommendations/{#id_investigador}  La cual devolverá la lista de 
recomendaciones (publicaciones de ALICIA) generadas para el investigador que 
posea el id especificado. 
De esta forma los clientes que consuman el servicio estarán interactuando con el 
sistema de recomendación a través de la consulta de las recomendaciones 
almacenadas en la base de datos del sistema.  
 
Ilustración 20 Ejemplo de un cliente android, que hace uso del servicio de recomendación aleatoria. Se 
debe especificar el id del investigador para hacer uso del servicio (Elaboración propia). 
Como parte de la validación del módulo de servicio, este fue desplegado en un servidor 
de aplicaciones utilizando el marco de software Flask, así como sqalchemy para la 
 
 
80 
 
conexión y consultas a la base de datos del sistema, la cual almacena las 
recomendaciones para cada una de las publicaciones científicas de los investigadores 
existentes.  
 De tal manera, se desarrolló un cliente Android para que consumiera el servicio 
publicado. En la Ilustración 20 se muestra la pantalla con la respuesta enviada por el 
servicio ante el requerimiento del cliente. 
 
Capítulo 7. Evaluación de Resultados 
En este capítulo se muestra cómo se desarrolló el cuarto objetivo específico del presente 
Proyecto, el cual consiste en la evaluación offline de los resultados (recomendaciones) 
generados a partir del modelo de recomendación seleccionado. 
En el escenario donde a un usuario se le proporciona una lista de recomendaciones en 
las que puede evaluar los elementos como afines o no, las métricas utilizadas en la 
recuperación de información como Precisión y Exhaustividad son útiles para evaluar la 
calidad de un método de recomendación (Sarwar, Karypis, Konstan, & Riedl, 2000).  
Por tal motivo, la evaluación se basó en el análisis de las métricas de precisión para las 
N mejores recomendaciones generadas. Para esto, se realizó una encuesta sobre una 
pequeña muestra de investigadores con el fin de que puedan calificar a las 
recomendaciones como afines o no, en relación al ámbito de conocimiento en donde se 
desenvuelven.  
 La pregunta fue formulada de manera que pueda calificarse el grado de afinidad del 
contenido que se recomienda, mas no directamente la utilidad subjetiva percibida por el 
investigador. Esto debido a que el sistema de recomendaciones propuesto genera 
recomendaciones a partir de las publicaciones producidas por el investigador y no partir 
de sus preferencias subjetivas.  
 
 
81 
 
7.1 Muestra de la población 
Se utilizó el método de muestreo conveniente donde se seleccionaron a 3 investigadores 
como población para la encuesta. Los investigadores que se seleccionaron forman parte 
de la comunidad de la Pontificia Universidad Católica del Perú. 
Este método de muestreo no probabilístico fue seleccionado ya que se utiliza a menudo 
durante los esfuerzos de investigación preliminares de manera que se pueda obtener 
una estimación bruta de los resultados, sin incurrir en el costo o el tiempo requerido para 
seleccionar una muestra aleatoria (X. Wang, 2010). 
7.2 Desarrollo del cuestionario 
El cuestionario contó con cuatro claros elementos: 
Título: Cuestionario para Calificación de Afinidad de Recomendaciones de 
Publicaciones Científicas. 
Objetivo: Obtener información cuantitativa sobre las recomendaciones generadas por el 
sistema de recomendación de publicaciones científicas de ALICIA a investigadores 
calificados del SINACYT. 
Supuesto: Afinidad de las recomendaciones en relación a su pertenencia al ámbito de 
conocimiento en donde Ud., (investigador) se desenvuelve. 
Pregunta: ¿Cuán afín son las siguientes 10 publicaciones al ámbito de investigación en 
la cual Ud. se desenvuelve?  
Opciones de Respuesta: Completamente afín - Muy afín - Medianamente afín - Poco 
afín - Nada afín. Estas opciones fueron seleccionadas a partir de la escala de Lickert 
(Norman, 2010). 
Así mismo, junto con el cuestionario se preparó un Protocolo de Consentimiento 
informado para la Calificación de Recomendaciones de Publicaciones Científicas, la 
cual tenía como finalidad brindar a los participantes de la investigación una explicación 
clara de la naturaleza de la misma, así como el rol que tienen en ella. Este protocolo 
siguen los lineamientos propuestos en el formulario de C.I. del Comité de Ética del 
Departamento de Psicología de la PUCP (Espinoza & Alberto, 2018). 
 
 
82 
 
En el Anexo 2, se muestra el modelo de Protocolo de Consentimiento Informado que se 
utilizó para la investigación. Mientras que en el Anexo 3 se muestra el modelo de 
cuestionario que se utilizó para la calificación de las recomendaciones generadas por el 
sistema de recomendación propuesto.  
7.3 Implementación de la encuesta 
Para la implementación de la encuesta se adoptó el Método de diseño a medida 
(Faubion & Andrew, 2001). Este método muestra alta tasas de respuestas (X. Wang, 
2010). 
Para el proceso de implementación de la encuesta se siguieron los siguientes pasos: 
1- El primer contacto fue un correo electrónico de aviso señalando el desarrollo de la 
encuesta y la selección de la persona como parte de la muestra de la encuesta. 
2- Dos días después de enviado el aviso, se envió el cuestionario explicando el porqué 
de su utilidad. 
3- Una semana después de enviado el cuestionario se envió un correo electrónico de 
recordatorio para el llenado de la encuesta. 
7.4 Modelo de medición y análisis de resultados 
En base al cuestionario realizado se pudo obtener los datos para la obtención de las 
métricas de: 
 Precision@N: la proporción de las N primeras recomendaciones afines en 
relación al ámbito de conocimiento del investigador 
Donde N = 5,10 
Para la medición de las métricas de precisión se siguió una lógica en específico, la cual 
se muestra en el Algoritmo 10. 
 
 
83 
 
1- Para N en lista de Ns para evaluar 
2- Inicializar acumulador en 0 
2- Para investigador en lista de investigadores 
3- Obtener lista de publicaciones relevantes para el 
investigador (resultado de la encuesta) 
4- Obtener lista de recomendación para el investigador a 
través del uso del modelo 
5- Obtener cantidad de publicaciones que se encuentran tanto 
en la lista de recomendación así como en la lista de 
publicaciones relevantes (verdaderos positivos) 
6 – Obtener cantidad de publicaciones de la lista de 
recomendación que no se encuentran en las publicaciones 
relevantes (falsos positivos) 
7- Obtener precisión (verdaderos positivos) / ((verdaderos 
positivos + falsos positivos)) 
8- Actualizar acumulador precisión (acumulador <-
acumulador + precisión) 
 9- Fin para 
10- Obtener promedio de la precisión (acumulador/longitud de la 
Algoritmo 10 Algoritmo para la obtención de la métrica de Precisión en N (Elaboración propia).  
lista de investigadores) 
D onde lo1s 1fa- lsporse cpiossiiótinvo [sN e]s t<á-n  prerpormeseednitoa ddoes  lpao rp lraesc cisailóifinca ciones: Poco afín y Nada 
af1ín2. - FMiinen ptraarsa  que los verdaderos positivos son aquellos resultados con las 
calificaciones: Completamente afín, Muy afín y Medianamente afín. 
De la evaluación (Ver Anexo 4) se obtuvo que para la precisión en N = 5, se obtuvieron 
un total de 3 recomendaciones sin afinidad al área de investigación en la que se 
desenvuelven  y 12 recomendaciones afines. Así mismo, los resultados para la precisión 
en N=5, fueron de 8 recomendaciones sin afinidad a su área de investigación y 22 
recomendaciones afines. El cálculo de la precisión para valores de N iguales a 5 y 10 
se muestra en la Ilustración 21.   
 
 
84 
 
 
Ilustración 21 Cuadro de Precisión en N. Se muestra la precisión obtenida para cada investigador para N=5 
y N=10, así como, la precisión promedio (Elaboración propia). 
Se puede ver que el incremento en N impacta en la disminución de la precisión 
promedio. A mayor N, el valor de la precisión en N irá en descenso, mientras que el valor 
de la exhaustividad en N irá en aumento. Así se demuestran las características de 
proporcionalidad de N con las métricas de precisión y exhaustividad (Bondi, 2018).  
Capítulo 8. Conclusiones y trabajos futuros 
8.1 Conclusiones 
En este apartado se presentan las conclusiones más significativas halladas a lo largo 
del desarrollo de presente Proyecto. A continuación, se muestran estas conclusiones: 
1) Se logró desarrollar una solución que permita la visibilidad de las publicaciones 
científicas de ALICIA para con los investigadores, correspondientes a la misma 
área conceptual de su producción científica. Como consecuencia, se podrá 
ayudar a dar a conocer variantes de temas dentro de líneas de investigación. 
2) Se construyó el perfil del investigador a través de la identificación de su 
producción científica en  plataformas como ORCID y Scopus, permitiendo mayor 
información sobre el dominio de investigación al que pertenece. 
 
 
85 
 
3) Se logró la generación de recomendaciones personalizadas teniendo en cuenta 
la similitud (conceptual) entre la producción científica en plataformas como 
ORCID y Scopus correspondiente a los investigadores y las publicaciones 
científicas almacenadas en ALICIA. El uso del Modelo de Análisis Semántico 
Latente permitió la obtención de resultados que no se sesgaban en la simple 
similitud de las publicaciones científicas, sino a su similitud con los temas 
(conceptos) identificados luego de entrenado el modelo. 
4) Se implementó una arquitectura basada en el modelo de programación de 
tuberías, lo que represento una reducción en el tiempo de procesamiento 
mediante la ejecución de varios procesos en paralelo. La gran cantidad tanto de 
publicaciones científicas de ALICIA como de publicaciones ORCID y Scopus 
correspondientes a los investigadores, justificó la implementación de un proceso 
batch junto con el uso de una tubería que relacionaba el proceso de extracción 
con el proceso de pre procesamiento. 
5) Se logró tener una precisión promedio aceptable, lo que representa la correcta 
generación de recomendaciones teniendo en cuenta la afinidad de estas con la 
línea de investigación de los investigadores. 
8.2 Trabajos futuros 
Como trabajo futuro posible se propone la implementación de mecanismos para la 
interacción de los usuarios con las recomendaciones de publicaciones científicas 
generadas por el sistema de recomendación propuesto. De esta manera, se podría 
recabar información sobre las preferencias del investigador y/o patrones de 
comportamiento del mismo. Esto implicaría el aprendizaje del modelo de recomendación 
no solo por la descripción de las publicaciones a recomendar, sino también por la 
interacción de los usuarios con las publicaciones recomendadas. 
Como mecanismos de interacción se proponen, la creación de un sistema web donde 
cada uno de los usuarios (investigadores) cuente con una cuenta para que así el sistema 
de recomendación pueda obtener la información generada directamente por el usuario 
(calificación online de las recomendaciones o CTR: número de clicks realizados sobre 
una recomendación o tiempo de lectura de la recomendación) y la publicación de más 
 
 
86 
 
servicios relacionados al envío de la información generada en las sesiones iniciadas por 
el usuario. 
Relacionado a la propuesta de implementación de un módulo web de interacción de 
usuarios investigadores, se propone también, la implementación de un enfoque de 
recomendación complementario al ya propuesto en el Proyecto. Esto con la finalidad de 
generar recomendaciones con un alto grado de personalización, tomando en cuenta los 
gustos e intereses específicos de usuarios. Por ejemplo, la implementación de un 
enfoque de filtrado colaborativo basado en la interacción de usuario, de manera que se 
pueda aprovechar la información obtenida a través de los mecanismos de interacción 
mencionados anteriormente.      
Asi mismo, a partir de la implementación de mecanismos de  interacción, se propone 
también, la creación de un módulo de evaluación online adicional a los módulos de 
extracción, pre procesamiento, recomendación y de servicios del sistema de 
recomendación propuesto en el Proyecto. 
Finalmente, se propone la ampliación del dominio de publicaciones científicas a 
recomendar. Esto es, evaluar también publicaciones científicas de distintos  repositorios 
a nivel mundial, con la intención de incentivar la creación de redes de investigación 
internacionales.   
 
Referencias 
7.9. unicodedata — Unicode Database — Python 2.7.15 documentation. (2018). 
Recuperado 28 de mayo de 2018, de 
https://docs.python.org/2/library/unicodedata.html#unicodedata.normalize 
ALICIA. (2017, septiembre 11). Recuperado 11 de septiembre de 2017, de 
https://portal.concytec.gob.pe/index.php/informacion-cti/alicia 
Atamari-Anahui, N., & Díaz-Vélez, C. (2015). Repositorio Nacional Digital de Acceso 
Libre (ALICIA): oportunidad para el acceso a la información científica en el Perú. 
 
 
87 
 
Anales de la Facultad de Medicina, 76(1), 81-82. 
https://doi.org/10.15381/anales.v76i1.11081 
Bancu, C., Dagadita, M., Dascalu, M., Dobre, C., Trausan-Matu, S., & Florea, A. M. 
(2012). ARSYS – Article Recommender System. 2012 14th International Symposium 
on Symbolic and Numeric Algorithms for Scientific Computing, 349-355. 
https://doi.org/10.1109/SYNASC.2012.38 
Barla, M. (2010). Towards Social-based User Modeling and Personalization. 
Barrenechea, D. D. P. (2006). A Spanish Stemming Algorithm Implementation in 
PROLOG and C#. 
Bean, M. (2016). A Framework for Evaluating Recommender Systems. All Theses and 
Dissertations. Recuperado de https://scholarsarchive.byu.edu/etd/6195 
Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation. (s. f.). 
Recuperado 27 de mayo de 2018, de 
https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 
Beel, J., Dinesh, S., Mayr, P., Carevic, Z., & Raghvendra, J. (2017, abril 1). Stereotype 
and Most-Popular Recommendations in the Digital Library Sowiport. 
Beel, J., Gipp, B., Langer, S., & Breitinger, C. (2015). Research-paper recommender 
systems: A literature survey. International Journal on Digital Libraries, 1-34. 
https://doi.org/10.1007/s00799-015-0156-0 
Beel, J., Langer, S., Genzmehr, M., & Nürnberger, A. (2013). Introducing Docear’s 
research paper recommender system. Proceedings of the 13th ACM/IEEE-CS joint 
conference on Digital libraries, 459-460. Indianapolis, Indiana, USA: ACM. 
Bell, C., & Jones, K. P. (2018). Towards everyday language information retrieval 
systems via minicomputers. Journal of the American Society for Information Science, 
30(6), 334-339. https://doi.org/10.1002/asi.4630300606 
Bidgoli, H. (2010). The Handbook of Technology Management, Supply Chain 
Management, Marketing and Advertising, and Global Management. John Wiley & 
Sons. 
 
 
88 
 
Bondi, L. (2018). Information Retrieval Evaluation of IR systems. 30. 
Çano, E., & Morisio, M. (2017). Hybrid Recommender Systems: A Systematic 
Literature Review (Vol. 21). https://doi.org/10.3233/IDA-163209 
CONCYTEC pone a disposición nueva plataforma virtual DINA para investigadores, 
innovadores y profesionales. (s. f.). Recuperado 17 de junio de 2018, de 
https://portal.concytec.gob.pe/index.php/noticias/289-concytec-pone-a-disposicion-
nueva-plataforma-virtual-dina-para-investigadores-innovadores-y-profesionales 
Congreso de la República del Perú. Ley Marco de Ciencia, Tecnología e Innovación 
Tecnológica. , Pub. L. No. Ley N° 28303 (2004). 
Congreso de la República del Perú. Ley que Regula el Repositorio Nacional Digital de 
Ciencia, Tecnología e Innovación de Acceso Abierto. , Pub. L. No. Ley N° 30035 
(2013). 
Córdoba, S. (2011, febrero 16). La UCR y el movimiento de acceso abierto. 
Recuperado 27 de mayo de 2018, de Semanario Universidad website: 
https://semanariouniversidad.com/opinion/la-ucr-y-el-movimiento-de-acceso-abierto/ 
Dolgert, D. (s. f.). Scripting for Data Analysis. 26. 
Dong, R., Tokarchuk, L., & Ma, A. (2009). Digging Friendship: Paper Recommendation 
in Social Network. 7. 
DSpace: un manual específico para gestores de la información y la documentación. 
(s. f.). Recuperado 17 de junio de 2018, de http://bid.ub.edu/20rodri2.htm 
Espinoza, P., & Alberto, F. (2018). Método para la evaluación de usabilidad de sitios 
web transaccionales basado en el proceso de inspección heurística. Pontificia 
Universidad Católica del Perú. Recuperado de 
http://tesis.pucp.edu.pe/repositorio//handle/123456789/9903 
Faubion, C. W., & Andrew, J. D. (2001). Book Review: Dillman, D. A. (2000). Mail and 
Internet Surveys: The Tailored Design Method (2nd ed.). New York: Wiley 464 pp., 
$47.50 (hardcover). Rehabilitation Counseling Bulletin, 44(3), 178-180. 
https://doi.org/10.1177/003435520104400309 
 
 
89 
 
Ferrara, F., Pudota, N., & Tasso, C. (2011). A Keyphrase-Based Paper Recommender 
System. Digital Libraries and Archives, 14-25. https://doi.org/10.1007/978-3-642-
27302-5_2 
Ferreras-Fernández, T., García-Peñalvo, F. J., & Merlo-Vega, J. A. (2015). Open 
Access Repositories As Channel of Publication Scientific Grey Literature. Proceedings 
of the 3rd International Conference on Technological Ecosystems for Enhancing 
Multiculturality, 419–426. https://doi.org/10.1145/2808580.2808643 
Filho, G. A. L., & Siqueira, R. L. (2008). REVISTA CONTABILIDADE & FINANÇAS 
USP: UMA ANÁLISE BIBLIOMÉTRICA DE 1999 A 2006. Revista de Informação 
Contábil, 1(2). Recuperado de 
https://periodicos.ufpe.br/revistas/ricontabeis/article/view/7736 
Gipp, B., Beel, J., & Hentschel, C. (2009). Scienstein: A Research Paper 
Recommender System. 
Gori, M., & Pucci, A. (2006). Research Paper Recommender Systems: A Random-Walk 
Based Approach. Proceedings of the 2006 IEEE/WIC/ACM International Conference on 
Web Intelligence, 778-781. IEEE Computer Society. 
Gunawardana, A., & Shani, G. (s. f.). A Survey of Accuracy Evaluation Metrics of 
Recommendation Tasks. 28. 
Haddi, E., Liu, X., & Shi, Y. (2013). The Role of Text Pre-processing in Sentiment 
Analysis. Procedia Computer Science, 17, 26-32. 
https://doi.org/10.1016/j.procs.2013.05.005 
Hollink, V., Kamps, J., Monz, C., & de Rijke, M. (2004). Monolingual Document 
Retrieval for European Languages. Information Retrieval, 7(1/2), 33-52. 
https://doi.org/10.1023/B:INRT.0000009439.19151.4c 
Hull, D. A. (2018). Stemming algorithms: A case study for detailed evaluation. Journal 
of the American Society for Information Science, 47(1), 70-84. 
https://doi.org/10.1002/(SICI)1097-4571(199601)47:1<70::AID-ASI7>3.0.CO;2-# 
 
 
90 
 
Inicio de Búsqueda. (s. f.). Recuperado 5 de octubre de 2017, de 
http://alicia.concytec.gob.pe/vufind/ 
Jiang, Y., Jia, A., Feng, Y., & Zhao, D. (2012). Recommending Academic Papers via 
Users’ Reading Purposes. Proceedings of the Sixth ACM Conference on 
Recommender Systems, 241–244. https://doi.org/10.1145/2365952.2366004 
Jivani, A. G. (2011). A Comparative Study of Stemming Algorithms Ms . 
Karthikeyan, M., & Aruna, P. (2013). Probability based document clustering and image 
clustering using content-based image retrieval. Applied Soft Computing, 13, 959–966. 
https://doi.org/10.1016/j.asoc.2012.09.013 
Kontostathis, A., & Pottenger, W. M. (2006). A framework for understanding Latent 
Semantic Indexing (LSI) performance. Information Processing & Management, 42(1), 
56-73. https://doi.org/10.1016/j.ipm.2004.11.007 
Kotsiantis, S. B., Kanellopoulos, D., & Pintelas, P. E. (2006). Data Preprocessing for 
Supervised Leaning. 1(2), 7. 
Kraaij, W., & Pohlmann, R. (1996). Viewing Stemming as Recall Enhancement. In 
Proceedings of the 19th Annual International ACM SIGIR Conference on Research and 
Development in Information Retrieval, 40–48. 
La producción científica: un reto en Enfermería. (2013). Revista Cubana de 
Enfermería, 29(1), 3-4. 
Lakiotaki, K., Delias, P., Sakkalis, V., & Matsatsinis, N. F. (2009). User profiling based 
on multi-criteria analysis: the role of utility functions. Operational Research, 9(1), 3-16. 
https://doi.org/10.1007/s12351-008-0024-4 
Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic 
analysis. Discourse Processes, 25(2-3), 259-284. 
https://doi.org/10.1080/01638539809545028 
Landauer, T. K., Laham, D., & Derr, M. (2004). From paragraph to graph: latent 
semantic analysis for information visualization. Proceedings of the National Academy of 
 
 
91 
 
Sciences of the United States of America, 101 Suppl 1, 5214-5219. 
https://doi.org/10.1073/pnas.0400341101 
Liang, Y., Li, Q., & Qian, T. (2011). Finding Relevant Papers Based on Citation 
Relations. En H. Wang, S. Li, S. Oyama, X. Hu, & T. Qian (Eds.), Web-Age Information 
Management (pp. 403-414). Springer Berlin Heidelberg. 
Lops, P., de Gemmis, M., & Semeraro, G. (2011). Content-based Recommender 
Systems: State of the Art and Trends. En F. Ricci, L. Rokach, B. Shapira, & P. B. Kantor 
(Eds.), Recommender Systems Handbook (pp. 73-105). https://doi.org/10.1007/978-0-
387-85820-3_3 
Lorenzo Gil, E., Braña Ferreiro, E., & Nieto Caramés, S. (2015). Estudio de la 
integración de repositorios en el sistema científico-investigador: alternativas y estado 
actual. Recuperado de http://helvia.uco.es/xmlui/handle/10396/12631 
Lourenço, C. de A. (2005). Automação de Bibliotecas: Análise da Produção via 
Biblioinfo (1986-1994) p. 51-63. Revista ACB, 2(2), 51-63. (Levantamento de dados). 
luigi: Luigi is a Python module that helps you build complex pipelines of batch jobs. It 
handles dependency resolution, workflow management, visualization etc. It also comes 
with Hadoop support bu.. [Python]. (2018). Recuperado de 
https://github.com/spotify/luigi (Original work published 2012) 
Luque, P., & M, A. (2009). Preservación documental en repositorios institucionales. 
Investigación bibliotecológica, 23(49), 241-257. 
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information 
Retrieval. New York, NY, USA: Cambridge University Press. 
Marco. (2015, octubre 24). Building Data Pipelines with Python and Luigi. Recuperado 
27 de mayo de 2018, de Marco Bonzanini website: 
https://marcobonzanini.com/2015/10/24/building-data-pipelines-with-python-and-luigi/ 
María Inés Bravo, Ken Norsworthy, & Paula Pardo Lorca. (2004, octubre). Bibliotecas 
Digitales Latinoamericanas en el Marco de OAI-PMH. 
 
 
92 
 
Millington, P. (2006, septiembre 6). OpenDOAR - Home Page - Directory of Open 
Access Repositories. Recuperado 11 de septiembre de 2017, de 
http://www.opendoar.org/ 
Mönnich, M., & Spiering, M. (2008). Adding Value to the Library Catalog by 
Implementing a Recommendation System. D-Lib Magazine, 14(5/6). 
https://doi.org/10.1045/may2008-monnich 
Morales Morejón, M., & Morales Aguilera, M. (1997). La informetría y las fuentes de 
información personales e institucionales: su importancia en relación con la información 
de inteligencia. Ciencias de la información, 28(3), 207-217. 
Moran, S., & Cysouw, M. (2018). The Unicode cookbook for linguists: Managing writing 
systems using orthography profiles. Language Science Press. 
Moura, A. M. S, Mattos, C. V, & Silva, D. C. (2002). Acesso e recuperação da produção 
científica pela biblioteca universitária: os anais de eventos. (Moura, A. M. S, Mattos, C. 
V, Silva, D. C. (2002). Acesso e recuperação da produção científica pela biblioteca 
universitária: os anais de eventos. Anais do Seminário Nacional de Bibliotecas 
Universitárias, Rio de Janeiro, RJ, Brasil, 12.), 12. 
Naak, A. (2009). Papyres : un système de gestion et de recommandation d’articles de 
recherche. Recuperado de https://papyrus.bib.umontreal.ca/xmlui/handle/1866/3270 
Natural Language Toolkit — NLTK 3.3 documentation. (s. f.). Recuperado 27 de mayo 
de 2018, de https://www.nltk.org/ 
Norman, G. (2010). Likert scales, levels of measurement and the “laws” of statistics. 
Advances in Health Sciences Education, 15(5), 625-632. 
https://doi.org/10.1007/s10459-010-9222-y 
P Waller, M., Dresselhaus, T., & Yang, J. (2013). JACOB: An Enterprise Framework for 
Computational Chemistry. Journal of computational chemistry, 34. 
https://doi.org/10.1002/jcc.23272 
 
 
93 
 
Packer, A. L., Cop, N., Luccisano, A., Ramalho, A., & Spinak, E. (2014). SciELO – 15 
Años de Acceso Abierto: un estudio analítico sobre Acceso Abierto y comunicación 
científica. https://doi.org/10.7476/9789233012370 
Palopoli, L., Rosaci, D., & Sarné, G. M. L. (2013). A Multi-tiered Recommender System 
Architecture for Supporting E-Commerce. En G. Fortino, C. Badica, M. Malgeri, & R. 
Unland (Eds.), Intelligent Distributed Computing VI (pp. 71-81). Springer Berlin 
Heidelberg. 
Pilato, G., & Vassallo, G. (2015). TSVD as a Statistical Estimator in the Latent 
Semantic Analysis Paradigm. IEEE Transactions on Emerging Topics in Computing, 
3(2), 185-192. https://doi.org/10.1109/TETC.2014.2385594 
Pinfield, S. (2005). A mandate to self archive? The role of open access institutional 
repositories. Serials, 18(1), 30-34. 
Potti, P. K. (2011). On the Design of Web Services: SOAP vs. REST. 106. 
Presidencia de la República del Perú. Reglamento de Calificación y Registro de 
Investigadores en Ciencia y Tecnología del Sistema Nacional de Ciencia, Tecnología e 
Innovación Tecnológica - SINACYT. , RESOLUCION-N° 023-2017-CONCYTEC-P § 
(2015). 
Presidencia de la República del Perú. Reglamento de la Ley que regula el Repositorio 
Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto. , DECRETO 
SUPREMO N° 006-2015-PCM § (2015). 
Presidencia de la República del Perú. Directiva que regula el Repositorio Nacional 
Digital de Ciencia, Tecnología e Innovación de Acceso Abierto. , Directiva No 004-
2016-CONCYTEC-DEGC § (2016). 
Presidencia de la República del Perú. Reglamento del Registro Nacional Científico, 
Tecnológico y de Innovación Tecnológica. , RENACYT-RESOLUCION-No 045-2016-
CONCYTEC-P § (2016). 
Python Data Science Handbook | Python Data Science Handbook. (s. f.). Recuperado 
27 de mayo de 2018, de https://jakevdp.github.io/PythonDataScienceHandbook/ 
 
 
94 
 
Python Libraries For Building Recommender Systems. (s. f.). Recuperado 27 de mayo 
de 2018, de http://www.faroba.com/2015/12/03/a-python-libraries-for-building-
recommender-systems/ 
Rehurek, R., & Sojka, P. (2010). Software Framework for Topic Modelling with Large 
Corpora. In Proceedings of the Lrec 2010 Workshop on New Challenges for Nlp 
Frameworks, 45–50. 
Ricci, F., Rokach, L., Shapira, B., & Kantor, P. B. (2010). Recommender Systems 
Handbook (1st ed.). Berlin, Heidelberg: Springer-Verlag. 
Rölleke, T., Tsikrika, T., & Kazai, G. (2006). A general matrix framework for modelling 
Information Retrieval. Information Processing & Management, 42(1), 4-30. 
https://doi.org/10.1016/j.ipm.2004.11.006 
Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. (2000). Analysis of Recommendation 
Algorithms for e-Commerce. Proceedings of the 2Nd ACM Conference on Electronic 
Commerce, 158–167. https://doi.org/10.1145/352871.352887 
Scimago Journal & Country Rank. (2007). Recuperado 9 de diciembre de 2017, de 
http://www.scimagojr.com/ 
Scimago Journal & Country Rank. (2017, septiembre 11). Recuperado 11 de 
septiembre de 2017, de http://www.scimagojr.com/ 
Seroussi, Y. (2010). Utilising User Texts to Improve Recommendations. En P. De Bra, 
A. Kobsa, & D. Chin (Eds.), User Modeling, Adaptation, and Personalization (pp. 403-
406). Springer Berlin Heidelberg. 
Sickle: OAI-PMH for Humans — Sickle 0.6.2 documentation. (s. f.). Recuperado 27 de 
mayo de 2018, de http://sickle.readthedocs.io/en/latest/ 
Silva, A. C. B. da, Oliveira, E. C. de, & Filho, J. F. R. (2005). Revista Contabilidade & 
Finanças - USP: uma comparação entre os períodos 1989/2001 e 2001/2004. Revista 
Contabilidade & Finanças, 16(39), 20-32. https://doi.org/10.1590/S1519-
70772005000300003 
 
 
95 
 
Skeef. (1997). Citado por Mollo Pécora, Gláncia, 3 Actividades Académicas de 
pesquisador. En: Porto Witter, G. Produçao Científica, Campinas, SP: Editora Átomo, 
1997, p. 158. 
Sosnovsky, S., & Dicheva, D. (2010). Ontological Technologies for User Modelling. Int. 
J. Metadata Semant. Ontologies, 5(1), 32–71. 
https://doi.org/10.1504/IJMSO.2010.032649 
Sugiyama, K., & Kan, M.-Y. (2011). Serendipitous Recommendation for Scholarly 
Papers Considering Relations Among Researchers. Proceedings of the 11th Annual 
International ACM/IEEE Joint Conference on Digital Libraries, 307–310. 
https://doi.org/10.1145/1998076.1998133 
Tamayo, M. T. y. (2004). El proceso de la investigación científica. Editorial Limusa. 
Toman, M., Tesar, R., & Jezek, K. (s. f.). Influence of Word Normalization on Text 
Classification. 5. 
Tyagi, N. K., Solanki, A. K., & Tyagi, S. (s. f.). AN ALGORITHMIC APPROACH TO 
DATA PREPROCESSING IN WEB USAGE MINING. 5. 
Using Luigi Pipelines in a Data Science Workflow. (s. f.). Recuperado 27 de mayo de 
2018, de Pivotal Engineering Journal website: http://engineering.pivotal.io/post/luigi-
data-science/ 
Vellino, A. (2013). Usage-based vs. Citation-based Methods for Recommending 
Scholarly Research Articles. Recuperado de https://arxiv.org/abs/1303.7149v2 
Vijayarani, D. S., & Ilamathi, J. (s. f.). Preprocessing Techniques for Text Mining - An 
Overview. 5, 10. 
Wang, C., & Blei, D. M. (2011). Collaborative topic modeling for recommending 
scientific articles. Proceedings of the 17th ACM SIGKDD international conference on 
Knowledge discovery and data mining, 448-456. San Diego, California, USA: ACM. 
Wang, X. (2010). An Empirical Investigation of Personal and Social Factors on 
Knowledge Sharing in China [Info:eu-repo/semantics/masterThesis]. Recuperado 27 
de mayo de 2018, de http://essay.utwente.nl/60181/ 
 
 
96 
 
Web Scraping with Beautiful Soup. (s. f.). Recuperado 27 de mayo de 2018, de 
http://web.stanford.edu/~zlotnick/TextAsData/Web_Scraping_with_Beautiful_Soup.html 
Welcome to Python.org. (s. f.). Recuperado 27 de mayo de 2018, de Python.org 
website: https://www.python.org/ 
What are Open Access repositories? - University of Bradford. (s. f.). Recuperado 27 de 
mayo de 2018, de https://www.bradford.ac.uk/library/resources/open-access-
publishing/what-are-open-access-repositories/ 
What is a corpus? (2018, abril 15). Recuperado 15 de abril de 2018, de 
http://www.ilc.cnr.it/EAGLES/corpintr/node13.html 
Willett, P. (2006). The Porter stemming algorithm: then and now. Program, 40(3), 219-
223. https://doi.org/10.1108/00330330610681295 
Witter, G. P. (1997). Produção científica. Editora Atomo. 
Xia, F., Liu, H., Lee, I., & Cao, L. (2016). Scientific Article Recommendation: Exploiting 
Common Author Relations and Historical Preferences (Vol. 2). 
https://doi.org/10.1109/TBDATA.2016.2555318 
Yang, C., Wei, B., wu, J., Zhang, Y., & Zhang, L. (2009, enero 1). CARES: a ranking-
oriented CADAL recommender system. 203-212. 
https://doi.org/10.1145/1555400.1555432 
Ye, J. (2011). Ye, J.: Cosine similarity measures for intuitionistic fuzzy sets and their 
applications. Mathematical and Computer Modelling 53, 91-97. Mathematical and 
Computer Modelling, 53, 91-97. https://doi.org/10.1016/j.mcm.2010.07.022 
Zhang, X., Tang, J., Zhang, M., & Ji, Q. (2016). Noise subspaces subtraction in SVD 
based on the difference of variance values [Research article]. 
https://doi.org/10.21595/jve.2016.16745 
Zhang, Z., & Li, L. (2010). A research paper recommender system based on spreading 
activation model. https://doi.org/10.1109/ICISE.2010.5689417 
 
 
97 
 
Zuo, Z., Zhao, K., & Eichmann, D. (s. f.). The state and evolution of U.S. iSchools: 
From talent acquisitions to research outcome. Journal of the Association for Information 
Science and Technology, 68(5), 1266-1277. https://doi.org/10.1002/asi.23751 
 
Anexos 
Anexo 1:   Revisión de Fuentes: investigaciones y productos    
Esta sección tiene como objetivo presentar y describir las investigaciones realizadas en 
los últimos años, así como los productos desarrollados relacionados al tema del 
presente proyecto de fin de carrera. 
Investigaciones Primarias 
Modelamiento de temas colaborativos para la recomendación de artículos 
científicos 
Esta investigación se basa en la construcción de un algoritmo basado en 
aprendizaje máquina para la recomendación de artículos científicos a usuarios dentro 
de una comunidad científica virtual. Este algoritmo utiliza dos tipos de datos para la 
generación de recomendaciones: la librería de artículos científicos de otros usuarios y 
el contenido de estos artículos. Además, combina ideas de técnicas de filtrado 
colaborativo basado en el modelado de factores latentes y técnicas de análisis de 
contenidos basadas en el modelado de temas probabilísticos. Así, el algoritmo 
propuesto muestra recomendaciones donde se pueden encontrar artículos antiguos 
pero relevantes para otros usuarios con perfiles similares, como también artículos 
nuevos con contenido que satisfagan los intereses específicos de cada usuario (C. 
Wang & Blei, 2011). 
Sistemas de recomendación de documentos de investigación: un enfoque 
basado en Caminos Aleatorios 
Esta investigación tiene como objetivo proponer un algoritmo para la 
recomendación de artículos de investigación basado en grafos y propiedades de 
caminos aleatorios. Se plantea el problema a partir de la utilización de puntajes de 
 
 
98 
 
relevancia para cada documento en el cual el usuario esté trabajando. De esta forma, a 
más alto el puntaje de relevancia que se obtenga al analizar los documentos dentro de 
un repositorio en línea, más alta debe ser su relevancia con respecto al tema del 
documento en el cual se esté trabajando. Así mismo, también es posible la utilización 
de estructuras de grafos no dirigidos, donde cada nodo representa un documento dentro 
de un repositorio en línea. A esta estructura de grafos se le denomina Grafos de 
Citaciones. Por otro lado, en esta investigación también se hace presente la utilización 
del algoritmo PaperRank de Google, de manera que ayude en el proceso de filtrado de 
documentos almacenados en un repositorio. Así, se generarán recomendaciones de 
documentos basados en la bibliografía del documento en el cual se esté trabajando (Gori 
& Pucci, 2006). 
Un sistema de recomendación de documentos de investigación basado en 
el modelo de activación por propagación 
Esta investigación tiene como objetivo proponer un nuevo sistema de 
recomendación híbrido donde se utiliza un modelo de activación por propagación para 
la búsqueda de usuarios con intereses similares. Así mismo, la investigación describe 
el uso de árboles para la representación del perfil de cada usuario, lo que permite 
obtener la correlación entre usuarios a partir del TED (Tree Edit Distance) (Z. Zhang & 
Li, 2010). 
Sistema basado en el análisis de múltiples criterios para la recomendación 
de artículos científicos 
El objetivo de esta investigación es la de proponer un nuevo enfoque para la 
implementación de los sistemas de recomendación. De esta forma, se hace mención a 
las metodologías de Ayuda en la Toma de Decisiones basado en Múltiples Criterios, 
MCDA por sus siglas en ingles. El paradigma de análisis de múltiples criterios define los 
métodos y modelos para la toma de decisión en relación a la generación de una 
recomendación. A partir de este paradigma, se pueden distinguir 4 niveles, donde el 
segundo nivel se basa en el modelado de criterios, los cuales corresponden al año de 
publicación, el nivel de relevancia de las palabras claves, el factor de impacto de revistas 
(JIF), autor, reconocimientos, índice de citas e institución de proveniencia. Por otro lado, 
 
 
99 
 
el tercer nivel describe la construcción del modelo de preferencia a partir del enfoque de 
disgregación-agregación, el cual tiene como objetivo analizar el comportamiento del 
usuario (Lakiotaki, Delias, Sakkalis, & Matsatsinis, 2009).  
Recomendación de artículos académicos a través de los intereses de 
lectura de usuarios 
Esta investigación tiene como objetivo presentar una solución a la de generación 
de recomendaciones relacionadas al problema y/o solución presentados en los artículos 
científicos. La solución se base en satisfacer el interés específico de lectura del usuario 
a partir de la recomendación de artículos científicos en dos listas: recomendaciones de 
artículos más relevantes en relación al problema de investigación y en relación a la 
solución propuesta. La investigación también describe los componentes utilizados para 
el sistema de recomendación propuesto, donde se hacen uso de tres modelos de 
semejanza: modelo TF*IDF, modelo en base a tema, modelo en base a conceptos – con 
uso de LDA- (Jiang, Jia, Feng, & Zhao, 2012). 
Sistema de Recomendación de artículos científicos basado en frases 
claves 
El objetivo de esta investigación es de proponer un enfoque basado en contenido 
para la recomendación de artículos científicos dentro de repositorios digitales. El 
enfoque propuesto se basa en la extracción de palabras claves. El método de extracción 
de palabras clave trabaja en dos fases: la de identificación de candidato, donde se 
identifican todas las posibles frases de un artículo, y la de selección, donde se 
selecciona solo algunas frases candidatas como frases claves. Así mismo, la 
investigación describe la utilización de etiquetas de palabras, la utilización de uni-
gramas, bi-gramas y tri-gramas para la extracción de las posibles frases candidatas, el 
uso de propiedades estadísticas y lingüísticas para la caracterización de las frases 
candidatas y el uso de puntajes para la elección de frases claves que representen 
apropiadamente el contenido del artículo científico. De esta manera, la investigación 
muestra también la creación de perfiles de usuarios a partir de frases claves, las cuales 
serán procesadas junto con las frases extraídas para cada uno de los artículos 
 
 
100 
 
científicos almacenados para conocer la semejanza entre ambas y así generar la 
recomendación (Ferrara, Pudota, & Tasso, 2011). 
Recomendación de artículos científicos: Explotación de relaciones 
comunes de los autores y preferencias históricas 
Esta investigación tiene como objetivo proponer un nuevo método para la 
recomendación de artículos de investigación. El método presentado se denomina CARE 
(Common Author Relation-Based Recommendation) por sus siglas en ingles. Este 
método se basa en la construcción de relaciones entre los artículos de investigación 
únicamente a través de la información del autor. Es así que, estas relaciones en conjunto 
con las preferencias históricas del investigador son usadas para la búsqueda de 
investigadores objetivo relevantes (Xia, Liu, Lee, & Cao, 2016). 
Investigaciones Secundarias 
Sistemas de recomendación de documentos de investigación: una 
encuesta bibliográfica 
Esta artículo de investigación tiene como objetivo examinar el campo de los sistemas 
de recomendación de artículos de investigación, permitiendo así a los investigadores y 
desarrolladores a conocer el contexto actual de los sistemas de recomendación de 
artículos de investigación, identificar prometedores áreas de investigación y motivar a la 
comunidad a resolver los problemas más urgentes que vienen obstaculizando el uso 
efectivo de los sistemas de recomendación de artículos de investigación. Así mismo, la 
investigación señala que más de la mitad de los sistemas de recomendación analizados 
aplicaron el enfoque de filtrado basado en contenido (55%). Mientras que el enfoque de 
filtrado colaborativo fue aplicado por sólo el 18% y las recomendaciones basadas en 
grafos un 16%. Otros enfoques de recomendación que se encontraron tras el análisis 
fueron: estereotipos, recomendaciones centradas en características y recomendaciones 
híbridas. Por otro lado la investigación también describe los distintos métodos de 
evaluación para los enfoques analizados. Entre estos métodos están: 
 Estudios de usuarios: suelen medir la satisfacción del usuario a través de 
clasificaciones explícitas. Los usuarios reciben recomendaciones generadas por 
 
 
101 
 
diferentes enfoques de recomendación, los usuarios valoran las 
recomendaciones y el enfoque con la calificación promedio más alta se 
considera más efectivo. 
 Evaluaciones online: mide las tasas de aceptación de las recomendaciones en 
los sistemas de recomendación en el mundo real. Las tasas de aceptación se 
miden normalmente mediante la tasa de clics (CTR), es decir, la proporción entre 
las recomendaciones a las que se han hecho clic y las recomendaciones 
mostradas. 
 Evaluaciones offline: miden la exactitud de un sistema de recomendación basado 
en la realidad. Algunas de las métricas de evaluación son: tasa de impacto, valor 
F,  la media del rango recíproco (MRR por sus siglas en ingles), la ganancia 
descontada acumulada normalizada (nDCG), el error absoluto medio y el error 
cuadrático medio de la raíz. 
 La perspectiva del operador: un sistema de recomendación efectivo puede ser 
uno que pueda ser desarrollado, operado y mantenido a bajo costo. 
 Cobertura: describe cuántos documentos de los que figuran en la base de datos 
podrían ser potencialmente recomendados  
Así mismo, la investigación describe algunas deficiencias y desafíos en el campo de los 
sistemas de recomendación de artículos de investigación. Algunos desafíos y 
deficiencias se muestran a continuación: 
 Modelo de datos: parte fundamental de la generación de recomendaciones es el 
proceso de modelado del usuario que identifica las necesidades de información 
del usuario  
 Exactitud: en el campo de sistemas de recomendación de artículos científicos, 
se hace mucho énfasis a la métrica de exactitud como indicador de la 
satisfacción del usuario. Sin embargo, no siempre la exactitud es sinónimo de 
satisfacción, otros factores como tareas del usuario, diversidad, diseño, 
características del usuario, tiempo de uso y retroalimentación del perfil del 
usuario. 
 
 
102 
 
 Implantación de los sistemas de recomendación en la vida real: la mayoría de 
los sistemas de recomendación aplican simples enfoques los cuales no se basan 
en últimas investigaciones. Por tal motivo, se puede concluir que la traducción 
de la investigación a la práctica es un desafío actual en la comunidad de 
sistemas de recomendación de artículos científicos. 
 Persistencia y autoridades: de los 276 autores de los 185 artículos citados en 
esta investigación, el 73% publicaron un solo artículo, el 5% publicaron cinco o 
más artículos, pero de estos autores, varios coautores publicaron los mismos 
artículos. Esto significa que sólo hay unos pocos grupos que publican 
sistemáticamente investigaciones en el campo de sistemas de recomendación 
de artículos científicos. 
 Dispersión de la información: este desafío significa, los problemas que conllevan 
la escasez en la publicación de información relacionada a los enfoques 
propuestos, como por ejemplo la dificultad de otros investigadores para 
implementar de nuevo el enfoque propuesto. Esto podría causar problemas en 
replicar las evaluaciones y reproducir los resultados de la investigación y 
obstaculizar la re-implementación y aplicación de enfoques prometedores en los 
sistemas de reconocimiento de palabras reales (Beel et al., 2015). 
Productos desarrollados 
Scienstein: Un Sistema de Recomendación de Documentos de 
Investigación  
Scienstein es el primer sistema de recomendación híbrido que utiliza técnicas de filtrado 
basado en contenido y filtrado colaborativo. De esta manera, Scienstein combina 
análisis de citas, puntuación implícita y explicita, análisis de autor y análisis de origen 
para la recomendación de artículos científicos de manera holística. La combinación de 
estos enfoques es crítica ya que cada uno de ellos posee desventajas que solo pueden 
ser superadas a través de la combinación de los enfoques anteriormente mencionados 
(Gipp et al., 2009). 
Papyres: Sistema de Administración de Artículos de Investigaciones 
 
 
103 
 
El sistema de recomendación implementado para Papyres se basa en la utilización de 
un enfoque híbrido a partir de los enfoques de filtrado basado en contenido y filtrado 
colaborativo. En Papyres, el filtrado basado en contenido tiene como objetivo el construir 
una lista de artículos científicos relevantes que representen el contexto de interés del 
usuario. Esta lista generada, luego se utiliza dentro del proceso de filtrado colaborativo 
multi-criterio. Este último enfoque es crítico en la recomendación de artículos científicos 
de calidad, la cual es relativa y no se refleja necesariamente en un factor global. Así 
mismo, el cálculo de la semejanza se describe como un proceso critico dentro del filtrado 
colaborativo. Por otro lado, Papyres también toma en consideración ciertos criterios de 
evaluación para la construcción de las recomendaciones. Estos se dividen en: 
 Criterios generales: por presentación, por orientación técnica, por nivel técnico y  
por clasificación 
 Criterios específicos dentro de las secciones del artículo científico: por calidad 
de la introducción, por estado del arte, por metodología, por experimentación y 
validación y por trabajos futuros 
 Criterio global: evaluación global (Naak, 2009). 
Sistema de Recomendación de BibTip 
El sistema de recomendación BibTip se basa en los patrones de comportamiento de los 
usuarios a través de su interacción con un catálogo de la biblioteca. Este servicio de 
recomendación "implícita" se basa en la observación de patrones de usuario y en la 
evaluación estadística del uso de datos. Todos los datos almacenados y procesados son 
anónimos (números de identificación e identificadores de sesión). A nivel técnico, la 
arquitectura BibTip puede ser vista como una arquitectura de agente que involucra a 
tres agentes de software: el agente de observación, el agente de agregación y el agente 
de recomendación. El primer agente observa la selección de títulos dentro de las 
sesiones definidas. Estos datos se transfieren al agente de agregación, para realizar 
cálculos sobre el material estadístico para la construcción de una lista de 
recomendaciones. Por último, el agente de recomendación se encarga de presentar la 
lista de recomendaciones al usuario (Mönnich & Spiering, 2008). 
 
 
104 
 
ARSYS: Sistema de Recomendación de Artículos Científicos 
ARSYS se basa en la aplicación de un enfoque híbrido para la construcción de un 
sistema de recomendación. Los enfoques utilizados son los de Filtrado basado en 
Contenido y Filtrado Colaborativo. Para el primer enfoque se utilizaron redes 
semánticas, las cuales representan los conceptos relacionados en una estructura 
específica para un dominio específico. Esta estructura semántica ayuda a la generación 
de recomendaciones de nuevos artículos científicos. Por otro lado, para el enfoque de 
filtrado colaborativo se implementó una red punto a punto donde la información es 
distribuida uniformemente a través de todos los usuario (Bancu et al., 2012). 
Introducción al Sistema de Recomendación de Documentos de 
Investigación de Docear 
Docear es un software completo que permite buscar, organizar y crear artículos de 
investigación. Además, posee un sistema de recomendación para los artículos de 
investigación que gestiona. Este sistema de recomendación se basa en la utilización de 
mapas mentales donde se gestiona la data del usuario –artículos, referencias, 
anotaciones, etc.-. A partir de estos mapas mentales se crea un modelo de datos del 
usuario y este a su vez es comparado con los más de 1.8 millones de artículos de 
investigación que gestiona la Biblioteca Digital de Docear. Finalmente el resultado será 
la recomendación de 10 artículos, generados a través de la técnica de filtrado basado 
en contenido (Beel et al., 2013).  
 
 
  
 
 
105 
 
Anexo 2:   Protocolo de Consentimiento Informado    
 
 
106 
 
Anexo 3:   Formato del Cuestionario para Calificación de Recomendaciones 
de Publicaciones Científicas    
Cuestionario para Calificación de Recomendaciones de Publicaciones Científicas 
Estimado(a) investigador(a): 
Gracias por participar y completar esta encuesta, que tiene por objeto obtener información 
cuantitativa sobre recomendaciones generadas por el sistema de recomendación de 
publicaciones científicas de ALICIA a investigadores calificados del SINACYT. 
 
1-  ¿Cuán afines son las siguientes 10 publicaciones al ámbito de investigación en la cual Ud.se 
desenvuelve? 
Publicación #1 
Título: Identificación y control de un gasificador de lecho fluidi
zado 
Abstract: El objetivo de la tesis es la identificación de la planta 
experimental del gasificador de lecho fluidizado instalado
. Esto abarca la teoría matemática empleada para su obtenc
ión, clasificación y elección del modelo que mejor se ajus
te a lo requerido para posteriormente aplicar control. El 
trabajo se enfoca en lo fundamental de la instalación del 
gasificador, su protocolo de puesta en marcha y los result
ados de las pruebas realizadas. Seguidamente, se explica a 
profundidad los pasos a seguir para identificar, la clasif
icación de los modelos, en qué consiste el cálculo de un m
odelo paramétrico y la aproximación de los pasos que sigue 
el software MATLAB para calcular modelos. Por último, se t
rata el tema del control del modelo obtenido en la identif
icación. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
Publicación #2 
Título: Comparación de modelos hidrológicos precipitación-escorrent
ía determinísticos conceptuales con y sin uso de modelo est
ocástico 
Abstrac La tesis presenta la aplicación de tres modelos hidrológico
t: s precipitación-escorrentía: TANQUE, NAM, SMA trabajados en 
la cuenca del río Cañete durante el periodo del primero de 
agosto de 1973 al primero de abril de 1976; los cuales fuer
on calibrados (del 01/08/1973 al 31/07/1974), simulados (de
 
 
107 
 
l 01/08/1974 al 31/07/1975) y validados (del 01/08/1975 al 
01/04/1976), posteriormente a estos tres modelos se les agr
ego modelos estocástico para mejorar la aproximación, es as
í que primero se agregó un modelo autoregresivo AR(1), y de
spués se aplicó el filtro de Kalman. La metodología para ev
aluar una mejor aproximación, con los datos reales y calcul
ados por las diferentes variantes de los modelos, fue el us
o de índices, para la tesis estos son la raíz del error cua
drático normalizado, el índice de eficiencia y el error med
io normalizado, obteniéndose resultados satisfactorios para 
los modelos TANQUE y NAM. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
Publicación #3 
     
Título: Fundamentos de econometría : teoría y problemas 
Abstrac Contenido: 1.- REGRESIÓN LINEAL SIMPPLE. 1.1.- Introducción 
t: a la regresión lineal simple. 1.2.- Modelo clásico de regre
sión lineal: Recta de regresión simple muestral. 1.3.- Méto
do de estimación de mínimos cuadrados ordinarios (MCO). 1.4
.- Propiedades de los estimadores MCO. 1.5.- Cálculos adici
onales sobre los estimadores sobre los estimadores MCO y la 
varianza del error. 1.6. Medidas de bondad de ajuste. 1.7. 
Pruebas de hipótesis. 2.- MODELO REGRESIÓN MULTIPLE. 2.1.- 
Función de regresión poblacional. 2.2.- Función de regresió
n muestral. 2.3.- Supuestos del modelo clásico de regresión 
lineal. 2.4.- Estigmación MCO. 2.5.- Propiedades de los est
imadores MCO. 2.6.- Medidas de bondad de ajuste. 2.7.- Prue
as de hipótesis. 2.8.- Una visión matricial. 3.- MULTICOLIN
EALIDAD. 3.1.- Definición. 3.2.- Causas. 3.3.- Consecuencia
s. 3.4.- Detección. 3.5. Corrección. 4. HETEROCEDASTICIDAD. 
4.1.- Definición de Heteroscedasticidad. 4.2.- Causas de la 
heteroscedasticidad. 4.3.- Consecuencias de utilizar MCO en 
presencia de heteroscedasticidad. 4.4.- Test de heterosceda
sticidad Park.  4.5. Test de heteroscedasticidad de Glejser
. 4.6.- Test de heteroscedasticidad Goldfeld-Quandt. 4.7.- 
Test de heteroscedasticidad de Breusch-Pagan-Godfrey. 4.8.- 
Test de heteroscedasticidad de White. 4.9.- Medidas correct
ivas cuando se conoce: Método de mínimos cuadrados ponderad
os. 4.10. Medidad correctivas cuando no se conoce. 5.- AUTO
CORRELACIÓN. 5.1.- Definición. 5.2.- Modelo autorregresivo 
(AR). 5.3.- Causas. 5.4.- Consecuencias. 5.5.- Detección. 5
.6.- Correción. 6.- VARIABLES DUMMY. 6.1.- Definición. 6.2.
- Modelos econométricos con variables Dummy. 7.- PRUEBAS DE 
DIAGNÓSTICO Y SELECCIÓN DE MODELOS. 7.1.- Introducción. 7.2
.- Pruebas de diagnóstico. 7.3.- Criterios de selección del 
modelo. 8.- MODELOS DE REGRESIÓN NO LINEALES. 8.1.- Definic
ión. 8.2.- Estimación. 9.- MODELOS DE RESPUESTA CUALITATIVA
 
 
108 
 
. 9.1.- Introducción. 9.2.- Modelo lineal de probabilidad (
MLP). 9.3.- Logit. 9.4.- Probit. 10.- DATA PANEL. 10.1.- De
finición de modelos de regresión con datos de panel. 10.2.- 
Ventajas. 10.3.- Tipos. 10.4.- Técnicas de estimación con D
ata Panel. 10.5.- Prueba de Hausman. 10.6.- Propiedades est
adísticas de los estimadores. 10.7.- Comparación entre el m
odelo de efectos fijos (MEF) y el modelo de efectos aleator
ios (MCE). 11.- MODELOS DINÁMICOS AUTORREGRESIVOS Y DE REZA
GOS DISTRIBUIDOS. 11.1.- Modelos econométricos de rezagos d
istribuidos de Koyck. 11.2.- Modelo econométrico de expecta
tivas adaptativas. 11.3.- Modelo de ajuste parcial. 11.4.- 
Modelo econométrico  de rezagos distribuidos de Almon. 11.5
.- Causalidad de series de tiempo. 11.6.- Test de causalida
d de Granger. 12.- MODELOS ECONOMÉTRICOS DE ECUACIONES SIMU
LTÁNEAS. 12.1.-  Introducción: Álgebra de sistemas de ecuac
iones simultáneas. 13.-SERIES DE TIEMPO: ESTACIONARIEDAD, R
AÍZ UNITARIA Y CONTEGRACIÓN. 13.1.- Definiciones. 13.2.- Es
tacionariedad de un proceso estocástico. 14.- MODELOS ARIMA
. 14.1.- Creación de modelos econométricas para series de t
iempo: Ar, Ma, Arima. 14.2.- Metodología de Box-Jenkins (BJ
). 14.3.- Identificación. 14.4.- Estimación. 14.5.- Estimac
ión. 14.6.- Pronóstico. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
 
 
Publicación #4 
 
Título: Consorcio Web : Formulación e implementación de un marco co
nceptual de integración eficiente de sitios web dentro de u
na comunidad en internet 
Abstrac La realización de este trabajo plantea implementar una comu
t: nidad vía Internet conformada por diversos sitios web auto-
sostenidos, denominado, para efectos del estudio, como cons
orcio web, demostrar que la implementación de dicho esquema 
es factible mediante un análisis de caso, y que eventualmen
te permitiría al usuario la obtención de ingresos; la innov
ación propuesta radica en la utilización de diferentes cate
gorías de sitios web que se complementan mutuamente, confor
mando un esquema simbiótico que contribuye a la sinergia de
l modelo total. 
El problema identificado fue la no existencia de un marco c
onceptual capaz de integrar de manera 
eficiente a los diversos sitios web. 
Adicionalmente, se busca identificar las ventajas y desvent
ajas que este esquema de gestión 
implicaría, identificar los riesgos de su implementación y 
formalizar la metodología utilizada tanto a 
 
 
109 
 
fin de hacerla repetible en el tiempo como de facilitar su 
transmisión a otras personas. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
 
Publicación #5 
 
Título: Diseño del controlador basado en un observador de estado re
alimentado desde un controlador clásico aplicado a un manip
ulador robótico con una articulación 
Abstrac El control automático puede ser fragmentado, comprimido en 
t: diferentes alternativas que den una solución al problema de
l diseño de control. Las nuevas teorías de control y los co
nceptos modernos son atractivos y pueden hacer que de algun
a forma nos olvidemos del problema del diseño de un control 
mediante las técnicas clásicas. Si tenemos dos o más acerca
mientos diferentes que proporcionan una solución buena al p
roblema de control, entonces debe de existir una conexión f
uerte entre ellos que por diferentes métodos solucionen el 
problema. Si podemos establecer tales conexiones, esto debe
ría ser de gran ayuda a los investigadores a que puedan ent
ender conceptos subyacentes que involucran al problema de d
iseño del control.  
La transición de la realimentación de estados estimados en 
el control clásico es bien conocida; sin embargo, al conoci
miento la transición inversa requiere ser articulada previa
mente para un caso general. De ese modo en el presente info
rme de suficiencia, consideramos al sistema en tiempo conti
nuo y exploramos las conexiones de los sistemas single-inpu
t, single-ouput (SISO) para los controladores clásicos line
ales (es decir, aquellos definidos por la función de transf
erencia). El acercamiento al diseño del control se basa en 
el diseño de un sistema de control usando la técnica del ob
servador de estado de orden reducido realimentado desde un 
control clásico para el manipulador robótico con una articu
lación. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
Publicación #6 
 
Título: Diseño de un algoritmo PID sintonizado mediante lógica fuzz
y para controlar un brazo robótico 
Abstrac En los últimos años el desarrollo del control moderno ha ev
t: olucionado considerablemente mostrando diferentes técnicas 
 
 
110 
 
basadas en el control difuso, la aplicación de estas técnic
as a sistemas reales es cada vez una tendencia con mejores 
posibilidades de control ofreciendo resultados en un menor 
tiempo de respuesta comparado a un clásico controlador PID. 
El control PID es confiable pero con las limitaciones enten
didas por su diseño para sistemas no lineales se presenta e
n el presente trabajo una sintonización en base a lógica di
fusa de los parámetros proporcional, derivativa, integrativ
a del controlador PID para controlar la posición de un robo
t de tres grados de libertad. 
El Robot de tres grados de libertad que se formula la cinem
ática para diseñar las medidas de los eslabones como de los 
componentes, desarrollados en software Solidwork, también l
a dinámica para conocer el modelado del Robot para diseñar 
el controlador PID en software Matlab. 
El control propuesto es denominado Fuzzy PID usa la impreci
sión del lenguaje difuso para la toma de decisiones en base 
a valores intermedios que pertenecen a dos conjuntos para s
intonizar el control PID, las entradas de la función de mem
bresía Fuzzy son el error y derivada del error estas ingres
an a la función del tipo triangular con reglas Mandanni que 
explican la experiencia del experto y desarrolla una salida 
para los parámetros del controlador PID. 
El controlador Fuzzy-PID para un control de posición del Ro
bot se confronta con una segunda alternativa de controlador 
denominado Fuzzy PID2 en pruebas de movimientos curvos o li
neales concluyendo cual ofrece un mejor comportamiento y li
mitación. Se busca tener una alternativa con el controlador 
Fuzzy PID para contribuir a la aplicación de nuevas técnica
s de control de forma combinada con un control PID en un ni
vel educativo. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
 
Publicación #7 
 
Título: Modelación hidrológica distribuida espacializada usando HEC 
– HMS para la represa Chirimayuni – Moquegua 
Abstrac La necesidad de contar con procedimientos más precisos que 
t: la metodología clásica, hizo que se plantee efectuar la mod
elación hidrológica bajo un sistema distribuido espacial us
ando software libre HEC-HMS para la simulación de la repres
a Chirimayuni en la Región Moquegua. Este planteamiento se 
sustenta en aspectos básicos como identificar los elementos 
del sistema hidrológico que forman parte del sistema de la 
Represa Chirimayuni, asimismo efectuar la modelación distri
buida espacial de las subcuencas concurrentes y finalmente 
 
 
111 
 
efectuar la simulación hidrológica del embalse, para determ
inar su comportamiento hidrológico. 
En tal sentido logramos elaborar el modelo espacializado co
n detalle adecuado en la zona de estudio, lo que nos permit
ió efectuar las simulaciones hidrológicas en las que podemo
s notar diferencias en los resultados obtenidos respecto al 
modelo clásico elaborado para la misma Región hidrológica. 
En cuanto a las descargas máximas de ingreso al embalse ten
emos que el modelo clásico arroja como resultado un valor d
e 17,7 m3/s, mientras que el modelo espacializado un valor 
de 16,4 m3/s, el cual es ligeramente menor que el modelo cl
ásico. Asimismo, en cuanto a las descargas pico evacuadas p
or el vertedero de excedencias tenemos que el modelo clásic
o arroja como resultado un valor de 6,8 m3/s, mientras que 
el modelo espacializado un valor de 5,9 m3/s, el cual es li
geramente  menor que el modelo clásico. 
En cuanto al volumen de almacenamiento para los modelos clá
sico y espacializado ha sido establecido en 5,56 Hm3 y 5,53 
Hm3 respectivamente. Luego del proceso de simulación y resu
ltados obtenidos podemos observar diferencias más o menos s
ignificativas en los valores calculados, siendo el modelo h
idrológico espacializado el de mayor precisión, en virtud a 
que la información para la composición de este modelo es mu
cho más detallada que el modelo clásico. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
     
Publicación #8 
 
Título: Estudio de la lógica borrosa en la regulación de sistemas c
onmutados DC/DC 
Abstrac El trabajo que se ha desarrollado trata del estudio de los 
t: aportes que puede ofrecer la Lógica  
Borrosa en el campo de los Sistemas Conmutados DC/DC. 
En el caso del control basado en Lógica Borrosa no se prete
nde estudiar el control directo de  
sistemas conmutados DC/DC si no los aportes de este tipo de 
control aplicado a sistemas que  
permitan su futura implementación con dispositivos estándar
es usando los conceptos usados en: 
El Control en Modo Deslizante 
Para mejorar su respuesta y funcionamiento cuando este es c
ontrolado en modo de corriente. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
     
 
 
 
112 
 
Publicación #9 
 
Título: Diseño y simulación de un sistema de control no lineal mult
ivariable por lógica difusa aplicado a un manipulador robót
ico translacional de 2DOF 
Abstrac La presente tesis trata sobre el control de trayectoria de 
t: un manipulador robótica traslacional multivariable de 2DOF 
(Two-Degrees-of-Freedoms) que consta de un móvil accionado 
por una polea y un eslabón articulado en el CG (centro de g
ravedad) de dicho móvil. Este proceso será controlado media
nte la técnica de control fuzzy. 
La acción de control está orientada a controlar el movimien
to traslacional del móvil y el movimiento angular del brazo 
que es libre de girar en ambas direcciones. Las metas impue
stas en la tesis son: diseño, modelado, y simulación del si
stema: controlado con la ley de control fuzzy. Los sistemas 
convencionales de control son diseñados tradicionalmente us
ando modelos matemáticos de sistemas físicos para posterior
mente aplicar técnicas de diseño para obtener controladores 
apropiados para el sistema. Sin embargo, en la realidad, el 
modelo y sus parámetros son con frecuencia desconocidos. Es
to se debe a cambios en el ambiente de trabajo, dinámicas n
o modeladas; y la presencia de no linealidades e incertidum
bre que son difícil de tratar con los controladores convenc
ionales los cuales no siempre son capaces de aprender o de 
adaptarse a nuevas situaciones. A continuación, se plantea 
este problema y la solución del mismo utilizando la técnica 
de lógica difusa. Actualmente las técnicas avanzadas de con
trol basadas en modelos, como son el control predictivo, el 
control por modos deslizantes, el control adaptable, entre 
otras, siendo combinadas con técnicas de control basadas en 
los sistemas difusos. 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
 
Publicación #10 
Título: Asimetrías forward-backward y left-right en el modelo 3-3-1 
Abstrac Aproximadamente para el 2030 se piensa inaugurar el ILC (Int
t: ernational Linear Collider) en el cual se harán colisionar h
aces de electrones contra positrones con energías en el C.M. 
entre 0.5 y 3 TeV. Uno de los propósitos de éste futuro coli
sionador será evidenciar la existencia del bosón exótico Z' 
, el cual aparece en modelos que van más allá del Modelo Est
ándar (ME) tales como el Modelo SU (3)c x SU(3)L x U(l)y (Mo
delo 3-3-1). El presente trabajo tiene como principal objeti
vo desarrollar el sector electrodébil del 3-3-1 y calcular l
as Asimetrías Forward-Backward y Left-Right en función de la 
 
 
113 
 
energía en el C.M. (vía el proceso e-e+  -+  µ-µ+), para pos
teriormente comparar las predicciones obtenidas con las del 
ME y otros modelos. 
Palabras Claves: Asimetría Izquierda-Derecha y Atrás-Adelant
e, Futuro colisionador e+e-, Modelo SU( 3) x U (l). 
 
Completamente Muy Medianamente Poco Nada afín( 
afín( ) afín( )  afín( ) afín( ) ) 
   
 
 
 
  
 
 
114 
 
Anexo 4:   Protocolos de Consentimiento Informado y Cuestionarios de la 
Evaluación.    
 
 
115 
 
 
 
 
 
116 
 
 
 
 
117 
 
 
 
  
 
 
118 
 
 
  
 
 
119 
 
 
  
 
 
120 
 
 
  
 
 
121 
 
 
  
 
 
122 
 
 
  
 
 
123 
 
 
 
124 
 
 
 
 
125 
 
 
 
  
 
 
126 
 
 
  
 
 
127 
 
 
  
 
 
128 
 
 
  
 
 
129 
 
 
  
 
 
130 
 
 
  
 
 
131 
 
  
 
 
132 
 
  
 
 
133 
 
Anexo 5: Cronograma de Proyecto