Exploratory analysis of mass spectrometry data based on graph embeddings

dc.contributor.advisorIbáñez Gabilondo, Alfredo Jesús
dc.contributor.authorAlvarez Mamani, Edwin
dc.date.accessioned2025-07-17T00:21:25Z
dc.date.available2025-07-17T00:21:25Z
dc.date.created2025
dc.date.issued2025-07-17
dc.description.abstractEl análisis metabolómico basado en la espectrometría de masas (EM) es una herramienta poderosa, pero conlleva sus propios retos. El flujo de trabajo de la EM implica múltiples pasos antes de su interpretación, el cual típicamente se denomina minería de datos. La extracción de datos consiste en un proceso de dos pasos. Primero, los datos de la EM se ordenan, organizan y presentan para su filtrado antes de ser analizados. Segundo, los datos filtrados y reducidos se analizan utilizando técnicas estadísticas para eliminar más variabilidad. Esto es especialmente cierto en el caso de los estudios metabolómicos no dirigidos (untargeted) basados en EM, que se centran en comprender los cambios en las redes metabólicas. Dado que la tarea de filtrar e identificar cambios a partir de un gran conjunto de datos es un reto, se necesitan técnicas automatizadas para la minería de datos metabolómicos no dirigidos basados en MS. El enfoque tradicional basado en estadísticas tiende a filtrar en exceso los datos en bruto, lo que puede dar lugar a la eliminación de datos relevantes y conducir a la identificación de menos cambios metabolómicos. Esta limitación del enfoque tradicional subraya la necesidad de un nuevo método. En este trabajo, presentamos un nuevo enfoque de aprendizaje profundo que utiliza node embeddings (impulsado por Graph Neural Networks), edge embeddings y un algoritmo de detección de anomalías para analizar los datos generados por la metabolómica basada en EM llamado GEMNA (Graph Embedding-based Metabolomics Network Analysis), Por ejemplo, para un estudio de volatilidad no dirigida en caramelos Mentos, los grupos de datos producidos por GEMNA fueron mejores que los de las técnicas tradicionales, es decir, GEMNA consigue una silhouette score = 0.409, vs el enfoque tradicional que consigue una silhouette score = −0.004.
dc.description.abstractMass spectrometry (MS)-based metabolomics analysis is a powerful tool, but it comes with its own set of challenges. The MS workflow involves multiple steps before its interpretation in what is denominate data mining. Data mining consists of a two-step process. First, the MS data is ordered, arranged, and presented for filtering before being analyzed. Second, the filtered and reduced data are analyzed using statistics to remove further variability. This holds true particularly for MS-based untargeted metabolomics studies, which focused on understanding fold changes in metabolic networks. Since the task of filtering and identifying changes from a large dataset is challenging, automated techniques for mining untargeted MS-based metabolomic data are needed. The traditional statistics-based approach tends to overfilter raw data, which may result in the removal of relevant data and lead to the identification of fewer metabolomic changes. This limitation of the traditional approach underscores the need for a new method. In this work, we present a novel deep learning approach using node embeddings (powered by Graph Neural Networks), edge embeddings, and anomaly detection algorithm to analyze the data generated by MS-based metabolomics called GEMNA (Graph Embedding-based Metabolomics Network Analysis), for example for an untargeted volatile study on Mentos candy, the data clusters produced by GEMNA were better than the ones used traditional tools, i.e., GEMNA has silhouette score = 0.409, vs the traditional approach has silhouette score = −0.004.
dc.identifier.urihttp://hdl.handle.net/20.500.12404/31234
dc.language.isoeng
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-sa/2.5/pe/
dc.subjectEspectometría de masas
dc.subjectRedes neuronales (Computación)
dc.subjectTeoría de grafos
dc.subjectAprendizaje profundo (Aprendizaje automático)
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#2.00.00
dc.titleExploratory analysis of mass spectrometry data based on graph embeddings
dc.typeinfo:eu-repo/semantics/doctoralThesis
renati.advisor.dni10802782
renati.advisor.orcidhttps://orcid.org/0000-0001-9206-1537
renati.author.dni44421404
renati.discipline732028
renati.jurorBuettner, Florian
renati.jurorIbañez Gabilondo, Alfredo Jesus
renati.jurorBeltran Castañon, Cesar Armando
renati.jurorMartínez Bruno, Odemir
renati.jurorDechant , Reinhard
renati.levelhttps://purl.org/pe-repo/renati/level#doctor
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineIngenieríaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgradoes_ES
thesis.degree.levelDoctoradoes_ES
thesis.degree.nameDoctor en Ingenieríaes_ES

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
ALVAREZ_MAMANI_EDWIN.pdf
Tamaño:
3.96 MB
Formato:
Adobe Portable Document Format
Descripción:
Texto completo
Cargando...
Miniatura
Nombre:
ALVAREZ_MAMANI_EDWIN_T.pdf
Tamaño:
13.94 MB
Formato:
Adobe Portable Document Format
Descripción:
Reporte de originalidad

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: