Desarrollo de una herramienta que permita la extracción de una taxonomía de un conjunto de documentos de un dominio específico usando CFinder para la extracción de conceptos clave
Abstract
Gracias a la World Wide Web la idea de información compartida alrededor del
mundo es común para todos, la información es ingresada desde diferentes fuentes
para que todos puedan verla y usarla. Una Smart Web o Semantic Web tiene como
objetivo estructurar los contenidos de forma tal que todo esté relacionado y por lo
tanto, presente información consistente. Para ello, se requieren de estructuras que
puedan ser accesadas por computadoras y contengan reglas de inferencia para un
razonamiento automático. Una de estas estructuras es la ontología. Una ontología
busca conceptualizar el conocimiento de un dominio específico valiéndose de
representaciones. Como primer paso para construir una ontología, se debe obtener
una taxonomía.
Una taxonomía es una clasificación de entidades de información a manera de
jerarquías. Las taxonomías ofrecen diversas ventajas como clasificar de la
información, realizar búsquedas de manera más eficaz y navegar entre muchos
conceptos, sin embargo, requieren mucho esfuerzo para ser construidas a mano.
Para poder construir una taxonomía en base a un grupo de documentos, primero se
debe extraer los conceptos más relevantes presentes en dichos textos. Luego, se
debe deducir la jerarquía se convertirá en la taxonomía.
Para extraer los conceptos más relevantes de un grupo de documentos, el método
CFinder ha probado ser muy útil y dar buenos resultados. El objetivo del CFinder es
que sea usado para la construcción de ontologías u otro tipo de estructura que
requiera una fase de extracción de conceptos clave. No obstante, no se ha
integrado con un método que permita estructurar la jerarquía entre los conceptos
extraídos.
En este proyecto se busca complementar el método CFinder con una fase para la
deducción de jerarquías entre los conceptos extraídos y la construcción de una
taxonomía, de esta manera, se está brindando una nueva opción para la
construcción automática de taxonomías. Para ello, se realiza la implementación de
una herramienta para la construcción automática de una taxonomía de un dominio
que haga uso del método CFinder.
El proyecto inicia con la implementación de un módulo que permite la extracción de
conceptos clave de un conjunto de documentos usando el método CFinder. Luego,
se procede a implementar un módulo que permita extraer una taxonomía usando
los conceptos clave extraídos. Finalmente, se realizan las pruebas necesarias para
medir la eficacia del método implementado y, con los resultados obtenidos, se
concluye que se alcanzó el objetivo principal del proyecto.
Temas
Web semántica
Inteligencia computacional
Tecnología de la información
Estructura de datos (Computación)
Inteligencia computacional
Tecnología de la información
Estructura de datos (Computación)
Para optar el título de
Ingeniero Informático