Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos

Lázaro Janier González Soler; Airel Pérez Suárez; Leonardo Chang Fernández

doi:10.5281/zenodo.7467480

Authors

Lázaro Janier González Soler Centro de Aplicaciones de Tecnologías de Avanzada
Airel Pérez Suárez Centro de Aplicaciones de Tecnologías de Avanzada
Leonardo Chang Fernández Centro de Aplicaciones de Tecnologías de Avanzada

DOI:

https://doi.org/10.5281/zenodo.7467480

Keywords:

Agrupamiento, Agrupamiento con traslape, Computación en GPU, Minería de Datos

Abstract

Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional O(n²) y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA DClus en términos de eficiencia y consumo de memoria.