Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos

Authors

  • Lázaro Janier González Soler Centro de Aplicaciones de Tecnologías de Avanzada
  • Airel Pérez Suárez Centro de Aplicaciones de Tecnologías de Avanzada
  • Leonardo Chang Fernández Centro de Aplicaciones de Tecnologías de Avanzada

DOI:

https://doi.org/10.5281/zenodo.7467480

Keywords:

Agrupamiento, Agrupamiento con traslape, Computación en GPU, Minería de Datos

Abstract

Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional O(n2) y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA DClus en términos de eficiencia y consumo de memoria.

Downloads

Download data is not yet available.

Published

16-12-2015

How to Cite

González Soler, L. J., Pérez Suárez, A., & Chang Fernández, L. (2015). Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos. GECONTEC: Revista Internacional De Gestión Del Conocimiento Y La Tecnología, 3(2), 1–12. https://doi.org/10.5281/zenodo.7467480

Issue

Section

Articles