Imagen del encabezado de la página

IV Congreso Internacional de Ingeniería Informática y Sistemas de Información

Desarrollo distribuido del algoritmo para la detección de factores anómalos locales en Apache Spark

Lester Guerra Denis

Resumen

El desarrollo alcanzado con las tecnologías de la información y las comunicaciones han resultado en un crecimiento de todos los datos almacenados y/o intercambiados electrónicamente. Las técnicas de minería de datos son capaces de extraer conocimiento a partir de esos datos almacenados. Una de las tareas de la minería de datos es la detección de anomalías. Cuando el volumen de datos almacenado no puede ser procesado por las infraestructuras tradicionales se necesitan otras formas más eficientes de procesar la información. El procesamiento paralelo de la información, es un tipo de procesamiento que permite la ejecución de varios procesos concurrentemente, logrando impresionantes poderes de cálculo.

El objetivo de este trabajo es desarrollar el algoritmo para la detección de factores anómalos locales para que sea ejecutado en Apache Spark el cual implementa el modelo de programación MapReduce. Son propuestas dos variantes, la primera es determinista y la segunda es más eficiente que la primera pero de resultados aproximados. A partir de los experimentos realizados y los resultados obtenidos con las pruebas de hipótesis no paramétricas queda demostrado que las variantes propuestas disminuyen los tiempos de ejecución en relación a su variante secuencial.


Palabras claves

factores anómalos locales; procesamiento paralelo; MapReduce; Apache Spark