SMOTE-BD: An exact and scalable oversampling method for imbalanced classification in big data

Basgall, María José; Hasperué, Waldo; Naiouf, Ricardo Marcelo; Fernández, Alberto; Herrera, Francisco

doi:10.24215/16666038.18.e23

Mostrar el registro sencillo del ítem

dc.contributor.author

Basgall, María José Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Hasperué, Waldo Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Naiouf, Ricardo Marcelo Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Fernández, Alberto Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Herrera, Francisco

dc.date.available

2020-04-20T21:00:13Z

dc.date.issued

2018-12

dc.identifier.citation

Basgall, María José; Hasperué, Waldo; Naiouf, Ricardo Marcelo; Fernández, Alberto; Herrera, Francisco; SMOTE-BD: An exact and scalable oversampling method for imbalanced classification in big data; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 18; 3; 12-2018; 203-209

dc.identifier.issn

1666-6046

dc.identifier.uri

http://hdl.handle.net/11336/103095

dc.description.abstract

El volumen de datos en las aplicaciones de hoy en día ha significado un cambio en la forma de abordar los problemas de Machine Learning. De hecho, el escenario Big Data implica restricciones de escalabilidad que sólo se pueden lograr a través del diseño de modelos inteligentes y el uso de tecnologías distribuidas. En este contexto, las soluciones basadas en la plataforma Spark se han establecido como un estándar de facto. En esta contribución, nos centramos en un marco muy importante dentro de Big Data Analytics, a saber, la clasificación con conjuntos de datos desequilibrados. La principal característica de este problema es que una de las clases está sub-representada y, por lo tanto, generalmente es más complejo encontrar un modelo que la identifique correctamente. Por esta razón, es común aplicar técnicas de preprocesamiento como el sobremuestreo, para equilibrar la distribución de ejemplos en las clases. En este trabajo presentamos SMOTE-BD, un enfoque de preprocesamiento totalmente escalable para la clasificación no balanceada en Big Data. El mismo se basa en una de las soluciones de preprocesamiento más extendidas para la clasificación desequilibrada, a saber, el algoritmo SMOTE, el cual crea nuevas instancias sintéticas de acuerdo con la vecindad de cada ejemplo de la clase minoritaria. Nuestro novedoso desarrollo está hecho para ser independiente de la cantidad de particiones o procesos creados, para lograr un mayor grado de eficiencia. Los experimentos realizados en diferentes conjuntos de datos estándar y de Big Data muestran la calidad del diseño y la implementación propuestos.

dc.description.abstract

The volume of data in today´s applications has meant a change in the way Machine Learning issues are addressed. Indeed, the Big Data scenario involves scalability constraints that can only be achieved through intelligent model design and the use of distributed technologies. In this context, solutions based on the Spark platform have established themselves as a de facto standard. In this contribution, we focus on a very important framework within Big Data Analytics, namely classification with imbalanced datasets. The main characteristic of this problem is that one of the classes is underrepresented, and therefore it is usually more complex to find a model that identifies it correctly. For this reason, it is common to apply preprocessing techniques such as oversampling to balance the distribution of examples in classes.In this work we present SMOTE-BD, a fully scalable preprocessing approach for imbalanced classification in Big Data. It is based on one of the most widespread preprocessing solutions for imbalanced classification, namely the SMOTE algorithm, which creates new synthetic instances according to the neighborhood of each example of the minority class. Our novel development is made to be independent of the number of partitions or processes created to achieve a higher degree of efficiency. Experiments conducted on different standard and Big Data datasets show the quality of the proposed design and implementation.

dc.format

application/pdf

dc.language.iso

eng

dc.publisher

Universidad Nacional de La Plata. Facultad de Informática

dc.rights

info:eu-repo/semantics/openAccess

dc.rights.uri

https://creativecommons.org/licenses/by-nc/2.5/ar/

dc.subject

GRANDES DATOS

dc.subject

CLASIFICACIÓN NO BALANCEADA

dc.subject

PROCESAMIENTO

dc.subject

SMOTE

dc.subject

SPARK

dc.subject.classification

Ciencias de la Computación Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

CIENCIAS NATURALES Y EXACTAS Se ha confirmado la validez de este valor de autoridad por un usuario

dc.title

SMOTE-BD: An exact and scalable oversampling method for imbalanced classification in big data

dc.title

SMOTE-BD: Un método de sobremuestreo exacto y escalable para la clasificación no balanceada en big data

dc.type

info:eu-repo/semantics/article

dc.type

info:ar-repo/semantics/artículo

dc.type

info:eu-repo/semantics/publishedVersion

dc.date.updated

2020-04-02T13:54:59Z

dc.identifier.eissn

1666-6038

dc.journal.volume

18

dc.journal.number

3

dc.journal.pagination

203-209

dc.journal.pais

Argentina

dc.journal.ciudad

La Plata

dc.description.fil

Fil: Basgall, María José. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina

dc.description.fil

Fil: Hasperué, Waldo. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina

dc.description.fil

Fil: Naiouf, Ricardo Marcelo. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.description.fil

Fil: Fernández, Alberto. Universidad de Granada; España

dc.description.fil

Fil: Herrera, Francisco. Universidad de Granada; España

dc.journal.title

Journal of Computer Science and Technology

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/doi/http://dx.doi.org/10.24215/16666038.18.e23

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/url/http://journal.info.unlp.edu.ar/JCST/article/view/1122

Archivos asociados

Tamaño: 841.1Kb

Formato: PDF

Descargar