BALANCEAMIENTO DE DATOS EN EL CONTEXTO DE CLASIFICACIÓN SUPERVISADA

Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura

Resumen


En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).


Texto completo:

PDF

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


Copyright (c) 2018 Revista Científica Andina Science & Humanities