BALANCEAMIENTO DE DATOS EN EL CONTEXTO DE CLASIFICACIÓN SUPERVISADA

Ivar Vargas Belizario; Rodolfo Fredy Arpasi Chura

doi:10.35306/rcaep.v1i1.480

BALANCEAMIENTO DE DATOS EN EL CONTEXTO DE CLASIFICACIÓN SUPERVISADA

Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura

Resumen

En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).

Texto completo:

PDF

DOI: http://dx.doi.org/10.35306/rcaep.v1i1.480

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

Nombre de usuario
Clave
Recordar mis datos

Revista Científica Andina Science & Humanities

BALANCEAMIENTO DE DATOS EN EL CONTEXTO DE CLASIFICACIÓN SUPERVISADA

Resumen

Texto completo:

Enlaces de Referencia