La diferencia clave entre la clasificación y el árbol de regresión es que en la clasificación las variables dependientes son categóricas y no ordenadas, mientras que en la regresión las variables dependientes son valores enteros continuos u ordenados.
La clasificación y la regresión son técnicas de aprendizaje para crear modelos de predicción a partir de los datos recopilados. Ambas técnicas se presentan gráficamente como árboles de clasificación y regresión, o más bien diagramas de flujo con divisiones de datos después de cada paso, o más bien, “rama” en el árbol. Este proceso se llama partición recursiva. Campos como Minería utilizan estas técnicas de aprendizaje de clasificación y regresión. Este artículo se centra en el árbol de clasificación y el árbol de regresión.
¿Qué es la clasificación?
La clasificación es una técnica utilizada para llegar a un esquema que muestra la organización de los datos a partir de una variable precursora. Las variables dependientes son las que clasifican los datos.
Figura 01: Minería de datos
El árbol de clasificación comienza con la variable independiente, que se ramifica en dos grupos según lo determinado por las variables dependientes existentes. Su objetivo es dilucidar las respuestas en forma de categorización provocadas por las variables dependientes.
¿Qué es la regresión?
La regresión es un método de predicción que se basa en un valor de salida numérico supuesto o conocido. Este valor de salida es el resultado de una serie de particiones recursivas, en la que cada paso tiene un valor numérico y otro grupo de variables dependientes que se ramifican en otro par como este.
El árbol de regresión comienza con una o más variables precursoras y termina con una variable de salida final. Las variables dependientes son variables numéricas continuas o discretas.
¿Cuál es la diferencia entre clasificación y regresión?
Clasificación frente a regresión |
|
Un modelo de árbol donde la variable objetivo puede tomar un conjunto discreto de valores. | Un modelo de árbol en el que la variable objetivo puede tomar valores continuos, normalmente números reales. |
Variable dependiente | |
Para el árbol de clasificación, las variables dependientes son categóricas. | Para el árbol de regresión, las variables dependientes son numéricas. |
Valores | |
Tiene una cantidad determinada de valores desordenados. | Tiene valores discretos pero ordenados o valores indiscretos. |
Propósito de la construcción | |
El propósito de construir el árbol de regresión es ajustar un sistema de regresión a cada rama determinante de manera que surja el valor de salida esperado. | Un árbol de clasificación se ramifica según lo determinado por una variable dependiente derivada del nodo anterior. |
Resumen: clasificación frente a regresión
Los árboles de regresión y clasificación son técnicas útiles para mapear el proceso que apunta a un resultado estudiado, ya sea en la clasificación o en un solo valor numérico. La diferencia entre el árbol de clasificación y el árbol de regresión es su variable dependiente. Los árboles de clasificación tienen variables dependientes que son categóricas y desordenadas. Los árboles de regresión tienen variables dependientes que son valores continuos o valores enteros ordenados.