Tendencia central frente a dispersión
En estadística descriptiva e inferencial, se utilizan varios índices para describir un conjunto de datos correspondiente a su tendencia central, dispersión y asimetría: las tres propiedades más importantes que determinan la forma relativa de la distribución de un conjunto de datos.
¿Qué es la tendencia central?
La tendencia central se refiere y ubica el centro de la distribución de valores. La media, la moda y la mediana son los índices más utilizados para describir la tendencia central de un conjunto de datos. Si un conjunto de datos es simétrico, tanto la mediana como la media del conjunto de datos coinciden entre sí.
Dado un conjunto de datos, la media se calcula tomando la suma de todos los valores de los datos y luego dividiéndola por el número de datos. Por ejemplo, los pesos de 10 personas (en kilogramos) se miden como 70, 62, 65, 72, 80, 70, 63, 72, 77 y 79. Luego, el peso medio de las diez personas (en kilogramos) puede ser calculado de la siguiente manera. La suma de los pesos es 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Media=(suma) / (número de datos)=710 / 10=71 (en kilogramos). Se entiende que los valores atípicos (puntos de datos que se desvían de la tendencia normal) tienden a afectar la media. Por lo tanto, en presencia de valores atípicos, la media por sí sola no dará una imagen correcta sobre el centro del conjunto de datos.
La mediana es el punto de datos que se encuentra en el medio exacto del conjunto de datos. Una forma de calcular la mediana es ordenar los puntos de datos en orden ascendente y luego ubicar el punto de datos en el medio. Por ejemplo, si una vez ordenado el conjunto de datos anterior se ve como 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Por lo tanto, (70+72)/2=71 está en el medio. A partir de esto, se ve que la mediana no necesita estar en el conjunto de datos. La mediana no se ve afectada por la presencia de valores atípicos. Por lo tanto, la mediana servirá como una mejor medida de la tendencia central en presencia de valores atípicos.
La moda es el valor que ocurre con mayor frecuencia en el conjunto de datos. En el ejemplo anterior, el valor 70 y 72 aparecen dos veces y, por lo tanto, ambos son modas. Esto muestra que, en algunas distribuciones, hay más de un valor modal. Si solo hay una moda, se dice que el conjunto de datos es unimodal, en este caso, el conjunto de datos es bimodal.
¿Qué es la dispersión?
La dispersión es la cantidad de dispersión de datos sobre el centro de la distribución. El rango y la desviación estándar son las medidas de dispersión más utilizadas.
El rango es simplemente el valor más alto menos el valor más bajo. En el ejemplo anterior, el valor más alto es 80 y el valor más bajo es 62, por lo que el rango es 80-62=18. Pero el rango no proporciona una imagen suficiente sobre la dispersión.
Para calcular la desviación estándar, primero se calculan las desviaciones de los valores de los datos con respecto a la media. La raíz cuadrada de la media de las desviaciones se llama desviación estándar. En el ejemplo anterior, las respectivas desviaciones de la media son (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 y (79 – 71)=8. La suma de cuadrados de desviación es (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 La desviación estándar es √(366/10)=6,05 (en kilogramos). A menos que el conjunto de datos esté muy sesgado, de esto se puede concluir que la mayoría de los datos están en el intervalo 71±6,05, y de hecho es así en este ejemplo en particular.
¿Cuál es la diferencia entre tendencia central y dispersión?
• La tendencia central se refiere y ubica el centro de la distribución de valores
• La dispersión es la cantidad de dispersión de datos sobre el centro de un conjunto de datos.