Población frente a desviación estándar de la muestra
En estadística, se utilizan varios índices para describir un conjunto de datos correspondiente a su tendencia central, dispersión y asimetría. La desviación estándar es una de las medidas más comunes de dispersión de datos desde el centro del conjunto de datos.
Debido a dificultades prácticas, no será posible hacer uso de datos de toda la población cuando se prueba una hipótesis. Por lo tanto, empleamos valores de datos de muestras para hacer inferencias sobre la población. En tal situación, estos se denominan estimadores, ya que estiman los valores de los parámetros de la población.
Es extremadamente importante usar estimadores imparciales en la inferencia. Se dice que un estimador es insesgado si el valor esperado de ese estimador es igual al parámetro de la población. Por ejemplo, usamos la media muestral como un estimador insesgado de la media poblacional. (Matemáticamente, se puede demostrar que el valor esperado de la media muestral es igual a la media poblacional). En el caso de estimar la desviación estándar de la población, la desviación estándar de la muestra también es un estimador imparcial.
¿Qué es la desviación estándar de la población?
Cuando se pueden tener en cuenta los datos de toda la población (por ejemplo, en el caso de un censo), es posible calcular la desviación estándar de la población. Para calcular la desviación estándar de la población, primero se calculan las desviaciones de los valores de los datos de la media de la población. La raíz cuadrada media (media cuadrática) de las desviaciones se denomina desviación estándar de la población.
En una clase de 10 estudiantes, los datos sobre los estudiantes se pueden recopilar fácilmente. Si se prueba una hipótesis en esta población de estudiantes, entonces no hay necesidad de usar valores de muestra. Por ejemplo, los pesos de los 10 estudiantes (en kilogramos) se miden para ser 70, 62, 65, 72, 80, 70, 63, 72, 77 y 79. Entonces, el peso medio de las diez personas (en kilogramos) es (70+62+65+72+80+70+63+72+77+79)/10, que es 71 (en kilogramos). Esta es la media de la población.
Ahora, para calcular la desviación estándar de la población, calculamos las desviaciones de la media. Las desviaciones respectivas de la media son (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 y (79 – 71)=8. La suma de los cuadrados de la desviación es (-1)2 + (-9)2 + (-6)2 + 1 2 + 92 + (-1)2 + (-8)2+ 12 + 62 + 82 =366. La desviación estándar de la población es √(366/10)=6,05 (en kilogramos). 71 es el peso medio exacto de los alumnos de la clase y 6.05 es la desviación estándar exacta del peso de 71.
¿Qué es la desviación estándar de la muestra?
Cuando se utilizan datos de una muestra (de tamaño n) para estimar los parámetros de la población, se calcula la desviación estándar de la muestra. Primero se calculan las desviaciones de los valores de los datos de la media de la muestra. Dado que la media muestral se usa en lugar de la media poblacional (que se desconoce), no es apropiado tomar la media cuadrática. Para compensar el uso de la media muestral, la suma de los cuadrados de las desviaciones se divide por (n-1) en lugar de n. La desviación estándar de la muestra es la raíz cuadrada de esto. En símbolos matemáticos, S=√{∑(xi-ẍ)2 / (n-1)}, donde S es la desviación estándar de la muestra, ẍ es la media de la muestra y xi son los puntos de datos.
Ahora supongamos que, en el ejemplo anterior, la población son los estudiantes de toda la escuela. Entonces, la clase será sólo una muestra. Si se utiliza esta muestra en la estimación, la desviación estándar de la muestra será √(366/9)=6.38 (en kilogramos) ya que 366 se dividió por 9 en lugar de 10 (el tamaño de la muestra). El hecho a observar es que no se garantiza que este sea el valor exacto de la desviación estándar de la población. Es simplemente una estimación.
¿Cuál es la diferencia entre la desviación estándar de la población y la desviación estándar de la muestra?
• La desviación estándar de la población es el valor exacto del parámetro que se usa para medir la dispersión desde el centro, mientras que la desviación estándar de la muestra es un estimador imparcial de la misma.
• La desviación estándar de la población se calcula cuando se conocen todos los datos de cada individuo de la población. De lo contrario, se calcula la desviación estándar de la muestra.
• La desviación estándar de la población viene dada por σ=√{ ∑(xi-µ)2/ n} donde µ es la media de la población y n es el tamaño de la población pero el la desviación estándar de la muestra viene dada por S=√{ ∑(xi-ẍ)2 / (n-1)} donde ẍ es la media de la muestra y n es el tamaño de la muestra.