martes, 7 de junio de 2016

TEMA 8: Medidas de tendencia central, posición y dispersión

Hola!!
El tema de hoy parece un poco complicado al principio pero después una vez que se entiende bien con ejemplos es pan comido!

En él vamos a tratar las medidas de tendencia central, posición y dispersión. Hay tres grandes tipos de medidas estadísticas:
  • Medidas de posición: dan idea de la magnitud, tamaño o posición de las observaciones de los datos una vez que están ordenados de menor a mayor.
  • Medidas de tendencia central: dan idea del comportamiento central de los sujetos.
  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de los sujetos, es decir, si son muy diferentes entre sí o no.

MEDIDAS DE TENDENCIA CENTRAL

Media aritmética o media,(x): Es la suma de todos los valores de la variable observada entre el total de observaciones.
x= Ʃx/n

Cuando los datos están agrupados (dos intervalos), para calcular la media utilizamos como valor de referencia de cada intervalo su marca de clase: se calcula una media aritmética ponderada que se calcula sumando la marca de clase por la frecuencia absoluta, entre N.

x= Ʃmc (marca de clase)fi /n

Mediana: medida de posición y central. Es el valor de la observación tal que deja a un 50% de los datos menor y otro 50% de los datos mayor.

  • Si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición (n+1/2) Ejemplo: si son 75, pues 76 entre 2 = 38, la mediana seria la edad que tiene el sujeto 38.
  • Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1. Ejemplo: cuatro sujetos de edades, 10, 15, 20, 25, cogemos los dos sujetos centrales y hacemos la media aritmética entre ambos.
Moda: Es el valor con mayor frecuencia, es decir, el que más veces se repite. Si hay más de una se dice que la muestra es bimodal (dos modas) o multimodal (más de dos modas). Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud (se resta el intervalo mayor menos el menor) es mayor (hi/ci). Donde la frecuencia absoluta sea mayor.


Para que sea más sencillo de comprender, os dejo un vídeo en el que se explica con mucha claridad el cálculo de estas tres medidas. 


    MEDIDAS DE POSICIÓN O CUANTILES

Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición ordenado de mayor o menor de los valores en la muestra.
Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100 (perciles), 10 (deciles) ó 4 partes (cuartiles), respectivamente.
  • Percentiles: Dividen la muestra ordenada en 100 partes. El percentil “i” (Pi), es aquél valor que, ordenadas las observaciones en forma creciente, el i% de ellas son menores que él y el (100-i)% restante son mayores.
  • Deciles: Dividen la muestra ordenada en 10 partes. El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores.
  • Cuartil: Dividen la muestra ordenada en 4 partes.
    • El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
    • El Q2, segundo cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
    • El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores.
    • El Q4, cuarto cuartil indica el valor mayor que se alcanza en la serie numérica.
MEDIDAS DE DISPERSIÓN

Para que sea más fácil su compresión, vamos a explicarlo a través de un ejemplo:

Serie 1: 18,19,20,21,22
Serie 2: 9,14,20,27,30

Realizamos la media y la mediana de ambas series, nos van a dar tanto la media como la media un valor de 20 para ambas series. ¿Qué es lo que diferencia a una de la otra? La dispersión. La cual vamos a determinarla a través del rango o recorrido, se determina de la siguiente manera:

Diferencia entre el mayor y el menor valor de la muestra lXn-X1l

Por lo tanto, para la serie 1 → Re = lXn-X1l →
                                        → Re = l22-18l = 4
Por lo tanto, para la serie 2 → Re = lXn-X1l →
                                        → Re = l30-9l = 21

Cuan más valor tenga el recorrido, mayor es la dispersión, por lo tanto la serie dos tiene más dispersión que la serie 1 

Desviación Media: Media aritmética de las distancias de cada observación con respecto a la media de la muestra.
Desviación típica o estándar: Cuantifica el error que cometemos si presentamos una muestra únicamente por su media. Esta es la que más se emplea debido a que el rango de error que nos da es mayor.
La calculamos a partir de la siguiente fórmula:


Varianza: Nos expresa la misma información que la desviación típica pero en valores cuadráticos. Se calcula a partir de:



Recorrido intercuartílico: Diferencia entre el tercer y el primer cuartil = lQ3-Q1l

Coeficiente de variación: Es una medida de dispersión relativa (adimensional) ya que todas las demás se expresan en la unidad de medida de la variable. Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas. Se expresa sin unidades. 
El coeficiente de variación tiene un valor entre 0-1



DISTRIBUCIONES NORMALES

La definición que damos a las distribuciones normales en estadística es la siguiente: a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. También podemos denominarla ''Distribución de Gauss'' o ''Distribución gaussiana'', estos nombres vienen dados porque las distribuciones normales viene en forma de campana de Gauss en los histogramas; es simétrica respecto de los valores de posición central, es decir que la moda va a coincidir con la media y la mediana.
Esta curva es la que conocemos como ''Campana de Gauss''

Una distribución normal sigue estos principios básicos: si al valor de la media le restamos y le sumamos una desviación típica, si la serie numérica siguiera una distribución normal, el 68.25% de las observaciones se va a sumar entre los valores de la suma y la resta de la media a una desviación típica. Estos datos varían si sumamos una, dos o tres desviaciones típicas.

  • S 68,26% de las observaciones.
  • 2xS95,45% de las observaciones.
  • 3xS 99,73% de las observaciones.

ASIMETRÍA Y CURTOSIS

Asimetrías:

Los resultados pueden ser los siguientes:

g1=0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media).
g1>0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda).
g1<0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha).



Curtosis o apuntamiento de la curva.

No tiene relación con la simetría. Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Los datos se acumulan mucho, mientras mas se acumulen, mas apuntada esta la curva. 




  • g2=0 (distribución mesocúrtica o normal). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
  • g2>0 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  • g2<0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.



No hay comentarios:

Publicar un comentario