Hola!!
El
tema de hoy parece un poco complicado al principio pero después una
vez que se entiende bien con ejemplos es pan comido!
En
él vamos a tratar las medidas de tendencia central, posición y
dispersión. Hay tres grandes tipos de medidas
estadísticas:
- Medidas de posición: dan idea de la magnitud, tamaño o posición de las observaciones de los datos una vez que están ordenados de menor a mayor.
- Medidas de tendencia central: dan idea del comportamiento central de los sujetos.
- Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de los sujetos, es decir, si son muy diferentes entre sí o no.
MEDIDAS
DE TENDENCIA CENTRAL
x=
Ʃx/n
Cuando
los datos están agrupados (dos intervalos), para calcular la media
utilizamos como valor de referencia de cada intervalo su marca de
clase: se calcula una media aritmética ponderada que se
calcula sumando la marca de clase por la frecuencia absoluta, entre
N.
x=
Ʃmc (marca de clase)fi
/n
Mediana:
medida
de posición y central. Es el valor de la observación
tal que deja a un 50% de los datos menor y otro 50% de los datos
mayor.
- Si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición (n+1/2) Ejemplo: si son 75, pues 76 entre 2 = 38, la mediana seria la edad que tiene el sujeto 38.
- Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1. Ejemplo: cuatro sujetos de edades, 10, 15, 20, 25, cogemos los dos sujetos centrales y hacemos la media aritmética entre ambos.
Para que sea más sencillo de comprender, os dejo un vídeo en el que se explica con mucha claridad el cálculo de estas tres medidas.
MEDIDAS DE POSICIÓN O CUANTILES
Se
calculan para variables cuantitativas y, al igual que la
mediana, sólo tienen en cuenta la posición ordenado de mayor
o menor de los valores en la muestra.
Los
cuantiles más usuales son los percentiles, los deciles y
los cuartiles, según dividan la muestra ordenada en 100
(perciles), 10 (deciles) ó 4 partes (cuartiles), respectivamente.
- Percentiles: Dividen la muestra ordenada en 100 partes. El percentil “i” (Pi), es aquél valor que, ordenadas las observaciones en forma creciente, el i% de ellas son menores que él y el (100-i)% restante son mayores.
- Deciles: Dividen la muestra ordenada en 10 partes. El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores.
- Cuartil: Dividen la muestra ordenada en 4 partes.
- El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
- El Q2, segundo cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
- El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores.
- El Q4, cuarto cuartil indica el valor mayor que se alcanza en la serie numérica.
MEDIDAS
DE DISPERSIÓN
Para
que sea más fácil su compresión, vamos a explicarlo a través de
un ejemplo:
Serie
1: 18,19,20,21,22
Serie
2: 9,14,20,27,30
Realizamos
la media y la mediana de ambas series, nos van a dar tanto la media
como la media un valor de 20 para ambas series. ¿Qué es lo que
diferencia a una de la otra? La dispersión. La cual vamos a
determinarla a través del rango o recorrido, se determina de
la siguiente manera:
Diferencia entre el mayor y el menor valor de la muestra lXn-X1l
Por
lo tanto, para la serie 1 → Re = lXn-X1l
→
→ Re
= l22-18l = 4
Por
lo tanto, para la serie 2 → Re = lXn-X1l
→
→ Re
= l30-9l = 21
Cuan
más valor tenga el recorrido, mayor es la dispersión, por lo tanto
la serie dos tiene más dispersión que la serie 1
Desviación
Media: Media
aritmética de las distancias de cada observación con respecto a la
media de la muestra.
Desviación
típica o estándar: Cuantifica
el error que cometemos si presentamos una muestra únicamente por su
media. Esta es la que más se emplea debido a que el rango de error
que nos da es mayor.
La calculamos a partir de la siguiente fórmula:
Varianza:
Nos expresa la misma información que la desviación típica pero en
valores cuadráticos. Se calcula a partir de:
Recorrido
intercuartílico: Diferencia
entre el tercer y el primer cuartil = lQ3-Q1l
Coeficiente
de variación: Es
una medida de dispersión relativa (adimensional) ya que todas las
demás se expresan en la unidad de medida de la variable. Nos sirve
para comparar la heterogeneidad de dos series numéricas con
independencia de las unidades de medidas. Se expresa sin unidades.
El coeficiente de variación tiene un valor entre 0-1
DISTRIBUCIONES
NORMALES
La
definición que damos a las distribuciones normales en estadística
es la siguiente: a una de las distribuciones de probabilidad de
variable continua que con más frecuencia aparece en fenómenos
reales. También podemos denominarla ''Distribución
de Gauss'' o
''Distribución
gaussiana'',
estos nombres vienen dados porque las distribuciones normales viene
en forma de campana de Gauss en los histogramas; es simétrica
respecto de los valores de posición central, es decir que la moda va
a coincidir con la media y la mediana.
Esta
curva es la que conocemos como ''Campana
de Gauss''
Una
distribución normal sigue estos principios básicos: si al
valor de la media le restamos y le sumamos una desviación típica,
si la serie numérica siguiera una distribución normal, el 68.25% de
las observaciones se va a sumar entre los valores de la suma y la
resta de la media a una desviación típica. Estos datos varían si
sumamos una, dos o tres desviaciones típicas.
- S 68,26% de las observaciones.
- 2xS95,45% de las observaciones.
- 3xS 99,73% de las observaciones.
ASIMETRÍA
Y CURTOSIS
Asimetrías:
Los
resultados pueden ser los siguientes:
g1=0
(distribución simétrica; existe la misma concentración de valores
a la derecha y a la izquierda de la media).
g1>0
(distribución asimétrica positiva; existe mayor concentración de
valores a la derecha de la media que a su izquierda).
g1<0
(distribución asimétrica negativa; existe mayor concentración de
valores a la izquierda de la media que a su derecha).
Curtosis o apuntamiento de la curva.
No
tiene relación con la simetría. Coeficiente de apuntamiento o
curtosis de una variable, sirve para medir el grado de concentración
de los valores que toma en torno a su media. Los datos se acumulan
mucho, mientras mas se acumulen, mas apuntada esta la curva.
- g2=0 (distribución mesocúrtica o normal). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
- g2>0 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
- g2<0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
No hay comentarios:
Publicar un comentario