...

25 deseado _ clases _de_ número rango i ≅

by user

on
Category: Documents
2

views

Report

Comments

Transcript

25 deseado _ clases _de_ número rango i ≅
5.0 ESTADÍSTICOS PARA DATOS AGRUPADOS.
Para organizar los datos a medida que el número de observaciones crece, es necesario condensar
más los datos en tablas apropiadas, a fin de presentar, analizar e interpretar los resultados en
forma correcta. Entonces, se pueden agrupar los datos en clases o categorías de acuerdo con
divisiones establecidas en forma que conviene al intervalo de observaciones.
5.1 Distribución de Frecuencias. Es una tabla de resumen en el cual los datos se colocan en
agrupamientos o categorías establecidas en forma conveniente de clases ordenadas
numéricamente.
Al construir una tabla de distribución de frecuencias, se debe tener en cuidado en la seleccionar el
número de clases adecuado para obtener un intervalo de clase, o ancho, conveniente y establecer
las fronteras de cada clase sin que se traslapen.
5.2 Selección del número de clases. Depende del número de observaciones, una mayor cantidad
de observaciones requiere un mayor número de clases. Sin embargo por lo general la distribución
de frecuencias debe tener como mínimo 5 clases, pero no más de 15.
Obtención del Intervalo de clase. Al desarrollar una tabla de distribución de frecuencias, es
conveniente que cada intervalo de clase tenga la misma medida o ancho.
El ancho del intervalo lo simbolizaremos con la letra i donde:
i≅
rango
número _ de _ clases _ deseado
Ejemplo 17. En la tabla 7 se muestra los rendimientos totales a un año que alcanzaron los 59
fondos de crecimiento.
Tabla 7 de rendimientos de un fondo de crecimiento.
20,4
28,9
31,9
33,4
38,2
43,6
Rendimientos Totales a un año de 59 fondos de crecimiento
23,8 25,6 26,2 27,6 27,7 28,3 28,6 28,8 28,9
29,3 29,3 29,5 29,9 30,1 31,5 31,6 31,6 31,8
32,1 32,3 32,3 32,4 32,8 32,9 32,9 33,0 33,3
33,7 33,8 34,0 34,0 34,3 34,7 34,7 34,8 35,0
39,0 39,4 40,7 41,1 42,8 42,9 43,3 43,4 43,5
43,7 44,6 44,7 45,4 45,7 46,6 48,0 48,6
Determine el ancho del intervalo si se desean 6 clases, construya una tabla de distribución de
frecuencias.
Valor mínimo = 20,4
Valor máximo = 48,6
Rango = 48,6 – 20,4 = 28,2
i=
28,2
= 4,7
6
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
25
El valor de 4,7 lo aproximamos a 5,0 siempre se hace por exceso. Es necesario que se discuta que
pasa si se quieren 5, 7 u 8 clases o intervalos. Aquí cabe resaltar que también existen otros
métodos para calcular el número de intervalos, pero se ha tomado el más sencillo, observe como
quedan distribuidos los datos en la tabla 8.
Tabla 8 de intervalos o clases.
Rendimiento Total Frecuencia
Intervalos
ni
20
25
2
25
30
13
30
35
24
35
40
4
40
45
11
45
50
5
59
5.4 Establecimiento de las fronteras de clase. Como cada intervalo de clase se estableció en 5,0
se deben definir las fronteras para que incluyan el conjunto completo de observaciones. Estas se
deben elegir de forma tal que facilite la lectura e interpretación de los datos. Así el primer valor de
clase se puede establecer de 20,0 a menos de 25 es decir matemáticamente [20.0, 25,0) que se
lee intervalo cerrado por izquierda y abierto por derecha y así sucesivamente hasta completar las
seis clases, cada una con i = 5,0 sin traslapes.
5.5 Punto Medio de clase. También conocido como marca de clase, es el punto que está en la
mitad de las fronteras de cada clase y es representativo de los datos que están en esta clase, si
tenemos que la clase esta entre 25,0 y menos de 30,0 [25.0, 30.0) la marca de clase para este
25 + 30
intervalo es de 27,5 que resulta de
= 27,5 en este módulo simbolizaremos la marca de
2
clase como Xi
5.6 Distribución de Frecuencias Relativas. La simbolizaremos con hi se obtiene al dividir las
frecuencias de absolutas en cada clase de la distribución de frecuencias entre el número total de
observaciones, se aclara en este aparte que la frecuencia absoluta se refiere al número de
observaciones que se encuentran en cada intervalo o clase, lo simbolizaremos con ni .
5.7 Distribución de Frecuencia Acumulada. Se obtiene a partir de la distribución de frecuencias
relativas o la distribución de porcentajes, al observar la tabla 9 del ejemplo 18 se aprecia el método
para su elaboración, la simbolizaremos con Hi.
Ejemplo 18. Para los datos del ejemplo 17 construya una tabla de distribución de frecuencias
donde se muestre la marca de clase Xi, las frecuencias absolutas ni, las frecuencias relativas hi
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
26
Tabla 9 de Distribución de frecuencias.
Rendimiento Total
Marca de
Frecuencia % Frecuencia
Frecuencia
clase
relativa
relativa
Intervalos
20
25
25
30
30
35
35
40
40
45
45
50
Xi
22,5
27,5
32,5
37,5
42,5
47,5
ni
2
13
24
4
11
5
59
hi
0,034
0,220
0,407
0,068
0,186
0,085
1,000
% hi
3,4
22,0
40,7
6,8
18,6
8,5
100,0
Frecuencia
relativa
acumulada
% Frec.
relativa
acumulada
Hi
0,034
0,254
0,661
0,729
0,915
1,000
% Hi
3,4
25,4
66,1
72,9
91,5
100,0
Observe las frecuencias relativas acumuladas la celda de la primera clase no varia, la celda de la
segunda clase de la frecuencia relativa acumulada se obtiene de sumar 0,034 + 0,220 = 0,254, la
tercera celda de la tercera clase es la suma de 0,254 + 0,407 = 0,661 y así sucesivamente.
Ejemplo 19. Elabore un grafico de barras y uno poligonal con los datos del ejemplo 17.
Solución Para elaborar un grafico de barras tendremos en cuenta la marca de clase, el gráfico
realizado con Excel nos queda.
Gráfica 4 de barras para rendimientos totales fondos de crecimiento.
Rendimientos Totales a un año de 59 fondos de
crecimiento
30
25
ni
20
15
10
5
0
22,5
27,5
32,5
37,5
42,5
47,5
Xi
Para elaborar el un gráfico de barras como el anterior en Excel se procede así
•
•
•
•
•
Señale con el Mouse los valores de las frecuencias absolutas ni.
Luego de clic sobre el icono de Asistente para Gráficos.
Al desplegarse la ventana de clic en siguiente.
De clic en la pestaña donde dice Serie
Donde dice Rótulos del eje de categorías (x): de clic en la matriz de este.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
27
•
•
•
•
Seleccione con el Mouse los valores de la marca de clase.
Luego de clic en siguiente.
De clic en la pestaña Títulos, escriba los títulos correspondientes como los del gráfico 4.
De clic en finalizar.
Para realizar un gráfico poligonal con la ayuda de Excel, los pasos son similares a los anteriores
pero, aquí es necesario agregar un intervalo al inicio y otro al final para poder cerrar el polígono,
observe el arreglo que se hace en la tabla 10 y la forma en que debe quedar en la gráfica 5.
Tabla 10 Modificación de la tabla para la construcción del gráfico poligonal.
Marca de
clase
Rendimiento Total
Intervalos
15
20
25
30
35
40
45
50
Frecuencia
Xi
17,5
22,5
27,5
32,5
37,5
42,5
47,5
52,5
20
25
30
35
40
45
50
55
ni
0
2
13
24
4
11
5
0
59
% Frec.
relativa
acumulada
% Hi
0
3,4
25,4
66,1
72,9
91,5
100,0
Gráfica 5. Gráfico poligonal para los rendimientos totales de fondos de crecimiento.
ni
Rendimientos Totales a un año de 59 fondos de crecimiento
30
25
20
15
10
5
0
17,5
22,5
27,5
32,5
37,5
42,5
47,5
52,5
Xi
5.8 Histograma. El histograma es una gráfica de barras verticales que se construyen en los límites
de cada clase, se utiliza para representar las distribuciones de frecuencias.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
28
Gráfico 6. Histograma que representa la distribución de los Rendimientos totales fondos de
crecimiento.
30
24
25
20
13
15
11
10
5
4
2
5
0
20
25
30
35
40
45
50
Si se quiere construir un histograma como el presentado en la grafica 6, Excel no lo proporciona
directamente, necesitamos proceder de la siguiente manera:
•
•
•
•
•
•
•
•
•
•
•
•
Escriba en una celda (puede ser A12) los limites de los intervalos a partir de 20 hasta 50
dejando 6 o 7 espacios entre cada número debe verse así: 20
25
30
35
40
45
50
Con los datos de la tabla 9 señale con el Mouse los datos de las frecuencias absolutas ni.
Luego presione el icono de Asistente para gráficos y de clic en el botón Siguiente.
En el paso 2 de clic series en Filas.
Luego de clic en la pestaña Serie que esta en la parte superior.
Donde dice Rótulos del eje de categorías (x)
De clic en la matriz que esta al frente.
Luego de clic en la celda A12 o donde escribió los valores de los límites.
Vuelva y despliegue la ventana.
De clic en siguiente paso 3. busque la pestaña donde dice Rótulos de datos, y de clic en el
cuadro de Valor.
Puede escribirle Títulos etc.
Por último de clic en finalizar.
5.9 Polígono Acumulado u Ojiva. Es la representación grafica de una distribución acumulada, se
escriben los fenómenos de interés en el eje horizontal y en el eje vertical se representa la
proporción o porcentaje de observaciones acumuladas. Observe como queda el gráfico 7 una vez
terminado, realice la gráfica con los datos de la tabla 10.
Gráfico 7 Ojiva o polígono de frecuencias acumuladas para los rendimientos totales de
fondos de crecimiento
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
29
120
100
91,5
%Hi
80
66,1
60
100
72,9
40
25,4
20
0
0
17,5
3,4
22,5
27,5
32,5
37,5
42,5
47,5
Xi
También con ayuda de Excel se puede construir una curva suavizada de la ojiva donde nos
muestra los cambios bruscos si los hay de una distribución de datos, cuando es normal esta se
aprecia un punto de inflexión, pero cuando la distribución es como la del ejemplo se presenta
varios puntos de inflexión o cambios de curvatura.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
30
5.10 Ejercicios.
1º La tabla 11 muestra las alturas en centímetros de 60 árboles de pino sembrados por un
ecologista, construir la tabla de frecuencias con 7 intervalos, haga un polígono de frecuencias,
histograma y la ojiva.
Tabla 11 altura en milímetros
738
728
745
733
735
732
729
737
736
730
732
737
743
736
742
732
735
731
740
735
740
730
737
746
736
724
728
739
734
735
741
733
738
734
732
729
735
742
725
738
736
730
731
736
733
739
741
734
726
739
734
727
736
740
737
735
732
735
744
735
2º La tabla 12 muestra los puntajes del cociente intelectual (CI) de 50 estudiantes de tercer grado
de un instituto educativo, con base en estos puntajes construya una tabla de frecuencias con 7
intervalos, construya el polígono de frecuencias, el histograma y el polígono de frecuencias
acumulado, repita el ejercicio pero con 8 intervalos.
86 91 104 113 125 101 114 105 101 88
126 118 100 111 125 109 119 91 106 120
109 104 112 101 113 100 106 105 121 128
93 89 124 96 105 95 91 106 93 88
89 100 115 98 108 88 99 120 101 108
5.11 Media aritmética para datos agrupados. El concepto es el mismo que se había visto para
datos no agrupados, se puede considerar como el punto de equilibrio en una distribución cuando el
tamaño de la muestra es mayor de 30 observaciones.
5.11.1 Propiedades de la media aritmética
•
la suma algebraica de las desviaciones de un conjunto de números de su media aritmética
es cero. En forma algebraica esta propiedad es
•
•
•
∑ (X i
− X) = 0
La media es sensible al valor exacto de todos los datos en la distribución, una modificación
en cualquier dato provocará un cambio en la media.
La media es muy sensible a los datos extremos.
La suma de los cuadrados de las desviaciones de todos los datos en torno a su media es
la mínima. En forma algebraica, ∑ ( X i − X) es mínima. Esta propiedad establece que
aunque la suma de las desviaciones cuadradas en torno a la media no siempre es igual a
cero, es la menor si consideramos las desviaciones cuadradas en torno a cualquier otro
valor
Para un gran número de circunstancias, de todas las medidas utilizadas para calcular la
tendencia central, la media es la que esta menos sujeta a la variación debido al muestreo.
(la media varia menos que las otras medidas de tendencia central) esto es importante en
la estadística inferencial.
2
•
5.11.2 Cálculo de la Media Aritmética. Se puede utilizar la siguiente fórmula para el cálculo.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
31
n
∑ Xini
X=
i=1
Esto si son para muestras de tamaño n, o bien.
n
N
∑ Xini
µ=
i=1
N
Esto si se considera una población.
Ejemplo 20. Calcule el valor de la media aritmética para los datos del ejemplo 17.
Sol. Es necesario calcular primero los valores para cada Xi *ni, esto se hace con la tabla 13:
Tabla 13 Rendimientos de un fondo financiero.
Intervalos
20
25
25
30
30
35
35
40
40
45
45
50
X=
Xi
22,5
27,5
32,5
37,5
42,5
47,5
ni
2
13
24
4
11
5
∑ = 59
Xi*ni
45
357,5
780,0
150,0
467,5
237,5
∑ = 2037,5
2037,5
= 34,53
59
Lo que nos indica que el rendimiento promedio aproximado en el año para los 59 fondos es de
34,53 unidades.
Otras medidas de posición o tendencia central son la media geométrica, la media armónica, media
cuadrática y la media cúbica.
5.11.3 Media Geométrica G. La media geométrica G de una serie de n números Xi es la raíz nsima del producto de los números
G = n X 1 X 2 X 3 L X n para datos no agrupados
G=
X 1n1 X n2 2 L X nn i para datos agrupados
Ventajas
a)
b)
c)
d)
Se utiliza cuando se quiere dar importancia a valores pequeños de la variable.
Es sensible a cualquier cambio en los valores de la distribución.
Su valor es muy influenciable por los datos extremos.
Es muy indispensable cuando se desea sacar el promedio de una serie de valores que
están en progresión geométrica o aproximadamente geométrica.
La desventaja es por los cálculos matemáticos.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
32
5.11.4 Media Armónica H. La media armónica H de una serie de datos X1 . . . Xn es la recíproca
de la media aritmética de los recíprocos de los números
H=
1
n
1
1
∑
n j=1 X j
=
H=
∑
n
1
∑
X
para datos no agrupados
n
Para datos agrupados
ni
Xi
La media armónica se usa especialmente cuando van a promediarse relaciones que son inversas
proporcionales como es el tiempo en relación a la velocidad.
5.12 Ejercicios.
1º para los ítems 1 y 2 del ejercicio 5.10 hallar la media aritmética.
2º para los ítems 1 y 2 del ejercicio 5.10 hallar la media aritmética, la media geométrica y la media
armónica y comprobar si se cumple que H ≤ G ≤ X .
5.13 La Moda.
La moda de una serie de datos es aquel valor que se presenta con la mayor frecuencia, es decir el
valor más común. La moda puede no existir, incluso si existe puede no ser única.
Ejemplo 21. La serie de datos 2, 2, 3, 3, 3, 4, 5, 6, 7 tiene de moda 3
La serie de datos 15, 17, 10, 13, 11, 20. No tiene moda
La serie de datos 2, 3, 5, 6, 6, 6, 8, 8, 9, 10, 10, 10. Tiene dos modas se conoce como bimodal
Una distribución que tiene una sola moda se llama unimodal, en el caso de datos agrupados donde
se ha construido una curva de frecuencias, para ajustar los datos, la moda será el valor o valores
de X correspondientes al máximo de la curva, este valor se representa por X̂ .
La formula a utilizar es la siguiente
 ∆1
x̂ = L i + 
 ∆1 + ∆ 2

i

donde
Li = límite real inferior de la clase modal
∆1 = Exceso de la frecuencia modal sobre la frecuencia de clase contigua inferior
∆ 2 = Exceso de la frecuencia modal sobre la frecuencia de clase contigua superior
i = tamaño del intervalo.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
33
OU OT
X̂ − L1 L 2 − X̂
=
o también
=
PQ RS
∆1
∆2
X̂ =
∆ 1 L 2 + ∆ 2 L1
y como L2 = + i se tiene que
∆1 + ∆ 2
 ∆1
x̂ = L i + 
 ∆1 + ∆ 2

i

5.13.1 Ventajas de la moda.
En series polimodales, la moda permite dividir la distribución con fines de estratificación
La moda indica el punto de mayor concentración, si la distribución es muy asimétrica, entonces la
moda es el dato más representativo.
5.13.2 Desventajas.
•
•
•
La moda no es sensible a cambio de valores de la distribución, a menos que afecte su
propio valor.
La moda es muy inestable en el muestreo.
En series agrupadas el cálculo de la moda no es muy confiable.
5.14 Cálculo de la Mediana para datos AGRUPADOS. La mediana se calcula por interpolación y
viene dada por
 n − (Σ f)

i
Me = L i +  2
fMe




i


Donde Li = Límite real inferior de la clase que contiene a la mediana (es decir, la clase que
contiene a la mediana)
n = número total de datos (es decir, frecuencia total)
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
34
(Σf ) i = suma de todas las frecuencias de todas las clase por debajo de la mediana
fMe = frecuencia de la clase mediana
i = tamaño del intervalo de la clase Mediana.
Geométricamente, la mediana es el valor de X(abscisa) que corresponde a la vertical que divide a
un Histograma en dos partes de igual área. En otras palabras representa el 50% de los datos, Para
calcular la mediana es necesario ordenar los datos
5.14.1 Propiedades de la mediana.
•
•
•
La mediana es menos sensible que la media a los datos extremos
Bajo circunstancias usuales, la mediana está más sujeta a la variabilidad de la muestra que
la media.
Con la ecuación utilizada para hallar la mediana es posible encontrar cuartiles, deciles y
Percentiles interpolado algunos términos.
5.14.2 Cálculo del cuartil uno. Lo simbolizaremos con Q1 y representa el primer 25% de los datos
ordenados.
 0,25n − (∑ f i ) 
*i
Q1 = Li + 


f
Q1


Donde Li = Límite real inferior de la clase que contiene a Q1 (es decir, la clase que
cuartil uno)
contiene al
n = número total de datos (es decir, frecuencia total)
(Σf ) i = suma de todas las frecuencias de todas las clase por debajo del cuartil uno
f Q1 = frecuencia de la clase del cuartil uno
i = tamaño del intervalo de la clase del cuartil uno.
5.14.3 Cálculo del cuartil tres. Lo simbolizaremos con Q3 y representa el primer 75% de los datos
ordenados.
 0,75n − (∑ f i ) 
*i
Q3 = Li + 


f
Q
3


Donde Li = Límite real inferior de la clase que contiene a Q3 (es decir, la clase que
cuartil tres)
contiene al
n = número total de datos (es decir, frecuencia total)
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
35
(Σf ) i = suma de todas las frecuencias de todas las clase por debajo del cuartil tres.
f Q1 = frecuencia de la clase del cuartil tres
i = tamaño del intervalo de la clase del cuartil uno.
De manera similar se puede calcular deciles y Percentiles, también es conveniente tener en cuenta
que la mediana es lo mismo que el cuartil dos Q2, o es igual al decil cinco D5 que es lo mismo que
el Percentil 50 P50.
Ejemplo 22. Considere la tabla 14 y encuentre la media, mediana, posteriormente halle los
cuartiles el P10 P35 P60 y P90.
Tabla 14 Calculo de la mediana.
Intervalos
120 127
127 134
134 141
141 148
148 155
155 162
ni
Xi
4
9
13
15
5
4
Σ = 50
ni * Xi
Para calcular la mediana hallamos:
1º
n
= 0,5n = 0,5*50 = 25
2
2º ubicamos en cuál intervalo se encuentran las 25 primeras observaciones, en este caso, se
ubica la clase mediana en el tercer intervalo 134 - 141 puesto que si sumamos 4 + 9 + 13 = 26.
3º Hallamos el valor para Li. en este caso el limite inferior corresponde a 134, a este valor se le
resta media unidad es decir 0,5, lo que nos queda: Li = 134 – 0,5 = 133,5
4º hallamos
(Σf ) i = 4 + 9 = 13
5º fMe = 13
6º i = 7
Una vez identificados los términos de la ecuación que determinan la mediana aplicamos la fórmula.
 25 − 13 
Me = 133,5 + 
7 = 139,96 ≈ 140
 13 
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
36
El anterior resultado nos indica que el 50% de las observaciones se encuentra entre 120 y 140.
5.15 Ejercicio
1º Para el ejemplo 22 calcule Q1, Q2, Q3, P10 P35 P60 y P90 interprete cada uno de los resultados.
2º Para la tabla 14 del ejemplo 22 calcule el valor de la moda.
3º La tabla 15 contiene las calificaciones obtenidas en un examen de ingles de segundo año.
Tabla 15 calificaciones de Ingles entre 0 y 100 puntos
60
72
55
45
82
84
84
93
63
94
85
90
76
78
69
69
56
73
75
64
88
73
68
77
77
67
89
82
78
81
68
70
81
81
71
78
72
75
64
85
71
87
87
83
81
57
62
91
73
78
79
79
72
93
92
49
79
83
69
64
64
82
72
75
70
66
85
98
72
72
78
76
85
94
68
71
65
55
55
62
73
77
72
67
87
61
76
76
82
90
91
84
74
57
83
68
68
49
76
Para los datos de la tabla 15 realice lo siguiente:
A.
B.
C.
D.
E.
F.
Construya una tabla de frecuencias con 8 intervalos.
Construya el polígono de frecuencias, el histograma y la ojiva.
Calcule el valor de la media, la mediana, la moda e interprete cada uno de los resultados.
Construya un diagrama de caja o Box Plot.
Calcule P10 y el P90, interprete estos valores.
Construya una tabla de resumen en Excel donde muestre: valor mínimo, valor máximo,
rango, rango medio, eje medio, media aritmética, moda, mediana, construya los gráficos
del literal B, compare los resultados obtenidos.
Juan Díaz Valencia. Esp. Estadística Aplicada. E-mail [email protected]
37
Fly UP