Medidas de tendência central

18 

Full text

(1)

Estatística

Medidas Descritivas

Gustavo Costa

2009.2

Tipos

• Medidas de

Posição

– Médias e Separatrizes

• Medidas de

Dispersão

(variação)

– Amplitudes, desvios e variância

• Medidas de

Assimetria

(2)

• Tendem a estar no meio da distribuição

– Médias

• Aritmética • Geométrica • Quadrática • Harmônica

– Mediana

– Moda

Medidas de tendência central

i i i f x x

f

⋅ =∑

x

• Simples: Ponderada:

• Para dados agrupados em classes a média é calculada como a média ponderada dos pontos médios de cada classe usando suas respectivas frequências absolutas.

n

i i 1

x x

n

= =

i i

i

f m x

f

⋅ =

(3)

n

1 2 n

g= x ⋅x ⋅... x⋅

1 2 n

n h

1 1 1 ... x x x

=

+ + +

• Geométrica

• Ex.: aumentos percentuais médios

• Quadrática

• Harmônica

• Ex.: velocidade média

2 2 2

1 2 n

x x ... x

q

n

+ + +

=

Outras Médias

• Uma empresa produziu nos três primeiros meses do ano 500, 200 e 200 unidades. Qual a produção mensal média?

• Uma empresa aumento sua produção no primeiro bimestre do ano. Em janeiro e fevereiro as taxas foram, respectivamente, 21% e 8%. Qual a taxa média de aumento mensal neste período?

(4)

n 1 2

Md x

=

+

• Mediana (Md)

– Elemento que ocupa a posição central na

distribuição ordenada, isto é, divide um rol em duas partes iguais de modo que 50% dos valores

observados são inferiores ao valor mediano e 50% superiores a este valor.

n ímpar n par

n n

1

2 2

x

x

Md

2

+

+

=

Mediana

• Moda (Mo)

– Elemento que ocorre com maior frequência.

• Relação entre média, mediana e moda:

– No caso de distribuições unimodais, a mediana está frequentemente compreendida entre a média e a moda (inclusive mais perto da média). Para distribuições pouco simétricas, a mediana é mais recomendada, embora a média seja a mais utilizada, em geral.

(5)

• Considere as distribuições: • A: 5,6,6,7,8,9,10,10

– = 7,63 – Md = 7,5

– Mo = 6 e 10 (bimodal)

• B: 5,6,6,7,8,9,10,95

– = 18,23 (sensível a valores extremos) – Md = 7,5

– Mo = 6

• C: 5,6,7,8,9

– = 7 – Md = 7 – Mo = não há

x x x

Exemplos

• Mediana –

• n/2: posição do elemento mediano (i: nº da classe) • Moda (Czuber)

• i: nº da classe modal (de maior frequência)

i 1 i i i n Fc 2 Md l h

f

− = + ⋅

i i 1 i i

i i 1 i i 1

f f Mo l h

(f f ) (f f )

− +

− = + ⋅

− + −

(6)

– – 52 Total 178,0 52 2

176├180

174,0

50 7

172├176

170,0

43 3

168├172

166,0

40 16

164├168

162,0

24 8

160├164

158,0

16 10

156├160

154,0

6 6

152├156

mi Fci

fi Alturas

Exemplo: calcular , Md e Mo

x

• Observe as seguintes distribuições:

– A: 4,5,6,7,8,9,10 – B: 6,6,6,7,8,8,8

• Ambas apresentam a mesma média: • = 7

• Esta medida não diferencia A de B, para isto usamos as medidas de dispersão ou

variabilidade.

x

(7)

Resumo

• São medidas de posição utilizadas para

calcular valores da variável que dividem a

distribuição em partes iguais.

• Tipos:

– Mediana (Md); – Quartis (Qi); – Decis (Di);

(8)

• A expressão abaixo é utilizada para

qualquer tipo de separatriz:

• O parâmetro P depende do tipo de separatriz e assume os valores:

• O valor de k é a posição do quantil desejado e o denominador é de acordo com o tipo: 4 para quartil, 10 para decil e 100 para percentil.

i 1 i i

i

P Fc separatriz l h

f

− = + ⋅

k n k n k n

, ,

4 10 100

⋅ ⋅ ⋅

Fórmula Padrão

– 52 Total 52 2

176├180

50 7

172├176

43 3

168├172

40 16

164├168

24 8

160├164

16 10

156├160

6 6

152├156

Fci fi

Alturas • Queremos dividir estas pessoas em cinco grupos de alturas de modo que os 10% mais baixos sejam o grupo A, os 15% seguintes, o grupo B, os próximos 35%, o grupo C, mais 15% para o grupo D e os 25% restantes formem o grupo E. Quais os limites de alturas para estas categorias?

(9)

• Um hospital apresenta em seus leitos um consumo de eletricidade em Kwh, de acordo com a tabela a seguir. Calcule:

a) A média do consumo de energia em Kwh. b) A moda e a mediana.

c) Os quartis Q1, Q2 e Q3

d) Monte um Box-plot que represente essa situação.

e) Faça um comentário dessa análise.

Exemplo

n =

n = ΣΣffii= =

10 10 18 18 26 26 28 28 32 32 15 15 17 17 19 19 8 8 Número Número

de leitos (

de leitos (ffii))

170 |

170 |------190190 9

9

150 |

150 |------170170 8

8

110 |

110 |------130130 6

6

130 |

130 |------150150 7

7

total

total

90 |

90 |------110110

5

5

70 |

70 |------9090 4

4

50 |

50 |------7070 3

3

30 |

30 |------5050 2

2

10 |

10 |------3030 1

1

Consumo

Consumo

de energia (Kwh)

de energia (Kwh)

i

(10)

• Retomando o exemplo:

– A: 4,5,6,7,8,9,10 – B: 6,6,6,7,8,8,8

• Ambas apresentam a mesma média: 7

• As medidas de dispersão nos dão

informações que podem caracterizar as

diferenças entre essas duas

distribuições.

Medidas de Dispersão

• As principais medidas de dispersão

que estudaremos são:

– Amplitude total (AT);

– Desvio;

– Desvio Padrão (S e

σ

);

– Variância (S

2

e

σ

2

).

(11)

• Amplitude total (AT):

– Diferença entre os valores extremos da distribuição: AT=max–min.

• Menor amplitude implica em maior homogeneidade;

• Pequena eficácia, pois só utiliza os valores extremos.

• Intervalo interquartílico:

– É o intervalo entre os valores de (Q1;Q3).

• Dentro desta faixa de valores estão 50% dos dados mais centrais da distribuição.

Amplitude total e Intervalo Interquartílico

• Desvio: diferença entre o valor da

variável e a média

i i

d

= −

x

x

i i

d

=

(x

x) 0

=

∑ ∑

(12)

• Laplace e o exército francês

– 100.000 soldados;

– 100.000 uniformes, sapatos ,etc.; – Como perceber as diferenças?

– Como medir essas diferenças e reduzir os desperdícios e os custos?

• Primeira solução: tomar os desvios e o

total, mas o total é nulo, então eleva-se

ao quadrado esses desvios.

Surgimento do Desvio Padrão

• Uma grandeza para avaliar se há

discrepâncias (ainda que pequenas são

detectadas) de um conjunto de dados em

relação à média.

n

2 i

2 i 1

(x

x)

Var

n

=

= σ =

(13)

• A unidade da variância (por ex. da

distribuição dos pesos) seria o quadrado da

unidade das medidas (kg

2

ao invés de kg).

Isto ajuda na comparação de duas

distribuições, mas tem pouco sentido no

exame da distribuição em si.

• Solução: calculamos sua raiz quadrada.

• Surge o Desvio Padrão procurado por

Laplace.

Defeito da Variância

• Esta medida caracteriza o conjunto de

dados e define um padrão de variação

em relação à média.

n

2 i

i 1

(x

x)

n

=

σ =

(14)

• Quando o desvio padrão e a variância são calculados a partir de uma amostra, são

chamados de amostrais e mudam sua fórmula para:

n n

2 2

i i

2 i 1 i 1

(x

x)

(x

x)

S

e S

n 1

n 1

= =

=

=

Desvio Padrão (S) e Variância (S2) amostrais

(15)

Histogramas e a curva Normal

• Teorema de Chebyshev – para qualquer distribuição:

– Para qualquer número k > 1, pelo menos (1–1/k2)

dos valores de dados se posicionam dentro dos limites de k desvios padrão em relação à média. – Ex: k=2

– 1 – 1/(2)2= 1 - ¼ = ¾ = 0,75 = 75%

(16)

1 DP 1 DP

1 DP 1 DP 1 DP 1 DP

99,8% 95,4% 68,2%

• Para distribuições simétricas (quanto mais simétrica, mais preciso).

Teorema da curva Normal

• Coeficiente de variação de Pearson (CV)

– Usado para comparar o grau de concentração dos dados em torno da média de duas séries distintas.

– Pode-se também classificar uma distribuição pelo CV:

• Variabilidade pequena CV<10%, média entre 10% e 20% e grande CV>20%.

• CV

x

σ =

(17)

• Relação entre média, mediana e moda

• Coeficientes de Assimetria de Pearson

• Zona de normalidade (valores normais)

– Para distribuições assimétricas:

AS

x Mo x Mo

C ou AS

S

− −

= =

σ

1 3

AS

3 1

Q Q 2Md C

Q Q + − =

(x− σ;x+ σ)

Assimetria

(18)

• Curva padrão: Mesocúrtica (K=0,263)

• Curva delgada (pontuda): Leptocúrtica

(K<0,263)

• Curva aberta (achatada): Platicúrtica

(K>0,263)

• Coeficiente de Curtose

3 1

9 1

Q Q

K

2(D D )

− =

Figure

Updating...

References

Updating...

Download now (18 página)