Medidas de tendência central

Livre

0
0
18
1 year ago
Preview
Full text

Estatística Medidas Descritivas Gustavo Costa

  2009.2

Tipos

  • Medidas de Posição
    • – Médias e Separatrizes

  • Medidas de Dispersão (variação)
    • – Amplitudes, desvios e variância

  • Medidas de Assimetria • Medidas de Curtose (achatamento)

Medidas de tendência central

  • • Tendem a estar no meio da distribuição

    • – Médias

  • Aritmética
  • Geométrica
  • Quadrática
  • Harmônica
    • – Mediana – Moda

Média Aritmética ( )

  n

x

  x i

  ∑ i 1 =

  • Simples: x Ponderada:

  = n

  • Para dados agrupados em classes a média é calculada como a média ponderada dos f x i i
  • x =f pontos médios de cada classe usando suas i

      ∑ respectivas frequências absolutas.

      f m ⋅ i i

      ∑

      x = f i

      ∑

    Outras Médias

    • Geométrica n

      = ⋅ ⋅ ⋅ g x x ... x 1 2 n

    • – • Ex.: aumentos percentuais médios
      • Quadrática
      • 2 2 2 x x ... x + + + q = 1 2 n

      • – n
        • Harmônica

        n h =

      • – 1

        1

        1 + + + ... x x x 1 2 n

      • Ex.: velocidade média

      Exemplos

      • Uma empresa produziu nos três primeiros meses do ano 500, 200 e 200 unidades. Qual a produção mensal média?
      • Uma empresa aumento sua produção no primeiro bimestre do ano. Em janeiro e fevereiro as taxas foram, respectivamente, 21% e 8%. Qual a taxa média de aumento mensal neste período?
      • Um carro percorre metade de um percurso retilíneo de extensão d com velocidade v e a outra metade

        1

      Mediana

      • Mediana (Md)
        • – Elemento que ocupa a posição central na distribuição ordenada, isto é, divide um rol em duas partes iguais de modo que 50% dos valores observados são inferiores ao valor mediano e 50% superiores a este valor.

        

      n ímpar n par

      • x x

        n n Md x =

      • 1

        2 n 1

      • 2

        Md =

        2

        2 Moda

      • Moda (Mo) – Elemento que ocorre com maior frequência.
      • Relação entre média, mediana e moda:
        • – No caso de distribuições unimodais, a mediana está frequentemente compreendida entre a média e a moda (inclusive mais perto da média). Para distribuições pouco simétricas, a mediana é mais recomendada, embora a média seja a mais utilizada, em geral.

      Exemplos

      • Considere as distribuições:
      • A: 5,6,6,7,8,9,10,10
        • – – Md = 7,5
        • – Mo = 6 e 10 (bimodal)

        = 7,63 x

      • B: 5,6,6,7,8,9,10,95
        • – x = 18,23 (sensível a valores extremos)
        • – Md = 7,5
        • – Mo = 6

      • C: 5,6,7,8,9

        x

      • – = 7
      • – Md = 7
      • – Mo = não há

        

      Com dados tabuláveis (classes)

      • Mediana

        n − Fc i 1 −

        2 Md = + l h ⋅ i i

      • – f i
        • n/2: posição do elemento mediano (i: nº da cla
        • Moda (Czuber)

        f − f i i 1 − Mo l = + ⋅ h

      • – i i

        (f − f ) (f + − f )

      • i i 1 − i i 1

        Observação

        156 m

        10 156

        ├

        160 154,0

        6

        6 152

        ├

        i

        158,0

        Fc

        

      i

        f

        i

        Alturas

        Exemplo: calcular , Md e Mo x

        x

        16

        8 160 ├ 164

        52 Total 178,0

        176 170,0

        52

        2 176 ├ 180

        174,0

        50

        7 172

        ├

        43

        24

        3 168

        ├

        172 166,0

        40

        16 164

        ├

        168 162,0

      • – –
        • Observe as seguintes distribuições:

      • – A: 4,5,6,7,8,9,10
      • – B: 6,6,6,7,8,8,8
        • Ambas apresentam a mesma média:
        • = 7
        • Esta medida não diferencia A de B, para isto usamos as medidas de dispersão ou variabilidade.

        Resumo

      Separatrizes (quantis)

      • • São medidas de posição utilizadas para

        calcular valores da variável que dividem a distribuição em partes iguais.
      • Tipos:
        • – Mediana (Md);
        • – Quartis (Q );

        i

      • – Decis (D );

        i

      • – Percentis ou centis (C );

        i

      Fórmula Padrão

      • A expressão abaixo é utilizada para qualquer tipo de separatriz:

        P Fc −

        i 1 −

        separatriz l h = + ⋅

      • – i i

        f

        i

      • O parâmetro P depende do tipo de separatriz e assume os valores:

        k n k n k n ⋅ ⋅ ⋅

      • – , , 4 10 100
        • O valor de k é a posição do quantil desejado e o denominador é de acordo com o tipo: 4 para quartil, 10 para decil e 100 para percentil.

      Exemplo

      • Queremos dividir estas

        Alturas f Fc

        i i

        pessoas em cinco grupos 152 156

        ├

        6

        6 de alturas de modo que 156 ├ 160

        10 16 os 10% mais baixos sejam o grupo A, os 15% 160 164

        ├

        8

        24 seguintes, o grupo B, os 164 ├ 168

        16

        40 próximos 35%, o grupo C, mais 15% para o grupo D

        168 172

        ├

        3

        43 e os 25% restantes 172 ├ 176

        7

        50 formem o grupo E. Quais os limites de alturas para

        176 180

        ├

        2

        52 estas categorias?

      Exemplo

      • Um hospital apresenta em seus leitos um consumo de eletricidade em Kwh, de acordo com a tabela a seguir. Calcule: a) A média do consumo de energia em Kwh.

        b) A moda e a mediana.

        c) Os quartis Q1, Q2 e Q3

        d) Monte um Box-plot que represente essa situação.

        e) Faça um comentário dessa análise. i Consumo Número i Consumo Número de energia (Kwh) de energia (Kwh) de leitos ( de leitos ( f f i ) ) i

        1 1 10 | 30 --- 10 |

        30

        8 8 --- --- 2 30 |

        50

        19 --- 2 30 |

        50

        19 --- 3 --- 3 50 | 50 |

        70

        70

        17 4 70 |

        17

        90 15 --- --- 4 70 |

        90

        15

        5 5 90 | 90 | --- 110 --- 110

        32

        32

        6 6 110 | 110 | 130 130 --- ---

        28 7 150 130 | ---

        28

        26 7 150 130 | ---

        26 ---

        8 8 150 | 150 | 170 170 18 ---

        18 9 --- --- 9 170 | 170 | 190 190

        10 total n = total n = f f = =

        10

      Medidas de Dispersão

      • Retomando o exemplo:
        • – A: 4,5,6,7,8,9,10
        • – B: 6,6,6,7,8,8,8

      • • Ambas apresentam a mesma média: 7

      • As medidas de dispersão nos dão informações que podem caracterizar as diferenças entre essas duas distribuições.

      Medidas de Dispersão

      • • As principais medidas de dispersão

        que estudaremos são:
        • – Amplitude total (AT);
        • – Desvio;
        • – Desvio Padrão (S e σ);

        2

        2 – Variância (S e ).

        

      σ

      • Amplitude total (AT):
        • – Diferença entre os valores extremos da distribuição: AT=max–min.

        >Menor amplitude implica em maior homogeneidade;
      • Pequena eficácia, pois só utiliza os valores extre
      • Intervalo interquartílico:
        • – É o intervalo entre os valores de (Q

        1

        ;Q

        3 ).

        

      Amplitude total e Intervalo Interquartílico

      • Dentro desta faixa de valores estão 50% dos dados mais centrais da distribuição.
      • Desvio: diferença entre o valor da variável e a média
        • – –

        i i d x x = − i i d (x x) 0 = − =

        ∑ ∑ Desvio

      Surgimento do Desvio Padrão

      • Laplace e o exército francês
        • – 100.000 soldados;
        • – 100.000 uniformes, sapatos ,etc.;
        • – Como perceber as diferenças?
        • – Como medir essas diferenças e reduzir os desperdícios e os custos?

      • Primeira solução: tomar os desvios e o

        total, mas o total é nulo, então eleva-se

        ao quadrado esses desvios.
      • Uma grandeza para avaliar se há

        discrepâncias (ainda que pequenas são

        detectadas) de um conjunto de dados em relação à média.

        2

      i

      2 i 1

        (x x) Var

      n

        = − = σ =

        ∑ Variância

      • – n

      Defeito da Variância

      • A unidade da variância (por ex. da distribuição dos pesos) seria o quadrado da

        2 unidade das medidas (kg ao invés de kg).

        Isto ajuda na comparação de duas

      distribuições, mas tem pouco sentido no

      exame da distribuição em si.

      • Solução: calculamos sua raiz quadrada.
      • Surge o Desvio Padrão procurado por Laplace.

      Desvio Padrão

      • Esta medida caracteriza o conjunto de

        dados e define um padrão de variação

        em relação à média.

        n

        2 (x − x) i

        ∑

        σ = • n

        2 Desvio Padrão (S) e Variância (S ) amostrais

      • Quando o desvio padrão e a variância são calculados a partir de uma amostra, são chamados de amostrais e mudam sua fórmula para:

        n n

        2

        2 (x − x) (x − x) i i

        ∑ ∑ 2 = = i 1 i 1

        S = e S =

      • n 1 − n 1 −

        

      A curva Normal: distribuição padrão

        Histogramas e a curva Normal

      Teorema de Chebyshev

      • Teorema de Chebyshev – para qualquer distribuição:
      • 2<

        • – Para qualquer número k &gt; 1, pelo menos (1–1/k ) dos valores de dados se posicionam dentro dos limites de k desvios padrão em relação à média.
        • – Ex: k=2
        • 2<
        • – 1 – 1/(2) = 1 - ¼ = ¾ = 0,75 = 75%

      Teorema da curva Normal

        Para distribuições • simétricas (quanto mais simétrica, mais preciso).

        1 DP

        1 DP

        1 DP

        1 DP

        1 DP

        1 DP 68,2%

        95,4% 99,8%

      Outra medida de variação

      • • Coeficiente de variação de Pearson (CV)

        • – Usado para comparar o grau de concentração dos dados em torno da média de duas séries distintas.
        • – Pode-se também classificar uma distribuição pelo CV:

      • Variabilidade pequena CV&lt;10%, média entre 10% e 20% e grande CV&gt;20%.

        σ

      • CV =
      • Relação entre média, mediana e moda
      • Coeficientes de Assimetria de Pearson –

        S − −

        = = σ 1 3 AS 3 1 Q Q

      • − =

        2Md C Q Q

      • – • Zona de normalidade (valores normais)
      • – Para distribuições assimétricas: AS x Mo x Mo C ou AS

        −

        (x ;x ) − σ + σ Assimetria Tipos de Assimetria

      Curtose (achatamento)

      • • Curva padrão: Mesocúrtica (K=0,263)

      • • Curva delgada (pontuda): Leptocúrtica

        (K&lt;0,263)
      • • Curva aberta (achatada): Platicúrtica

        (K&gt;0,263)
      • Coeficiente de Curtose

        Q − Q 3 1

      • – K =

        2(D − D ) 9 1

Novo documento