Socs: um acrônimo útil para descrever distribuições


Nas estatísticas, muitas vezes queremos compreender como um conjunto de dados é distribuído. Em particular, há quatro coisas que é útil saber sobre uma distribuição:

1 . Forma

  • A distribuição é simétrica ou distorcida para um lado?
  • A distribuição é unimodal (um pico) oubimodal (dois picos)?

2. Valores discrepantes

  • Há algum outlier presente na distribuição?

3. Centro

  • Qual é a média, mediana e modo de distribuição?

4. Espalhar

  • Quais são o intervalo, intervalo interquartil, desvio padrão e variância da distribuição?

SOCS é um acrônimo útil que podemos usar para lembrar essas quatro coisas. Significa “forma, outliers, centro, propagação”.

Vejamos um exemplo simples de como usar SOCS para descrever uma distribuição.

Exemplo: como usar SOCS para descrever uma distribuição

Digamos que temos o seguinte conjunto de dados que mostra a altura de uma amostra de 20 plantas diferentes.

Veja como podemos usar o SOCS para descrever essa distribuição de valores de dados.

Forma

Primeiro, queremos descrever a forma da distribuição.

Uma forma útil de visualizar a forma da distribuição é criar um histograma, que exibe as frequências de cada valor no conjunto de dados:

A distribuição é simétrica ou distorcida para um lado?   No histograma podemos ver que a distribuição é aproximadamente simétrica. Em outras palavras, os valores não são tendenciosos para um lado ou para outro.

A distribuição é unimodal (um pico) ou bimodal (dois picos)? A distribuição é unimodal. Tem um pico no valor “7”.

Valores discrepantes

A seguir, queremos determinar se há algum outlier no conjunto de dados. A partir do histograma podemos inspecionar visualmente a distribuição e ver que 22 é potencialmente um valor discrepante:

Exemplo de histograma usando SOCS em estatísticas

Uma forma comum de definir formalmente um valor discrepante é qualquer valor que seja 1,5 vezes o intervalo interquartil acima do terceiro quartil ou abaixo do primeiro quartil.

Usando a calculadora de intervalo interquartil, podemos inserir os 20 valores de dados brutos e ver que o terceiro quartil é 9 , o intervalo interquartil é 3 e, portanto, qualquer valor maior que 9 + (1,5*3) = 13,5 é um valor discrepante, por definição.

Como 22 é maior que 13,5, podemos declarar 22 como um valor discrepante.

Centro

Queremos então descrever onde está localizado o centro da distribuição. Três medidas comuns de tendência central que podemos usar são a média, a mediana e a moda.

Média: Este é o valor médio da distribuição. Descobrimos isso somando todos os valores individuais e depois dividindo pelo número total de valores:

Média = (8+4+6+7+7+6+7+8+6+11+8+22+10+9+9+7+5+7+6+4) / 20 = 7,85

Mediana: Este é o valor “médio” da distribuição. Descobrimos isso ordenando todos os valores do menor para o maior e depois identificando o valor mediano. Acontece que são 7 .

4, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7 , 7, 8 , 8, 8, 9, 9, 10, 11, 22

Moda: Este é o valor que aparece com mais frequência. Acontece que são 7 .

Espalhar

A seguir, queremos descrever a distribuição de valores na distribuição. Quatro medidas comuns de dispersão que podemos usar são intervalo, intervalo interquarílico, desvio padrão e variância.

Faixa: Esta é a diferença entre o maior e o menor valor no conjunto de dados. Isso resulta em 22 – 4 = 18 .

Intervalo interquartil: mede a largura dos 50% intermediários dos valores dos dados. Inserindo os 20 valores de dados brutos na calculadora do intervalo interquartil, podemos ver que isso é igual a 3 .

Desvio padrão: Esta é uma medida da distribuição média dos valores dos dados. Inserindo os 20 valores de dados brutos na calculadora de variância e desvio padrão, podemos ver que o desvio padrão é igual a 3,69 .

Variância: Este é simplesmente o desvio padrão, ao quadrado. Isso é igual a 3,69 2 = 13,63 .

Conclusão

Usando o SOCS como guia, conseguimos descrever a distribuição da altura das plantas da seguinte forma:

  • A distribuição era unimodal e simétrica, ou seja, tinha apenas um pico e não era distorcida para um lado ou para outro.
  • A distribuição tinha um outlier: 22.
  • A distribuição teve média de 7,85, mediana de 7 e moda de 7.
  • A distribuição teve intervalo de 18, intervalo interquartil de 3, desvio padrão de 3,69 e variância de 13,63.

Observe que podemos usar SOCS para descrever qualquer distribuição, o que é uma forma útil para entendermos completamente a forma de uma distribuição, se ela tem outliers, onde está aproximadamente o centro e como distribuir os valores dos dados. são.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *