Quero saber detalhes sobre como o boxplot funciona.
(Imagem: Wikipédia - Diagrama de caixa)
Até quando o limite inferior e superior são desenhados no "bigode", e quando se tornam outliers?
Código:
dados <- sort(c(-3,-2,-1,0,1,2,3,10,-10)) # cria dados, diferentes para cada gráfico
boxplot(dados, main = paste(dados, collapse=", "),
ylim=c(-10,10),
col="lightblue") # cria bloxplot
abline(h = min(numeros):max(numeros), col = "gray", lty = "dotted") # desenha grade do gráfico
Mantenho os números de -3 até 3, mas altero os extremos de 4 até 10. O título de cada gráfico são os elementos usados para fazer o boxplot.
Com -4 até -8, todos os dados estão dentro dos bigodes. Os bigodes vão aumentando, conforme esperado. A distância interquartil (distância do primeiro quartil (2) até o terceiro quartil (-2)) é 4. A distância entre a mediana (0) e o limite do bigode (8) é 8, igual ao dobro da distância interquartil.
Com -9, os extremos já aparecem como outliers. O bigode acaba no 3 e -3, que são elementos dos dados.
E se a distribuição for assimétrica?
Agora, tento com uma distribuição assimétrica:
O maior quarto de dados, com no máximo 4, está todo dentro do bigode. O quarto quarto de dados vai apenas até -3, e deixa o outlier de fora. A mediana continua 0.
Nesta distribuição, todos os dados estão dentro dos bigodes, de -8 até 3. Destaco que o fim da caixa, no primeiro e terceiro quartis, são números quebrados, de 2,5 e -2,5, que não são elementos dos dados. Já os extremos dos bigodes são sim elementos dos dados.
Quando exatamente deixa de ser bigode e vira outlier?
Com a distância interquartil (DIQ) de 4, o bigode tem comprimento máximo de 6, que é igual a 1,5x DIQ.
Se tiver um milésimo a mais de distância, o bigode vai até o dado mais extremo que não ultrapasse o 1,5x DIQ. E aí aquele dado extremo vira outlier.
Nenhum comentário:
Postar um comentário