O gráfico de Box Plot (também conhecido como "Gráfico de Bigode" ou "Diagrama de Caixa") é uma ferramente usualmente utilizada quando se deseja verificar alguns parâmetros estatísticos e característicos de uma série de dados em estudo. Este gráfico fornece como resultado informações como: valores máximo e mínimo, amplitude amostral, quartis, mediana e outliers (valores atípicos que se distanciam significativamente da massa de dados). A partir destes parâmetros, pode-se ter uma ideia de como a distribuição de dados se comporta, ou seja, sua simetria, dispersão (ou variabilidade) e ocorrência de caudas.
Porém, sua utilização não é aplicada quando se deseja obter a média amostral ou o desvio padrão da mesma. Sendo assim, o gráfico de Box Plot é usualmente acompanhada de um histograma, contribuindo para uma visualização mais correta da distribuição dos dados.
O gráfico de Box Plot consiste em ser um retângulo que é formado pelos parâmetros de quartis (Primeiro Quartil - Q1, Segundo Quartil - Q2 - também chamado de mediana, Terceiro Quartil - Q3). O Q1 e Q3 representam, respectivamente, 25% e 75% dos dados amostrais, e estes são os "limites" do perímetro do retângulo. O Q2, por sua vez, representa a mediana e 50% dos dados amostrais, estando localizado no interior do retângulo, entre Q1 e Q3. A partir do retângulo, na sua parte inferior (Q1), uma linha é traçada até o ponto mais remoto que não seja menor que o limite inferior (LI). De modo similar, a partir da parte superior do retângulo (Q3), uma linha é traçada até o ponto mais remoto que não exceda o limite superior (LS) (Figura 1). O cálculo para o limite superior e inferior são apresentados abaixo:
LI = Q1 - 1,5 * (Q3 - Q1) = Q1 - 1,5 * (Distância Interquartil)
LS = Q3 + 1,5 * (Q3 - Q1) = Q3 + 1,5 * (Distância Interquartil)
Figura 1. Exemplo de Box Plot
A partir da análise de um gráfico de Box Plot, pode-se observar algumas caraterísticas dos dados, conforme citados abaixo:
- Variabilidade: Pode ser analisada conforme a distância interquartil (Q3 - Q1). Quando maior for o valor desta distância, maior será a variabilidade dos dados.
- Simetria: O conjunto de dados pode ser considerado simétrico quando a posição da linha do Segundo Quartil (Q2) estiver exatamente no meio do retângulo, ou seja, aproximadamente entre Q1 e Q3 a uma distância igual entre estes dois quartis.
- Outlier: Caracteriza-se por ser dados atípicos (ou destoantes) em comparação ao conjunto amostral. Comumente são oriundos de erros de observação e arredondamento.
- Cauda: Uma cauda ocorre necessariamente quando o conjunto de dados segue uma distribuição não simétrica, ou seja, quando Q2 está muito próximo de Q1 ou Q3. Quando mais próximo o Q2 estiver de Q1, uma calda a direita ocorrerá na distribuição de dados. A assim para o caso oposto. Quanto mais próximo Q2 estiver de Q3, uma calda a direita ocorrerá na distribuição de dados. Este fenômeno pode ser visualizado de acordo com um histograma (Figura 2).
Figura 2. Relação de Histograma com Box Plot
Com o intuito de introduzir à como construir um gráfico Box Plot utilizando o Software Estatístico Minitab, vamos partir o seguinte exemplo:
Exemplo. Uma fábrica produtora de molas para o setor automobilístico está realizando um estudo para verificar como o seu sistema de medição está operando atualmente. O gestor do departamento de qualidade resolveu aplicar um teste comparativo entre dois operadores na fase de inspeção final do produto, antes deste ser expedido para o cliente. Dentre outras ferramentas que foram utilizadas, a equipe que qualidade resolveu desenvolver um Box Plot para averiguar se o sistema de medição altera significativamente entre os operadores. Os dados obtidos foram apresentados conforme a Tabela 1 abaixo:
Tabela 1. Comparação entre os valores obtidos na medição de molas entre dois operadores
Para a construção do Box Plot no Minitab, deve-se seguir os seguintes passos (Figura 3):
Graphs > Box Plot > Multiple Ys Single
Figura 3. Passos para construção de um Box Plot em Minitab
Como resultado, o seguinte gráfico de Box Plot é gerado (Figura 4). Pode-se perceber que, mesmo o Operador 1 apresentando um ponto de outline, não há diferenças significativas com relação a dispersão e distribuição dos dados. Desta forma, pode-se concluir o sistema de medição, pela a análise de Box Plot, são praticamente iguais entre os dois operadores.
Figura 4. Comparação da distribuição dos dados entre os operadores
Comentários
0 comentário
Artigo fechado para comentários.