lunes, 28 de junio de 2010

Diagrama de Caja

Diagrama de caja (Box-Plot).
Un diagrama de caja es un gráfico, basado en
cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes". Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.






Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el Rango Inter Cuartilico (RIC)
En el ejemplo:
Valor 7: es el Q1 (25% de los datos)
Valor 8.5: es el Q2 o mediana (el 50% de los datos)
Valor 9: es el Q3 (75% de los datos)
Rango Inter Cuartilico RIC (Q3-Q1)=2
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Para ello se calcula cuándo se consideran atípicos los valores. Son aquellos inferiores a Q1-1.5*IQR o superiores a Q3+1.5*IQR.
En el ejemplo:
inferior: 7-1.5*2=4
superior: 9+1.5*2=12
Ahora se buscan los últimos valores que NO son atípicos, que serán los extremos de los bigotes.
En el ejemplo: 5 y 10
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0.5 y 3.5
Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1-3*IQR o Q3+3*IQR.
De modo que, en el ejemplo:
inferior: 7-3*2=1
superior: 9+3*2=15
El valor 0.5 seria atípico extremo y el 3.5 sería atípico


Los estadísticos usan la palabra forma para describir cómo se distribuyen los datos con relación a la posición de la medida de tendencia central. Los datos simétricos están equilibrados o casi equilibrados en el centro. Los datos sesgados (skewed) están dispersos más hacia un lado del centro que hacia el otro lado.

Esta gráfica de caja muestra un conjunto de datos simétricos. Los datos sesgados hacia la derecha implican que están dispersos más hacia la derecha del centro que hacia la izquierda. Este conjunto de datos está sesgado hacia la izquierda.












No hay comentarios:

Publicar un comentario