Diagramas de caja

Cómo construir diagramas de caja, incluyendo las dos formas diferentes de determinar el rango entre los cuartiles.

Maestro: Ahora quisiera ayudarle con otro método de graficación que le permite comparar diferentes categorías de datos. Se llama  diagrama de caja y es de esta forma:

Cada una de las líneas verticales representa un número importante relacionado con el conjunto de datos. La primera y la última línea (extremos izquierdo y derecho) se trazan en los valores más bajos y más altos del conjunto. Las tres líneas que conforman la caja se trazan en el 25%, 50%, y 75% de la línea de los datos. Estos cinco  números: el menor, el 25%, el 50%, el 75%, y el mayor se denominan un resumen de 5 números.

Estudiante: ¿Resumen de qué, de los datos?

Maestro: Correcto. Anteriormente habíamos hablado del promedio de los datos como el promedio de todos los puntos de datos.  También existe otro número ‘en la mitad’ que es importante, se llama la mediana (M)

Estudiante: Yo sé eso. La mediana es el número de la mitad  del conjunto de datos.  Si usted va a ordenar el conjunto de datos de menor a mayor,  sepárelos en dos grupos, ponga el grupo de puntos de menor valor en un lado de la escala y los de mayor valor en el otro lado de la escala.  La mediana será entonces el valor del medio (o punto de balance) si hay un número impar de puntos de datos, como en el siguiente caso: 1 1 3 7 8 8 9, donde 7 es la mediana.

Maestro: Es correcto. La cantidad de números en los dos lados de la escala es el mismo.  Pero tenga en cuenta que si tiene un número par de valores, se debe sacar el promedio de los dos valores de la mitad, y este promedio es la mediana. Este número no se agrega a la lista, pues es simplemente el valor de la mediana, el cual marca el cincuentavo percentil de los datos.

Recuerde que no debe confundir la mediana con el promedio.  La mediana tiene que ver con el número de puntos de datos, en tanto que el promedio tiene que ver con el valor de los puntos de datos.

Veamos ahora la división de los dos grupos nuevamente en dos, para encontrar los extremos de la caja en el diagrama de caja.

Estudiante: ¿Quiere decir dividir los datos en cuartos?

Maestro: Si. Queremos hablar de los percentiles 25 y 75 de los datos. El veinticincoavo percentil se llama el primer cuartil (Q1) o el cuartil bajo y el percentil 75 el tercer cuartil (Q3) o cuartil alto.

Estudiante: ¿Qué es exactamente un cuartil?

Maestro: El cuartil bajo  es la mediana del primer 50% de los datos. Y el cuartil alto es la mediana del último 50% de los datos.

Estudiante: ¿Entonces es simplemente otro punto en el conjunto de datos?

Maestro: Es similar a la mediana, siempre y cuando  exista un número impar de puntos de datos en el primer,  o en el último 50% de los datos.   Si hay un número  par de puntos, entonces el cuartil es el promedio de los números de la mitad, igual que cuando encontramos la mediana.  

Existen dos formas de encontrar los cuartiles.  Ninguno de estos métodos es considerado un estándar sobre la forma de encontrar los cuartiles bajos y altos, así es  que su respuesta definitiva dependerá  del método utilizado.

Estudiante: ¿Cuáles son esos dos métodos?

Maestro: Bueno, eso depende de si la mediana es parte o no del conjunto de datos. Si ésta no hace parte de los datos originales, simplemente use los números de un lado de la mediana, dependiendo de cuál  cuartil está tratando de  calcular. Sin embargo, es un poco difícil cuando se están tratando de calcular los cuartiles alto y bajo de un conjunto de datos, si la mediana es un número del conjunto. 

Estudiante: ¿Por qué se vuelve “más difícil” el cálculo?

Maestro: Porque existen dos maneras de calcular el cuartil cuando la mediana es un número en el conjunto de datos. Uno es incluyendo la mediana en el cálculo del cuartil tanto superior como inferior. El otro método que se utiliza es excluyendo la mediana en el cálculo de ambos cuartiles.  

¿Se acuerda cómo se calcula la mediana?

Estudiante: Sí. Tomábamos el número de la mitad de los datos cuando el conjunto tenía un número impar de valores,  y sacábamos el promedio de los dos valores de la mitad cuando había un número par de valores en el conjunto de datos.

Maestro: Correcto, y usamos un método similar para encontrar los diferentes cuartiles. Si en nuestros cálculos escogemos usar la mediana en conjuntos donde la mediana es un número del conjunto, entonces para encontrar el cuartil inferior necesitamos ver todos los dígitos, desde el valor más bajo hasta la mediana, y entonces calcular la mediana de esos números.  La mediana de la mitad inferior del conjunto de datos es el primer cuartil.  ¿Puede adivinar cómo calcularíamos el tercer cuartil?  

Estudiante: Me imagino que uno tiene en cuenta todos los números desde la mediana hasta el número más grande, se calcula su mediana y ese número será igual al tercer cuartil.  
Maestro: Es correcto. ¿Tiene alguna pregunta?

Estudiante: Ya vimos cómo calcular los cuartiles cuando la mediana forma parte del conjunto de datos, pero ¿qué sucede si la mediana no forma parte del conjunto de datos?

Maestro: ¡Buena pregunta! Si la mediana no forma parte del conjunto de datos y uno quiere calcular el cuartil superior, entonces simplemente se calcula la mediana de los números que están en el 50% superior del conjunto de datos.

Estudiante: Y para el cuartil inferior, simplemente se encuentra la mediana del 50% inferior del conjunto de datos.

Maestro: Exactamente.  ¿Me puede dar dos ejemplos de conjuntos de datos  para calcular la mediana?

Estudiante: Usemos  2 6 7 10 14 15 ya que tiene un número par en el conjunto de datos, y luego  podemos usar 1 4 9 12 16 23 24 como conjunto con un número impar de datos. La mediana para el primer conjunto es 8.5 – (saqué el promedio de 7 y 10).  La mediana para el segundo conjunto es 12, que es el número de la mitad.

Maestro: Bien ahora para los cuarteles. Para  2 6 7 10 14 15 el primer cuartil  es 6 y el tercer cuartil es  14.

Estudiante: Correcto, ya entendí.  Voy a ensayar ahora con el otro conjunto: 1 4 9 12 16 23 24. Si incluyo la mediana para calcular los cuartiles, entonces el primer cuartil es el promedio de 4 y 9, o sea 6.5, y el tercer cuartil es el promedio de 16 y 23, o sea 19.5.  Si no incluyo  la mediana para calcular los cuartiles, entonces el cuartil bajo es 4 y el cuartil alto es 23.

Maestro: ¡Correcto! Hasta aquí hemos calculado la mediana, el primer cuartil, y el tercer cuartil para el segundo conjunto de datos.  ¿Qué más necesitamos para completar nuestro resumen de cinco números?

Estudiante: Los valores más altos y los más bajos del conjunto de datos.

Maestro: Nuevamente muy bien. Luego usamos esos cinco números para dibujar nuestro diagrama de caja.

Estudiante: De acuerdo.

Bajo

1

Primer cuartil (Q1)

6.5

Mediana (Q2)

12

Tercer cuartil  (Q3)

19.5

Alto

24

Maestro: El último par de números que son de interés son los rangos. El rango del conjunto de datos  es el valor más alto, menos el valor más bajo. El rango intercuartil es cuando se resta el primer cuartil del tercer cuartil. ¿Sabe qué representa el rango intercuartil?

Estudiante: El rango central de datos correspondientes al 50%.

Maestro: Correcto y ese rango central determina el largo de la caja. Entonces para el conjunto de datos  1 4 9 12 16 23 24 aquí está nuestro diagrama de caja: