Inicio > Actualidad, Ciencia > Estadística para negacionistas (y III)

Estadística para negacionistas (y III)


En esta miniserie hemos hablado hasta ahora de poco más que de porcentajes y de tiradas de dados, pero solo con esto hemos podido constatar algo muy importante: la probabilidad de que ocurra un suceso determinado no es algo tan evidente como a primera vista nos puede parecer, especialmente si tratamos con gran cantidad de datos.

En ciencia, cuando nos encontramos ante problemas de este tipo, tratamos de desarrollar métodos que nos permitan acercarnos al conocimiento de la realidad de la forma más realista posible y sin que nuestros prejuicios, sesgos o falsas intuiciones nos ofrezcan una versión equivocada. En este caso, para lidiar con probabilidades y series de datos, hemos desarrollado la estadística.

La estadística sirve para dos cosas fundamentales: describir un conjunto de datos y tratar de inferir las características de una población a partir de la información de una muestra. A la primera parte la conocemos como estadística descriptiva y a la segunda como inferencia estadística.

Estadística descriptiva o descripción de la muestra

Supongamos que tenemos un conjunto de árboles en una explotación maderera y queremos saber su altura y el grosor de su tronco. Obviamente, procederíamos a medirlos, tras lo cual tendríamos una serie de medidas (datos), más o menos extensa dependiendo del tamaño de la plantación.

Una vez que disponemos de todas las medidas, si quisiéramos responder a la pregunta original (altura del árbol y grosor del tronco), deberíamos decir: “Pues, veamos, tenemos un arbol de 50 cm de diámetro y 3,8 m de altura, otro de 43 cm de diámetro y 4.2 m de altura, otro de …) y seguir así hasta describir los cientos o miles de ejemplares de la plantación.

Además de ser poco operativo y tremendamente pesado, ésta no es una forma útil de describir los árboles que hemos medido. Sería necesario encontrar alguna forma más amigable de presentar los datos. Por ejemplo, podríamos buscar los valores máximos y mínimos en toda la serie, y describir de la siguiente manera la población de árboles: “existen 15.833 árboles con un diámetro de tronco que va de los 22 a 65 cm y una altura que oscila entre 0,9 y 3,8 m.

Con esto, ya hemos utilizado tres valores o estadísticos descriptivos muy sencillos: el número de ejemplares (n), el valor máximo y el valor mínimo de ambas medidas o “variables”: diámetro de tronco (n=15833, Vmax = 65cm, Vmin = 22cm) y altura del árbol (n=15833, Vmax = 3,8m, Vmin = 0,9m).

Esto nos podría servir, por ejemplo, para hacernos una idea de la maquinaria necesaria para manejar la explotación, o del tipo de tablones de madera que se podrían obtener. Sin embargo, aún resulta muy insuficiente. Sabemos que el diámetro va de 22 a 65 cm pero ¿la mayor parte se encuentran próximos a los 65 cm y los 22 cm son una excepción? ¿ocurre al contrario? ¿la distribución de grosores es homogénea? De igual forma, la altura nos puede indicar la longitud de tablón que podríamos obtener, pero resulta obvio que, dependiendo de cómo se distribuyan las alturas entre los 0,9 y los 3,8, podremos obtener más listones largos o más cortos.

Media, mediana y moda

Existen otros tres estadísticos descriptivos muy sencillos de calcular que nos informan algo mejor de cómo se distribuyen los valores que hemos medido, se tratan de la media, la mediana y la moda. Ambos se denominan estadísticos de tendencia central, ya que intentan explicar alrededor de qué valor o valores centrales se organizan los datos.

La media aritmética, promedio o simplemente media quizá sea el estadístico más conocido. Se obtiene de sumar todos los valores medidos y dividirlos entre el número de observaciones. En nuestro caso, sumaríamos todos los diámetros y los dividiríamos entre 15833, que son el número de medidas que tenemos. Lo mismo haríamos con la altura. Esto nos da una idea del “centro de gravedad” alrededor del que se distribuyen los valores.

Así, podríamos obtener, por ejemplo, una media del grosor del tronco de 45 cm y una media de altura de 2,8 metros (280 cm).  Con esto hemos añadido información a nuestro pequeño bosque, pero aún tenemos incertidumbres. Para comprender mejor éstas, vamos a reducir los datos a dos series de once medidas:

Altura, Serie 1 (cm):   250, 270, 270, 280, 240, 240, 260, 255, 265, 275, 240 (Media: 258,6 cm)

Altura, Serie 2 (cm): 380, 350, 370, 380, 120, 180, 360, 200, 160, 105, 240 (Media: 258,6 cm)

Ambas medias son similares (2,6 metros de altura), pero fijémonos en la conformación de los dos grupos de árboles:

Vemos que la media nos da una idea de en torno a que valor oscilan los datos (2,586 m), pero la distribución puede ser muy diferente.

La mediana es el valor que, ordenando la serie de datos de menor a mayor, ocupa el lugar centra. Es decir, aquel valor que tiene el 50% de los casos por debajo y el 50% por encima. Si el número de datos es par, se obtiene calculando la media entre los dos datos centrales.

En el caso que nos ocupa tendría los siguientes valores:

240, 240, 240, 250, 255, 260, 265, 270, 270, 275, 280 (Mediana: 260 cm)

105, 120, 160, 180, 200, 240, 350, 360, 370, 380, 380 (Mediana: 240 cm)

Por último, la moda nos indica qué valor es más frecuente o, dicho de otra forma, cuál es la medida que más se repite. En nuestro caso, sería 240 cm en el primer grupo y 380 en el segundo*.

*Aunque nos sirve didácticamente, esto es una simplificación incorrecta. En el caso de variables continuas, como la altura de los árboles que nos ocupa, la moda se calcula tomando en cuenta los intervalos más frecuentes y aplicando una fórmula que considera los valores y frecuencias de los mismos).

La media, mediana y moda son frecuentemente confundidos y además, suelen interpretarse bastante erróneamente por desconocimiento de su naturaleza. En estos días, por ejemplo, es muy común leer “la cosa está muy mal, la mitad de las Comunidades Autónomas están por encima de la media en número de contagios”. Sin embargo, a no ser que haya casos muy extremos, lo normal es cerca del 50% esté por encima de la media, ya que la moda y la mediana estén bastante próximas en poblaciones homogéneas, como hemos visto hasta ahora.

Dejo a la imaginación del lector la siguiente pregunta: ¿qué sería peor a priori, tener 7 comunidades por encima de la media o solamente una?

Estructura de los datos

Con los estadísticos elementales vistos hasta ahora, podemos describir bastante mejor nuestro conjunto de árboles, haciéndonos una idea más completa de cómo varían estas medidas. En el primer conjunto, media, mediana y moda son más similares entre sí que en el segundo. Lo que, en principio, nos podría inclinar a pensar en una mayor homogeneidad en los datos.

En realidad, eso es lo que vemos en los esquemas de nuestros grupos de 11 árboles, pero debemos pensar que en el ejemplo original estamos tratando con más de 15.000 árboles, lo que hace más difícil una estimación fiable a simple vista.

Aun así, tendríamos otro problema, observemos este otro grupo de árboles que tiene la misma media, mediana e intervalo modal más frecuente que el primero de nuestros casos (hecha la misma salvedad para la moda):

A pesar de que ambos grupos tienen la misma media, mediana y moda, es evidente que la estructura es bastante diferente. Si estuviéramos considerando una extensión boscosa muchísimo más amplia, es posible que no pudiéramos percatarnos a simple vista de esta diferencia de estructura.

Para detectar esto, necesitamos otro tipo de estadísticos que se denominan de dispersión. A diferencia de los anteriores, nos intentan dar una idea de la amplitud o concentración de los datos. Ya vimos los dos estadísticos de dispersión más elementales: el valor mínimo y el valor máximo.

Varianza y desviación típica

La varianza es una medida de dispersión que se calcula dividiendo la suma de los cuadrados de la diferencia de cada dato con la media entre el número de casos menos uno (n-1).

La desviación típica o desviación estándar es, simplemente, la raíz cuadrada de la varianza.

Estos estadísticos miden el grado en el que los valores se desvían de la media aritmética. A mayor desviación, es decir, cuanto más alejados estén los valores de la media, mayor varianza (y mayor desviación típica); cuanto más se agrupen en torno a la media, menores varianza y desviación típica.

Volvamos a las poblaciones de árboles, y con obtengamos la desviación típica de los dos últimos grupos utilizados:

Como se puede ver, la desviación típica es siete veces mayor en el segundo grupo de árboles, indicando que es mucho más heterogéneo que el primero.

Concepto de muestra

Como llevamos mencionando desde el principio, describir un conjunto de diez árboles es mucho más fácil que hacerlo con un bosque de 15.000 ejemplares y resulta prácticamente imposible para una selva donde viven millones de ejemplares.

Resulta más patente utilizando otros ejemplos como la población total de humanos en el planeta, las bacterias de un lago, los virus de una epidemia o las estrellas de la galaxia. En muchísimos casos no podemos medir, pesar o tan siquiera contar todos los ejemplares de la población que queremos estudiar. Lamentablemente, esto suele ser lo más frecuente en la vida y la investigación real.

La única solución es estudiar una «muestra», es decir, una parte de la población que nos resulte asequible. El problema es que para que esa muestra represente a la población tiene que cumplir una serie de características que la mayoría de las veces son muy difíciles de asegurar, como ser lo suficientemente amplia, que los individuos o casos hayan sido elegidos al azar, etc.

Es fácil comprender que si queremos saber el nivel medio de estudios en la población española no podemos preguntar únicamente a una persona o hacer una encuesta en 10.000 individuos a la salida de una facultad universitaria. De igual forma, no podemos saber si un remedio homeopático tiene efecto real si solamente consideramos los testimonios de aquellos que han sentido mejoría.

De hecho, por muy bien que diseñemos el muestreo y por muy robustas que sean las pruebas para escoger una muestra adecuada, hay que tener claro que sólo estamos estudiando a una parte de la población, lo que nos puede aproximar muchísimo al comportamiento de la totalidad de ésta, pero que siempre llevará implícita una probabilidad de error.

Aquí es donde entra la otra parte de la estadística, la que conocemos como inferencia estadística y que ya no se limita a describir el conjunto de datos que hemos obtenido, sino que pretende, a partir de los datos de esa muestra, extraer conclusiones sobre la población total y estudiar el grado de fiabilidad de éstas que, por todo lo mencionado anteriormente, nunca será del 100%.

Pero eso, forma parte de otra historia…

Otros artículos de la serie:


Categorías:Actualidad, Ciencia
  1. Aún no hay comentarios.
  1. No trackbacks yet.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: