Estadística descriptiva

1. VARIABLES

Una variable es una propiedad que puede fluctuar y cuya variación es susceptible de medirse u observarse.Una variable según Ander-Egg, es una característica que puede tomar diversos valores o magnitudes. Son atributos o características que se miden en los sujetos de estudio. Como ejemplos de variables podemos citar: sexo, raza, tipo de población (urbana, rural), accesibilidad a los servicios de salud, número de hijos, peso en kilogramos, talla en centímetros, etc.

El concepto de variable se aplica a personas u otros seres vivos, objetos, hechos y fenómenos, los cuales adquieren diversos valores respecto de la variable referida. Por ejemplo la inteligencia, no todas las personas la poseen en el mismo nivel, es decir, varían en ello.

Otros ejemplos de variables son la rapidez con que se ofrece un servicio, la eficiencia de un procedimiento, la eficacia de una vacuna, el tiempo que tarda en manifestarse una enfermedad, etc.

Las variables adquieren valor para la investigación científica cuando llegan a relacionarse con otras variables, es decir, si forman parte de una hipótesis o una teoría. En este caso se les suele denominar constructos o construcciones hipotéticas.

Al formular una hipótesis, es indispensable definir los términos o variables incluidos en ella por los siguientes motivos:

Para que el investigador, sus colegas, los usuarios del estudio y en general cualquier persona que lea la investigación le den el mismo significado a los términos o variables incluidas en las hipótesis, siendo común que un mismo concepto se emplee de maneras distintas. Términos como “actitud”, “inteligencia” y “aprovechamiento” llegan a tener varios significados o definirse de diversas formas.
Asegurarnos de que las variables pueden ser medidas, observadas, evaluadas o inferidas, es decir que de ellas se pueden obtener datos de la realidad.
Confrontar nuestra investigación con otras similares. Si tenemos definidas nuestras variables, podemos comparar nuestras definiciones con las de otros estudios para saber “si hablamos de lo mismo”. Si la comparación es positiva, confrontaremos los resultados de nuestra investigación con los resultados de las demás.
Evaluar más adecuadamente los resultados de nuestra investigación, porque las variables, y no sólo las hipótesis, se contextualizan.

El número de variables observadas y registradas debe reducirse a las estrictamente necesarias, evitando la tentación de obtener el mayor número posible pensando que podría sernos útiles en el análisis posterior. En conclusión, sin definición de las variables no hay investigación.

1.1. DEFINICIÓN CONCEPTUAL Y OPERACIONAL DE LAS VARIABLES

El proceso de definición de variables comienza desde que se define el problema de estudio y se formulan los objetivos, y es uno de los pasos más difíciles de la investigación.

Hay variables que no son difíciles de describir, definir o medir, como son la edad y el sexo, ya que son variables simples cuya compresión y la práctica de la vida diaria nos las facilitan. Otras por su composición y variación de criterios entre regiones, países, especialidades, autores, etc. son más complejas. Entre ellas tenemos la calidad de la atención y accesibilidad a los servicios. Por ello es importante conceptualizar y operacionalizar las variables, ya que cada investigador puede utilizar un criterio diferente sobre las mismas, y por lo tanto puede obtener datos muy distintos.

Las variables deben ser definidas de manera conceptual y operacional.

Definición conceptual
Sería la definición real.Se trata de definiciones de diccionarios o de libros especializados que describen la esencia o las características de una variable, objeto o fenómeno.Constituyen la adecuación de la definición conceptual a los requerimientos prácticos de la investigación. Ej.el término actitud se definiría como “una tendencia o predisposición a evaluar de cierta manera un objeto o un símbolo de este objeto”.
Tales definiciones son necesarias pero insuficientes para definir las variables de la investigación, porque no nos vinculan directamente con “la realidad” o con “el fenómeno, contexto, expresión, comunidad o situación”. Después de todo continúan con su carácter de conceptos. Los científicos necesitan ir más allá, deben definir las variables que se utilizan en sus hipótesis, en forma tal que puedan ser comprobadas y contextualizadas.

Definición operacional
Constituye el conjunto de procedimientos que describe las actividades que un observador debe realizar para recibir las impresiones sensoriales, las cuales indican la existencia de un concepto teórico en mayor o menor grado (Reynolds, 1986, p. 52). En otras palabras, especifica qué actividades u operaciones deben realizarse para medir una variable. Una definición operacional nos dice que hay que hacer para recoger datos respecto de una variable. Además articula los procesos o acciones de un concepto que son necesarios para identificar ejemplos de éste (MacGregor, 2006). Por ejemplo; en la definición operacional de la variable “temperatura” sería el termómetro; para definir operacionalmente la variable “personalidad” se cuenta con diversas alternativas, como son las pruebas psicométricas o las diferentes versiones del Inventario Multifacético de la Personalidad Minnesota (MMPI), etc.

La definición conceptual es de índole teórica, mientras que la operacional nos da las bases de medición y la definición de los indicadores.

Cuando el investigador dispone de varias opciones para definir operacionalmente una variable, debe elegir la que proporcione mayor información sobre la variable, capte mejor su esencia, se adecue más a su contexto y sea más precisa. O bien, una mezcla de tales alternativas. Por ejemplo el aprendizaje de un alumno en un curso se mediría con el empleo de varios exámenes, un trabajo, o una combinación de exámenes, trabajos y prácticas.

Algunas variables no requieren que su definición conceptual se mencione en el reporte de investigación, porque ésta es relativamente obvia y compartida. El mismo título de la variable la define. Por ejemplo “género” y “edad”. Pero prácticamente todas las variables requieren una definición operacional para ser evaluadas de manera empírica, aun cuando en el estudio no se formulen hipótesis. Siempre que se tengan variables se deben definir operacionalmente.

El proceso de llevar una variable de un nivel abstracto a un plano operacional se denomina operacionalización. La función básica de dicho proceso es precisar o concretar al máximo el significado o alcance que se otorga a una variable en un determinado estudio. Dicha operacionalización se logra mediante la transformación de una variable, en otras que tengan el mismo significado y que sean susceptibles de medición empírica. Para lograrlo, las variables principales se descomponen en otras más específicas llamadas dimensiones, las cuales a su vez se deben traducir a indicadores para permitir la observación directa.

Algunas veces la variable puede ser operacionalizada mediante un solo indicador, en otros casos es necesario hacerlo por medio de un conjunto de indicadores. Por ejemplo, si hablamos de inteligencia, podemos decir que está compuesta por una serie de factores como la capacidad verbal, capacidad de abstracción, etc.

1.2. DESCRIPCIÓN DE LAS VARIABLES

Según la relación que formula la hipótesis:

Variable dependiente. Es la variable de mayor interés o interés principal. Representa al desenlace o resultado que se pretende explicar o estimar en el estudio.

Variable independiente. Define la condición bajo la cual se examina a la variable dependiente.Se produce espontáneamente o es manipulado por el investigador en los estudios experimentales, mientras que el efecto (variable dependiente) varía con los cambios o modificaciones de la variable independiente. En algunos estudios puede no existir variable independiente.

IMAGEN

La forma en que se relacionan ambas variables se anticipa en la hipótesis, no obstante, la mayoría de las variables no son en sí mismas dependientes o independientes, esta clasificación estará en función de su papel en una situación concreta.

La variable dependiente no se manipula, sino que se mide para ver el efecto que la manipulación de la variable independiente tiene en ella.

Al diseñar un estudio, los investigadores deben considerar detenidamente cuáles son las variables extrañas que tendrán que someter a control. Precisamente se pretende conocer el “efecto” de esas variables en el resultado del estudio para tenerlas en cuenta.

Según la posibilidad de manipularlas:

Variables activas que son manipulables (programas de educación sanitaria, modelos de gestión, procedimientos diagnósticos etc).
Variables atributivas, o no manipulables (sexo, edad, caracteres genéticos…).

Según su naturaleza:

Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. Las variables cuantitativas pueden ser de dos tipos:

- Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla).

- Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc).

Variables cualitativas. Representan una cualidad o atributo que clasifica a cada caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios.

En muchas ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión, etcétera). En el proceso de medición de estas variables, se pueden utilizar dos escalas:

Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
Escalas ordinales: en las escalas utilizadas existe un cierto orden o jerarquía entre las categorías (grados de disnea, estadiaje de un tumor, etcétera).

Ejemplos de variables según la naturaleza:

Cualitativas:
Nominales: sexo, profesión, nacionalidad.
Ordinales: grado escolar, nivel socio-económico, cultura, etc.
Cuantitativas:
Discontinuas: número de hijos, habitaciones, errores.
Continuas: Tensión Arterial, glucemia, peso, talla, temperatura, etc.

2. MEDICIONES

2.1. ESCALAS DE MEDICIÓN

Las Escalas de Medición son instrumentos de medida y se refieren a la forma en que se materializa el indicador.

Hay cuatro clases de escalas que representan los diferentes tipos de medición. Estas son nominales, ordinales, intervalo y razón o proporción. Todas las variables cuantitativas tienen escalas de intervalo o razón. Las variables cualitativas pueden ser nominales u ordinales.

Escala Nominal

Es el nivel más elemental de medición y consiste en clasificar los objetos de estudio según las categorías de una variable. El alcance de definición y medición de variables de esta escala es el conteo, que permite la aplicación de técnicas estadísticas como la distribución de frecuencia y el modo. Para la elaboración de esta escala se determinan las categorías de la variable.
Por ejemplo, la variable estado marital se clasifica así: soltero, casado, viudo, unión libre. A cada una de estas categorías se les puede asignar un número: soltero=1; casado=2; viudo=3; unión libre=4. En este ejemplo, el número se utiliza solamente para sustituir el nombre de la categoría, o sea que el número en sí no representa ninguna jerarquización.

A este proceso de dar un valor numérico a las categorías de una variable se le denomina codificar. Lo único que se logra en este nivel de medición es la categorización o la identificación. Sirve para las variables cualitativas. Permite la comparación descriptiva entre variables o sus categorías, sin embargo, no permite la comparación cuantitativa entre ellas.

Escala Ordinal

Se establecen categorías con dos o más niveles que implican un orden inherente entre sí. Este tipo de escala se utiliza para clasificar los objetos, hechos o fenómenos en forma jerárquica, según el grado que posea una característica determinada, sin proporcionar información sobre la magnitud de las diferencias entre los casos así clasificados. Por ejemplo: excelente, bueno, malo.La escala de medición ordinal es cuantitativa porque permite ordenar a los eventos en función de la mayor o menor posesión de un atributo o característica.

En este caso no se refleja distancia entre una y otra categoría, o cuánto es mayor una de otra. Las técnicas estadísticas más utilizadas en la escala ordinal son las de tendencia central de los puntajes, especialmente la mediana, debido a que no es afectada por los cambios de puntaje que están por encima y por debajo de ella. En resumen, en este nivel de medición las categorías de la variable pueden ordenarse según su magnitud relativa, pues ellas no representan igual cantidad de la variable. Por ejemplo, si tomamos la variable peso y utilizamos las categorías de obeso, gordo, normal, bajo peso, sabremos que los obesos pesan más que todos, seguidos por los gordos y así sucesivamente. Sin embargo, no sabremos cuánto más pesan los obesos que los gordos, o los normales que los de bajo peso.

Estas escalas, al igual que la nominal, admiten la codificación por números en función de un orden prescrito.

Escala de Intervalo

La medición de intervalo posee las características de la medición nominal y ordinal. Establece la distancia entre una medida y otra, se miden variables cuantitativas, siendo igual la distancia entre dos puntos o valores de un continuo. La escala de intervalo se aplica a variables continuas, pero carece de un punto cero absoluto. Sin embargo, el punto cero es arbitrario y convencional, por lo que no se pueden establecer razones o proporciones, ni comparar dos escalas sin definir el mismo punto de partida. Las variables inteligencia, rendimiento académico y temperatura, son ejemplos que utilizan escalas de intervalo, debido a que el punto cero es arbitrario. Tomando la temperatura como ejemplo, se puede decir que el cero no representa la ausencia de calor, sin embargo, la distancia entre dos puntos de la escala es igual, o sea, que el cambio de temperatura entre 36°C y 37°C es igual al cambio entre 40°C y 41°C. Al medir temperatura, no se puede decir que 20°C es el doble de 10°C. Esto es debido a que cuando el termómetro marca 0 grados, en realidad la temperatura es de 273 grados. Por esto, solo podemos decir que una temperatura de 20ºC es 10 grados más que una de 10ºC.

Escala de Razón

Una escala de medición de razón incluye las características de los tres anteriores niveles de medición anteriores (nominal, ordinal e intervalo). Este tipo de escala constituye el nivel más alto de medición para las variables cuantitativas. Contiene las características de una escala de intervalo con la ventaja adicional de poseer el cero absoluto, lo cual permite determinar la proporción conocida de valores de la escala. Determina la distancia exacta entre los intervalos de una categoría. El peso, talla y número de alumnos son ejemplos de variables de razón o proporción, en las que el cero representa la nulidad o ausencia de lo que se estudia. Por esta propiedad de la escala se puede establecer razones tales como se dan en la variable peso, en la cual se dice que un peso de 50 kg es el doble que uno de 25 kg, o que uno de 100 kg es 4 veces mayor que uno de 25 kg. Con este nivel de medición también se puede decir que 100 kg es mayor que 25, o que 100 kg es 75 kg más que 25 kg. También se pueden hacer estas aseveraciones a la inversa.

El nivel de medición con que se define una variable es lo que determina posteriormente el alcance del análisis de los datos, razón por la cual, en términos generales se recomienda medir las variables al mayor nivel posible. Por ejemplo, una variable como edad, la cual es del nivel de razón o proporción, debe ser medida con una escala de este nivel. No debe bajarse a nivel ordinal agrupando los datos en clases (0<5; 5< 10; 10

El nivel de medición de razón se aplica tanto a variables continuas como discretas.

Una vez recogidos los datos procederemos a su análisis. Los resultados del estudio deben resumirse claramente para permitir su análisis e interpretación adecuados. Los datos se analizan en función de la finalidad del estudio, según se pretenda explorar o describir fenómenos o verificar relaciones entre variables.La primera tarea es describir los datos, los valores o las puntuaciones obtenidas para cada variable.

Necesitamos servirnos de técnicas para organizar los datos sobre todo en aquellos casos donde estos sean muy voluminosos. En la actualidad, el análisis cuantitativo de los datos se lleva a cabo por ordenador. Ya casi nadie lo hace de forma manual, ni aplicando fórmulas, en especial si hay un volumen considerable de datos.

No obstante, es necesario una comprensión previa del proceso para poder realizarlo. Una desventaja de la informatización es que puede crear en los investigadores una confianza ciega en la estadística como una ciencia exacta y precisa. La estadística se basa en probabilidades y no en certidumbres. Necesitamos por lo tanto:

Conocer detalladamente cada una de las variables utilizadas en la investigación, incluyendo distribuciones de frecuencias, estadísticos univariantes y representaciones gráficas. Estamos hablando de Estadística descriptiva.
El análisis de las relaciones bivariantes o relaciones entre variables. Existen diferentes técnicas en función de la escala en la que se ha medido cada variable (nominal, ordinal, intervalo, razón: diferencias de porcentajes, diferencia de medias, relación significativa entre variables, etc.). Esto es Estadística inferencial, bivariante.
El Análisis Multivariante. Analizar conjuntamente más de 2 variables. Modelización-Multivariante. Elaborar modelos, ecuaciones o funciones que permitan explicar unas variables a partir de otras, mediante programas informáticos.

En los estudios a gran escala, deben buscarse desde el comienzo el asesoramiento y la ayuda de un estadístico profesional. Sin embargo, el investigador es quien conoce el tipo de datos y las preguntas que hay que responder, y quien debe captar plenamente los conceptos que hay en el fondo de los cálculos estadísticos, y el significado y las limitaciones del ejercicio.

Los investigadores deberán familiarizarse con los términos estadísticos para poder manejarse bien con ellos. También deberán comprender los factores que hay que tener en cuenta al decidir sobre la prueba apropiada que va a emplearse, y la lógica común que hay detrás de las pruebas.

En los estudios epidemiológicos el análisis se realiza utilizando la estadística, mientras que en los estudios cualitativos se utiliza principalmente un análisis inductivo.

2.2. MEDICIONES

La Estadística Descriptiva, describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. En este caso, los resultados del análisis estadístico no pretenden ir más allá del conjunto de datos investigados, es decir, de la muestra o de la misma población de dónde hemos obtenido los datos.

Los cálculos dependen del modelo estadístico que se utilice. En general, y debido a su facilidad, se utilizarán modelos basados en la distribución normal.

Una distribución no es más que una representación gráfica de los resultados obtenidos en una variable. Cuando la distribución de frecuencias es una curva de campana, se describe como distribución normal o de Gauss.

Por ejemplo, imaginemos que tenemos una muestra de 75 mujeres de 25 a 50 años de edad a las que hemos pesado. Cada punto que aparece en la gráfica es el peso de una mujer. Lo más habitual es que muchas pesen entre 55 y 75 Kg, por eso hay más puntos en esa zona. Cada vez que nos vamos hacia ambos lados de la gráfica, hay menos puntos, porque hay menos mujeres que pesen menos de 50 kg y también menos mujeres que pesen más de 80 kg. Cuando esto ocurre, es una indicación de que la distribución es simétrica o “normal”.

Los datos numéricos pueden resumirse por el cálculo de su tendencia central y de su variabilidad, mediante el cálculo de los porcentajes y las proporciones, y por medio del cálculo de razones y tasas. Los programas informáticos han facilitado estos cálculos.

MEDIDAS DE TENDENCIA CENTAL

La medida de la tendencia central usada con mayor frecuencia es la media aritmética. Otras determinaciones de la tendencia central menos conocidas, pero también útiles, son la mediana y la moda.

La media, también llamada media aritmética, se obtiene mediante la suma de los valores individuales y su división entre el número total de mediciones. Se representa por μ (en poblaciones) o x (en muestras).

En su cálculo intervienen todos los valores de la distribución. Esto le hace muy sensible a la presentación de observaciones extremas o anómalas al hacer que la media se desplace hacia ellas.

Por ejemplo, imaginemos en una muestra de 10 sujetos, la variable edad medida en años, nos ha dado los siguientes resultados: 25, 27, 31, 35, 38, 21, 40, 31, 33 y 36.

Media aritmética de los valores: Se suman los valores (25 + 27 + 31 + 35 + 38 + 21 + 40 + 31 + 33 + 36 = 317), dividiéndola entre el número de valores (10). Por lo tanto: 317/10 = 31,7 años.

Si en la serie anterior, la última edad fuese 71 en lugar de 36, la media seria de 35,2 años.

La media aritmética tiene una serie de ventajas:

Es fácil de calcular.
Es única.
Es el centro de gravedad de la distribución, por lo que es el índice de centralización más utilizado para realizar inferencias.

El principal inconveniente es la escasa representatividad que puede tener como valor central de la distribución, en el caso de que la variable tome valores anormalmente extremos, dando lugar a conclusiones no muy fiables. Sólo se puede determinar para variables cuantitativas.

La mediana de una distribución es un punto medio en el cual la mitad de las observaciones son inferiores a este valor y la otra mitad son superiores al mismo. Para su cálculo se ordenan los valores de la variable de menor a mayor, y se busca aquel valor que divide a la distribución de frecuencias de forma que el número de frecuencias que quedan a su izquierda es igual al número de frecuencias que quedan a su derecha.Coincide con el percentil 50 (véase más adelante).

Por ejemplo, la mediana de la serie: 1,2,4,5,5,6,6,8,9, es 5, ya que debajo de él quedan cuatro observaciones, y por encima otras cuatro.

Si la serie es par, la mediana es la media de los valores centrales. Por ejemplo, en la serie: 1,2,4,5,5,6,6,6,8,9; la mediana es la media de 5 y 6, es decir, 5,5.

Su cálculo resulta de gran utilidad en los siguientes casos:

Cuando existan valores anormalmente bajos o elevados. Esta medida es menos sensible que la media aritmética cuando existen valores extremos, ya que en su determinación no intervienen todos los valores de la variable, sino los que ocupan las posiciones centrales.
Cuando en las distribuciones agrupadas en intervalos el primero sea del tipo menor que, o el último sea del tipo mayor que, siempre y cuando ninguno de estos intervalos sea el intervalo mediano.
Cuando se analizan variables cuantitativas medidas en escala ordinal, ya que en este caso no se podría determinar la media aritmética, siendo la mediana la medida de tendencia central más representativa.

La mediana es de cálculo rápido y de interpretación sencilla. El principal inconveniente de la mediana esque tiene unas propiedades matemáticas complicadas, lo que hace que sea difícil de utilizar en inferencia estadística.

La moda es la determinación más frecuente en una distribución.

Por ejemplo, en la última serie del ejemplo: 1,2,4,5,5,6,6,6,8,9; la moda o el valor más frecuente es 6, que se da en tres ocasiones.

Tiene la ventaja de poder calcularse para todo tipo de variables, incluidas las cualitativas. La moda es la mejor medida de tendencia central en el análisis de los atributos medidos en escala nominal, ya que sus modalidades no son susceptibles de ser ordenadas, no admitiendo tampoco ningún tipo de operación algebraica, como por ejemplo; ¿Qué nombre es el que más se repite en una serie?, o ¿en qué ciudad han nacido más sujetos de la muestra?

Su inconveniente es que puede no ser única al existir varios valores que presenten la máxima frecuencia absoluta, teniéndose entonces una distribución bimodal (tiene dos modas), trimodal (tres modas), etc.

MEDIDAS DE DISPERSIÓN

Los estadísticos de tendencia central nos pueden indicar cuáles son los valores que más se repiten en la muestra, sus valores centrales y cuál es el valor medio, pero esa información no es suficiente. Además de conocer el valor medio de una serie de mediciones, es importante tener una idea acerca de su variación alrededor de la media. La variabilidad habitualmente se mide respecto a una medida de posición central pretendiendo conocer la representatividad de los valores centrales de la distribución Así, generalmente cuanta mayor sea la variabilidad, menor será la representatividad de las medidas centrales, ya que habrá más valores que se alejen de las medidas centrales.

Por ejemplo, las distribuciones A y B representan las estaturas en cm de dos muestras distintitas de 500 personas cada una. “A simple vista”, se aprecia que en la distribución A hay menos valores extremos y menos que se alejan del centro, por lo que la variabilidad o dispersión es menor. Lo contrario ocurre en la distribución B.

Hay tres maneras de presentar la variabilidad de los datos alrededor de la media. Estos son el intervalo o rango, la desviación estándar y el coeficiente de variación.

El intervalo o rango proporciona los valores máximo y mínimo, pero no da mucha indicación de la dispersión de las observaciones alrededor de la media. Esta dispersión la proporciona la desviación estándar.

La Desviación expresa la distancia que debe recorrer un individuo para llegar a la media. La desviación media (DM) es un índice de dispersión poco utilizado, es el sumatorio de la diferencia de los valores de la variable con respecto a la media en valores absolutos. La media de este índice es un índice de dispersión.

La desviación estándar (s) se calcula con una fórmula que suma los cuadrados de las diferencias entre la media del grupo y cada valor individual. Esta suma total se conoce como varianza y se representacomo S².

Cuanto mayores sean las diferencias entre los valores, tanto más diseminada estará la distribución y la desviación estándar será mayor. Los matemáticos han calculado que si las observaciones siguen una distribución “normal” (valores con una dispersión uniforme alrededor de la media), un intervalo cubierto por una desviación estándar por encima y por debajo de la media abarcará cerca de 68% de las observaciones.

Un intervalo de ± 2 DE comprenderá aproximadamente el 95% de las observaciones, y un intervalo de ± 3 DE abarcará alrededor del 99,73%. El cálculo de la media y de la desviación estándar nos proporciona un buen resumen de los datos.

Varianza (s2) es la medida de la variación entre todos los sujetos o valores de un experimento. Corresponde a la media de las diferencias al cuadrado entre cada valor de la variable y la media aritmética de la distribución dividida por el número de datos medidos. Sus unidades son las de la variable al cuadrado. En general, se puede afirmar que cuanto menor sea la varianza, mayor es la homogeneidad de la variable y, por tanto, menor es la dispersión. Al igual que la desviación estándar, la varianza es una medida para obtener la dispersión del conjunto de datos a partir del valor medio. La varianza es siempre una cantidad positiva y, dado que sus unidades son las del cuadrado de la variable, resulta más sencillo usar su raíz cuadrada, que es el valor de la desviación estándar.

Coeficiente de variación (CV) E la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”. También se la denomina variabilidad relativa. Este estadístico es interesante para comparar la variabilidad de diferentes variables.

Es frecuente mostrarla en porcentajes. Si la media es 80 y la desviación típica 20, entonces CV=20/80=0,25=25% (variabilidad relativa).

Por ejemplo, si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.

MEDIDAS DE POSICIÓN

Los cuartiles, son aquellos valores de la variable que dividen a la distribución ordenada en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. Así;

Los cuartiles (i Q), dividen a la distribución en 4.
Los deciles en 10.
Los percentiles en 100.

Los más usados en Ciencias de la Salud son los cuartiles y los percentiles. Los cuartiles dividen a la muestra en 4 grupos con frecuencias similares.

Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = Mediana
Tercer cuartil = Percentil 75 = Cuantil 0,75

Los percentiles proporcionan otra manera de tener en cuenta las variaciones en las distribuciones. Igual que la mediana es el percentil 50 de una recopilación de datos, puede determinarse el percentil 75 o el 95, que indican que una medición determinada es superior a 75% o a 95% de todos los demás valores.

Una ventaja de los percentiles es que pueden aplicarse a los datos con una distribución asimétrica, no normal, en la que los datos no están distribuidos de manera uniforme alrededor de la media.

MEDIDAS DE FORMA DE DISTRIBUCIÓN DE DATOS

Existen distribuciones que presentan el mismo valor central e igual grado de dispersión, pero difieren en la forma o aspecto de sus representaciones gráficas, cuantificables con las medidas de asimetría y de apuntamiento o kurtosis.

Si la asimetría es 0, la curva o distribución es simétrica. Cuando es positiva, quiere decir que hay más valores agrupados hacia la izquierda de la curva. Cuando es negativa, significa que los valores tienden a agruparse hacia la derecha.

La kurtosis es un indicador de lo plana o “picuda” que es una curva. Cuando es 0 (kurtosis = 0) se denomina mesocurtosis, y significa que puede tratarse de una curva normal. Si es positiva, quiere decir que la curva, la distribución o el polígono es más “picuda(o)” o elevada(o). Si la curtosis es negativa indica que es más plana la curva.

3. CORRELACIÓN

El objetivo de esta parte de la estadística es descubrir la existencia de relaciones entre variables y si es posible predecir el valor de una variable a partir de otras.

En el contexto de la correlación, los datos se clasifican como variables independientes o dependientes. Las primeras se conocen como variables de entrada y tienen normalmente valores que son autónomos de las variables dependientes o de desenlace. Las variables dependientes (también llamadas de salida o de resultado), tienen respuestas que dependen de las variables independientes.

Las variables dependientes se consideran antecedentes y las variables dependientes son consiguientes. En la epidemiología, las variables independientes se llaman a menudo factores de riesgo o variables de exposición.

3.1. DIAGRAMA DE DISPERSIÓN

Cuando un investigador ha recopilado dos conjuntos de observaciones y desea ver si hay una relación entre ellos, lo mejor es construir primero un diagrama de dispersión.

La escala vertical representa un conjunto de mediciones, y la horizontal el otro. Los puntos de diagrama de dispersión generalmente no caen sobre una única línea recta, ni son equidistantes a ninguno de los lados de una recta central. A menudo caen en un área aproximadamente elíptica. El diagrama de dispersión da una indicación de si puede existir una correlación y de cuál es su dirección. Por lo general, las variables independientes se representan gráficamente en el eje X (eje horizontal) y las variables dependientes se representan en el eje Y (eje vertical).

La covarianza entre dos variables, S_xy, indica si la posible relación entre dos variables es directa o inversa, si:

Directa: S_xy >0

Inversa: S_xy <0

Incorreladas o no correlacionadas: S_xy =0

3.2. COEFICIENTE DE CORRELACIÓN

Cuando la relación entre dos variables puede expresarse gráficamente por una línea recta, la correlación puede expresarse como el coeficiente de correlación, y puede ser positiva o negativa. Cuando una variable aumenta a medida que la otra también aumenta, la correlación es positiva. Cuando una variable disminuye conforme la otra aumenta, es negativa.

Coeficiente De Correlación Lineal De Pearson

El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que S_xy, por lo tanto, de su signo positivo o negativo obtenemos el que la posible relación sea directa o inversa respectivamente.

Es útil para determinar si hay una relación lineal entre dos variables, pero no servirá para otro tipo de relaciones. El coeficiente de correlación (r) se mide en una escala que varía entre +1 y –1, pasando por 0. La correlación completa entre dos variables se expresa como 1. Deberá quedar claro que correlación significa asociación, pero no necesariamente significa causalidad. Esta conclusión queda para la interpretación de los resultados.

Otros Coeficientes De Correlación

Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas. Disponemos para estos casos de dos estadísticos:

ρ (‘ro’) de Spearman
τ (‘tau’) de Kendall

Son estadísticos análogos al coeficiente de Pearson.

3.3. ECUACIÓN DE REGRESIÓN

La correlación entre dos variables significa que cuando una de ellas cambia en una cierta cantidad, la otra cambia en promedio una determinada cantidad. La relación puede ser descrita por una ecuación sencilla llamada la ecuación de regresión, que puede usarse para construir una recta de regresión sobre un diagrama de dispersión.

Es algo habitual en Ciencias de la Salud, de forma que las fórmulas y expresiones que utilizamos con frecuencia derivan de análisis de este tipo.

Y = f(X) + e

Decimos entonces que, si conocemos X, podemos aproximarnos al valor de Y, donde:

Y = Variable dependiente, predicha o explicada.
X = Variable independiente, predictora o explicativa.
E= error aleatorio, pequeño, y no depende de X.

Como la línea debe ser recta, probablemente pasará por algunos puntos, si los hay.

Coeficiente de regresión es el término usado para significar la cantidad por la cual debe multiplicarse un cambio en una variable (variable independiente), para obtener el cambio promedio correspondiente en otra variable (variable dependiente). Representa el grado en que la recta de regresión se inclina hacia arriba o hacia abajo.

4. GRÁFICOS Y FIGURAS

Las figuras mejoran la legibilidad de los resultados. Las representaciones gráficas permiten captar visualmente las características de los datos de forma rápida. Hay varios tipos de gráficas que se escogen según el tipo de variables del estudio.Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS, SPSS, entre otros permiten obtener representaciones gráficas de diversos conjuntos de datos. Las gráficas pueden ser tipo histograma, polígono de frecuencias, gráfica de series de tiempo, etc,

Veremos a continuación las principales gráficas según el tipo de variable.

4.1. GRÁFICAS PARA VARIABLES CUALITATIVAS O NOMINALES

Diagrama de barras. Son gráficas en las que se representan en el eje de abscisas las diferentes modalidades de la variable, y a cada una de ellas se le socia una barra de altura proporcional a la frecuencia (absoluta o relativa) de la misma. Se pueden comparar varias poblaciones en un mismo gráfico. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas en lugar de las absolutas.

Diagrama de sectores. Se les llama coloquialmente “quesitos” o “tartas”. Se divide un círculo en tantas porciones como modalidades existan, de modo que a cada una le corresponda un arco de círculo proporcional a su frecuencia absoluta o relativa. Para comparar una variable cualitativa en dos poblaciones, se usa para cada una de ellas un diagrama circular. Los radios deben ser proporcionales a los números de individuos en las poblaciones.

Pictogramas. Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Se representan en diferentes escalas un mismo dibujo. La escala de los dibujos debe ser tal que el área (no el perímetro) de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Son fáciles de comprender.

4.2. GRÁFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS

Diagrama de barras. Se usa para construir una gráfica diferencial. Las barras deben ser estrechas para mostrar que los valores que toma la variable son discretos.

Diagrama en escalera o acumulado. Se usa para construir una gráfica integral.

4.3. GRÁFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS

Histograma. Se construye representado sobre cada intervalo un rectángulo que tiene este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. Si los intervalos son de igual amplitud la altura puede coincidir con la frecuencia (absoluta o relativa). Si los intervalos son de distinta amplitud la altura se calcula dividiendo la frecuencia por la amplitud (frecuencia rectificada o densidad de frecuencias), que será la altura del rectángulo.
Polígono de frecuencias. Se construye fácilmente si se representa previamente el histograma. Se unen mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. En el primer y último intervalo se considera que adyacentes a ellos existen otros intervalos de la misma longitud y frecuencia nula y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Tiene en común con el histograma el que las áreas de las gráficas sobre un intervalo son idénticas.
Polígono de frecuencias acumulado u ojiva. Se obtiene como la poligonal definida en abscisas a partir de los extremos de los intervalos y, en ordenadas, por alturas que son proporcionales a las frecuencias acumuladas. Deriva del histograma.

4.4. DIAGRAMAS ESPECIALES

Son diagramas diferentes a los anteriores y suelen utilizarse con bastante frecuencia.

Gráfica de dispersión: Permite visualizar la distribución y la posible relación entre dos variables medidas en cada sujeto de la muestra.

Gráficos Box plots (de caja “box” y bigotes “whisker plots”). Permiten determinar fácilmente de forma visual la tendencia central, la variabilidad, la asimetría y la existencia de valores anómalos en una distribución de frecuencias.

Incluye las siguientes características de la distribución:

- Caja (box). La línea interior representa la mediana, la de la izquierda el primer cuartil y la de la derecha el tercer cuartil. La caja recoge el 50% de las observaciones de la distribución y se determina uniendo los extremos de estas tres líneas por dos segmentos paralelos.

- Bigotes (whiskers): La observación más grande que no se aleja más de 1,5 mveces el recorrido intercuartílico (C3 – C1) desde el tercer cuartil se encuentra unida a la caja por el bigote derecho. La observación más pequeña que no se aleja más de 1,5 veces el recorrido intercuartílico desde el primer cuartil se encuentra unida a la caja por el bigote izquierdo.

- Valores sospechosos de ser anómalos (o): Los puntos que sobrepasan los extremos de los bigotes pero no están a más de 3 veces el recorrido intercuartílico desde el lado derecho e izquierdo de la caja. Estos valores deben ser considerados con prudencia.

- Valores anómalos: Puntos que se alejan del lado derecho e izquierdo de la caja más de 3 veces el recorrido intercuartílico. Estos valores pueden no considerarse como pertenecientes a la distribución estudiada.

Diagrama de barras de error. Representa intervalos de confianza.

Pirámide de población.

Curvas ROC. Se usa para valorar la exactitud de una prueba diagnóstica. El área bajo la curva constituye el método más apropiado.Un parámetro para evaluar la bondad de la prueba es el área bajo la curva que tomará valores entre 1 (prueba perfecta) y 0,5 (prueba inútil). Puede demostrarse (Hanley y McNeil) que esta área se interpreta como la probabilidad de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique correctamente. En consecuencia, las curvas ROC son útiles para:

- Conocer el rendimiento global de una prueba. Área bajo la curva.

- Comparar dos pruebas o dos puntos de corte. Comparación de dos curvas o de dos puntos sobre una curva.

- Elegir el punto de corte apropiado para un determinado paciente.

Perfil radial. Representan frecuencias de una serie de casos. Cada “brazo” es una clase. En el ejemplo se representa el porcentaje de homosexuales en los cinco continentes (brazos).

5. PROBABILIDAD

En ciencias de la salud la mayoría de los fenómenos se relacionan a situaciones aleatorias. Así, aunque un experimento se reproduzca en condiciones similares se puede producir resultados diferentes. El experimento también se llama experiencia aleatoria, siendo cada uno de los posibles resultados aleatorios un suceso elemental. La probabilidad de que se produzca un suceso hace referencia a la frecuencia relativa con la que ese suceso tendrá lugar a largo plazo en pruebas repetidas y en condiciones similares.

La probabilidad es el cociente entre los casos favorables (A) y los casos posibles (N). Teniendo esto en cuenta la fórmula básica para calcular la probabilidad es:

P (evento) = A / N

El valor de una probabilidad se sitúa entre 0 (no sucede) y 1 (sucede). La probabilidad de que se produzca un evento se expresa en porcentaje y, por ello, nunca es superior a 1 (100%) ni inferior a 0 (0%).

Como ejemplo, una probabilidad de 0,1 significa que tiene un 10% de probabilidades de que se produzca, mientras que la probabilidad de que no se produzca es de 1 – 0,1 = 0,9, es decir, del 90%:

P (nA) = 1 - P(A)

Par que un experimento sea aleatorio es necesario que:

No es posible predecir el resultado que se va a producir.
Se puede repetir indefinidamente produciéndose en las mismas condiciones.

Al ser los sucesos aleatorios son partes de un espacio muestral, se pueden aplicar las mismas operaciones que para los conjuntos, estas son:

Unión: dados dos sucesos aleatorios A, B se denomina suceso unión de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que sean de ambos simultáneamente).
Intersección: dados dos sucesos aleatorios A, B se denomina suceso intersección de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez.
Diferencia: dados dos sucesos aleatorios A, B, se llama suceso diferencia de A y B, y se representa mediante AB, o bien A-B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B.

Cuando existe un problema de probabilidad, lo primero que es recomendable hacer es identificar si nos encontramos ante un suceso mutuamente excluyente o no mutuamente excluyente, ya que el cálculo de probabilidades es diferente.

5.1. SUCESOS MUTUAMENTE EXCLUYENTES

Hablamos de sucesos mutuamente excluyentes o incompatibles cuando no se pueden producir de manera simultánea. Por ejemplo, la probabilidad de que una mujer embarazada tenga una hija (género femenino), excluye a que tenga un hijo (género masculino).

En los sucesos mutuamente excluyentes o incompatibles, la intersección entre los dos sucesos no existe:

P (A ∩ B) = 0

La probabilidad de que dos sucesos mutuamente excluyentes sucedan se obtiene por la adición de las probabilidades individuales de cada uno:

P (A ∪ B)= P(A) + P(B)

Por ejemplo, la probabilidad de que una mujer embarazada tenga un hijo (0,5) o una hija (0,5) es la suma de cada una de sus posibilidades:

P (0,5 o 0,5)= P(0,5) + P(0,5) = 1

5.2. SUCESOS NO MUTUAMENTE EXCLUYENTES

Si los sucesos no son mutuamente excluyentes, la suma de los dos sucesos debe tener en cuenta que la intersección no es nula.

P (A ∪ B) = P(A) + P(B) - P(A ∩ B)

Por ejemplo, la probabilidad de que al lanzar un dado salga un resultado superior a 2 o par debe tener en cuenta que los resultados 4 y 6 cumplen con las dos condiciones.

P(>2 o par)= P(3, 4, 5, 6) + P(2, 4, 6) - P(4, 6)

5.3. PROBABILIDAD CONDICIONADA

La probabilidad condicionada es la probabilidad de que un suceso se produzca según el resultado de algún otro suceso.

P(A/B) = P(A ∪ B) / P(B)

Sería la probabilidad de que después de producirse el suceso A, se produzca el suceso B.

En este caso, la probabilidad de que dos sucesos A y B ocurran se calcula mediante la ley multiplicativa:

P(A ∩ B) = P(B/A) x P(A)

5.4. SUCESOS INDEPENDIENTES Y DEPENDIENTES

Dos sucesos son independientes si al producirse el suceso A no interfiere en la probabilidad de que aparezca el suceso B:

P(B/A) = P(B))

Dos sucesos son dependientes si ocurre justamente lo contrario, es decir, que al producirse el suceso A interfiere en la probabilidad de que se produzca el suceso B:

P(B/A) ≠ P(B)

Si existe sucesos independientes se ejecutaría la ley multiplicativa:

P(A ∩ B) = P(A) x P(B)

5.5. TEOREMA DE BAYES

El teorema de Bayes permite conocer la probabilidad de presencia de enfermedad de un sujeto P(E) después de conocer la presencia de un síntoma P(S), signo o prueba diagnóstica positiva, mediante el uso de probabilidades condicionadas.

P(Bi/A) = P(Bi) · P(A/Bi) / Σ^k_i=1 P(Bi) · P(A/Bi)

El Teorema de Bayes permite hallar los valores predictivos a posteriori, es decir, una vez conocido el resultado de la prueba del paciente y conociendo la prevalencia de la enfermedad en la población.

6. DISTRIBUCIONES

Al realizar un estudio con variables aleatorias continuas se utiliza la distribución normal o gaussiana, la distribución uniforme o rectangular, la distribución exponencial o la distribución t de Student.

Para el estudio de las distribuciones con variables aleatorias discretas, se aplican la distribución de Bernoulli, la distribución binomial y la distribución de Poisson.

Las tres leyes teóricas más utilizadas en ciencias de la salud para las distribuciones de probabilidad son:

Distribución de Gauss o normal.
Distribución binomial.
Distribución de Poisson.

6.1. DISTRIBUCIONES CONTINUAS

Distribución normal

La mayoría de las variables biológicas siguen una distribución denominada normal o de Gauss. La forma de la función de densidad es la llamada campana de Gauss. Esta distribución tiene como características:

Posee una forma de campana.
Es simétrica respecto a su media. Esto significa que el área comprendida entre la curva y el eje de abscisas se encuentra concentrada alrededor de la media.
Tiene una única moda que coincide con su media y su mediana.
La mayor parte de los valores se sitúan alrededor de la media.
Va de menos infinito a más infinito.
El área total bajo la curva es 1.
La probabilidad de un valor concreto es 0.
Se puede conocer entre qué valores está un determinado porcentaje de valores:
- La media ±1 desviación estándar comprende el 68% central de los valores.
- La media ±2 desviaciones estándar comprende el 95% central de los valores.
- La media ±2,57 desviaciones estándar comprende el 99% central de los valores.
- La media ±3 desviaciones estándar comprende el 99,75% central de los valores.

Al revisar la campana de Gauss se aprecia que la mayor parte del área de probabilidad se encuentra concentrada alrededor de la media, y las ramas de la curva se extienden de forma descendente hacia los ejes de manera que cualquier valor, aunque sea distante de la media, es posible pero poco probable.

6.2. DISTRIBUCIONES DISCRETAS

Distribución binomial

La distribución binomial es una ley teórica que aplicaremos siempre que conozcamos la probabilidad de aparición de un fenómeno biológico. El resultado es dicotómico y pudiendo ser un éxito o fracaso, siendo la variable de interés el número de casos de extito alcanzados en n pruebas.

Distribución de Poisson

La distribución de Poisson es un caso especial de la ley binomial para aquellas situaciones en las que la probabilidad de aparición de un fenómeno sea muy pequeña. Es una ley que se utiliza en aquellos sucesos poco habituales o raros.

Se utiliza cuando la probabilidad de aparición del suceso es muy baja, siendo muy cercana a 0 (p < 0,01) y la probabilidad de no aparición próxima a 1 (q ≈ 1).

La distribución de Poisson está caracterizada por:

La media es igual a la varianza poblacional.
Está definida por un único parámetro, la media poblacional.
Es asimétrica, pero a medida que aumenta la media tiende a la normalidad.

Tema 2. Estadística Descriptiva