Este estudio se lleva a cabo con el fin de generar conocimiento acerca de las cacterísticas de los habitantes con hábitos de consumo de tabaco en una determinada ciudad. La estadística nos dice que es posible estudiar una muestra y extrapolar las conclusiones a la población, a través de un vínculo probabilístico explícito entre los datos de la muestra y la población. Para ello, se evaluó técnica de muestreo, distribución probilisitica de los datos otenidos de la muestra, modelos de estimación y contrastes de hipótesis.
Se desea investigar acerca de las características de las personas con hábitos de consumo de tabaco en una ciudad y se plantearon los siguientes interrogantes:
Dada la distribución sociodemográfica de la ciudad, con un muestreo aleatorio simple es posible obtener una muestra representativa que permita generalizar. De la población de intéres, los residentes de la ciudad, se extrae una muestra aleatoria de 70 personas y se toma registro de las siguientes variables: edad (en años), género, estatura (en cm), peso (en kg) y consumo de tabaco.
Echamos un vistazo a las seis primeras filas de nuestros datos
## edad genero estatura peso tabaco
## 1 21 Mujer 161.2 64.6 Nunca lo ha usado
## 2 21 Hombre 192.3 97.6 Nunca lo ha usado
## 3 22 Mujer 158.2 57.8 Nunca lo ha usado
## 4 22 Hombre 174.9 85.8 Nunca lo ha usado
## 5 23 Mujer 156.6 56.4 Nunca lo ha usado
## 6 23 Hombre 176.6 78.2 Nunca lo ha usado
Identificar el tipo de variables con las que se está trabajando es el primer paso del proceso de análisis de datos.
## 'data.frame': 70 obs. of 5 variables:
## $ edad : int 21 21 22 22 23 23 24 24 25 25 ...
## $ genero : chr "Mujer" "Hombre" "Mujer" "Hombre" ...
## $ estatura: num 161 192 158 175 157 ...
## $ peso : num 64.6 97.6 57.8 85.8 56.4 78.2 64.5 75.4 71.6 95 ...
## $ tabaco : chr "Nunca lo ha usado" "Nunca lo ha usado" "Nunca lo ha usado" "Nunca lo ha usado" ...
Tenemos 70 observaciones y 5 variables. La estatura, el peso y la edad son variables del tipo numérica continua. Es importante, pensar en la naturaleza de la variable y no solo en los valores observados al determinar si la variable numérica es continua o discreta. El redondeo de variables continuas, puede hacer que parezcan discretas. Por ejemplo, la altura es una variable continua, sin embargo, tendemos a reportar nuestra altura redondeada a la unidad de medida más cercana en centímetros o en años cumplidos cuando decimos nuestra edad, como podemos observar en nuestros datos. Además, tenemos 2 variables categóricas nominales, género y tabaco, cuyos niveles no siguen un orden inherente.
Para estimar características de una población (o también conocidas como parámetros), tales como medias, proporciones, variancias, calculamos estadísticos a partir los datos de una muestra aleatoria.
El estadísitco que se emplea para obtener una estimación puntual recibe el nombre de estimador o función de decisión. La media muestral se emplea para estimar la media poblacional, de esta manera para estimar la edad promedio de los fumadores, se evalúa la edad de los encuestados con hábitos de consumo. Generalmente, muestras diferentes conducen a estimaciones diferentes, por lo que no es de esperar que un estimador obtenga sin error el valor del parámetro de la población sino que no se aleje demasiado de este valor. Las conclusiones referentes a la media poblacional que se obtenga del promedio muestral observado dependen del conocimiento de su distribución muestral. Por este motivo, se evalúa histograma, propiedades de distribución normal, gráfico de probabilidad normal y prueba de Shapiro - Wills.
Creamos un nuevo data frame para los casos con hábitos de consumo de tabaco.
Evaluamos la variable:
## [1] 24 25 25 26 27 28 29 29 30 35 35 37 37 38 39 40 41 42 42 43 43 45 49 50 51
## [26] 51 52 53 55
Histograma de la variable edad para el grupo de fumadores
La distribución normal tiene dos parámetros, media y la desviación estándar. Es unimodal, simétrica y sigue directrices muy estrictas sobre la variabilidad con la que se distribuyen los datos alrededor de la media. Para poder concluir que un conjunto de datos se distribuye casi normalmente, debe cumplir la regla 68 - 95 - 99.7% que nos dice: el 68% de los datos se encuentre dentro de una desviación estándar de la media, 95% dentro dos desviaciones estándar de la media y el 99,7% tres desviaciones estándar de la media. Evaluamos la estimación del desvio estandar para poder emplearlo en la verificación de la regla.
## variable_edad
## n missing distinct Info Mean Gmd .05 .10
## 29 0 22 0.998 38.66 11.22 25.0 25.8
## .25 .50 .75 .90 .95
## 29.0 39.0 45.0 51.2 52.6
##
## lowest : 24 25 26 27 28, highest: 50 51 52 53 55
## [1] 9.618716
## [1] 92.5197
Nos interesa saber si hay evidencia contundente de que el desvio estandar es mayor a 10 años. Planteamos H0: Varianza edad < = 10^2, H1: Varianza edad > 10^2
##
## One sample Chi-squared test for variance
##
## data: variable_edad
## X-squared = 25.906, df = 28, p-value = 0.5782
## alternative hypothesis: true variance is greater than 100
## 95 percent confidence interval:
## 62.66887 Inf
## sample estimates:
## var of variable_edad
## 92.5197
El p-value = 0.4218 > alpha 0.05, es decir no hay evidencia suficiente para rechazar la hipótesis nula. Podemos emplear 9.61 como un valor aproximado al valor de desvio estandar poblacional para verificar la regla de distribución normal.
## [1] 0.6826895
## [1] 0.8489555
## [1] 0.891896
Podemos ver que, el 68% de los datos se encuentran, efectivamente, a una desviación estándar de la media, pero el 95 y 99 % de los datos no se encuentran a dos y tres desviación estándar de la media respectivamente. Podemos decir, que la edad de los fumadores tiene mayor propagación que una distibución normal, reforzando lo observado en el histograma.
Otra herrramienta para evaluar si una variable sigue una distribución es normal, es la gráfica de probabilidad normal. Los datos se representan en el eje y y los cuantiles teóricos que se esperaría bajo la distribución normal, se trazan en el eje x. Si existe una relación uno a uno entre los datos y los cuantiles teóricos, entonces los datos siguen una distribución casi normal. La relación uno a uno se representan con la línea recta, por ende, cuanto más cerca estén los puntos de una línea recta perfecta, más seguro podemos estar de que los datos siguen un modelo normal.
También, evalúamos la prueba de Shapiro - Wills que se usa para contrastar la normalidad de un conjunto de datos. En esta prueba, la hipótesis nula es de normalidad. Se obtiene un p value mayor al nivel de significancia, por ende se acepta H0.
##
## Shapiro-Wilk normality test
##
## data: variable_edad
## W = 0.94161, p-value = 0.1105
Podemos concluir, que la distribución que sigue la variable edad se aproxima a la forma de campana, podemos emplear la distribución t para estimar la media poblacional con varianza desconocida y esperar muy buenos resultados.
Estimación por intervalos de confianza del 95% y 90%:
## [1] 34.99641 42.31394
## attr(,"conf.level")
## [1] 0.95
##
## One Sample t-test
##
## data: variable_edad
## t = 21.642, df = 28, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 34.99641 42.31394
## sample estimates:
## mean of x
## 38.65517
## [1] 35.61670 41.69365
## attr(,"conf.level")
## [1] 0.9
##
## One Sample t-test
##
## data: variable_edad
## t = 21.642, df = 28, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
## 35.61670 41.69365
## sample estimates:
## mean of x
## 38.65517
## [1] 34.99641 42.31394
## attr(,"conf.level")
## [1] 0.95
## [1] 35.61670 41.69365
## attr(,"conf.level")
## [1] 0.9
La edad mínima registrada de los fumadores es de 24 años y la edad máxima es de 55 años. Dentro de este rango, se encuentra el 89% de los fumadores. El 68% de los fumadores tienen entre 38 y 48 años. La estimación puntual de la edad media es de 38 años cumplidos y tenemos una confianza del 95% de que la edad promedio ronda entre 35 y 42 años.
Tenemos 29 personas con hábitos de consumo de tabaco y 41 que nunca lo han usado.
##
## Lo ha usado Nunca lo ha usado
## 29 41
Vamos a generar un vector con la variable peso para las personas que fuman y otro con el peso de las personas que no fuman.
Los gráficos de caja exhiben el percentil 25, 75 y la mediana de una conjunto de datos.Además, las externsiones registran los extremos del mismo. Para la comparación de medias, las gráficas de caja y extensión de lado a lado proporcionan un despliegue revelador. No hay diferencia considerable en las medias muestrales. Si bien, no existen reglas precisas en relación a cuándo dos gráficas proporcionan evidencia de diferencia significativa entre medias, una guía aporximada es que si la línea del percentil 25 para una muestra excede la línea mediana de la otra, existe suficiente evidencia de una diferencia entre medias. La gráfica indica un peso con variabilidad en más pequeña para el grupo no fumador.
A continuación, se evalúa la distribución de la variable peso de los fumadores:
##
## Shapiro-Wilk normality test
##
## data: peso_fumadores
## W = 0.95707, p-value = 0.2778
Se realiza el mismo análisis para la variable peso de los no fumadores:
##
## Shapiro-Wilk normality test
##
## data: peso_nofumadores
## W = 0.98022, p-value = 0.684
Concluimos que la variable peso tiene un comportamiento normal y podemos hacer uso del modelo t sdtudent para realizar estimaciones y prueba de hipótesis. Realizamos un contraste para diferencias de medias de la variable peso para fumadores y no fumadores con un nivel de significancia del 5%.
##
## Welch Two Sample t-test
##
## data: peso_fumadores and peso_nofumadores
## t = -0.54406, df = 65.341, p-value = 0.5883
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -6.185464 3.536684
## sample estimates:
## mean of x mean of y
## 72.20000 73.52439
Dado los resultados de esta prueba, los datos no proporcionan evidencia suficiente para rechazar la hipotesis nula de igualdad de medias. Esto refuerza lo observado en el gráfico anterior. Realizamos una prueba de igualdad de varianzas. Esto es, probar la hipótesis nula de que la varianza de en peso de los fumadores es igual a la varianza en el peso de los no fumadores, en contraposición a la hipótesis alternativa de varianzas diferentes en ambas poblaciones (fumadores y no fumadores).
##
## F test to compare two variances
##
## data: peso_fumadores and peso_nofumadores
## F = 0.73928, num df = 28, denom df = 40, p-value = 0.4061
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.3768872 1.5137957
## sample estimates:
## ratio of variances
## 0.7392792
Los datos no proporcionan evidencia suficiente para recharzar la igualdad de varianzas, a pesar que en el gráfico de cajas de los datos se haya apreciado una mayor propagación en el peso de los fumadores.
##
## Hombre Mujer
## Lo ha usado 14 15
## Nunca lo ha usado 21 20
Ante una conjetura, se puede plantear una hipótesis estadística y emplear los datos de la muestra para proporcionar evidencia que confirme o no la hipótesis. En este caso debemos encontrar pruebas suficientes para rechazar que la cantidad de mujeres es mayor que cantidad de hombres dentro del grupo de fumadores. Note que, tanto la conjetura como la hipótesis se referieren a una caracterísitca de la población. Si bien se emplean las datos de la muestras para realizar la prueba estadísitca, las conclusiones se van a extrapolar a la población. Prueba de una cola para proporción de fumadores entre hombres y mujeres, siendo H0: proporción de hombres que fuman <= proporción de mujeres que fuman H1: proporción de hombres que fuman > proporción de mujeres que fuman
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(15, 14) out of c(35, 35)
## X-squared = 1.8089e-30, df = 1, p-value = 0.5
## alternative hypothesis: greater
## 95 percent confidence interval:
## -0.1936058 1.0000000
## sample estimates:
## prop 1 prop 2
## 0.4285714 0.4000000
Los datos no proporcionan evidencia suficiente para refutar que la proporción de hombres que fuman es sea menor o igual que el de las mujeres que fuman. Por lo tanto, no podemos decir que la apreciación de que hay mas mujeres que hombres fumadores sea cierta.
Una pregunta recurrente cuando necesitamos realizar un estudio es qué tamaño mínimo de muestra debemos considerar. Supongamos que necesitamos estimar la proporción de personas con hábitos de consumo de tabaco y requerimos un nivel de confianza del 95% con un error en la estimación del 10%. Por teorema sabemos que podemos determinar n empleando la estimación de p y q.1
Lo que resulta engañoso en cuanto a que se debe utilizar una estimación de p para determinar el tamaño n de la muestra, el problema está en que dicha estimación se calcula a partir de la muestra. Para esta estimación se emplea una muestra preliminar de tamaño superior o igual que treinta, como tenemos en este caso.Entonces, mediante este teorema es posible determinar en forma aproximad cuantas observaciones se necesita para proporcionar el grado deseado de precisión.
Definimos p como la proporción de fumadores y q la proporción de los No fumadores.
## [1] 0.4142857
## [1] 0.5857143
Buscamos la puntuación de variable normal estandar dado que el valor bajo la curva es 0.025:
## [1] -1.959964
De esta manera, n es igual a:
## [1] 93.21417
Si precisamos un nivel de confianza del 95 % y un error de estimación del 10%, debemos tomar una muestra de 94 personas.
Las conclusiones referentes a la edad media población con hábitos de consumo, se obtuvo por medio de estimación puntual a partir del promedio muestral y estimación por intervalo a partir de la distribución t dado cumplimiento de normalidad en la variable. La estimación puntual de la edad media es de 38 años cumplidos y tenemos una confianza del 95% de que la edad promedio ronda entre 35 y 42 años.La desvión estandar estimada es 9.61 años. Mientras que la edad mínima registrada de los fumadores es de 24 años y la edad máxima es de 55 años.Dentro de este rango, se encuentra el 89% de la población de fumadores de la ciudad y el 68% de ellos tienen entre 38 y 48 años.
Con respecto a las comparaciones del peso entre fumadores y no fumadores, las estadísticas muestrales nos indican una igualdad de media pero se percibía una mayor propagación de los datos en el grupo de fumadores.Concluimos que la variable peso tiene un comportamiento normal y podemos hacer uso del modelo t sdtudent para el contraste de igualdad de proporciones y varianzas. Los datos no proporcionan evidencia suficiente para rechazar la igualdad de medias y varianzas, a pesar que en el gráfico de cajas de los datos se haya apreciado una mayor propagación en el peso de los fumadores.
En cuanto a la afirmación de que hay más mujeres que hombres fumadores, no se obtuvo sufiente prueba para decir que es cierta. Supongamos que necesitamos estimar la proporción de personas con hábitos de consumo de tabaco y requerimos un nivel de confianza del 95% con un error en la estimación del 10%, debemos tomar una muestra de 94 personas.
Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers and Keying Ye, Probability & Statistics for engineers & scientists, (9na edición),↩︎