martes, 12 de mayo de 2020

4.4.3. Intervalos de confianza

Intervalos de confianza

La estimación puntual aproxima mediante un número el valor de una característica población o parámetro desconocido (la altura media de los españoles, la intención de voto a un partido en las próximas elecciones generales, el tiempo medio de ejecución de un algoritmo, el número de taxis…) pero no nos indica el error que se comete en dicha estimación.
Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del parámetro, un intervalo que mida el margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza.
Un intervalo de confianza para un parámetro con un nivel de confianza 1α (0<α<1), es un intervalo de extremos aleatorios (L,U) que, con probabilidad 1α, contiene al parámetro en cuestión.P(parámetro(L,U))=1α.
Los valores más habituales del nivel de confianza 1α son 0.9,0.95 o 0.99 (la confianza es del 90%,95% o 99%). En ocasiones también se emplea la terminología nivel de significación para el valor α.
En la estimación por intervalos de confianza partimos de una muestra x1,,xn. A partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del 99 por ciento, la proporción de voto al partido político “Unidas Ciudadanas” está entre el 29 y el 31 por ciento. O que, con una confianza del 90 por ciento, la estatura media está entre 1.80 y 1.84.

Estimación por intervalo de confianza

Los estimadores puntuales sólo dan una idea aproximada del valor del parámetro a estimar, no conociéndose cómo de buena es la aproximación; ellos simplemente proporcionan el mejor número que pueda proponerse como valor del parámetro. Por ejemplo decir que µ1=170 cm significa que la estatura media de todos los españoles es aproximadamente 170 cm, pero el término "aproximado" no se sabe si alude a 1 cm arriba o abajo, o a 1 metro arriba o abajo. De hecho no puede esperarse gran cosa de un estimador.
Los problemas anteriores eran de esperar pues realmente es demasiado pedir que a partir de una muestra pueda calcularse el valor del parámetro tan exactamente como si se tomara toda la población. En realidad lo que importa es que el valor de la media muestral ,por ejemplo, no esté demasiado alejado de µ, y esto se comprueba con los intervalos de confianza.
El objetivo es realizar afirmaciones del tipo: "la estatura media ( de los españoles no sé exactamente cuanto es, pero es casi seguro alguno de los valores , con una cierta seguridad. La seguridad alude a la probabilidad de que la afirmación sea cierta, con lo que el problema de obtener intervalos de confianza para un parámetro radica en encontrar dos valores a y b tales que ,donde (a , b) es el intervalo de confianza para , 1 - el nivel de confianza del intervalo (usualmente próximo a 1) y  el nivel de error del intervalo (usualmente próximo a 0).
Intervalo de Confianza para una media
Variables Normales.
Supongamos una v. a. x con distribución N(µ ;) en donde la media µ es desconocida y la varianza , la suponemos por ahora conocida. Con el fin de estimar µ (colesterol medio, nivel medio de glucosa, altura media de los varones mayores de edad, etc.) se va a tomar una muestra aleatoria x1 ,x,...,xn que proporciona una media que será una estimación puntual de µ. Aceptaremos sin demostrarlo que:
       (4.1)
con probabilidad del 95%, y así tenemos el intervalo buscado. Esta expresión debe interpretarse adecuadamente. Ella indica que el 95% de las muestras de tamaño n tendrán una media que, al sustituirla en la expresión, da lugar a un intervalo que contiene en su interior a µ, en tanto que otro 5% no sucederá esto. Nótese que se ha dicho que "el intervalo contiene en su interior a µ, y no que "µ cae en el interior del intervalo"; la primera afirmación es cierta pues los extremos del intervalo son v. a. por depender de  que también lo es; la segunda afirmación es falsa pues µ es un parámetro (valor fijo aunque desconocido), no una v.a., no pudiendo variar. Así pues debe decirse que hay una probabilidad del 95% de que el intervalo contenga al parámetro.
En el ejemplo de la estatura media µ de los españoles, si se tiene que , dado que el 95% de los intervalos contienen a µ, diremos que "tenemos la esperanza de que este sea uno de los 95 intervalos de cada 100 que dejan en su interior a µ, esperando no haber tenido la mala suerte de que el intervalo obtenido sea uno de los 5 de cada 100 intervalos erróneos". Más abreviadamente, diremos que µ está entre (169 ; 172) "con una confianza del 95%"; de ahí el nombre de intervalo de confianza. Conviene notar que ahora se habla de "confianza" , y no de "probabilidad" como antes, pues los extremos del intervalo ya son números fijos y µ o está o no está dentro.
El intervalo (4.1) podemos expresarlo abreviadamente como , debiéndose el valor 1,96 al 5% de error tomado, es decir z0,05 = 1,96 en la tabla de la Distribución Normal.. De un modo general, si en lugar de una confianza del 95% tomamos una de (1 - ), (o en lugar de un error del 5% se toma uno de ), entonces el intervalo será:
 (4.2)
con ,en la tabla de la D. N..
    Ejemplo 1: Para determinar la estatura media de los varones adultos españoles, se tomó una muestra al azar de 10 de ellos en la que se obtuvo los valores 162, 176, 169, 165, 171, 169, 172, 168, 167 y 175 cm. Determinar el valor de la estatura media, suponiendo que = 16.
    Un estimador puntual para la estatura media µ es la que en este caso es 169,4. Para dar un intervalo de confianza hemos de suponer que es una v. a. normal. Como n=10, = 169,4 y  = 4, para el intervalo de confianza al 95%, la expresión (4.1) indica que 
    Así pues, esperamos que este intervalo sea un de los 95 de cada 100 que contienen a µ, o, más brevemente, la estatura media de los españoles varones adultos es algún valor entre 166,92 cm y 171,88 cm con una confianza del 95%.
Es evidente que un intervalo de confianza para un  dado será tanto más preciso cuanto más estrecho sea. Así, será preferible afirmar que la estatura media está entre 170 y 171 cm al 95% de confianza, que afirmar que la estatura está entre 165 y 175 con igual confianza. Como la longitud del intervalo es dos veces su radio, el mismo puede disminuirse aumentando el valor del tamaño de la muestra (pues n aparece dividiendo). Ello responde a una regla que será general en toda la Estadística: cuanto más grande sea una muestra, más información da y más precisas son las conclusiones que se obtengan a partir de ella.
La otra forma de estrechar el intervalo es disminuyendo la confianza ( es decir, aumentando el error). Así z0,05 = 1,96, pero z0,15 = 1,44, que por ser menor da un intervalo más estrecho. Sin embargo ahora la anchura del intervalo ha disminuido a costa de la seguridad (confianza) del mismo, y ello no es deseable. Lo usual es considerar errores  del 5%, aunque en ocasiones se utilizan otros como los del 1% o del 10%. Nos podemos preguntar ¿se puede dar un intervalo al 100% de confianza?; la respuesta es que esto exigiría una z0,00 = , con lo que el intervalo sería ( -) que en el caso del ejemplo daría lugar a la afirmación "la estatura media de los españoles está entre - y  ", que es absolutamente cierta y absolutamente inútil también.
Hasta este momento hemos supuesto que la varianza de la población era conocida, lo que no suele ser real. Cuando  es desconocida, lo lógico es sustituirla por su estimador s, obteniendo así que .Sin embargo s es una v. a. y unas veces será más grande que  y otras más pequeña, lo que da una cierta imprecisión al intervalo. Conviene ensanchar un poco el intervalo para que la confianza del mismo permanezca. El modo de hacerlo consiste en aumentar el valor de , localizándolo en una tabla distinta. Ahora tendremos:
(4.3)
con t en la tabla de la distribución t de Student con (n-1) grados de libertad, tabla que presenta los valores de t en un formato similar al de la distribución normal, excepto en que la nueva variable depende de un nuevo parámetro llamado grados de libertad.
    Ejemplo 2: Resolver el ejemplo anterior sin suponer conocido el valor de .
    De antes se conoce que n =10 y = 169,4. Ahora es preciso calcular la varianza muestral por la fórmula correspondiente lo que da s = 4,3. Como t0,05 (9 g.l.)= 2,262 en la tabla , entonces es el intervalo de confianza para µ al 95% de confianza.
La interpretación del nuevo intervalo es idéntica del que resultaba cuando la varianza era conocida, la única diferencia es que ahora no sólo el centro del intervalo es variable, sino que también lo es su radio.
Tamaño de la muestra.
En la fase de diseño de una experiencia suele plantearse cuál debe ser el tamaño mínimo de la muestra para lograr una precisión dada en la estimación de la media. Así, ¿cuántos españoles debo tomar para determinar su estatura media con una precisión de 1 cm? Con ello se quiere indicar que si concluyo que debo tomar n = 100 españoles y tomo una muestra de 100 de ellos, la estatura media en la muestra () distará de la media de la población (µ) en menos de 1 cm (en general d cm), es decir que  con una cierta confianza. Otro modo de decir lo mismo es afirmar que si es =170 en la muestra de 100 que se ha decidido como idónea, entonces sé que ( va a estar entre 169 y 171 ( es decir entre -d y +d). . Como además se tiene  habrá de ser , y despejando n queda:
(4.4)
La expresión (4.4) tiene la desventaja de depender de , valor desconocido usualmente.
Tenemos varias alternativas para resolver este inconveniente:
1º )Sustituir por el valor máximo que se piense pueda tomar, según nuestras experiencias previas. En el peor de los casos n será mayor de lo necesario. Quedaría:
(4.5)
2º) Tomar una muestra piloto de tamaño n´ pequeño, obtener en ella su varianza  y entonces:
(4.6)
con t en la Tabla de la t de Student con n´-1 g.l.
3º) Enunciar la precisión en términos de fracciones de . Así, si deseamos ocurra que con una confianza 1-, cambiando d2 por K2 en la (4.4) queda:
(4.7)
    Ejemplo 3: Determinar el tamaño de muestra requerido para obtener la estatura media de la población, con una precisión de 1 cm, si la varianza poblacional es = 25.
    Tomando n=97 individuos, según la fórmula (4.4) la media de ellos estará en el intervalo x1al 95% de confianza. El redondeo se hace siempre por exceso pasa asegurar la precisión.
    Ejemplo 4: Determinar el tamaño de la muestra para obtener la estatura media de una población con una precisión de 0,3.
    Ahora n=43, según la expresión (4.7),y, entonces la media está en 0,3
    Ejemplo 5: Con datos del Ejemplo 1 como muestra piloto, determinar n con precisión d=4cm
    Ahora n´=10 y . Como 6 < 10 = n´, ello indica que con la muestra piloto nos basta para la precisión deseada.
    Ejemplo 6: Igual que el anterior pero exigiendo un d = 1 cm.
    De nuevo n´= 10 y ahora , con lo que son precisos 85 individuos más que antes.
Intervalo de confianza para una proporción.
Vamos a empezar este apartado planteando un ejemplo.
    Ejemplo 7: Si de 100 personas encuestadas, 30 se manifiestan a favor de un determinado partido político, ¿qué porcentaje de votos obtendría dicho partido de celebrarse en ese momento las elecciones? (confianza del 95%)
    Obsérvese que x="nº de individuos, entre los 100 encuestados, que votarán al candidato" es una Binomial de parámetro n = 100 y p desconocido. El objetivo es determinar p teniendo en cuenta que x sigue una B(n,p), con n = 100 y x = 30 el valor obtenido experimentalmente de esa Binomial. Conviene expresar que todo lo que sigue contiene las fórmulas para p expresadas en tantos por uno, no en %.

No hay comentarios:

Publicar un comentario