34198599 Araya Estadistica Para Quimica

download 34198599 Araya Estadistica Para Quimica

If you can't read please download the document

Transcript of 34198599 Araya Estadistica Para Quimica

  • Editor ia l de la Universidad de Costa Rica

  • Edicin aprobada por la Comisin Editorial de la Universidad de Costa Rica.

    Primera edicin: 2004.

    Diseo de portada: Elisa Giacomin V.

    Editorial de la Universidad de Costa Rica, Ciudad Universitaria Rodrigo Facio.Apdo. 75-2060. Fax: 207-5257, e-mail: [email protected] San Jos, Costa Rica.

    Prohibida la reproduccin total o parcial. Todos los derechos reservados. Hecho el depsito de ley.

    542.1A663e Araya Alpzar, Carlo Magno, 1961-

    Estadstica para laboratorista qumico / CarlomagnoAraya A. 1. ed. San Jos, C.R. : Editorial de la Universidad de Costa Rica, 2004.

    1 disco ptico de computador : col. ; 43/4 plg.

    ISBN: 9977-67-849-9

    1. QUMICA PROBLEMAS, EJERCICIOS DISCOS COMPACTOS. 2. ESTADSTICAMATEMTICA. I. Ttulo.

    CIP/1298CC/SIBDI.UCR

  • Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi

    CAPTULO 1. INTRODUCCIN

    1.1 Historia de la estadstica . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2 Poblaciones y muestras . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.3 Estadstica descriptiva e inferencial . . . . . . . . . . . . . . . . 6

    1.4 Tipos de variables aleatorias . . . . . . . . . . . . . . . . . . . . . 6

    1.5 Error experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.6 Diseo estadstico de experimentos . . . . . . . . . . . . . . . 8

    1.7 Exactitud y precisin . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    CAPTULO 2. ESTADSTICA DESCRIPTIVA

    2.1 Medidas de posicin . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.1.1 La media aritmtica. . . . . . . . . . . . . . . . . . . . . . . 13

    2.1.2 La media geomtrica. . . . . . . . . . . . . . . . . . . . . . 15

    2.1.3 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.1.4 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.1.5 Proporciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.1 Medidas de variabilidad. . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.2.1 El recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.2.2 La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    Contenido

  • 2.2.3 La desviacin estndar . . . . . . . . . . . . . . . . . . . . 22

    2.2.4 El coeficiente de variacin . . . . . . . . . . . . . . . . . . 23

    2.3 Distribucin de frecuencias . . . . . . . . . . . . . . . . . . . . . . 25

    2.3.1 Seleccin del nmero de clases . . . . . . . . . . . . . 25

    2.3.2 Clculo del intervalo de clase . . . . . . . . . . . . . . . 25

    2.3.3 Definicin de los lmites de clase . . . . . . . . . . . . . 27

    2.3.4 Conteo del nmero de observaciones por clase . 27

    2.3.5 Representacin grfica de distribuciones

    de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    2.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    CAPTULO 3. PROBABILIDADES

    3.1 Introduccin a las probabilidades . . . . . . . . . . . . . . . . . 45

    3.2 Definicin axiomtica de probabilidad . . . . . . . . . . . . . . 47

    3.3 Teoremas fundamentales del calculo de probabilidades 49

    3.3.1 Teorema de la adicin . . . . . . . . . . . . . . . . . . . . . 49

    3.3.2 Teorema de la multiplicacin . . . . . . . . . . . . . . . . 50

    3.4 Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . 51

    3.5 Distribuciones discretas. . . . . . . . . . . . . . . . . . . . . . . . . 52

    3.5.1 Distribucin binomial . . . . . . . . . . . . . . . . . . . . . . 52

    3.5.2 Distribucin Poisson . . . . . . . . . . . . . . . . . . . . . . 54

    3.6 Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . 55

    3.6.1 Distribucin normal o Gaussiana . . . . . . . . . . . . . 55

    3.6.2 Uso de la tabla normal estndar . . . . . . . . . . . . . 58

    3.7 Aplicaciones de la distribucin normal estndar . . . . . . 61

    3.8 Distribucin t de Student. . . . . . . . . . . . . . . . . . . . . . . . 63

    3.9 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    vi

  • CAPTULO 4. ESTIMACIN

    4.1 Propiedades deseables de un estimador. . . . . . . . . . . . 73

    4.2 Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . 75

    4.3 Tipos de estimacin: puntual o por intervalo . . . . . . . . . 77

    4.4 El concepto de estimacin aplicado a la qumica . . . . . 79

    4.5 Explicacin sobre intervalos de confianza . . . . . . . . . . . 80

    4.6 Intervalos de confianza para la distribucin normal . . . . 81

    4.7 Intervalo para la media si se conoce la varianza . . . . . . 81

    4.8 Intervalos de confianza para la media con varianza

    desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    4.9 Intervalo de confianza para la varianza . . . . . . . . . . . . . 85

    4.10 Estimacin de tamao muestral . . . . . . . . . . . . . . . . . 87

    4.11 Muestras para la estimacin de medias . . . . . . . . . . . 88

    4.12 Intervalos de confianza para variables dicotmicas . . . 90

    4.13 Intervalos de confianza para una proporcin . . . . . . . . 90

    4.14 Eleccin del tamao muestral para una proporcin . . . 92

    4.15 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    CAPTULO 5. PRUEBA DE HIPTESIS

    5.1 Mtodo de pruebas de hiptesis . . . . . . . . . . . . . . . . . . 106

    5.1.1 Formulacin de las hiptesis . . . . . . . . . . . . . . . . 106

    5.1.2 Errores posibles al tomar una decisin errnea . . 107

    5.1.3 Determinacin del valor observado del

    estadstico de prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    5.1.4 Determinacin del valor crtico del estadstico

    de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    vii

  • 5.1.5 Comparacin del valor observado del estadstico

    de prueba con el valor crtico . . . . . . . . . . . . . . . . . . . . . 110

    5.2 Pruebas de hiptesis paramtricas en una poblacin

    normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    5.2.1 Prueba de hiptesis para una media con varianza

    conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    5.2.2 Prueba de hiptesis para una media con varianza

    desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

    5.3 Contrastes de dos distribuciones normales

    independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

    5.3.1 Contrastes de medias con varianzas conocidas . 117

    5.3.2 Contraste de medias con varianzas desconocidas119

    5.4 Contrastes para la diferencia de medias pareadas . . . . 123

    5.5 Contrastes de una proporcin. . . . . . . . . . . . . . . . . . . . 128

    5.6 Contrastes sobre la diferencia de proporciones. . . . . . . 131

    5.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    CAPTULO 6. REGRESIN LINEAL SIMPLE Y CORRELACIN

    6.1 Regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

    6.2 Regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

    6.3 Ajuste del modelo de regresin lineal. . . . . . . . . . . . . . . 152

    6.4 Uso de la ecuacin de regresin . . . . . . . . . . . . . . . . . . 156

    6.5 Error estndar de estimacin. . . . . . . . . . . . . . . . . . . . . 156

    6.6 Prueba de hiptesis sobre el coeficiente de regresin . . 157

    6.7 Bondad de un ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

    6.8 Intervalo de prediccin . . . . . . . . . . . . . . . . . . . . . . . . . 160

    6.9 Anlisis de regresin: comentarios finales . . . . . . . . . . . 162

    viii

  • 6.10 Anlisis de correlacin lineal . . . . . . . . . . . . . . . . . . . . 162

    6.11 Anlisis colorimtrico . . . . . . . . . . . . . . . . . . . . . . . . . . 164

    6.12 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

    APNDICE A.FRMULAS ESTADSTICAS . . . . . . . . . . . . . . . . . . . . . . . . . 181

    APNDICE B.TABLAS ESTADSTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    APNDICE C.GLOSARIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

    APNDICE D.RESPUESTAS A LOS EJERCICIOS IMPARES. . . . . . . . . . . 223

    BIBLIOGRAFA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

    ACERCA DEL AUTOR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

    ix

  • Siempre que se planea un nuevo libro de texto, se deben resolver losaspectos de cmo diferir de los ya disponibles y qu contribuciones apor-tar al campo en estudio. Este libro fue escrito para usarse en un curso in-troductorio a la probabilidad y estadstica, dando nfasis primordial a con-ceptos y aplicaciones de los mtodos estadsticos bsicos en el rea de laqumica, con el fin de proporcionar al estudiante el enlace necesario entrelos conceptos tericos vistos en clase y las aplicaciones en la vida real. Tam-bin pretende que los profesionales en qumica utilicen la ventaja que ofre-ce la Estadstica, la cual les puede facilitar el diseo de experimentos, la re-coleccin de los datos, mayor exactitud y precisin en los resultados.

    Existe la creencia de que la estadstica es muy complicada o consu-me demasiado tiempo cuando se la utiliza. Nuestro propsito es aportar tc-nicas que sean simples y rpidas, adems de adecuadas para que el qumi-co analice sus propios datos.

    En esta primera edicin, se incluyen los temas fundamentales de laestadstica descriptiva e inferencial. Adems, como una ayuda tanto para elinstructor como para el estudiante, aparecen al final de la obra las solucio-nes a los problemas de nmero impar. El desarrollo de los temas est acom-paado de ejemplos, que ilustran al lector sobre el alcance de las definicionesy sobre el desarrollo de las tcnicas de clculo. Asimismo, cada captulo fina-liza con una buena coleccin de problemas propuestos, muchos de ellosoriginales, en los que se combinan ejercicios prcticos con resultados com-plementarios de los obtenidos en el texto.

    El captulo primero ofrece una introduccin a la estadstica por me-dio de los conceptos bsicos. El captulo segundo introduce al lector enla estadstica descriptiva. El tercer captulo se centran en el desarrollo axio-mtico del concepto de probabilidad y en el estudio de sus propiedadesms interesantes desde el punto de vista de los clculos. En el primero deellos se estudian las operaciones bsicas con los sucesos y sus probabilida-des, y a continuacin las distribuciones de probabilidades como la normal.

    Presentacin

  • La presentacin es rigurosa y formal, lo que proporciona al estudio una cier-ta aridez, aunque los resultados vienen acompaados de ejemplos que ilus-tran su utilizacin prctica. En los captulos cuarto al sexto se estudian losmtodos bsicos de la estadstica inferencial; estimacin, prueba de hipte-sis, regresin y correlacin. Cada captulo finaliza con una amplia coleccinde ejercicios, a travs de los cuales el lector podr medir el grado de com-prensin de los contenidos de cada tema.

    Este texto ha sido utilizado, con carcter experimental, en el cursode Estadstica para Laboratoristas Qumicos del Recinto de Tacares de laSede de Occidente de la Universidad de Costa Rica. El libro est pensadono slo para el curso anteriormente mencionado, sino que puede resultartambin interesante para alumnos de disciplinas, como Ingeniera Industrialy Matemticas, por ejemplo.

    Se agregaron en los anexos frmulas y tablas estadsticas de lasprincipales distribuciones, tablas que permiten el clculo aproximado y rpi-do de probabilidades. y rpido de probabilidades.

    Para el estudio completo del libro se precisan unos conocimientosmoderados de Clculo diferencial e integral, algunas nociones del clculo delmites y de las tcnicas de sucesin de series numricas sencillas, as co-mo ciertos conceptos y desarrollos de Algebra lineal. No obstante, las defi-niciones y resultados bsicos (y muchos no tan bsicos) van acompaadosde observaciones que permiten que el lector poco avezado en las lides ma-temticas pueda valorar su contenido, hacindose, al menos, una idea intui-tiva de ellos.

    Esperamos que este texto, haga el estudio de la estadstica ms sa-tisfactorio, compresible y significativo para los estudiantes que lo utilicen.

    Carlo Magno Araya Alpzar

    xii

  • 1.1 Historia de la estadstica1.2 Poblaciones y muestras1.3 Estadstica descriptiva e inferencial1.4 Tipos de variables aleatorias1.5 Error experimental1.6 Diseo estadstico de experimentos1.7 Exactitud y precisin

    Captulo 1Introduccin

  • El anlisis de los datos debe presentarse de manera que sea fcil-mente comprensible. Con demasiada frecuencia, el lenguaje puramente es-tadstico significa poco o nada para los qumicos; expresiones tales comoexiste una diferencia significativa puede ser verdadera, pero es demasiadogeneral para ser til.

    En este captulo se revisan algunos de los conceptos bsicos queservirn de fundamento para gran parte del material del resto del texto.

    En la seccin 1.1 se presenta la historia y la definicin de estadsti-ca. Describe la diferencia entre poblacin y muestra en la seccin 1.2. Acontinuacin, en la seccin 1.3 se estudia qu se entiende por estadsticadescriptiva e inferencia estadstica. Seguidamente, se estudian los tipos devariables aleatorias, el error experimental, las medidas invalidadas y los di-seos de experimentos. Por ltimo, en la seccin 1.7, se analiza la diferen-cia entre exactitud y precisin de las mediciones.

    1.1 Historia de la estadstica

    Desde los comienzos de la civilizacin han existido formas sencillasde estadsticas, pues ya se utilizaban representaciones grficas y otros sm-bolos en pieles, rocas, palos de madera y paredes de cuevas para contar elnmero de personas, animales o ciertas cosas.

    Hacia el ao 3000 A. C. los babilonios usaban ya pequeas tablillasde arcilla para recopilar datos en tablas sobre la produccin agrcola y de losgneros vendidos o cambiados mediante trueque. Los egipcios analizabanlos datos de la poblacin y la renta del pas mucho antes de construir las pi-rmides en el siglo XXXI A. C.

    Los libros bblicos de Numricos incluyen, en algunas partes, tra-bajos de estadstica. El primero contiene dos censos de la poblacin de Is-rael y el segundo describe el bienestar material de las diversas tribus judas.

    Introduccin

  • En China existan registros numricos con anterioridad al ao 2000 A. C. Losgriegos clsicos realizaban censos cuya informacin se utilizaba hacia el ao594 A. C. para cobrar impuestos.

    El Imperio romano fue el primer gobierno que recopil una gran can-tidad de datos sobre la poblacin, superficie y renta de todos los territoriosbajo su control. Durante la Edad Media slo se realizaron algunos censosexhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagnoordenaron hacer estudios minuciosos de las propiedades de la Iglesia en losaos 758 y 762, respectivamente.

    Despus de la conquista normanda de Inglaterra en 1066, el rey Gui-llermo I de Inglaterra encarg un censo. La informacin obtenida con estecenso, llevado a cabo en 1086, se recoge en el Domesdat Book. El registrode nacimientos y defunciones comenz en Inglaterra a principios del sigloXVI, y en 1662 apareci el primer estudio estadstico notable de poblacin,titulado Observations on the London Bills of Mortality (Comentarios sobrelas partidas de defuncin en Londres).

    Un estudio similar sobre la tasa de mortalidad en la ciudad de Bres-lau, en Alemania, realizado en 1691, fue utilizado por el astrnomo inglsEdmund Halley como base para la primera tabla de mortalidad. En el sigloXIX, con la generalizacin del mtodo cientfico para estudiar todos los fen-menos de las ciencias naturales y sociales, los investigadores aceptaron lanecesidad de reducir la informacin a valores numricos para evitar la am-bigedad de las descripciones verbales.

    En nuestros das, la estadstica se ha convertido en un mtodo efec-tivo para describir con exactitud los valores de los datos econmicos, pol-ticos, sociales, psicolgicos, biolgicos y fsicos, y sirve como herramientapara relacionar y analizar dichos datos.

    El trabajo del experto estadstico no consiste ya slo en reunir y tabu-lar los datos, sino sobre todo el proceso de interpretacin de esa informa-cin. El desarrollo de la teora de la probabilidad ha aumentado el alcance delas aplicaciones de la estadstica. Muchos conjuntos de datos se puedenaproximar, con gran exactitud, utilizando determinadas distribuciones pro-babilsticas; los resultados de stas se pueden utilizar para analizar datosestadsticas.

    La probabilidad es til para comprobar la fiabilidad de las inferenciasestadsticas y para predecir el tipo y la cantidad de datos necesarios en undeterminado estudio estadstico.

    En Qumica, incluye tareas tan diversas como calcular el promedioaritmtico de la cantidad de slidos suspendidos en muestras de agua,

    4 CAPTULO 1 Introduccin

  • determinar cuntos compuestos de tres elementos pueden elaborarse concinco sustancias, comparar dos mtodos de determinacin del porcentajede calcio, el crecimiento del nmero de bacterias segn das de inoculacin.

    Por tanto, la ciencia de la estadstica se puede considerar como laaplicacin del mtodo cientfico en el anlisis de datos numricos con el finde tomar decisiones racionales.

    1.2 Poblaciones y muestras

    A fin de entender cmo se puede aplicar los mtodos estadsticos,se debe distinguir entre poblacin y muestra. Una poblacin o universo escualquier coleccin finita o infinita de individuos o elementos, para cada unode los cuales se tiene que contar o medir una o varias caractersticas. Loselementos son los objetos que poseen la informacin que busca el investi-gador y acerca del cual deben hacerse las inferencias. Entre posibles ele-mentos se tiene: una sustancia, un compuesto, un mineral, etc.

    Aunque existe la libertad de llamar poblacin a un grupo cualquierade elementos definidos en el tiempo y el espacio, en la prctica depende delcontexto en el cual se observarn los elementos. Suponga, por ejemplo, elnmero de total de compuestos que pueden elaborarse con 5 sustancias,puede considerarse como una poblacin.

    Una muestra es un subconjunto de elementos de la poblacin quepuede servir de base para generalizaciones vlidas En trabajos qumicos, setoman muestras de un material, se ensayan y se hacen deducciones para latotalidad de dicho material, a partir de los resultados obtenidos. La muestrano es exactamente la poblacin, sino que se supone que la representa, y lavalidez de cualquier conclusin obtenida de ella depende de la verdadera re-presentatividad que tenga.

    La muestra debera ser seleccionada en forma aleatoria, es decir, ca-da elemento tiene una probabilidad conocida y no nula de seleccin. Nosiempre es posible obtener una muestra aleatoria. Esto es especialmentecierto cuando el estadstico puede confiar en su propio juicio o convenien-cia al seleccionar los elementos de la muestra. Con la aleatoriedad se per-sigue que la muestra sea representativa de la poblacin, para que concen-tre todas las caractersticas y particularidades de inters. Sin embargo, laaleatoriedad no garantiza necesariamente la representatividad.

    Los factores que determinan la seleccin de muestras son: costo,tiempo y la imposibilidad prctica (o destruccin de la unidad de estudio). Entanto, el tamao de la muestra queda determinado por la variabilidad de lapoblacin, el nivel de confianza y el error mximo permisible. Cuando los

    CAPTULO 1 Introduccin 5

  • elementos de una poblacin tienen cierto grado de heterogeneidad entreellos, el tamao de la muestra tiende a ser grande. Cabe destacar, quees completamente errneo asegurar que la muestra depende del tamaode la poblacin.

    Cuando se hace una investigacin con todos los elementos de lapoblacin, se llama censo o enumeracin total. En tanto, cuando se ela-bora con base en una muestra, se le denomina estudio por muestreo. Enla mayora de los casos los qumicos no estn interesados en los datos deenumeracin total (o censo) sino en datos muestrales.

    1.3 Estadstica descriptiva e inferencial

    La estadstica descriptiva se puede definir como los mtodos es-tadsticos que pretenden describir las caractersticas ms importantes de unconjunto de datos, sea que provenga de una muestra o de una poblacin.Utiliza tcnicas estadsticas, como la representacin grfica, cuadros esta-dsticos, medidas de posicin y de variabilidad.

    Uno de los propsitos fundamentales de los mtodos estadsticoses utilizar estadsticos muestrales para estimar los parmetros de la pobla-cin. A este proceso de utilizar los estadsticos muestrales para llegar a con-clusiones acerca de los verdaderos parmetros de la poblacin, se le llamainferencia estadstica.

    La estadstica inferencial generaliza los resultados observados enuna muestra a toda la poblacin bajo estudio, por medio del planteamientoy pruebas de hiptesis y clculo de intervalos de confianza; se aplica a pro-blemas como estimar, mediante pruebas, el rendimiento promedio de unproceso qumico, verificar las especificaciones de produccin a partir demediciones efectuadas sobre muestras o predecir los residuos de cloro enuna piscina basndose en una muestra de datos tomados en ciertos perio-dos de tiempo.

    1.4 Tipos de variables aleatorias

    Cada unidad que compone la poblacin est caracterizada por unoo varios valores. Estas caractersticas, con los valores que toma, se deno-minan variables. Se distingue entre variables cuantitativas y cualitativas.Las primeras representan caractersticas con valor aritmtico, mientras quelas segundas hacen referencia a cualidades que slo pueden ser contadasu ordenadas. Por ejemplo: color, sabor, textura, punto de fusin, solubilidad,dimetro y peso.

    6 CAPTULO 1 Introduccin

  • Si S es un espacio de muestra con una medida deprobabilidad y x es una funcin con valor real definida conrespecto a los elementos de S, entonces x se denominavariable aleatoria.

    La diferencia entre ellas es que las variables aleatorias cuantitativastoman valores numricos, mientras que las variables aleatorias cualitativasasumen valores categricos, por ejemplo, el color de una sustancia.

    Por otra parte, las variables aleatorias cuantitativas pueden dividirseen discretas y continuas. Las variables aleatorias discretas asumen va-lores aislados y surgen de un proceso de conteo. El nmero de bacteria deuna muestra de agua es un ejemplo de una variable cuantitativa discreta yaque toma un nmero finito de valores que se pueden contar

    Las variables aleatorias continuas toman valores sobre un inter-valo o una coleccin de intervalos, que surgen de un proceso de medicin.La informacin importante para un qumico no viene, generalmente del pro-ceso de contar, sino de la medida de volmenes y de los instrumentos demedidas. Todas las operaciones citadas entraan medidas y stas tienen uncierto grado de incertidumbre. La conductividad trmica del cloruro de meti-lo es un ejemplo de una variable aleatoria continua, ya que la respuesta pue-de tomar cualquier valor segn la precisin del instrumento para la medicin.

    1.5 Error experimental

    En Qumica Analtica se clasifican los errores en determinados e in-determinados. Los errores determinados se definen como aquellos quepueden ser evitados una vez que son conocidos. Este tipo de error es origi-nado por factores como los siguientes:

    1. Inadecuada calibracin de los aparatos o inadecuada estanda-rizacin de los reactivos.

    2. Error personal, tal como la dificultad de una analista parajuzgar un cambio de color.

    3. Avera del aparato.4. Error del mtodo.

    Los errores determinados introducen un sesgo en las medidas. Porejemplo, si el analista no est centrado en la escala del instrumento, su lectu-ra ser ms alta o ms baja de la debida a causa del paralaje.

    CAPTULO 1 Introduccin 7

  • Los errores indeterminados, por el contrario, no pueden ser elimina-dos, sino que existen por la propia naturaleza del dato medido. Por ejemplo,los ligeros errores obtenidos en la interpolacin son indeterminados y el ana-lista no conoce su magnitud, ni si son positivos o negativos. Son llamadoserrores experimentales o estadsticamente errores de muestreo.

    En lo relativo a la precisin, los resultados de estudios por muestreosiempre estn sujetos a cierta incertidumbre debido a que slo una parte dela poblacin ha sido investigada y debido a los errores de medicin. Esta in-certidumbre puede ser reducida, tomando muestras ms grandes y usandomtodos de medicin adecuados.

    1.6 Diseo estadstico de experimentos

    El hombre ha ido diseando experimentos cada vez que ha formu-lado preguntas acerca del mundo que lo rodea, por lo cual el conceptodiseo de experimentos no es nada nuevo. Ha desarrollado, tambin unsistema para la resolucin de problemas, que ha llegado a ser conocidocomo mtodo cientfico. Esencialmente, este plan consta de los siguien-tes elementos:

    1. Situacin y definicin del problema2. Formulacin de una hiptesis por explicarla3. Obtencin de datos.4. Confrontacin de la hiptesis con los datos.5. Aceptacin o rechazo de la hiptesis segn est o no de

    acuerdo con los datos.

    La confrontacin de la hiptesis con los datos y la aceptacin o re-chazo de ella son materias de juicio crtico, y cualquier camino es bueno pa-ra ello, si el juicio puede ser hecho en forma ms objetiva que subjetiva.

    Un experimento diseado estadsticamente proporciona una estima-cin del error que puede servir como norma por la que pueden ser medidoslos resultados del experimento.

    1.7 Exactitud y precisin

    La diferencia entre el resultado obtenido con base en el anlisis demuestras y el verdadero, se toma como medida de la exactitud de la

    8 CAPTULO 1 Introduccin

  • CAPTULO 1 Introduccin 9

    tcnica que se estudia. La precisin representa la probabilidad de que losresultados sucesivos caigan dentro un intervalo estrecho de valores centra-do alrededor del valor medio. Este valor medio puede diferir apreciablementedel valor verdadero, esto es, puede existir un sesgo, positivo o negativo, enel mtodo de estudio.

    Un mtodo satisfactorio de anlisis debe poseer a la vez una exac-titud y una precisin razonables. Es esencial que los qumicos distingan cui-dadosamente estos dos conceptos. Todos los instrumentos de alta tecno-loga que se emplean actualmente estn construidos para funcionar con unalto grado de precisin. As, si se somete repetidamente la misma muestraa un instrumento determinado, las lecturas tienden a ser iguales cada vez.

    Estadsticamente, la precisin de un estimador* es un concepto queexpresa la concentracin de las estimaciones con respecto a su valor me-dio. Se mide por la raz cuadrada de la varianza del estimador. Un estima-dor ser ms preciso cuanto menor sea su varianza.

    * En el captulo 3, se estudian las propiedades los estimadores.

  • 2.1 Medidas de posicin2.2 Medidas de variabilidad2.3 Distribucin de frecuencias2.4 Problemas

    Captulo 2Estadstica Descriptiva

  • La finalidad de este captulo es mostrar cmo un mtodo estadsticopuede ser aplicado a problemas del analista qumico que realiza trabajos derutina. Estos problemas son resueltos algunas veces caprichosamente, otrasmediante la intuicin (la cual se encuentra, a menudo, altamente desarrolladaen un analista de experiencia) y otras, tambin, permanecen sin resolver.

    En la seccin 2.1 se estudian las medidas de posicin y seguidamen-te, en la seccin 2.2, las medidas de variabilidad o dispersin de los datos ob-tenidos por experimentacin o que son simplemente un conjunto de medicio-nes. A continuacin, la seccin 2.4 trata el problema relacionado con el agru-pamiento de datos y su presentacin grfica y la finalmente, se analiza el pro-blema de la deteccin de valores extremos en conjuntos de datos.

    2.1 Medidas de posicin

    La caracterstica ms importante que describe un grupo de datos essu posicin en la recta numrica. La mayor parte de los conjuntos de datosmuestran una tendencia definida a agruparse alrededor de cierto punto. Porello, para cualquier conjunto particular de datos, suele ser posible seleccio-nar un valor tpico para describir o resumir todo el conjunto de datos, de-pendiendo de la caracterstica de estudio y de la muestra seleccionada.

    2.1.1 La media aritmtica

    La media de la muestra, llamada tambin media aritmtica o prome-dio aritmtico, no es ms que la suma de los valores observados divididosentre el nmero total de elementos de la misma. Es la medida de mayor usode la centralidad de un conjunto de datos.

    Estadstica Descriptiva

  • Si las observaciones en una muestra de tamao n son x1,...,xn la me-dia es el valor que se escribe de las siguientes formas equivalentes:

    (2.1)

    La media de una poblacin de N elementos se calcula de la mismaforma, solamente que la suma de los valores se dividen entre el tamao dela poblacin. El estadstico muestral es el estimador1 del parmetro2 de lapoblacin,

    La media aritmtica de una serie de observaciones se expresa en lasmismas unidades de medicin que los datos; esto es, si la observacin esen gramos, el valor medio resulta en gramos. Por ejemplo, supngase quese determin que a 22C una pipeta de 5,00 mililitros, despus de pesar porseis ocasiones, su volumen vertido, gener los siguientes pesos aparentesde agua en gramos:

    4,995 4,993 4,994 4,996 4,998 4,992

    La media para esta muestra se calcula como:

    14 CAPTULO 2 Estadstica Descriptiva

    xx

    nx x

    n

    ii

    n

    n

    =

    =

    + +

    =1

    1 ...

    1 Estimador: en trminos generales es una funcin de la muestra, que proporciona un valorrepresentativo de la caracterstica poblacional.

    2 Parmetros: conjunto de valores poblacionales que definen la funcin de densidad deprobabilidad de una variable aleatoria.

    x =+ + + + +

    =

    =

    4 995 4 993 4 994 4 996 4 998 4 992

    629 968

    64 995

    , , , , , ,

    ,

    ,

  • Se dira que la pipeta escurre a una temperatura de 22C en prome-dio 4,995 gramos de agua.

    La principal debilidad de este estadstico como representante de unconjunto de datos es su susceptibilidad a valores extremos, ya que todaslas observaciones intervienen en el clculo de la media, la aparicin de unaobservacin extrema, har que la media se desplace en esa direccin.

    Al promediar estos datos, los resultados se vuelven dudosos comouna descripcin razonable respecto a la tendencia central de los datos. Sedebe utilizar otras medidas de posicin cuando se presenta este problema.

    2.1.2 La media geomtrica

    La media geomtrica de un grupo de mediciones es la raz ensimade su producto. Expresado matemticamente

    (2.2)

    Cuando los valores de las mediciones estn comprendidos dentrode un intervalo amplio y muchos de ellos se acumulan hacia un extremo, lamedia geomtrica resulta ser una expresin de la tendencia central msadecuada que la media aritmtica por la precisin de los resultados.

    2.1.3 La mediana

    Dado que los valores extremos en un conjunto de datos distorsionanla media aritmtica, no es una buena medida de tendencia central en esascircunstancias. Por ello, siempre que est presente un valor extremo, es msapropiado utilizar la mediana, al no ser afectada por la presencia de valoresextremos en un conjunto de datos, tal que todos los valores tienen igual im-portancia en su clculo.

    La mediana de un conjunto de datos es el valor del centro cuando lasobservaciones estn ordenadas en forma ascendente del mnimo hasta el m-ximo valor, es decir, dispuestos en orden de magnitud. Es decir, el 50% de lasobservaciones en conjunto de datos son menores o iguales y el otro 50% delas observaciones son mayores o iguales a la mediana.

    Para calcular la mediana, primero hay que ordenar los datos en for-ma ascendente. Si el tamao de la muestra es un nmero impar, la media-na se representa con el valor numrico de observacin ordenado (n+1)/2.

    CAPTULO 2 Estadstica Descriptiva 15

    x X X X X nn

    = 1 2 3

  • Por otra parte, si el tamao de la muestra es un nmero par, la medianase representa con la media de los dos valores centrales en el arreglo or-denado de datos.

    Por ejemplo, suponga que las siguientes observaciones representan elpunto de ebullicin de un compuesto de silicio (en grados Celsius):

    166 141 136 153 170 162 155 148 132 160 175 150

    Para obtener el punto ebullicin del compuesto del silicio de 12 ob-servaciones realizadas, los datos ordenados seran como sigue:

    132 136 141 148 150 153 155 160 162 166 170 175

    Por tanto, dado que la mediana representa el punto medio en el arre-glo ordenado y el nmero de observaciones en la muestra es par, la media-na se calcula como el promedio de los dos valores centrales de la siguientemanera:

    Este resultado, indica que el 50% de los puntos de ebullicin delcompuesto de silicio observados son menores a 154 grados Celsius.

    Entre las propiedades de la mediana, a destacar estn las siguientes:

    Como medida descriptiva, tiene la ventaja de no estar afecta-da por las observaciones extremas, ya que no depende de losvalores que toma la variable, sino del orden de las mismas. Porello es adecuado su uso en distribuciones asimtricas.

    Es de clculo rpido y de interpretacin sencilla. A diferenciade la media, la mediana de una variable discreta es siempre unvalor de la variable que estudiamos . La mediana de una varia-ble nmero de bacterias toma siempre valores enteros.

    Si una poblacin est formada por 2 subpoblaciones de me-dianas mediana 1 y mediana 2, slo se puede afirmar que lamediana de la poblacin est comprendida entre mediana 1 ymediana 2.

    16 CAPTULO 2 Estadstica Descriptiva

    Me =+

    =

    153 1552

    154

  • El mayor defecto de la mediana es que tiene unas propiedadesmatemticas complicadas, lo que hace que sea muy difcil deutilizar en inferencia estadstica.

    2.1.4 La moda

    La moda se define simplemente como el valor que se presenta conla ms alta frecuencia absoluta en un conjunto de datos. No requiere haceroperaciones de clculo, solamente hay que contar y puede determinarse enrelacin con variables cualitativas y cuantitativas.

    Un conjunto de datos puede tener ms de una moda (o sea puedeser multimodal), esto un signo de la falta de homogeneidad en los datos.Tambin es posible que en algunos conjuntos de datos no hay moda.Debe ser usada como medida de posicin cuando el tamao de muestraes grande.

    Por ejemplo, los siguientes son resultados en porcentaje obtenidosde oxgeno disuelto al muestrear un ro en 36 ocasiones diferentes:

    7,1 6,7 6,2 6,1 3,4 5,9 8,7 7,1 6,5 3,9 7,2 8,1

    3,3 7,1 8,0 5,4 7,4 7,0 4,0 5,5 5,1 7,1 6,4 7,1

    7,7 4,5 7,6 5,8 7,1 7,1 6,3 6,1 6,3 5,8 5,8 7,5

    En este caso, el valor ms tpico o valor modal es 7,1%. Como semencion anteriormente, la moda tiene una caracterstica distintiva, pues esla nica medida de tendencia central que se puede utilizar con datos cuali-tativos. Por ejemplo, puede ser usada para determinar el color ms frecuen-te en un conjunto de compuestos qumicos.

    2.1.5 Proporciones

    La proporcin de la muestra describe la parte de un todo que po-see caracterstica de inters determinado como el porcentaje de carbonopresente en el clorhidrato de efedrina. La faccin molar de un componen-te, es el nmero de moles del mismo dividido por el nmero total de mo-les de todos los componentes presentes en el sistema. La suma de lasfracciones molares de todos los componentes evidentemente es siempreigual a la unidad.

    CAPTULO 2 Estadstica Descriptiva 17

  • El mineral dolomita es una mezcla de CaCO3 ( PM =100,07 g/mol)y MgCO3 ( PM =84,32 g/mol), con pequeas cantidades de impurezas queno son importantes. Una muestra de 1,000 g de dolomita se calcina paravolatilizar el CO2, y el residuo obtenido consistente en CaO ( PM = 56,08g/mol) y MgO ( PM =40,31 g/mol) pesa 0,5200 g. Cul es la composicinde la muestra?.

    Estableciendo que,

    X = gramos de CaCO3 en la muestra de 1,0000 g

    Y = gramos de MgCO3 en la muestra de 1,0000 g

    Entonces, x + y =1000, que es la primera ecuacin del par. Al apli-car los factores qumicos se obtiene

    y sustituyendo los valores numricos,

    0,5608x + 0,4780y = 0,5200 g

    y resolviendo,

    x = 0,5090 g CaC03 y = 0,4910 g MgC03

    Por lo que la composicin del mineral es 0,5090 g de CaCO3 y0,4910 g de MgCO3. , los resultados del anlisis generalmente se expresanen porcentajes. Esto es la proporcin se multiplica por 100. Para los resul-tados anteriores, seran expresados de la siguiente forma:

    18 CAPTULO 2 Estadstica Descriptiva

    xCaO

    CaCOy

    MgO

    MgCOg

    3 3

    0 5200+ = ,

    ( )0,5090 g 100 g

    de CaCO3100051%

    .=

    ( )0 491049%

    , g 100

    1.000 g de MgCO 3=

  • 2.2 Medidas de variabilidad

    La variabilidad en qumica analtica afecta la precisin y la exactitudde los resultados, por consiguiente, influye en nuestros juicios. Carece desentido decir que un anlisis est dentro de los lmites del error experimen-tal, si no tiene una idea de la magnitud del mismo.

    Las medidas de variabilidad (o dispersin) describen el grado en quelos valores no son iguales o en como varan entre s. Los valores de estasmedidas sern grandes cuando los datos son muy heterogneos y peque-os, cuando los datos son muy homogneos.

    Dos conjuntos de datos pueden diferir tanto en tendencia central co-mo en dispersin o, pueden tener las mismas medidas de posicin, pero di-ferir en trminos de la variabilidad. Por tanto, al analizar un conjunto de da-tos es insuficiente resumir los datos nicamente presentando medidas detendencia. Los datos deben ser estudiados en trminos de su dispersinpara evitar sacar conclusiones falsas de los mismos.

    Hay cuatro maneras ordinarias de evaluar la variabilidad: el recorrido,la variancia, la desviacin estndar y el coeficiente de variacin.

    2.2.1 El recorrido

    La expresin ms sencilla de la dispersin es el recorrido, esto es, ladiferencia entre los valores mximo y mnimo.

    Rx = mximo(x) mnimo(x) (2.3)

    donde x representa la variable de estudio. Como el recorrido destaca los va-lores ms extremos, no influye en l la dispersin tpica de los datos.

    Para muestras pequeas, de pocas observaciones, el recorrido daaproximadamente tanta informacin acerca de la variabilidad de las obser-vaciones como otras medidas de variabilidad ms elaboradas. Dado quepara su clculo se utilizan los dos valores extremos, se desperdicia el restode los datos; para muestras mayores no debera utilizarse el recorrido sinootras medidas de la dispersin. Otro inconveniente es que el rango aumen-ta con el nmero de observaciones, o bien se queda igual. En cualquier ca-so nunca disminuye.

    Por ejemplo, considrese el estudio de J.J. Thompson (1856-1940), que descubri el electrn aislando partculas cargadas negativa-mente para las cuales midi la relacin carga a masa. Esta relacin pareca

    CAPTULO 2 Estadstica Descriptiva 19

  • ser constante en un amplio margen de condiciones experimentales y, enconsecuencia, podra ser una caracterstica de esa nueva partcula. Susobservaciones de dos tubos distintos de rayos catdicos que usaban airecomo gas dentro de ellos son:

    Tubo 1 0,57 0,34 0,43 0,32 0,48 0,40 0,40

    Tubo 2 0,53 0,47 0,47 0,51 0,63 0,61 0,48

    Se encuentra que el recorrido es,

    Rx = 0,63 0,32=0,31

    En este ejemplo, el recorrido puede ser considerado como una bue-na medida de la variabilidad porque tanto 0,63 y 0,32 no son valores extre-mos comparados con las otras observaciones de ambos tubos.

    Aunque no es tan eficiente como la desviacin estndar, lo fcil desu clculo ha hecho muy popular al recorrido. La relacin existente entre ly la desviacin estndar ha sido estudiada por TIPPETT3, quien ha demos-trado que, para pequeos grupos de medidas (que es el caso usual en la-boratorios qumicos), el recorrido es, en la prctica, suficientemente cerca-no a la desviacin estndar.

    2.2.2 La varianza

    La varianza es una medida de la dispersin de los valores de una dis-tribucin alrededor del valor medio. Se define como la media aritmtica delos cuadrados de la diferencia entre los valores que toma la variable aleato-ria y la media de la distribucin. El conocimiento del investigador podr ayu-darle a analizar la varianza segn el problema de estudio.

    Si x1,x2,...,xn es una muestra de n observaciones, entonces la varian-za muestral est representada por,

    20 CAPTULO 2 Estadstica Descriptiva

    3 TIPPETT, L. H. C.: On the extreme individuals and range of samples taken from a normalpopulation, Biometrika, 17, 364, (1925).

  • (2.4)

    El divisor (n-1), denominado grados de libertad, indica que sola-mente hay n-1 desviaciones de la media que son independientes. Dividi-mos entre (n-1) porque se desea utilizar la varianza muestral s2 como unestimador insesgado de la varianza poblacional s2. Las estimaciones ob-tenidas al dividir la suma de los cuadrados de las desviaciones entre ntienden a subestimar s2.

    Por ejemplo, para encontrar el efecto de la carga de polvo en la sa-lida de un sistema con un precipitante, se efectuaron las siguientes medicio-nes (en gramos por m3 en el tubo del gas):

    1,5 1,5 1,4 1,1 1,7 1,8 1,6 1,5 1,6 2,2

    1,7 1,4 1,9 1,9 1,5 1,4 1,9 2,2 1,8 2,0

    La variancia se calcula de la siguiente manera:

    El valor 1,502 representa las desviaciones con respecto a la mediaaritmtica al cuadrado.

    La varianza no tiene la misma magnitud que las observaciones(ejemplo, si las observaciones se miden en metros, la varianza lo hace enmetros2). Si quiere que la medida de dispersin sea de la misma dimensio-nalidad que las observaciones bastar con tomar su raz cuadrada.

    CAPTULO 2 Estadstica Descriptiva 21

    sn

    x x

    nx

    x

    n

    ii

    n

    i

    ii

    n

    n

    n

    2

    1

    2

    2 1

    2

    1

    11

    11

    =

    =

    =

    =

    =

    ( )

    ( )s2

    21

    1957 95

    33620

    150219

    0 07905

    =

    =

    =

    ,,

    ,

    ,

  • 2.2.3 La desviacin estndar

    La desviacin estndar de un conjunto de datos representa la va-riabilidad de los datos muestrales y constituye nuestra estimacin de ladesviacin estndar de la poblacin. Para obtener la desviacin estndarsimplemente se toma la raz cuadrada de la variancia. Por tanto,

    (2.5)

    La desviacin estndar del ejemplo presentado para calculo de lavariancia sobre la salida de polvo de un sistema precipitante, sera,

    Las unidades de medicin para s son las mismas de los datos origi-nales. Por otra parte, la desviacin estndar se utiliza para medir la variacinpromedio alrededor a la media aritmtica.

    Adems de las propiedades citadas de la variancia y desviacin es-tndar, ser conveniente tener siempre en mente otras que enunciadas acontinuacin:

    Ambas son sensibles a la variacin de cada una de las puntua-ciones, es decir, si una puntuacin cambia, cambia con ella lavarianza. La razn es que si miramos su definicin, la varianzaes funcin de cada una de las puntuaciones.

    Si se calculan a travs de los datos agrupados en una tabla,dependen de los intervalos elegidos. Es decir, se comete cier-to error en el clculo de la varianza cuando los datos han sidoresumidos en una tabla estadstica mediante intervalos, en lu-gar de haber sido calculados directamente como datos noagrupados.

    No es recomendable el uso de ellas, cuando tampoco lo seael de la media como medida de tendencia central.

    22 CAPTULO 2 Estadstica Descriptiva

    sx x

    n

    ii

    n

    =

    =

    ( )21

    1

    s = =007905 02812, ,

  • 2.2.4 El coeficiente de variacin

    El coeficiente de variacin es una medida de variabilidad relativa, talque expresa la magnitud de la desviacin estndar como un porcentaje dela media. Se expresa como porcentaje en vez de las mismas unidades quelos datos. La frmula de clculo es,

    (2.6)

    El coeficiente de variacin se utiliza para comparar variabilidad entredos o ms variables que se miden en diferentes unidades o cuya media esmuy diferente. Por ejemplo, las siguientes cifras son las horas de estudio de10 alumnos para presentar un examen de Qumica General 1 y las califica-ciones que obtuvieron:

    Horas de estudio: 7 5 10 12 10 6 18 15 4 9

    Calificacin: 60 44 80 75 70 65 90 90 35 65

    Por medio de las frmulas 2.1, 2.4 y 2.5 se obtiene para las varia-bles horas de estudio y calificacin el promedio aritmtico, la varianza y ladesviacin estndar:

    Sustancia S2 s CV

    Horas de estudio 9,6 19,8222 4,4522 46,4%

    Calificacin 67,4 323,156 17,9765 26,7%

    Un error sera comparar la variabilidad absoluta usando la varianzao la desviacin estndar entre las variables, tal que estn medidas en dife-rentes unidades, con lo cual, podra concluirse que las calificaciones tienenmayor variabilidad.

    Sin embargo, al calcular el coeficiente de variacin, se observa queen realidad las horas de estudio presentan una mayor variabilidad relativa.Se podra decir que entre los alumnos existe una mayor variabilidad con res-pecto a las horas de estudio en relacin a las calificaciones obtenidas en elexamen de Qumica General 1.

    CAPTULO 2 Estadstica Descriptiva 23

    CVs

    xxx

    = 100

    x

  • Otras consideraciones que deben ser tenidas en cuenta son:

    Slo se debe calcular para variables con todos los valorespositivos. Todo indicador de variabilidad es esencialmente nonegativo. Las observaciones pueden ser positivas o nulas,pero su variabilidad debe ser siempre positiva.

    No es invariante ante cambios de origen. Es decir, si a los re-sultados de una medida le sumamos una cantidad positiva,b>0, para tener Y=X+b, la desviacin estndar no es sensibleante cambios de origen, pero si la media.

    Es invariante a cambios de escala. Si multiplicamos X por unaconstante a, para obtener Y=a X, para ver que las siguientesconsideraciones

    2.3 Distribucin de frecuencias

    Es un mtodo para resumir grandes cantidades de datos en cla-ses apropiadas, mostrando el nmero de observaciones en cada clase.En esta forma resumida, posibilita que los datos sean ms manejables ycompresibles, se logra destacar las caractersticas sobresalientes de lavariable de estudio.

    Los resultados experimentales se representan muchas veces en for-ma de distribuciones de frecuencia, agrupados o no. En las distribuciones defrecuencia no agrupadas, los valores observados se disponen en orden as-cendente de magnitud. Las distribuciones de frecuencia agrupadas se dispo-nen de modo que se pongan de manifiesto las frecuencias con que se pre-sentan los valores de la variable dentro de determinadas clases ordenadas.

    Cuando los datos se agrupan segn su magnitud numrica, la tabla re-sultante recibe el nombre de distribucin numrica o cuantitativa. En cons-trate, si los datos se agrupan en categoras que difieren en tipo y no en grado,la tabla resultante se denomina distribucin categrica o cualitativa.

    24 CAPTULO 2 Estadstica Descriptiva

    CVSy

    Sax

    aSax

    CVYY aX X

    X= = =//

    =

  • La construccin de una distribucin cuantitativa consta esencial-mente de cuatro pasos:

    1. Seleccin del nmero de clases2. Clculo del intervalo de clase3. Definicin de los lmites de clase4. Conteo del nmero de observaciones por clase

    2.3.1 Seleccin del nmero de clases

    El nmero de clases a utilizar, depende en forma primordial de tresfactores: inters del investigador, costumbre y clculo estadstico. Primera-mente, podra ser de preferencia para el investigador agrupar los datos ennmero determinado de clases, porque su conocimiento del problema as loindica o simplemente por inters personal. En tanto, la costumbre en las di-ferentes disciplinas cientficas, guan al analista de datos en la seleccin delnmero apropiado de clases.

    El nmero exacto que se utilice en una situacin dada depender dela naturaleza, magnitud y orden de los datos. Con certeza, perderamos msde lo que ganaramos si agrupamos cinco observaciones en 12 clases, talque la mayor parte de ellas quedaran vacas y por el contrario sera incon-veniente agrupar 1000 mediciones en dos clases. No obstante, en general,la distribucin de frecuencias debe tener el nmero de clases que permitauna concentracin o agrupamiento de los datos de modo conveniente paralos propsitos del estudio.

    Por otro lado, el nmero de clases puede ser definido al utilizar unclculo estadstico, que relaciona la amplitud general, es decir, la diferen-cia entre el mximo y mnimo valor que tom la caracterstica y el intervalode clase seleccionado o calculado previamente.

    Nmero de clases = Amplitud general

    Intervalo de clase

    2.3.2 Clculo del intervalo de clase

    Al construir una distribucin de frecuencia, es deseable que cadaclase tenga la misma longitud o intervalo de clase. Para determinar el ancho

    CAPTULO 2 Estadstica Descriptiva 25

    (2.7)

  • de cada clase, la amplitud general de los datos (la diferencia entre la ob-servacin ms grande y la ms pequea), se divide entre el nmero declases deseadas:

    (2.8)

    Por ejemplo, los siguientes datos son los tiempos de ignicin deciertos materiales expuestos al fuego, dados a la ms cercana centsima desegundo:

    2,58 5,50 6,75 2,65 7,60 6,25 3,78 4,90 5,21 2,51

    6,20 5,92 5,84 7,86 8,79 4,79 3,90 3,75 3,49 4,04

    3,87 6,90 4,72 9,45 7,41 2,45 3,24 5,15 3,81 2,50

    1,52 4,56 8,80 4,71 5,92 5,33 3,10 6,77 9,20 6,43

    1,38 2,46 7,40 6,25 9,64 8,64 6,43 5,62 1,20 1,58

    Suponga, que se tiene inters de construir cinco clases. Con elarreglo ordenado de los tiempos se determina que la observacin msgrande es de 9,65 y la ms pequea, de 1,20. Por tanto, la amplitud secalcula como:

    y se tiene la aproximacin al intervalo de clase con

    Como regla general, el intervalo de clase tendr igual nmero dedecimales que los datos. Si el resultado del clculo del intervalo tiene msdgitos, se debe redondear utilizando el criterio de redondeo hacia arriba.

    26 CAPTULO 2 Estadstica Descriptiva

    Intervalo de clase = 8,44

    5= 1 688 1 69, ,

    Intervalo de clase =Amplitud generalNmero de clases

    Amplitud general = Observacin mayor - observacin menor= 9,64 - 1,20= 8,44

  • 2.3.3 Definicin de los lmites de clase

    Para construir la tabla de distribucin de frecuencia, es necesario es-tablecer con claridad lmites para cada clase, a fin de que las observacionespuedan ser ubicadas en una sola categora. Las clases deben ser mutua-mente excluyentes para evitar la superposicin de ellas.

    Como el intervalo de clase para los tiempos de ignicin se ha esta-blecido en 1.69, se deben establecer los lmites o fronteras de las diversasclases con el propsito de incluir toda la amplitud de las observaciones.Siempre que sea posible, estos lmites se deben seleccionar para facilitar lalectura e interpretacin de los datos. Por tanto, el lmite inferior y superior dela primera clase se establece desde 1,20 hasta 2,88, la segunda clase que-dara definida entre los lmites de 2,89 hasta 4,57, etc.

    2.3.4 Conteo del nmero de observaciones por clase

    Siempre debe asegurarse que cada elemento (medicin u observa-cin) est solamente en una clase. Para ello, el valor menor y el mayor de-ben estar dentro de la clasificacin definida y las clases deben ser mutua-mente excluyentes. Los datos ordenados para cada clase y su frecuenciaabsoluta seran:

    Tiempos Conteo Frecuenciade ignicin Absoluta (fi)

    1,20 2,88 //// //// // 10

    2,89 4,57 //// //// / 9

    4,58 6,26 //// //// //// //// 16

    6,27 7,95 //// //// / 9

    7,96 9,64 //// // 6

    Al establecer los lmites de cada clase como se indica arriba, las 50observaciones se han contado y separado en cinco clases, cada una de lascuales tiene un intervalo de 1,69 sin existir traslapamiento entre ellas una ob-servacin no podra ser contabilizada en dos clases a la vez.

    La elaboracin de esta tabla de resumen o distribucin de frecuenciapermite saber cmo se distribuyen las observaciones dentro de una clase enparticular, sin tener necesidad de analizar los datos originales. Por tanto, pa-ra 10 materiales expuestos al fuego el tiempo de ignicin se encuentra entre

    CAPTULO 2 Estadstica Descriptiva 27

  • 1,20 y 2,88 centsima de segundo, sin embargo la tabla de resumen no in-dica con exactitud si las observaciones estn distribuidas en forma uniformeen el intervalo, si todas son cercanas a 1,20 o todas estn cercanas a 2,88.

    Por ello, el punto medio del intervalo de clase, es el valor utilizadopara representar todos los datos resumidos en una clase particular. El pun-to medio para el intervalo 1,2 2,88 es 2,04. Los otros puntos medios declase, respectivamente, son:

    3,73 5,42 7,11 8,8

    Por otra parte, la ventaja principal de utilizar una distribucin de fre-cuencias es que las caractersticas de los datos ms sobresalientes son cla-ramente identificadas por los usuarios de la informacin. Se observa que lamayora de tiempos de ignicin tienden a agruparse entre 4,58 y 6,26 cen-tsima de segundo. La distribucin de frecuencias es, en realidad, una tablade resumen en la cual se agrupan los datos para facilitar el anlisis.

    Ahora bien, para facilitar todava ms el anlisis de los datos, sepueden calcular las frecuencias relativas o porcentajes, segn si el in-vestigador prefiere proporciones o porcentajes. Las frecuencias relativas secalculan dividiendo la frecuencia absoluta de cada clase entre nmero totalde observaciones o tamao de la muestra. La distribucin con las frecuen-cias absolutas y relativas se presentan a continuacin:

    Tiempos fi Frecuencia Porcentajesde ignicin relativa (fi/n) %

    1,20 2,88 10 0,20 20

    2,89 4,57 9 0,18 18

    4,58 6,26 16 0,32 32

    6,27 7,95 9 0,18 18

    7,96 9,64 6 0,12 12

    Con esta tabla, se pueden calcular los porcentajes por clase al mul-tiplicar por 100 cada frecuencia relativa. Un 32% de los materiales fueronconsumidos por el fuego entre 4,58 y 6,26 centsima de segundo. En rea-lidad, el uso de las frecuencias relativas o distribucin porcentual de las ob-servaciones se vuelve importante siempre que un conjunto de datos secompara con otro conjunto, sobre todo si difieren el nmero de observacio-nes en cada conjunto.

    28 CAPTULO 2 Estadstica Descriptiva

  • Por tanto, para comparar los tiempos de ignicin de 50 materialescon respecto a otro conjunto de 25 materiales, se hace necesario estable-cer, ya sea la distribucin de las frecuencias relativas o de los porcentajespara este ltimo conjunto.

    2.3.5 Representacin grfica de distribuciones de frecuencias

    Como anteriormente se ha citado, las distribuciones de frecuenciasresume los datos que se dispone de una poblacin, de forma que sta sepuede analizar de una manera ms sistemtica y resumida. Para darsecuenta de un slo vistazo de las caractersticas de la poblacin resulta anms esclarecedor el uso de grficos, cuya construccin abordamos en es-ta seccin.

    Histograma

    Un histograma se construye a partir de la distribucin de frecuen-cias, representando sobre cada intervalo, un rectngulo que tiene a estesegmento como base. El criterio para calcular la altura de cada rectnguloes el de mantener la proporcionalidad entre las frecuencias absolutas (o re-lativas) de cada intervalo y su rea. Los histogramas, son grficas de barrasverticales, construidos sobre los lmites reales de cada clase.

    Al dibujar el histograma, la variable aleatoria de inters se represen-ta a lo largo del eje horizontal; el eje vertical representa la frecuencia abso-luta o la relativa por clase. A continuacin se presenta el histograma para lostiempos de ignicin de los materiales.

    CAPTULO 2 Estadstica Descriptiva 29

  • Sin embargo, cuando un anlista de informacin quiera comparardos o ms conjuntos de datos, no se pueden construir dos histogramas enla misma grfica, porque la superposicin de las barras verticales ocasiona-ra dificultades en el anlisis. Una forma de solucionar este problema, esconstruir un polgono de frecuencias absolutas o relativas.

    Polgono de frecuencias

    Al igual que con los histogramas, al dibujar el polgono de frecuen-cias, la variable aleatoria de inters se representa a lo largo del eje horizon-tal, pero dada en puntos medios y en el eje vertical es representada la fre-cuencia absoluta o la relativa. El polgono se construye al representar las fre-cuencias absolutas o relativas con sus respectivos puntos medios y, luego,al conectar la sucesin de puntos medios por medios lneas rectas. El si-guiente grfico muestra el polgono de frecuencias utilizando las frecuenciasrelativas para los tiempos de ignicin de los materiales.

    30 CAPTULO 2 Estadstica Descriptiva

  • Se debe tener en cuenta que el polgono es una representacin dela forma de la distribucin de probabilidad de la variable aleatoria particu-lar. Dado que el rea debajo de la totalidad de la curva o distribucin delas frecuencias relativas debe ser 1, es necesario conectar el primero y elltimo puntos medios con el eje horizontal y modificar el eje vertical divi-diendo por el intervalo de clase que es 1,69 a fin de encerrar el rea de ladistribucin observada.

    El procedimiento consiste en conectar el primer punto medio obser-vado con el punto medio de una clase anterior ficticia, que tenga 0 de fre-cuencia absoluta y al conectar el ltimo punto medio observado con el pun-to medio de una clase posterior ficticia, que tenga 0 observaciones.

    Se debe mencionar, que cuando construimos un polgono de fre-cuencia o histograma, el eje vertical debe mostrar el cero real (origen) a finde representar correctamente las caractersticas de la distribucin de los da-tos. Sin embargo, el eje horizontal no necesita especificar el punto cero pa-ra la variable de inters. El recorrido de la variable aleatoria debe constituirla mayor parte del grfico y, cuando se tienen problemas de presentacin delos valores es apropiado hacer cortes de escala y denotarlos simblicamen-te con 7 en el eje.

    2.4 Problemas

    2.1 A. A. Michelson (1852-1931) efectu muchas series de medi-ciones de la velocidad de la luz. Empleando una tcnica de es-pejo giratorio, obtuvo

    12 30 30 27 30 27 48 24 18 25 39

    para las diferencias (velocidad de la luz en aire) (299 700 km/s(Fuente: The Astrophysical Journal, 65 (1927): 11).

    a) Calcule el promedio aritmtico y la mediana.b) Calcule la variancia y la desviacin estndar.c) Calcule el coeficiente de variacin.

    CAPTULO 2 Estadstica Descriptiva 31

  • 2.2 Un analista desea determinar el nmero de moles de cobre IIen un volumen dado de una solucin, por electrlisis. Supon-ga que el qumico emple slo 9 muestras de la solucin parael experimento y que los resultados fueron, en moles de la sus-tancia en referencia, como sigue:

    0,15 0,17 0,19 0,15 0,18 0,16 0,17 0,18 0,19

    2.3 Para estimar la cantidad de alimentos contaminados en las fies-tas de Zapote, un inspector del Ministerio de Salud, decide con-tar el nmero de muestras contaminadas con alguna bacteria enlos lugares de venta. Para ello, decidi tomar 70 muestras de ali-mentos durante un da. Los resultados fueron son los siguientes:

    7 10 4 8 6 9 6 4 9 10 9 8 3 9 5 9 9 82 7 4 8 5 10 9 6 8 8 8 7 8 6 11 9 11 71 8 8 5 9 9 8 8 9 10 7 7 7 5 8 7 9 99 5 8 8 7 9 3 8 7 8 7 10 7 11 6 8

    a) Construya una distribucin de frecuencias con cincos clases.b) Calcule las frecuencias acumuladas, absolutas y relativas.c) Construya un histograma de las frecuencias absolutas.

    2.4 La contaminacin con petrleo de los mares estimula el creci-miento de ciertos tipos de bacterias. Un conteo de microorga-nismos oleolticos (bacterias por 100 mililitros) en 10 muestrasde agua de mar, dio los siguientes resultados:

    49 70 54 67 59 40 61 69 71 52

    a) Calcule e interprete la mediana.b) Calcule el coeficiente de variacin.

    2.5 A continuacin se dan 15 mediciones del punto de ebullicinde un compuesto de silicio (en grados Celsius):

    166 141 136 153 170 162 155 146 183 157 148 132 160 175 150

    Calcule el promedio aritmtico y la desviacin estndar.

    32 CAPTULO 2 Estadstica Descriptiva

  • 2.6 Los siguientes datos son los tiempos de ignicin de ciertosmateriales expuestos al fuego, dados a la ms cercana cent-sima de segundo:

    2,58 5,50 6,75 2,65 7,60 6,25 3,78 4,90 5,21 2,516,20 5,92 5,84 7,86 8,79 4,79 3,90 3,75 3,49 4,043,87 6,90 4,72 9,45 7,41 2,45 3,24 5,15 3,81 2,501,52 4,56 8,80 4,71 5,92 5,33 3,10 6,77 9,20 6,431,38 2,46 7,40 6,25 9,65 8,64 6,43 5,62 1,20 1,58

    a) Construya una distribucin de frecuencias utilizando un inter-valo de clase de 2 minutos.

    b) Represente la distribucin de frecuencias por medio de unpolgono de frecuencias.

    c) Calcule grficamente la mediana.

    2.7 Un ingeniero qumico vigila la calidad del agua midiendo la can-tidad de slidos suspendidos en una muestra de agua pluvial.En 11 das distintos observ los slidos suspendidos (partespor milln).

    14 12 21 28 30 63 29 63 55 19 20

    a) Calcule e interprete la media aritmtica y la medianab) Calcule el coeficiente de variacin

    2.8 Los siguientes son los pesos en gramos (redondeados al gra-mo ms prximo) de 30 ratones, de un ensayo realizado en unLaboratorio de Qumica usadas en un estudio de deficienciasvitamnicas:

    136 92 115 118 121 137 132 120 104 125119 115 101 129 85 108 110 133 135 126127 103 110 126 118 82 104 137 120 148

    a) Construya una distribucin de frecuencia con 6 clases queincluya lmites dados y reales.b) Interprete la frecuencia absoluta de la clase 3.c) Construya el polgono de frecuencias.

    CAPTULO 2 Estadstica Descriptiva 33

  • 2.9 Los siguientes son los resultados para la medida de oxgenodisuelto en diferentes ocasiones en un punto de muestreo deun ro, en gramos por litro.

    7,1 6,7 6,2 6,1 3,4 5,9 8,7 6,8 6,5 3,9 7,2 8,13,3 7,1 8,0 5,4 7,4 7,0 4,0 5,5 5,1 8,9 6,0 7,27,7 4,5 7,6 5,8 7,1 7,1 6,3 6,1 6,3 5,8 5,8 7,5

    a) Construya una distribucin de frecuencia que tenga 5 clases.(incluya los limites dados, las frecuencias absolutas y relativas).

    b) Calcule e interprete el valor de la tercera clase de la frecuen-cia absoluta acumulada a ms de.

    c) Represente grficamente la distribucin de frecuencias pormedio de un polgono de frecuencia.

    2.10 Ocho determinaciones de la densidad de un lquido orgnicodieron los resultados (en g/cm3). Calcule e interprete la mediaaritmtica y la mediana.

    0,913 0,943 0,959 0,901 0,951 0,917 0,961 0,943

    2.11 Se le pide a un analista experimentado la evaluacin de dosmtodos diferentes para la determinacin de trazas de plomoen cido actico glacial, y se le entrega una muestra quecontiene precisamente 1.282 ppm. de Pb, por litro (dato des-conocido por el analista). Se realizaron cinco determinacio-nes mediante cada mtodo, que dieron los siguientes resul-tados para la concentracin del plomo, en partes por milln(ppm):

    Mtodo A: 1,34 1,33 1,32 1,34 1,31Mtodo B: 1,30 1,26 1,30 1,33 1,24

    Compare ambos mtodos en cuanto a su exactitud y variabilidad.

    2.12 Un estudiante de qumica prepar una serie de compuestosque contienen las siguientes masas de nitrgeno y oxgeno (engramos):

    34 CAPTULO 2 Estadstica Descriptiva

  • Compuesto N2 O2A 16,8 19,2B 17,1 39,0C 33,6 57,3D 25,4 28,2E 27,9 26,1F 14,3 45,8G 35,2 53,5

    a) Calcule e interprete la masa de nitrgeno promedio de loscompuestos.

    b) Calcule e interprete la mediana de la masa de oxgeno de loscompuestos.

    c) Cul elemento de los compuestos presenta una menor varia-bilidad relativa? Justifique la respuesta.

    2.13 El espectro de masa de una muestra de xido de plomo con-tiene iones de frmula Pb0. El xido de plomo ha sido prepa-rado a partir de 16O isotpicamente puro. Las masas de los io-nes en gramos por mol, se listan a continuacin:

    220,03 220,90 226,92 225,20 216,80 229,56222,15 232,11 235,00 223,50 224,30 227,23224,78 218,45 231,45 222,62 228,56 224,05230,30 215,00 223,06 228,92 223,82 230,82225,62 229,10 224,05 232,50 221,95 218,42

    a) Construya una distribucin de frecuencias con 4 clases.Incluya en la tabla la frecuencia absoluta y la relativa.

    b) Calcule la frecuencia absoluta acumulada a menos de y lafrecuencia relativa a ms de. Interprete el valor de la terce-ra clase de ambas frecuencias acumuladas.

    c) Represente grficamente la distribucin de frecuencias pormedio de un polgono de frecuencias.

    2.14 A continuacin se presenta las medidas de pH y los porcenta-jes de Cl y SO4 en muestra de agua del tnel Arenal 2, a dife-rentes distancias de la estacin.

    CAPTULO 2 Estadstica Descriptiva 35

  • DISTANCIA pH % CL % SO4560 6,20 26,6 78,3565 3,20 37,9 127570 3,20 71,5 260634 3,00 22,6 611643 2,95 23,2 611533 5,70 15,5 74,1769 3,05 29,6 827746 4,05 30,8 784809 3,65 32,1 883816 3,60 32,5 883

    a) Calcule e interprete el promedio y la mediana de los datosde SO4

    b) Qu variable -pH o CL- tiene menor variabilidad relativa?

    2.15 Un ingeniero qumico est investigando sobre el rendimientodel efecto de la temperatura en grados centgrados sobre undeterminado proceso. El estudio da como resultado los si-guientes datos:

    Temperatura: 100 110 120 130 140 150 160 170 180 190Rendimiento: 45 51 54 61 66 70 74 78 85 89

    a) Calcule la mediana del rendimiento.b) Determine cul de las dos variables: temperatura o rendi-

    miento, tiene mayor variabilidad relativa.

    2.16 En una muestra de tabletas de aspirinas, de las cuales secuantifica su peso expresado en gramos, se obtiene:

    1,19 1,23 1,18 1,21 1,27 1,17 1,15 1,14 1,19

    Calcule e interprete la mediana del peso de las tabletas deaspirinas.

    36 CAPTULO 2 Estadstica Descriptiva

  • 2.17 Para retardar la fermentacin de cierta cerveza se agrega un in-grediente en el proceso de elaboracin. Para controlar el tiempode fermentacin, se llev un seguimiento por das como sigue:

    14 17 16 25 24 24 30 36 15 28 29 23 31 34 25 31 2624 19 28 26 23 37 29 28 27 29 29 16 23 32 28 29 18

    a) Construya una distribucin de frecuencias con 6 clases.Incluya los limites dados, la frecuencia absoluta y la relativa.

    b) Represente grficamente la distribucin de frecuencias utili-zando un histograma.

    c) Calcule e interprete la moda.

    2.18 Un estudiante obtiene los datos que siguen del volumen de ai-re como funcin de la temperatura a presin constante.

    Temperatura (C): 16 55 85 103 126 163Volumen (cm3) 31 35 38 40 43 47

    Cul variable tiene menor variabilidad relativa?

    2.19 Se est investigando un mtodo para producir gasolina a par-tir de desechos orgnicos. La planta ha proporcionado los si-guientes datos referentes al rendimiento, en porcentaje delcombustible:

    24,1 21,0 26,6 26,0 25,7 21,8 20,9 20,4 20,028,8 20,2 25,9 21,2 26,2 22,0 24,2 24,7 20,725,9 26,7 30,0 24,0 21,3 26,6 21,0 22,1 21,821,8 22,9 21,6 25,3 24,9 25,9 26,5 25,4 22,4

    a) Construya una distribucin de frecuencia con 5 clases. Inclu-ya los limites dados, la frecuencia absoluta y la frecuencia re-lativa acumulada a menos de.

    b) Dibuje el polgono de frecuencias.

    CAPTULO 2 Estadstica Descriptiva 37

  • 2.20 La distribucin siguiente corresponde a las lecturas con uncontador Geiger del nmero de partculas emitidas por unasustancia radiactiva en 100 intervalos sucesivos de 40 se-gundos:

    Nmero de partculas Frecuencia5-9 1

    10-14 1015-19 3720-24 3625-29 1330-34 235-39 1

    a) Calcule la frecuencia absoluta acumulada a menos de y lafrecuencia relativa a ms de. Interprete el valor de la terce-ra clase de ambas frecuencias acumuladas.

    b) Represente grficamente la distribucin de frecuencias pormedio de un histograma.

    c) Calcule e interprete: el promedio aritmtico, la moda y lamediana.

    d) Calcule la desviacin estndar y el coeficiente de variacin.e) Calcule e interprete el percentil 75%.

    2.21 De las siguientes determinaciones en porcentaje de humedad(H2O):

    0,48 0,37 0,47 0,40 0,44 0,46 0,43 %

    Calcule e interprete:a) El promedio aritmticob) La desviacin estndarc) El rango

    2.22 A continuacin se presenta los siguientes valores de pH de unconjunto de muestras de agua:

    38 CAPTULO 2 Estadstica Descriptiva

  • 6,63 5,68 7,22 12,11 9,289,82 6,73 9,63 4,90 7,234,85 2,70 5,44 8,98 10,913,67 6,69 11,20 5,42 7,917,20 14,57 8,87 9,12 6,97

    Construya una distribucin de frecuencias con 5 clases y cons-truya el histograma utilizando las frecuencias relativas.

    2.23 El anlisis de una mezcla indica que contiene 32,55% de Fe2O3y pierde 1,25% de peso al secarse. Calcule el porcentaje deFe2O3 en base seca.

    2.24 El CaCO3 (100,09) es el nico componente de una mezcla quepierde peso por calcinacin, al desprender CO2, peso molecu-lar 44,01 g/mol. Al calcinar una muestra de 0,4532 g de estamezcla, el peso del residuo resulta ser 0,4289 g.

    a) Cul es el porcentaje de prdida por calcinacin?.b) Cul es el porcentaje de CaCO3?.

    2.25 A continuacin se presentan los resultados obtenidos en la de-terminacin del % de nitrgeno en cinco muestras de heno to-madas al azar, como sigue:

    1,24 1,37 1,29 1,28 1,33

    a) Calcule el promedio aritmticob) Calcule el recorrido y la desviacin estndar. Compare los

    resultadosc) Calcule la variabilidad relativa

    2.26 Los siguientes datos representan los porcentajes de zinc de unconjunto de aleaciones:

    CAPTULO 2 Estadstica Descriptiva 39

  • % Zn. Frecuencia2,01-2,10 12,11-2,20 32,21-2,30 92,31-2,40 162,41-2,50 192,51-2,60 302,61-2,70 182,71-2,80 122,81-2,90 62,91-3,00 1

    a) Interprete en trminos del problema de la frecuencia absolu-ta de la quinta clase.

    b) Calcule e interprete el valor correspondiente de la frecuenciarelativa acumulada a ms de de la cuarta clase.

    c) Representa grficamente la distribucin de frecuencias utili-zando un histograma.

    2.27 Varios anlisis de una aleacin dieron los siguientes porcenta-jes de cobre:

    3,27 3,31 3,29 3,42 3,32

    Calcular la media aritmtica, la media geomtrica y la mediana.Cul de estos valores se puede tomar como el mejor valor delcontenido real en cobre de la aleacin analizada?.

    2.28 Los datos siguientes representan el tanto por ciento de cenizasde diferentes muestras de un cargamento de carbn.

    % de cenizas Frecuencia4,0-4,9 75,0-5,9 286,0-6,9 757,0-7,9 858,0-8,9 459,0-9,9 27

    10,0-10,9 711,0-11,9 2

    40 CAPTULO 2 Estadstica Descriptiva

  • Calcular el promedio aritmtico del contenido de cenizas de lasmuestras y representar la distribucin utilizando un polgono defrecuencias.

    2.29 Se analiz volumtricamente una cierta muestra para deter-minar el porcentaje de sulfatos, y se obtuvieron los resultadossiguientes:

    6,39 6,99 5,71 5,93 5,35 5,81 5,52 5,91 5,46

    Se puede rechazar alguno de los resultados?. Determinar lamedia, el recorrido y la desviacin estndar del mtodo.

    2.30 Cinco determinaciones de mercurio sobre una muestra deter-minada dieron:

    21,0 20,0 20,5 20,8 21,1 % Hg.

    Calcular e interpretar la mediana del anlisis

    2.31 Se hicieron cuatro determinaciones sobre una misma muestrapara determinar el valor del contenido en el constituyente ma-yor. Los resultados en porcentajes fueron:

    38,64 38,61 38,55 38,78

    Qu valor debe darse como resultado?

    2.32 Los siguientes resultados de sendas microdeterminaciones deC y H en cido benzoico e hidrocloruro de efedrina, fueron ob-tenidos por diversos analistas.

    Acido benzoico Hidrocloruro de efedrina% C % H % C % H

    69,03 5,00 59,22 8,1968,96 4,91 59,66 8,3169,18 5,22 59,27 7,8669,22 5,19 59,22 7,8768,88 4,89 59,51 8,2469,04 4,76 59,60 8,00

    CAPTULO 2 Estadstica Descriptiva 41

  • a) Calcular la media de cada determinacin.b) Calcular la mediana de cada determinacin.c) Para cada muestra calcular el estimador de la desviacin es-tndar de la media.

    2.33 Se obtuvieron los siguientes resultados del porcentaje de nitr-geno en una muestra paralelamente con el porcentaje de nitr-geno en un blanco.

    Anlisis (% N) Blanco (% N)18,16 0,1018,20 0,1418,07 0,0718,30 0,12

    a) Calcular la desviacin estndar para el blanco y el propioanlisis.

    b) Calcular la variabilidad relativa con ambos mtodos.

    2.34 Se obtuvieron los siguientes resultados en la valoracin de unadisolucin de cido clorhdrico en moles por litro, segn el m-todo de determinacin volumtrica, frente a carbonato de so-dio puro, y otro frente a hidrxido de sodio, obtenindose lossiguientes resultados:

    Molaridad con Molaridad conNaOH Na2C03

    0,1052 0,10600,1051 0,10550,1047 0,10490,1052 0,10620,1049 0,1059

    a) Calcular la media de cada mtodo.b) Calcular la desviacin estndar de la media de cada mtodo.c) Cul mtodo presenta mayor variabilidad relativa?

    42 CAPTULO 2 Estadstica Descriptiva

  • 3.1 Introduccin a las probabilidades3.2 Definicin axiomtica de probabilidad3.3 Teoremas fundamentales del clculo

    de probabilidades3.4 Distribuciones de probabilidad3.5 Distribuciones discretas3.6 Distribuciones continuas3.7 Aplicaciones de la distribucin normal

    estndar3.8 La distribucin t de Student3.9 Problemas

    Captulo 3Probabilidades

  • En los dos captulos anteriores se han examinado los conceptos b-sicos de estadstica y los mtodos de anlisis descriptivo de datos. En estecaptulo se empieza el estudio de diversas reglas de probabilidad bsica ymodelos de probabilidades, que son utilizados para hacer inferencias rela-cionadas con una poblacin, basndose tan slo en muestreo estadstico.

    En la seccin 3.1, se introduce los conceptos bsicos de probabili-dades y sus mtodos de clculo.

    Seguidamente, en la seccin 3.2 se presentan las distribuciones deprobabilidades y sus aplicaciones en el anlisis de datos. Se detalla en lassiguientes secciones las caractersticas de las distribuciones Binomial, Pois-son, Normal y t de Student.

    Es importante estudiar el eslabn que une la teora de la probabili-dad y la estadstica aplicada: la nocin de variable aleatoria, mostrando deesta manera, como puede emplearse la teora de la probabilidad para sacarconclusiones precisas acerca de una poblacin con base en una muestraextrada de ella.

    3.1 Introduccin a las probabilidades

    La teora de probabilidades proporciona las bases matemticas y ellenguaje de la estadstica usada en este libro. En la mayora de los proble-mas estadsticos de probabilidades, nos interesa saber el nmero de ele-mentos en un espacio muestral finito, sin embargo resulta muy difcil deter-minar todo el conjunto de eventos factibles, por medio de la enumeracindirecta. A la vez, es importante conocer los resultados posibles de un expe-rimento y sus probabilidades. Por ejemplo, podra interesar cuantificar el n-mero de productos defectuosos producidos por una mquina, y las proba-bilidades de tener x artculos defectuosos.

    Probabilidades

  • En estadstica se acostumbra designar como un experimento a unproceso de observacin o medicin cualquiera. En ese sentido, un experi-mento consiste en determinar el nmero de elementos a combinar para en-contrar un compuesto anhelado. Lo que se obtiene de un experimento, yasea lectura de instrumentos o valores obtenidos a travs de operaciones, sedenomina resultados del experimento.

    Cuando se estudian los resultados de un experimento, por lo gene-ral se identifican las diversos resultados posibles con nmeros, puntos uotras clases de smbolos, de manera que podamos tomar en cuenta todoslos aspectos concernientes a los resultados desde un punto de vista mate-mtico, sin tener que recorrer largas descripciones verbales de lo que ha su-cedido, lo que est sucediendo o lo que ocurrir.

    Hay tres definiciones de las probabilidades de ocurrencia de unevento particular. La probabilidad estadstica est basada en un conoci-miento previo del proceso aleatorio, la probabilidad de un evento (resultadoo acontecimiento), es la proporcin de las veces en que ocurrirn a la largaeventos del mismo tipo.

    La probabilidad clsica se define como el nmero de resultados fa-vorables a A, dividido entre el nmero total de posibles resultados del expe-rimento aleatorio, o sea:

    (3.1)

    Una desventaja importante del concepto clsico de probabilidad essu limitada aplicacin, ya que hay muchas situaciones en que las posibilida-des que se presentan no pueden considerarse igualmente probables.

    La probabilidad subjetiva son probabilidades que expresan la fuerzade nuestra creencia en relacin con incertidumbres que estn asociadassuposiciones razonadas, quiz intuicin y otros factores subjetivos del fe-nmeno de estudio, est puede ser muy diferente a la probabilidad asigna-da por otra persona.

    Los elementos bsicos de la teora de probabilidad son los resulta-dos del proceso o fenmeno en estudio. Cada posible resultado de un ex-perimento se llama evento.

    Un evento simple esta formado solamente por un resultado posible.En tanto, un evento compuesto es la unin de conjunto de eventos simples.

    46 CAPTULO 3 Probabilidades

    [ ]P A = Nmero de casos favorables ANmero de casos posibles

  • El conjunto de todos los eventos posibles se llama espacio probabilstico. Laforma en que se divide el espacio probabilstico, depende del tipo de proba-bilidades que se van a determinar.

    La probabilidad simple significa la probabilidad de ocurrencia de unevento simple.

    La probabilidad compuesta resulta la ocurrencia que contiene dos oms eventos simples.

    Esos trminos se podrn comprender mejor mediante el siguienteejemplo. Considere el experimento aleatorio del lanzamiento de un dado alaire, que tiene 6 resultados posibles (1 punto, 2 puntos, 3 puntos, 4 puntos,5 puntos y 6 puntos):

    El evento 3 puntos, es un evento simple porque est formado porsolo un resultado. En tanto, el evento un nmero par es compuesto porquees la unin de los eventos simples: 2 puntos, 4 puntos y 6 puntos.

    3.2 Definicin axiomtica de probabilidad

    Para hacer una definicin rigurosa de la probabilidad, necesitamosprecisar ciertas leyes o axiomas que deba cumplir una funcin de probabili-dad. Intuitivamente estos axiomas deberan implicar, entre otras, las siguien-tes cuestiones, que nos parecen lgicas en trminos de lo que se puede es-perar de una funcin de probabilidad:

    La probabilidad slo puede tomar valores comprendidos entre0 y 1(no puede haber sucesos cuya probabilidad de ocurrir sea1,5 ni -0,50.

    La probabilidad del suceso seguro es 1.

    La probabilidad del suceso imposible debe ser 0.

    La probabilidad de la interseccin de dos sucesos debe sermenor o igual que la probabilidad de cada uno de los sucesospor separado, es decir,

    CAPTULO 3 Probabilidades 47

    { }E = 1 2 3 4 5 6, , , , ,

  • (3.2)

    (3.3)

    La probabilidad de la unin de sucesos debe ser mayor que lade cada uno de los sucesos por separado:

    (3.4)

    (3.5)

    La probabilidad del suceso contrario de A, deber ser

    (3.6)

    La probabilidad de la unin numerable de sucesos disjuntos esla suma de sus probabilidades.

    (3.7)

    En las ltimas lneas fueron mencionadas ciertas propiedades quedebera cumplir una funcin que quiera llamarse de probabilidad. Debe te-nerse en cuenta entonces que se han de seguir los siguientes enunciados:

    1. La funcin de probabilidad debe calcularse sobre subconjuntosdel espacio probabilstico. No es estrictamente necesario quesean todos, pero s es necesario que si se puede calcular sobreun conjunto, lo pueda ser tambin sobre su complementario, yque si se puede calcular sobre dos conjuntos A y B, que tam-bin se pueda calcular sobre su unin y su interseccin.

    48 CAPTULO 3 Probabilidades

    [ ] [ ]P A B P AI [ ] [ ]P A B P BI

    [ ] [ ]P A B P BU [ ] [ ]P A B P BU

    [ ] [ ]P A P A 1

    [ ]A A A A A An ob ii

    ob ii

    1 21 1

    , ,..., ,... P Pr r

    = =

    =

    U

  • 2. Entre las leyes que cumplen una funcin de probabilidad, co-mo ya fue citado, algunas son redundantes pues se puedendeducir de las dems.

    Con la definicin axiomtica de la probabilidad se pretende dar elmenor conjunto posible de estas reglas, para que las dems se deduzcancomo una simple consecuencia de ellas.

    3.3 Teoremas fundamentales del clculo de probabilidades

    Hay algunos resultados importantes del clculo de probabilidadesque son conocidos bajo los nombres de teorema de la adicin y teorema dela multiplicacin. Veamos cuales son estos teoremas.

    3.3.1 Teorema de la adicin

    La probabilidad de la unin de sucesos indica que la probabilidad deocurrencia de un evento A o B, es igual a la probabilidad de ocurrenciade A, ms la probabilidad de ocurrencia de B, menos la probabilidad quelos dos eventos se presenten al mismo tiempo. Esta regla se expresa sim-blicamente en los siguientes trminos:

    (3.8)

    Siempre que la ocurrencia de A y B a la vez sea imposible, la proba-bilidad P(AB) es igual a cero; estos eventos se llaman mutuamente excluyen-tes, porque la ocurrencia de un evento impide la ocurrencia del otro.

    Ejemplo 1. Un qumico est interesado en analizar muestras de aguaen una planta elctrica de vapor. Las pruebas sern engaosas si se en-cuentra presente nitrgeno o silicio en las muestras. Los dispositivos auto-mticos indican que la probabilidad de que ambos elementos se encuentrenpresentes simultneamente es despreciable. Escriba una expresin gene-ral para la probabilidad de que las pruebas hayan sido engaosas?

    CAPTULO 3 Probabilidades 49

    [ ] [ ] [ ] [ ]P A B P A P B P A BU I= +

    [ ] [ ] [ ]P N o Si = P N + P Si

  • Ejemplo 2. En una universidad el 65% de los alumnos practican elbalompi, el 25% la natacin y el 12% los dos deportes. Cul es la proba-bilidad de encontrar alumno que practique balompie o natacin?.

    Solucin:

    Sea A el suceso practicar balompi: Prob(A)=0,65

    Sea B el suceso practicar natacin: Prob(B)=0,25

    El suceso practicar balompi y natacin es AB: Prob(AB)=0,12

    As:

    3.3.2 Teorema de la multiplicacin

    Se refiere a dos o ms eventos que podran presentarse al mismotiempo. Si la ocurrencia de uno no afecta la probabilidad que suceda otroevento cualquiera, se dice que son eventos estadsticamente independien-tes. En forma matemtica, lo anterior puede expresarse como el productode las probabilidades marginales as:

    (3.9)

    La dependencia estadstica existe cuando la probabilidad de unevento depende o est asociada a la ocurrencia de otros eventos. La pro-babilidad conjunta en condiciones de dependencia estadstica:

    (3.10)

    Entonces, la probabilidad conjunta de que los eventos A y B ocurransimultneamente o en sucesin, es igual a la probabilidad que suceda el even-to A, multiplicada por la probabilidad del evento B si ya tuvo lugar el evento A.

    50 CAPTULO 3 Probabilidades

    [ ] [ ] [ ] [ ]P A B P A P B P A BU I= + = 0,65+ 0,25-0,12

    = 0,88

    [ ] [ ] [ ]P AB = P A P B

    [ ] [ ] [ ]P AB P A P B A=

  • Ejemplo. En una planta productora de plstico, 3 tuberas vacan dis-tintos productos qumicos en un recipiente mezclador. Cada tubera tiene uncontrol de 2 posiciones que mide la tasa de flujo que se hace llegar al reci-piente. Cierto da, al experimentar con varias mezclas, se obtuvo una solu-cin que emiti un gas venenoso. No se registraron las posiciones de loscontroles. Cul es la probabilidad de obtener de nuevo esta solucin al ex-perimentar aleatoriamente?.

    Suponiendo que las probabilidades de cada posicin de las tuberassean iguales (1/2) y usando la ecuacin 3.9, se puede establecer la solucindel problema en la siguiente forma:

    3.4 Distribuciones de probabilidad

    En el captulo 2, se trat de las distribuciones empricas de frecuen-cia de muestras. Ahora, se estudia las distribuciones tericas de frecuenciay sus propiedades. Cuando una distribucin de frecuencia se basa en unamuestra, se trata, en cierto sentido, de una estimacin de la distribucin depoblacin correspondiente.

    En la mayora de los problemas estadsticos la muestra no es lo su-ficientemente grande para poder determinar la distribucin de poblacin conmucha precisin. Sin embargo, existe, por lo general, bastante informacinen la muestra, junto con la informacin obtenida de otras fuentes, para pos-tular la naturaleza general de la distribucin de poblacin. Estos postuladosdan lugar a las distribuciones de probabilidad.

    Una distribucin de probabilidad o terica es un modelo matemti-co para la distribucin de frecuencia real. En efecto, puede concebirse unadistribucin de probabilidad como una distribucin terica de frecuencia.

    Una distribucin terica de frecuencia es una distribucin de probabi-lidad que describe cmo se espera que varen los resultados del experimento

    CAPTULO 3 Probabilidades 51

    [ ]P T T T(

    ,

    1 2 3

    2

    1

    2

    1

    2

    1

    2

    1

    2

    0 125

    =

    =

    =

  • aleatorio. Dado que estas clases de distribuciones se ocupan de las expec-tativas, son modelos de gran utilidad para hacer inferencias y tomar decisio-nes en condiciones de incertidumbre.

    Las distribuciones de probabilidades estn formadas por los valoresque toma la variable aleatoria y su respectiva probabilidad. Una variablealeatoria es una funcin con valor numrico sobre un espacio de muestreo.

    Atendiendo a la clasificacin de las variables aleatorias discretas ycontinuas se describen las principales leyes de probabilidad de cada una deellas, las cuales constituirn el soporte subyacente de la inferencia estadsti-ca y a las que ser necesario hacer referencia en el estudio de dicho bloque.

    3.5 Distribuciones discretas

    Se inicia esta seccin con el estudio de las distribuciones para varia-bles aleatorias discretas.

    3.5.1 Distribucin binomial

    Existen muchos problemas aplicados en los que interesa la probabi-lidad de que un evento ocurra x veces en n ensayos. En otras palabras, seesta interesado en lograr x aciertos y n-x fracasos en n ensayos.

    Una variable discreta tiene distribucin binomial cuando cumple conlas siguientes condiciones:

    1. El experimento consta de n ensayos o pruebas idnticas.

    2. Cada ensayo puede tener uno de dos resultados. Un resulta-do se llama xito, y al otro, fracaso.

    3. La probabilidad de un xito en un ensayo es igual a p y perma-nece constante de una a otro ensayo. La probabilidad de unfracaso es q = 1-p.

    4. Los ensayos son estadsticamente independientes.

    5. Interesa conocer x, el nmero de xitos observados en npruebas.

    52 CAPTULO 3 Probabilidades

  • El resultado xito no tiene que verse como un acierto o logro, en elsentido usual de la palabra. Adems, los ensayos independientes significanque el resultado de uno de ellos no afecta la probabilidad de xito de cual-quier otro en el experimento. La frmula de la distribucin binomial es:

    x = 0, 1,..,n (3.11)

    Los clculos necesarios para obtener las probabilidades de valoresparticulares de n y x, resultan bastante tediosos; razn por lo cual sean in-cluido la Tabla 1 en el apndice, con la Distribucin Binomial para n 20 yvalores disponibles de p que principian con 0,05 y proceden por pasos de0,05 hasta el valor 0,95. Aun cuando esta tabla proporciona rpidamente losvalores de las probabilidades binomiales, se usa para resolver el siguienteproblema ilustrativo la ecuacin 3.4.

    Ejemplo. Un agente qumico produce la decoloracin del 5% de losrollos de papel producido por cierta compaa. Cul es probabilidad de queen una muestra aleatoria de 7 rollos de papel, 1 rollo presente decoloracindebido al agente qumico?.

    Este problema se puede considerar como un problema de distribu-cin binomial