Capítulo 1 Variables estadísticas

22

Transcript of Capítulo 1 Variables estadísticas

Capítulo 1

Variables estadísticasunidimensionales

OBJETIVOS

Conocer el origen de la estadística y entender las relaciones existentes entre es-tadística descriptiva, teoría de probabilidad e inferencia.

Distinguir entre los diferentes tipos de datos que se pueden presentar en un estudiodescriptivo: cualitativo y cuantitativo, discreto y continuo.

Aprender a ordenar los datos creando tablas estadísticas de valores agrupados ysin agrupar, utilizando los distintos tipos de frecuencias.

Realizar las representaciones grá�cas adecuadas a cada tipo de distribución defrecuencias.

De�nir una serie de medidas que sinteticen la información contenida en una dis-tribución de frecuencias unidimensional, tanto de valores agrupados como sinagrupar.

• Aprender a calcular e interpretar las medidas usuales de posición central yno central.

• Aprender a calcular e interpretar las medidas usuales de dispersión, paracomparar la dispersión entre dos o más variables o distribuciones de fre-cuencias.

11

12 Variables estadísticas unidimensionales

La palabra estadística procede del vocablo estado pues era función principal de losgobiernos de los estados establecer registros de población, nacimientos, defunciones,cosechas, impuestos etc.

Hoy en día, la mayoría de las personas entienden por estadísticas los conjuntos dedatos distribuidos en tablas, grá�cos publicados en los diarios. . . En la actualidad seentiende la estadística como un método de toma de decisiones, de ahí que se empleeen multitud de estudios cientí�cos de todas las ramas del saber. Por ejemplo:

• ¾Cómo saber si un nuevo medicamento producirá efectos satisfactorios?

• ¾Cuáles serán las necesidades de puestos médicos para los próximos cinco años?

No quiere decir que gracias a la estadística se pueda contestar a estas preguntas contotal exactitud, pero si que mediante procedimientos de inferencia estadística se puedenresponder a las cuestiones planteadas con un margen de error pre�jado.

La estadística se puede dividir en dos partes:

• ESTADÍSTICA DESCRIPTIVA.Trata del recuento, ordenación y clasi�cación de los datos obtenidos por las obser-

vaciones. Se construyen tablas y se representan grá�cos que permiten simpli�car, engran medida, la complejidad de todos los datos que intervienen en la distribución. Asi-mismo se calculan parámetros estadísticos que caracterizan la distribución y se limitaa realizar deducciones directamente a partir de los datos y parámetros obtenidos.

• ESTADÍSTICA INFERENCIAL.Plantea y resuelve el problema de establecer previsiones y conclusiones genera-

les sobre una población a partir de los resultados obtenidos de una muestra. Utilizaresultados obtenidos mediante la estadística descriptiva y se apoya en el cálculo deprobabilidades.

De�niciones

• POBLACIÓN: conjunto de elementos que cumplen una determinada característica.Los elementos de la población se llaman individuos.

• MUESTRA: cualquier subconjunto de la población. El número de elementos de unamuestra se llama tamaño.

El proceso mediante el cual se extrae una muestra representativa de la poblaciónse conoce con el nombre de muestreo aleatorio. En este muestreo cada individuo de lapoblación tiene la misma posibilidad de ser incluido en la muestra. Pero la composiciónde la muestra debe estar en proporción con la composición de la población. Por ejemplo

13

si se desea elegir una muestra formada por 1000 personas de una población en la queel 60% son mujeres, deberemos elegir para la muestra 600 mujeres y 400 hombres.

• CARÁCTER ESTADÍSTICO: propiedad que permite clasi�car a los individuos de lapoblación. Por ejemplo, nivel de consumo o ahorro, edad, renta, etc. Las característicasobservadas suelen representarse por una letra mayúscula X, Y , etc.

Hay dos tipos de caracteres estadísticos: cuantitativo y cualitativo.

CARÁCTER ESTADÍSTICO CUANTITATIVO: son aquellos que se pueden me-dir. Este tipo de carácter estadístico determina una variable estadística. Se llamanvalores de una variable estadística, a los posibles resultados obtenidos al observardicha variable estadística.

Ejemplos: número de empleados en una empresa, nacimientos habidos cada díaen una ciudad, talla de un individuo, altura de los edi�cios de una ciudad, etc.Son valores, por ejemplo, de la variable "número de empleados en una empresa":1, 2, 3, 4, etc.

CARÁCTER ESTADÍSTICO CUALITATIVO: son aquellos que no se puedenmedir. Este tipo de carácter estadístico determina un atributo. Se llaman moda-lidades, a los posibles resultados obtenidos al observar un atributo.

Ejemplos: profesión de una persona, estado civil, color de los ojos, veredicto enun juicio, etc. Son modalidades, por ejemplo, del atributo "profesión de unapersona": ingeniero, matemático, enfermero, biólogo, estadístico, etc.

Hay dos tipos de variables estadísticas: discreta y continua.

UNA VARIABLE ESTADÍSTICA ES DISCRETA cuando puede tomar un nú-mero �nito de valores. Ejemplos: número de proveedores, número de defectos enla fabricación de un producto, etc.

UNA VARIABLE ESTADÍSTICA ES CONTINUA cuando puede tomar al me-nos teóricamente, todos los valores posibles, dentro de un cierto intervalo de larecta real. Ejemplos: talla de un individuo, altura de los edi�cios de una ciudad,temperatura, etc.

Los valores de las variables estadísticas se acostumbra representarlos por x1, x2, x3, . . . xn.

Por otra parte, se puede hablar de análisis de datos unidimensionales o multidimen-sionales, dependiendo del número de características a estudiar. En el caso multidimen-sional, la naturaleza de las características puede ser mixta. Por ejemplo, en distribucio-nes bidimensionales, puede trabajarse conjuntamente con características cuantitativasy cualitativas.

14 Variables estadísticas unidimensionales

Distribución de frecuencias

• Se llama FRECUENCIA ABSOLUTA del valor xi y la representamos por ni alnúmero de veces que se repite dicho valor.

• Se llama FRECUENCIA ABSOLUTA ACUMULADA del valor xi y la representamospor Ni a la suma de las frecuencias absolutas de todos los valores anteriores a xi másla frecuencia absoluta de xi:

Ni = n1 + n2 + . . .+ ni

• Se llama FRECUENCIA RELATIVA del valor xi y la representamos por fi al cocienteentre la frecuencia absoluta de xi y el número total de datos que intervienen en ladistribución:

fi =niN

siendo N el número total de datos.

• Se llama FRECUENCIA RELATIVA ACUMULADA del valor xi y la representamospor Fi al cociente entre la frecuencia absoluta acumulada de xi y el número total dedatos que intervienen en la distribución:

Fi =Ni

N= f1 + f2 + . . .+ fi

La distribución de frecuencias de una variable viene de�nida por los valores quetoma la variable y sus respectivas frecuencias. Existen distribuciones de frecuencias devalores no agrupados y agrupados

Formas de representar los datos

La representación de los datos consiste en mostrarlos clasi�cados y ordenados parapoder dar mayor claridad y ofrecer una visión global del conjunto que pueda ser inter-pretable. Las tres formas más elementales de tratamiento de conjuntos numerosos dedatos son:

1. Tablas estadísticas.

2. Representaciones grá�cas.

3. Síntesis numérica de los datos.

15

Tablas estadísticas

Veamos como proceder ordenadamente para analizar una muestra.

1. Recogida de datos. Consiste en la toma de datos numéricos procedentes de lamuestra.

2. Ordenación de los datos. Una vez recogidos los datos los colocaremos en ordencreciente o decreciente, según el tipo de estudio que tengamos que hacer.

3. Recuento de frecuencias. Efectuaremos el recuento de los datos obtenidos.

4. Construcción de la tabla estadística. Las tablas más simples son las que constande una primera columna, donde se re�eja los distintos valores o modalidades quepresenta el carácter en estudio. Se añaden una o más columnas a su derechaque representan las respectivas frecuencias. En muchas ocasiones es interesantetrabajar con porcentajes; éstos se obtienen multiplicando las frecuencias relativaspor 100.

Cuadro 1.1: Tablas estadísticas.

Característica ni Ni fi Fix1 n1 N1 f1 F1

x2 n2 N2 f2 F2

x3 n3 N3 f3 F3...

......

......

xi ni Ni fi Fi...

......

......

xn nn Nn fn Fn

Intervalos ni Ni fi Fi[L0, L1) n1 N1 f1 F1

[L1, L2) n2 N2 f2 F2

[L2, L3) n3 N3 f3 F3...

......

......

[Li−1, Li) ni Ni fi Fi...

......

......

[Ln−1, Ln] nn Nn fn Fn

n∑i=1

ni = Nn∑i=1

fi = 1

En el caso de las variables agrupadas en intervalos, es más cómodo que dichosintervalos sean de la misma amplitud que se denota por ci y se de�ne como la diferenciaentre el extremo superior del intervalo, que es Li e inferior del intervalo, que es Li−1

ci = Li − Li−1

A los puntos medios de cada clase se les llama marca de clase.

xi =Li−1 + Li

2

16 Variables estadísticas unidimensionales

Con el �n de que la clasi�cación esté bien hecha, los intervalos se deben construirde tal manera que el límite superior de una clase coincida con el límite inferior de lasiguiente. Y además se debe adoptar el criterio de que los intervalos sean cerrados porla izquierda y abiertos por la derecha, a excepción del último que será cerrado porambos extremos.

Puede tomarse como límite inferior del primer intervalo el mínimo valor de la varia-ble. Fijado éste y sumando la amplitud, se obtienen los intervalos. Debe comprobarseque el valor máximo de la variable está recogido en el último intervalo.

• EJEMPLO (variable estadística discreta): Un profesor tiene anotadas en su agendalas cali�caciones de 30 alumnos. Construir la tabla estadística sabiendo que son lassiguientes:

5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7

Notas ni fi Ni Fi0 2 2/30 2 2/301 3 3/30 5 5/302 1 1/30 6 6/303 1 1/30 7 7/304 1 1/30 8 8/305 3 3/30 11 11/306 2 2/30 13 13/307 5 5/30 18 18/308 7 7/30 25 25/309 5 5/30 30 30/30

30 1

• EJEMPLO (variable estadística continua): Agrupar los siguientes datos, correspon-dientes a las edades de las personas que acuden a un logopeda a lo largo de un mes, enintervalos de amplitud 5, considerando que el extremo inferior del primer intervalo es0.

3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6,

27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

Edades ni fi Ni Fi[0, 5) 13 13/36 13 13/36[5, 10) 11 11/36 24 24/36[10, 15) 6 6/36 30 30/36[15, 20) 2 2/36 32 32/36[20, 25) 1 1/36 33 33/36[25, 30] 3 3/36 36 36/36

36 1

17

Representaciones grá�cas

Aunque las tablas estadísticas contienen toda la información, a veces es convenienteexpresarla mediante un grá�co, con el �n de hacerla más clara y evidente. Según comosea la naturaleza del carácter estudiado, utilizaremos uno u otro tipo de representacióngrá�ca.

1. Para fenómenos cuantitativos, tipo discreto.

a) Diagrama de barras. Son útiles cuando se desean comparar datos cualitativoso datos cuantitativos de tipo discreto. Para construirlo se llevan los valoresde la variable sobre el eje de abscisas y sobre cada valor de la variable selevanta un segmento igual a la frecuencia (absoluta o relativa).

Figura 1.1: Diagrama de barras

b) Polígono de frecuencias (absolutas o relativas). Se forman uniendo los ex-tremos de las barras mediante una línea quebrada.

Figura 1.2: Polígono de frecuencias

2. Para fenómenos cuantitativos, tipo continuo.

a) Histograma. Se utilizan generalmente para distribuciones de variable esta-dística continua, y para distribuciones de variable estadística discreta, conun gran número de datos, y que se han agrupado en clases. Para construir

18 Variables estadísticas unidimensionales

el histograma se representan sobre el eje de abscisas los límites de las cla-ses. Sobre dicho eje se construyen unos rectángulos que tienen por base laamplitud del intervalo y por altura la frecuencia absoluta de cada intervalo,siempre que todos los intervalos tengan igual amplitud.

Figura 1.3: Histograma

En caso de que los intervalos tengan distinta amplitud, las alturas de losrectángulos han de ser calculadas teniendo en cuenta que sus áreas debenser proporcionales a las frecuencias de cada intervalo. De esta forma, lasalturas de cada rectángulo se calcularían como el cociente entre la frecuenciaabsoluta y la amplitud de cada intervalo. Este cociente se llama densidadde frecuencia.

b) Polígono de frecuencias. Se forma al unir los puntos medios de cada intervalo,a una altura proporcional a la frecuencia.

3. Para fenómenos cualitativos

a) Diagrama de sectores. Representa las distintas modalidades de un caráctermediante sectores circulares. El ángulo central de cada sector ha de serproporcional a la frecuencia absoluta correspondiente.

Figura 1.4: Diagrama de sectores

19

b) Pictogramas. Son dibujos alusivos a la distribución que se pretende estudiary que mediante su forma, tamaño, etc. ofrece una descripción lo más expre-siva posible de la distribución estadística. Se comprende que este métodotiene el grave inconveniente de la falta de precisión.

Figura 1.5: Pictograma

c) Cartogramas. Son los grá�cos que se realizan sobre un mapa, señalando sobredeterminadas zonas con distintos colores o rayados lo que se trata de ponerde mani�esto. Se suelen utilizar estos tipos de diagramas para representarla densidad demográ�ca de una nación, la renta per cápita, los índices delluvia de una nación, etc.

Figura 1.6: Cartograma

• EJEMPLO (variable estadística discreta): Un profesor tiene anotadas en su agendalas cali�caciones de treinta alumnos. Representar grá�camente esta información.

5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7

• EJEMPLO (variable estadística continua): Las edades de las personas que acudena un logopeda a lo largo de un mes, son registradas. Representar grá�camente estainformación.

3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6,

27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

• EJEMPLO (datos cualitativos): En 1975 la población activa española, expresadaen millones de trabajadores, era la siguiente: Agricultura 4.05, Industria 5.22, Cons-trucción 1.78, Servicios 7.53. Representar grá�camente esta información.

20 Variables estadísticas unidimensionales

Síntesis numérica de los datos

Aún cuando las tablas estadísticas y las representaciones grá�cas permiten obtener,de una manera rápida, una idea aproximada del comportamiento de una distribución,lo que se intenta es resumirla en una serie de expresiones, que intentan representar elconjunto total de datos mediante un solo valor numérico. En este proceso de síntesissurgen distintas medidas.

1. Medidas de posición central.

Son medidas que tienden a situarse hacia el centro del conjunto de datos orde-nados.

a) MEDIA ARITMÉTICA de una variable estadística es la suma de todos losvalores de dicha variable dividido por el número de valores. Se denota porx̄.

Cálculo de la media aritmética

Sea X una variable estadística que toma los valores x1, x2, x3, . . . , xn con fre-cuencias absolutas n1, n2, n3, . . . , nn, respectivamente. La media aritméticade la variable X viene dada por la siguiente expresión:

x̄ =x1n1 + x2n2 + x3n3 + . . .+ xnnn

n1 + n2 + n3 + . . .+ nn=

n∑i=1

xini

N=

n∑i=1

xifi;n∑i=1

ni = N

Si los datos son simples, se tiene que n1 = n2 = n3 = . . . = nn = 1.

Si la variable X es continua, o aun siendo discreta, y por tratarse demuchos datos se encuentran agrupados en clases, se toman como valoresx1, x2, x3, . . . , xn, las marcas de cada clase.

OBSERVACIONES:

La x̄, es la medida de centralización que más se utiliza.

Presenta la ventaja de tener en cuenta todos los datos de la distribución,además de resultar muy sencillo su cálculo.

Tiene el grave el inconveniente de que si la distribución posee valoresextremos, estos producen una distorsión sobre el valor de la x̄.

No siempre es posible realizar el cálculo de la x̄: cuando los datos soncualitativos o cuando los datos se encuentran agrupados en clases, es-tando alguna de ellas abierta.En estos casos en los que no es posible calcular la media, se utilizanotras medidas, como la moda y la mediana.

21

• EJERCICIO: El número de horas que dedica un alumno al estudio durantela semana es el siguiente: 3.5, 5.5, 4, 6, 5, 3. Calcular la media de horasdedicadas al estudio.

• EJERCICIO: Las cali�caciones en la asignatura de estadística de los cua-renta alumnos de una clase vienen dadas por la siguiente tabla. Hallar lacali�cación media.

Cali�caciones 1 2 3 4 5 6 7 8 9Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO: Se ha aplicado un test sobre satisfacción en el trabajo a 88empleados de una fábrica, obteniéndose los siguientes resultados. Calcularla puntuación media.

Puntuaciones 38-44 44-50 50-56 56-62 62-68 68-74 74-80No de empleados 7 8 15 25 18 9 6

b) MODA. Es el valor de la variable que presenta mayor frecuencia absoluta.La moda no tiene por qué ser única, puede haber varios valores de la va-riable con la mayor frecuencia. En este caso se dirá que la distribución esbimodal, trimodal, etc., según sean dos, tres etc., los valores de la variableque presentan mayor frecuencia.

Cálculo de la moda

Como consecuencia de la de�nición el cálculo de la moda resulta muy sencilloen los casos de datos simples y datos no agrupados en intervalos. Pero, en elcaso de datos agrupados en intervalos de igual amplitud es fácil determinarla clase modal (clase con mayor frecuencia), pero el valor dentro del intervaloque se presume tenga mayor frecuencia se obtiene a partir de la siguienteexpresión:

M0 = Li−1 + cni+1

ni+1 + ni−1

Li−1, límite inferior de la clase modal.

c, amplitud de los intervalos.

ni−1, frecuencia absoluta anterior a la frecuencia absoluta de la clase modal.

ni+1, frecuencia absoluta siguiente a la frecuencia absoluta de la clase modal.

En el caso de datos agrupados en intervalos de distinta amplitud, se calcu-laran las densidades de frecuencia para cada intervalo, siendo la clase modalaquella que tenga mayor densidad de frecuencia y el valor dentro del interva-lo que se presume tenga mayor frecuencia se obtiene a partir de la siguiente

22 Variables estadísticas unidimensionales

expresión:

M0 = Li−1 + cidi+1

di−1 + di+1

Li−1, límite inferior de la clase modal.

ci, amplitud de la clase modal.

di−1, densidad de frecuencia anterior a la densidad de frecuencia de la clasemodal.

di+1, densidad de frecuencia siguiente a la densidad de frecuencia de la clasemodal.

OBSERVACIONES:

Puede ocurrir que existan distribuciones que no tengan moda; eso ocurrecuando las frecuencias de todos los datos son iguales.

La moda es menos representativa que la media aritmética, pero en al-gunas ocasiones es más útil que ésta; por ejemplo, cuando se trata deuna distribución de datos cualitativos.

En la moda no intervienen todos los datos de la distribución.

Aun cuando la moda se considera una medida de centralización, nosiempre tiene por qué situarse en la zona central; es frecuente encontrarla moda próxima a los valores extremos de la distribución.

En de�nitiva, la moda representa el valor dominante de la distribución;así, por ejemplo, en unas elecciones la moda es el partido más votado.

• EJERCICIO: Las cali�caciones en la asignatura de estadística de los cua-renta alumnos de una clase vienen dadas por la siguiente tabla. Hallar einterpretar la moda.

Cali�caciones 1 2 3 4 5 6 7 8 9Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO: Se ha aplicado un test sobre satisfacción en el trabajo a 88empleados de una fábrica, obteniéndose los siguientes resultados. Calcular einterpretar la moda.

Puntuaciones 38-44 44-50 50-56 56-62 62-68 68-74 74-80No de empleados 7 8 15 25 18 9 6

• EJERCICIO: Calcular la moda de la siguiente distribución.

Clases 0-25 25-50 50-100 100-150 150-200ni 20 140 180 40 20

23

c) MEDIANA de una variable estadística es un valor de la variable, tal que elnúmero de observaciones menores que él es igual al número de observacionesmayores que él. Es decir, el número de datos que preceden a la mediana esigual al número de datos que la siguen.

Cálculo de la mediana

Datos simples.En este caso se ordenan los datos de menor a mayor y la mediana seráel valor central, si el número de datos es impar. Si el número de datoses par no existe término central, sino dos términos centrales y por ellose dice que hay dos medianas. No obstante, acostumbra tomarse comomediana la semisuma de los dos valores centrales, aunque dicho valorresultante no pertenezca al conjunto de datos.

Datos no agrupados en intervalos. Variable estadística discreta.Podríamos proceder ordenando los datos como si fueran simples, perose comprende que este método puede resultar muy laborioso, por lo quepara abreviar el proceso calculamos las frecuencias absolutas acumula-das y la mediana viene dada por el primer valor de la variable cuyafrecuencia absoluta acumulada supera a la mitad de número de datos,previamente calculado.En el caso de que la mitad del número de datos coincida con la fre-cuencia absoluta acumulada correspondiente a un valor, la mediana esla semisuma entre ese valor y el siguiente de la tabla.

Datos agrupados en intervalos. Variable estadística continua.En este caso procediendo de forma análoga, resulta fácil detectar cuáles la clase mediana (donde se supera la mitad de los datos), pero paraobtener el valor concreto de la variable que deja a su izquierda igualnúmero datos que a su derecha, aplicamos la siguiente expresión:

Me = Li−1 + ci

N2 −Ni−1

ni

Li−1, límite inferior de la clase mediana.ci, amplitud del intervalo.N , número total de datos.Ni−1, frecuencia absoluta acumulada de la clase anterior a la clase me-diana.ni, frecuencia absoluta de la clase mediana.En el caso de que la mitad del número de datos coincida con la frecuen-cia absoluta acumulada correspondiente a un intervalo, la mediana esdirectamente el límite superior de dicho intervalo.

24 Variables estadísticas unidimensionales

• EJERCICIO: El número de horas que dedica un alumno al estudio durantela semana es el siguiente: 3.5, 5.5, 4, 6, 5, 3. Calcular e interpretar la mediana.

• EJERCICIO: Las cali�caciones en la asignatura de estadística de los cua-renta alumnos de una clase vienen dadas por la siguiente tabla. Hallar einterpretar la mediana.

Cali�caciones 1 2 3 4 5 6 7 8 9Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO: Se ha aplicado un test sobre satisfacción en el trabajo a 88empleados de una fábrica, obteniéndose los siguientes resultados. Calcular einterpretar la mediana.

Puntuaciones 38-44 44-50 50-56 56-62 62-68 68-74 74-80No de empleados 7 8 15 25 18 9 6

• EJERCICIO: Calcular la mediana de la siguiente distribución.

xi 3 6 7 8 9ni 15 20 15 40 10

• EJERCICIO: Calcular la mediana de la siguiente distribución.

Clases 0-5 5-10 10-15 15-20ni 14 36 30 20

OBSERVACIONES:

La mediana es particularmente útil en los siguientes casos:

1) Cuando entre los datos existe alguno ostensiblemente extremo queafecta a la media.

2) Cuando los datos están agrupados en clases y alguna de ellas esabierta.

Como consecuencia de la de�nición de mediana, se tiene que el 50% delos datos son menores o iguales a ella y el 50% restantes son mayores oiguales.

La mediana es el primer parámetro de centralización que depende delorden de los datos y no de su valor.

2. Medidas de posición no central.

Son valores de la distribución que la dividen en partes iguales, es decir, en inter-valos que comprenden el mismo número de valores. Se denominan CUANTILES.

25

Cálculo de los cuantiles

Debido a que los cuantiles son parámetros del tipo de la mediana, su cálculo serealiza de forma análoga. Pueden ser:

a) CUARTILES. Son tres valores que dividen a la serie de datos en cuatropartes iguales, dentro de cada cual están incluidos el 25% de los valoresde la distribución. Se representan por Q1, Q2, Q3 y se designan por cuartilprimero, segundo y tercero, respectivamente. Así, Q1 es el valor que ocupael lugar N/4, Q2 el 2N/4 y Q3 el 3N/4.Para distribuciones de variable estadística continua o bien para distribucio-nes de variable estadística discreta, con un gran número de datos, y que sehan agrupado en clases, aplicamos la siguiente expresión:

Qk = Li−1 + cikN4 −Ni−1

ni; k = 1, 2, 3

Li−1, límite inferior de la clase.ci, amplitud del intervalo.N , número total de datos.Ni−1, frecuencia absoluta acumulada de la clase anterior.ni, frecuencia absoluta de la clase.

b) PERCENTILES. Son noventa y nueve valores que dividen a la serie dedatos en cien partes iguales. Se representan por P1, P2,. . .P99 y se designanpercentil primero, segundo. . . noventa y nueve, respectivamente.Para distribuciones de variable estadística continua o bien para distribucio-nes de variable estadística discreta, con un gran número de datos, y que sehan agrupado en clases, aplicamos la siguiente expresión:

Pk = Li−1 + cik N100 −Ni−1

ni; k = 1, 2, . . . , 99

Li−1, límite inferior de la clase.ci, amplitud del intervalo.N , número total de datos.Ni−1, frecuencia absoluta acumulada de la clase anterior.ni, frecuencia absoluta de la clase.Se observa que la mediana coincide con el cuartil segundo, el decil quinto yel percentil de orden 50.

• EJERCICIO: Las cali�caciones en la asignatura de estadística de los cua-renta alumnos de una clase vienen dadas por la siguiente tabla. Calcular einterpretar:

26 Variables estadísticas unidimensionales

Cali�caciones 1 2 3 4 5 6 7 8 9Número de alumnos 2 2 4 5 8 9 3 4 3

1) Los cuartiles primero y tercero.

2) Los percentiles de orden 30 y 70.

• EJERCICIO: Se ha aplicado un test sobre satisfacción en el trabajo a 88empleados de una fábrica, obteniéndose los siguientes resultados. Calcular einterpretar:

Puntuaciones 38-44 44-50 50-56 56-62 62-68 68-74 74-80No de empleados 7 8 15 25 18 9 6

1) Los cuartiles primero y tercero.

2) Los percentiles de orden 40 y 90.

3. Medidas de dispersión.

Consideremos el siguiente ejemplo: se ha aplicado a dos grupos de ocho voluntariosun test de 100 preguntas sobre primeros auxilios, obteniéndose los siguientesresultados:

Grupo A 46 48 49 50 50 51 52 54Grupo B 10 18 30 50 50 70 82 90

Si calculamos la media, moda y mediana de ambas distribuciones, se observa quetodas son iguales a 50. Mientras que en el grupo A la mayoría de los voluntarioshan contestado prácticamente a la mitad de las preguntas, en el grupo B hayvoluntarios que casi han contestado a la totalidad, y otros que han contestadoa muy pocas preguntas. Por tanto, las puntuaciones del grupo A están muypróximas a la media y diremos que se encuentran poco dispersas; en cambio lasdel grupo B se encuentran alejadas de la media y diremos que se encuentran muydispersas.

Luego, la investigación acerca de una distribución queda incompleta si sólo seestudian las medidas de centralización, siendo imprescindible conocer si los datosnuméricos están agrupados o no alrededor de los valores centrales. A esto se lellama dispersión (es decir, la mayor o menor separación de los valores respectoa otro, que se pretende sea su síntesis) y a los parámetros que miden estas des-viaciones respecto a la media se les llama medidas de dispersión o parámetros dedispersión. Vamos a distinguir entre medidas de dispersión absolutas y relativas.

Medidas de dispersión absolutas

27

a) RANGO de una distribución es la diferencia entre el mayor y el menor valorde la variable estadística.

En el ejemplo anterior, al tener el mismo número de datos ambas distribu-ciones y ser el recorrido de la distribución del grupo A (54-46=8) muchomás pequeño, diremos que es más homogénea, o menos dispersa, que ladistribución del grupo B (90-10=80).

OBSERVACIONES:

Cuanto menor es el recorrido de una distribución mayor es el grado derepresentatividad de los valores centrales.

El recorrido tiene la gran ventaja de su sencillez de cálculo.

Tiene gran aplicación en procesos de control de calidad, y de una manerageneral, en aquellos procesos que se pretenda veri�car longitudes, pesos,volúmenes, estando pre�jados de antemano los límites permitidos.

El recorrido presenta el inconveniente de que sólo depende de los valoresextremos. Basta que uno de ellos se separe mucho, para que el recorridose vea sensiblemente afectado.Esta medida es válida para comparar distribuciones, pero si éstas vienenen distintas unidades, es preferible utilizar otras. Asimismo, persegui-mos determinar la representatividad de las medidas de posición y estasmedidas no hacen referencia a ningún promedio. Se necesitan medidasde dispersión que involucren a los promedios.

b) VARIANZA de una variable estadística es la media aritmética de los cuadra-dos de las desviaciones respecto a la media. Se llaman desviaciones respectoa la media a las diferencias entre cada valor de la variable y la media. Sedenota por S2.

Cálculo de la varianza

Sea X una variable estadística que toma los valores x1, x2, x3, . . . , xn confrecuencias absolutas n1, n2, n3, . . . , nn, respectivamente. La varianza de lavariable X viene dada por la siguiente expresión:

S2 =

n∑i=1

(xi − x̄)2ni

N=

n∑i=1

x2ini

N− x̄2

Si los datos son simples, se tiene que n1 = n2 = n3 = . . . = nn = 1.

Si la variable X es continua, o aun siendo discreta, y por tratarse demuchos datos se encuentran agrupados en clases, se toman como valoresx1, x2, x3, . . . , xn, las marcas de cada clase.

28 Variables estadísticas unidimensionales

La varianza nos medirá la mayor o menor dispersión de los valores respectoa la media aritmética. Si la dispersión es muy grande, la media aritmética noserá representativa. En el caso extremo de que todas las observaciones fueseniguales, la media aritmética coincidiría con el valor común de las mismas,dando lugar a que la varianza sea cero.

c) DESVIACIÓN TÍPICA de una variable estadística es la raíz cuadrada po-sitiva de la varianza. Se denota por S.

Cálculo de la desviación típica

S = +√S2

PROPIEDADES:

La varianza nunca puede ser negativa. S2 ≥ 0

Las propiedades de la desviación típica se deducen fácilmente de los dela varianza.

OBSERVACIONES:

Tanto la varianza como la desviación típica dependen de todos los va-lores de la distribución así como de la media.En los casos en que no sea posible calcular la media aritmética, noserá posible tampoco obtener la varianza y la desviación típica por serfunciones de la media aritmética.La varianza tiene el grave inconveniente de que no viene expresada enlas mismas unidades que los datos, debido a que las desviaciones vanelevadas al cuadrado. Por ejemplo, si los datos son metros, la varianzavendrá dada en metros cuadrados. En cambio, la desviación típica vieneexpresada en las mismas unidades que los datos de la distribución, deahí que la desviación típica resulte más interesante que la varianza.

• EJERCICIO: El número de horas que dedica un alumno al estudio durantela semana es el siguiente: 3.5, 5.5, 4, 6, 5, 3. Calcular el rango, la varianza yla desviación típica.

• EJERCICIO: Las cali�caciones en la asignatura de estadística de los cua-renta alumnos de una clase vienen dadas por la siguiente tabla. Calcular elrango, la varianza y la desviación típica.

Cali�caciones 1 2 3 4 5 6 7 8 9Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO: Se ha aplicado un test sobre satisfacción en el trabajo a 88empleados de una fábrica, obteniéndose los siguientes resultados. Calcularel rango, la varianza y la desviación típica.

29

Puntuaciones 38-44 44-50 50-56 56-62 62-68 68-74 74-80No de empleados 7 8 15 25 18 9 6

Medidas de dispersión relativas

Si tenemos dos distribuciones con dos promedios y queremos saber cuál de losdos es más representativo, no lo podemos saber por sus respectivas medidas dedispersión, ya que las distribuciones, en general, no vendrán dadas en las mis-mas unidades de medida. Aunque fueran las mismas, tampoco se podría si lospromedios son numéricamente diferentes. De aquí surge la necesidad de construirmedidas adimensionales, es decir, que no vengan afectadas por las unidades demedida.

COEFICIENTE DE VARIACIÓN DE PEARSON. Es el cociente entre la desvia-ción típica y la media aritmética y suele expresarse en %. El valor más pequeñode este coe�ciente sería el cero, pues este es el mínimo valor que puede tomar ladesviación típica, lo que indica máxima representatividad de la media aritmética.El coe�ciente de variación no es signi�cativo cuando la media aritmética es cero,ya que puede conducirnos a tomar conclusiones equivocadas.

• EJEMPLO: Se ha medido el peso, en kilos y altura, en metros, de seis personas,obteniéndose los datos siguientes:

Pesos 65 60 65 63 68 68Alturas 1.70 1.50 1.68 1.70 1.75 1.80

¾Qué variable está más dispersa, los pesos o las alturas? ¾Qué media es másrepresentativa?

30 Variables estadísticas unidimensionales

PROBLEMAS

1. La tabla adjunta nos da el peso, en kilos, de 90 corderos:

Pesos 40-50 50-60 60-65 65-70 70-75 75-80 80-90 90-100No corderos 7 12 18 22 13 10 5 3

Si se consideran "�acos"los que pesan menos de 60 kilos y obesos los que pesanmás de 80, calcular

a) Porcentaje de corderos "�acos". (Sol. 21.11%)

b) Porcentaje de corderos obesos. (Sol. 8.89%)

c) Número de corderos que pesan más de 75 kilos. (Sol. 18)

d) Número de corderos que pesan menos de 65 kilos. (Sol. 37)

2. En un total de 10 empresas de un determinado sector de actividad se ha observadoel número de empleados, obteniéndose los valores siguientes: 15, 21, 22, 26, 32,35, 40, 50, 54, 1000, donde x̄=129.5 y la mediana 33.5. ¾Que medida de posiciónes preferible utilizar como resumen del conjunto de datos de la variable?

a) La media aritmética, porque es la medida de posición central por excelenciay siempre que se conozca se debe utilizar ésta.

b) La mediana, porque como existe un valor muy alejado del resto, la media espoco representativa del conjunto de valores de la distribución.

c) Es indiferente.

d) Ninguna de las anteriores es correcta.

(Sol. b)

3. La tabla siguiente recoge la información que se conoce acerca de la variable "no

de turismos por cada 100 habitantes"de diversos municipios de Almería. Calculare interpretar la mediana y obtener el número de turismos más habitual por cadacien habitantes. (Sol. 45.2, 45.38)

Turismos 10-20 20-40 40-50 50-70 70-80Frecuencias 8 12 25 14 7

4. Unos grandes almacenes disponen de un aparcamiento para sus clientes. Lossiguientes datos se re�eren al número de horas que permanecen en el aparcamientouna serie de coches:

4 5 5 1 7 4 4 3 6 5 3 2 4 4 3 6 6 4 5 5 6 4 3 3 4 5 4 3 2 4 5 2 4 7 3 6 2 2 4 1 2 1 37 3 1 5 1 7 2 4 4 2 4 5 3 6 3 5 3

31

a) Obtener la tabla de frecuencias para ese conjunto de datos. Incluir las fre-cuencias acumuladas.

b) Determinar e interpretar el tercer cuartil (Sol. 5) y el percentil 42 (Sol. 4).

c) Calcular el tiempo medio de permanencia de los coches en el aparcamiento(Sol. 3.85).

d) Calcular e interpretar la moda (Sol. 4) y la mediana (Sol. 4).

5. La distribución de un hotel de 50 habitaciones es;

No de habitaciones 2 4 5 6 7 12 14Super�cie en m2 50-70 0-10 10-20 34-40 40-50 20-26 26-34

Calcular la super�cie media del hotel (Sol. 28.96), el tamaño más habitual de lashabitaciones (Sol. 24.66), e interpretar la mediana. (Sol. 28.28)

6. La cajera de una tienda va anotando los precios, en euros y las cantidades delos productos que ha adquirido un cliente. En el ticket de compra aparece estarelación:

Producto A B C D E FNo unidades 5 10 15 6 12 2Precio/unidad 156 115 64 75 50 139

¾Cuál será el precio superado por la mitad de los productos? (Sol. 64)

7. Las alturas, en cm., de los 30 alumnos de una clase fueron las siguientes:

174 185 166 176 145 166 191 177 164 171 175 158 156 156 187 162 172 193 183173 197 181 151 161 153 172 162 179 188 179

a) Agrupar estos datos en intervalos de amplitud 10, sabiendo que el extremoinferior del primer intervalo es 140.

b) Obtener la tabla con todas las frecuencias.

c) Representar el histograma y el polígono de frecuencias.

d) ¾Cuál es la altura más habitual entre los alumnos de la clase? (Sol. 174.545)

e) ¾Qué percentil le correspondería a un alumno cuya altura es de 181 cm.?(Sol. Percentil 75)

f ) ¾Qué altura mínima debe tener un alumno para que pueda considerarseentre el 20% de los alumnos más altos de la clase? (Sol. 184)

8. Se estudian los salarios que perciben los empleados de una empresa. El menorde los salarios es de 600 euros/mes y el mayor de 2400 euros/mes. ¾Cuál de lossiguientes resultados puede ser cierto?

32 Variables estadísticas unidimensionales

a) x̄=1200 euros, S=0 euros

b) x̄=1000 euros, S=200 euros

c) x̄=500 euros, S=200 euros

d) x̄=1200 euros, S=-150 euros

(Sol. b)

9. En un grupos de niños se tiene una altura media de 150 cm con desviación típicade 10 cm. La edad media es 12 años, con desviación típica de 3 años. ¾Dónde sepresenta mayor dispersión?

a) En edades.

b) En alturas.

c) Las dispersiones son similares.

d) No se puede decir con esos datos qué variable está más dispersa.

e) Nada de lo anterior.

10. Se ha preguntado a 10 personas el color de pelo, obteniendo los siguientes resulta-dos: moreno, rubio, moreno, rubio, pelirrojo, castaño, moreno, castaño, castaño,rubio. La media es:

a) Castaño.

b) Rubio.

c) No se puede calcular la media.