Livro estat e proba

171
Bráulio Roberto Gonçalves Marinho Couto Janaína Giovani Noronha de Oliveira Octávio Alcântara Torres Reinaldo Carvalho de Morais Estatística e Probabilidades

Transcript of Livro estat e proba

Bráulio Roberto Gonçalves Marinho CoutoJanaína Giovani Noronha de Oliveira

Octávio Alcântara TorresReinaldo Carvalho de Morais

Estatística e Probabilidades

Bráulio Roberto Gonçalves Marinho CoutoJanaína Giovani Noronha de Oliveira

Octávio Alcântara TorresReinaldo Carvalho de Morais

ESTATÍSTICA E PROBABILIDADES

Belo HorizonteJunho de 2015

COPYRIGHT © 2015GRUPO ĂNIMA EDUCAÇÃO

Todos os direitos reservados ao:Grupo Ănima Educação

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios

empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.

EdiçãoGrupo Ănima Educação

Vice PresidênciaArthur Sperandeo de Macedo

Coordenação de ProduçãoGislene Garcia Nora de Oliveira

Ilustração e CapaAlexandre de Souza Paz Monsserrate

Leonardo Antonio Aguiar

Equipe EaD

CONHEÇA O AUTOR

CONHEÇA A AUTORA

Bráulio Roberto Gonçalves Marinho Couto é

doutor em Bioinformática, mestre em Ciência

da Computação, especialista em Estatística,

bacharel em Engenharia Química e técnico

em Química. Atuante nas áreas de Estatística,

Cálculo Numérico, Informática em Saúde,

Epidemiologia Hospitalar e Bioinformática.

Professor do Centro Universitário de Belo

Horizonte (UniBH).

Janaína Giovani Noronha de Oliveira

é mestre em Estatística e graduada

em Licenciatura em Matemática com

Habilitação em Física. Possui experiência

como docente na área de Matemática

e Estatística do Ensino superior e

médio. Experiência com orientação de

Monografias.

CONHEÇA O AUTOR

CONHEÇA O AUTOR

Octávio Alcântara Torres é bacharel em

Estatística e mestre em Demografia. Possui

experiência nas áreas de probabilidade e

estatística, regressão e correlação, análise

estatística multivariada e controle estatístico

de processo. Áreas de interesse: projeções

populacionais, projeções de mão de obra

qualificada, pesquisa de mercado, estatística

aplicada.

Reinaldo Carvalho de Morais é mestre

e bacharel em Administração Pública,

graduado em Estatística e especialista

em Gestão Financeira. Possui experiência

em pesquisas sobre economia e finanças

públicas mineiras, bem como docência nas

disciplinas de estatística, de economia,

de engenharia econômica, de matemática

financeira e de administração da produção.

Egressos de cursos de Engenharia e

Tecnologia são profissionais que resolvem

problemas. E como isso ocorre? Pela

aplicação eficiente do método científico.

Pois bem, é disso que se trata essa

disciplina: apresentar ferramentas

estatísticas que possibilitarão a você

transformar-se num especialista em

qualquer área do conhecimento e, portanto,

apto a resolver problemas. A disciplina é

dividida em oito unidades cujo objetivo é

introduzir o aluno na área da Estatística

e Probabilidades, tornando-o capaz de

planejar e de executar experimentos de

pequeno e médio porte nas áreas de

Ciências Exatas e de Engenharia. Além de

fazer a análise exploratória dos dados e de

realizar inferências, por meio da tomada de

decisão na presença de incerteza.

A Unidade 1 apresenta definições

fundamentais para a correta compreensão

do processo de coleta e de análise de dados.

Conceitos sobre população e amostra,

censo e amostragem, e variáveis são

discutidos nessa unidade. A Unidade 2 trata

da análise exploratória de dados, quando

são apresentadas técnicas de Estatística

Descritiva. O objeto dessa unidade,

bastante intuitiva, é trabalhar a síntese

numérica, gráfica e tabular dos dados.

A ideia é usar ferramentas como o Excel

para construir tabelas e gráficos, como

histograma, diagrama de dispersão, Pareto

e calcular valores como média, mediana,

desvio padrão, e coeficiente de variação.

Na Unidade 3 são introduzidos conceitos

básicos de probabilidades, cruciais para

que se entenda o processo de tomada

de decisão na presença de incerteza. A

Unidade 4 é uma continuação da terceira

unidade, são apresentados os modelos

probabilísticos mais importantes para se

modelar problemas de pequeno e médio

porte na área de Engenharia e Tecnologia.

A partir da Unidade 5 caminhamos para

a área “nobre” da Estatística, que envolve

as inferências, isto é, o processo de

generalização de resultados parciais,

observados em amostras, para toda a

população envolvida num problema. Nessa

unidade é discutida a forma de obter os

intervalos de confiança, tanto para média

quanto para proporção. Na Unidade 5

discute-se, por exemplo, como o resultado

de uma pesquisa eleitoral é calculado e o

significado do intervalo definido pela soma

e subtração de uma “margem de erro”.

A Unidade 6 é voltada para o planejamento

de experimentos, quando é apresentado,

APRESENTAÇÃO DA DISCIPLINA

por exemplo, como calcular o tamanho

de uma amostra. Em alguns livros este

item é colocado na primeira unidade, o

que tem certa lógica por tratar da coleta

de dados, primeira etapa de qualquer

análise estatística. Entretanto, como são

necessários conceitos probabilísticos e de

inferência para entender o planejamento

de experimentos, optamos por colocar

essa unidade logo após a discussão sobre

intervalos de confiança.

As Unidades 7 e 8 fecham a disciplina,

apresentado as ferramentas mais úteis

para que você finalmente se transforme

num especialista em uma área qualquer e,

portanto, realmente apto a resolver seus

problemas. Na Unidade 7 são discutidos

os métodos para fazer e interpretar testes

de hipóteses, num contexto uni variado

e, na Unidade 8, discute-se métodos de

correlação e regressão, introduzindo a

análise multivariada.

Ao longo das oito unidades, procuraremos

apresentar uma abordagem baseada

em PPL – Aprendizagem Baseada em

Problemas, além de usarmos como

ferramentas computacionais o Microsoft®

Excel e o software de domínio público,

EpiInfo.

Bom trabalho!

Bráulio, Janaína, Octávio e Reinaldo.

UNIDADE 1 003Introdução à Estatística 004Conceitos básicos 006O papel das variáveis numa base de dados: identificação, auxiliares, variáveis explicativas e variável reposta (desfecho) 010Tipos de variáves 013Uso do excel como um sistema de gerenciamento de dados e dos formulários do google docs para coleta de informações 015Revisão 017

UNIDADE 2 019Análise exploratória de dados 020Síntese gráfica de dados 021Síntese tabulador de dados 038Síntese numérica de dados 038Revisão 048

UNIDADE 3 049Introdução à teoria de probabilidades 050Probabilidade clássica e probabilidade frequentista 053Leis básicas de probabilidade 053União e interseção de eventos 054Tabelas de contigência 056Eventos independentes 057Teorema de Bayes 058Revisão 061

UNIDADE 4 063Modelos probabilísticos 064Varieaveis aleatórias 065Modelos probabilísticos 071Distribuição binomial 071Distribuição Poisson 072Distribuição normal 072Revisão 076

UNIDADE 5 077Estimação de médias e proporções 078Teorema central do limite 079Estimação pontual e por intervalos de confiança para uma média populacional 082Estimação pontual e por intervalos de confiança para uma proporção populacional 089Uso do excel no cálculo de intervalos de confiança para média e proporção 091Introdução ao programa Epiinfo 094Revisão 095

UNIDADE 6 098Planejamento de experimentos 099Cálculo de tamanho de amostra baseado em intervalos de confiança para uma proporção 100 Cálculo de tamanho de amostra baseado em intervalos de confiança para uma média 103Planejamento de experimentos 106Revisão 113

UNIDADE 7 115Testes de hipóteses 116A construção e o significado de uma hipótese estatística 117Testes para uma amostra 118Testes para duas ou mais amostras 133Revisão 137

UNIDADE 8 139Análise de correlação e regressão 140Análise de correlação 141Regressão linear simples 149Regressão linear múltipla 157Revisão 160

REFERÊNCIAS 117

unidade 1004

INTRODUÇÃO À ESTATÍSTICA

Podemos entender o método estatístico como um processo para obter, apresentar e

analisar características ou valores numéricos, identificando padrões que possibilitam

a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o

método estatístico para a análise e solução de problemas, muito rapidamente se tornará um

especialista de qualquer área do conhecimento! Num mundo real, completamente cercado

de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos,

produtos, serviços, etc pode transformá-lo num “mago”.

Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento

adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não

é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática

que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente

confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na

Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente

uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única

resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem

chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer

a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai

completamente contra a conceituação usual dos problemas em simplesmente certo ou errado.

Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão

tomar decisões com alto grau de confiança.

ESTATÍSTICA E PROBABILIDADES

unidade 1005

Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro

grandes áreas:

1) amostragem e coleta de dados;

2) análise exploratória de dados (estatística descritiva);

3) teoria de probabilidades;

4) decisão na presença de incerteza (inferência).

A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá

entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões

simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,

que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:

a) apresentar conceitos básicos de Estatística e Probabilidades;

b) identificar as funções e os principais tipos de dados e de variáveis;

c) identificar e corrigir problemas de dados faltantes (missing);

d) configurar o Excel como instrumento de coleta de dados;

e) entender o sistema de endereçamento de células do Excel.

f) construir formulários de coleta de dados no Google Docs;

g) enviar formulários de coleta de dados por meio de mala direta.

É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o

entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de

dados, não há como você ser feliz nas outras etapas do processo!

ESTATÍSTICA E PROBABILIDADES

unidade 1006

CONCEITOS BÁSICOS

Vamos supor que uma cozinheira esteja

preparando dois litros de sopa.

Como ela sabe se a sopa está temperada?

Os dois litros de sopa formam a população

e, se a cozinheira comer/provar toda a sopa,

estará fazendo um censo, o que geraria um

absurdo do tipo “É, a sopa estava ótima!”.

A cozinheira sabe que em experimentos

baseados em ensaios destrutivos, quando

a própria análise destrói o dado coletado, o

censo é um absurdo. Na verdade, ela sabe

que censos, de modo geral, são inviáveis,

muito caros e/ou muito demorados. Mais

ainda, ela sabe que se usar uma pequena

amostra cuidadosamente retirada, chamada

amostra representativa, poderá tomar

decisões sobre toda a população envolvida

no problema com um alto grau de confiança.

A cozinheira então retira uma pequena

amostra, uma “pitada” da comida, prova-a

e generaliza o resultado para toda a sopa.

Isso é chamado de inferência: tomar

decisões sobre toda uma população com

base em informações parciais de uma

amostra (veja a FIGURA 1).

Entretanto, a cozinheira sabe que para fazer

inferências válidas, deve tomar cuidado

para não trabalhar com amostras viciadas.

E o que seria isso?

Se ela retirar uma amostra somente da

parte de cima da sopa, muito provavelmente

terá uma amostra viciada, isto é, sem

representantes de todos os componentes

da sopa como um todo que, neste caso, é a

população amostrada.

E como ela retira uma amostra

representativa da sua população (“sopa”)?

Como a cozinheira procede para obter uma

amostra com “representantes” de cada

estrato da sopa?

Simples, ela mistura a sopa fazendo uma

homogeneização e sorteia uma porção/

pitada que será usada no seu processo

decisório. Fazendo uma amostragem

aleatória, a cozinheira sabe que terá

grande chance de trabalhar com amostras

representativas.

Podemos agora resumir esses conceitos.

População:

a) consiste na totalidade das unidades de

observação a partir dos quais ou sobre

os quais deseja tomar uma decisão;

b) conjunto de elementos que formam o

universo do nosso estudo e que são

Você sabe o que é população? E

amostra? Vejamos o exemplo a seguir.

ESTATÍSTICA E PROBABILIDADES

unidade 1007

passíveis de serem observados;

c) conjunto de indivíduos sobre os quais

recairão todas as generalizações das

conclusões obtidas no estudo;

d) usualmente, as unidades de observações

são pessoas, objetos ou eventos;

e) é o universo a ser amostrado;

f) do ponto de vista matemático, a população

é definida como um conjunto de

elementos que possuem pelo menos uma

característica em comum (SILVA, 2001).

População finita: o número de unidades de

observação pode ser contado e é limitado.

Exemplos:

a) alunos matriculados na disciplina

Estatística e Probabilidades;

b) todas as declarações de renda recebidas

pela Receita Federal;

c) todas as pessoas que compram telefone

celular num determinado ano;

d) um lote com N produtos.

População infinita: a quantidade de

unidades de observação é ilimitada, ou

a sua composição é tal que as unidades

da população não podem ser contadas.

Exemplos:

a) conjunto de medidas de determinado

comprimento;

b) gases, líquidos e alguns sólidos em

que as suas unidades não podem ser

identificadas e contadas.

Amostra: conjunto de unidades

selecionadas de uma população, ou seja,

uma parte dos elementos da população.

Amostra representativa: é uma versão

em miniatura da população, exatamente

como ela é, somente menor. A amostra

representativa segue o modelo populacional,

tal que suas características importantes

são distribuídas similarmente entre ambos

os grupos.

Unidade amostral: é a menor parte distinta

de uma população, identificável para fins de

seleção e construção da amostra.

Amostra aleatória: é aquela obtida por meio

de um processo de sorteio ou aleatorização.

Amostra viciada: é aquela que representa

apenas parte da população, não possuindo

elementos de todos os estratos ou

subconjuntos que formam a população

como um todo.

Censo: exame de todas as unidades de

observação de uma população. Como

discutido no exemplo da cozinheira, se

a pesquisa envolve ensaio destrutivo, o

censo é inviável. Na verdade, somente se a

ESTATÍSTICA E PROBABILIDADES

unidade 1008

FIGURA 1 - População alvo, população amostrada e amostra

População alvo do estudo

Amostra

População amostrada

Inferência

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda a população.

Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?

A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela

é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados

desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,

como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem

menores que a população, podem ser estudadas mais rapidamente que censos e são

também mais baratas. Além disso, se o processo de amostragem gerar uma amostra

representativa da população alvo do estudo, os resultados observados poderão ser

generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida

se trabalhar com toda a população.

população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo

quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos

quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de

aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de

resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.

Amostragem: processo pelo qual uma amostra de unidades da população é retirada e

observada. É a parte mais importante do processo de pesquisa. O principal e fundamental

objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela

retrate fielmente a população pesquisada.

ESTATÍSTICA E PROBABILIDADES

unidade 1009

Vejamos agora alguns aspectos

relevantes para o campo da amostragem.

São eles:

• Questões da amostragem: Qual

o tamanho da amostra? Como

a amostra será obtida? Como

garantir que a amostra obtida

seja representante da população

objeto do estudo? A questão mais

importante não é o seu tamanho,

mas como a amostra será obtida,

pois a amostragem mal feita

invalida qualquer pesquisa.

• Tamanho da amostra (n): está

relacionado ao total de unidades

amostradas, usadas no processo

de inferência. Imagino que

você esteja curioso em relação

ao tamanho da amostra, mas,

como citado anteriormente,

esta não é de longe a questão

mais importante. Por exemplo,

o que você que teria mais

credibilidade numa pesquisa

sobre a aceitação (ou não) do

aborto por parte da população

brasileira: resultados de pesquisa

realizada no domingo à noite por

uma emissora de TV, envolvendo

milhões de pessoas que, após

assistirem a uma reportagem

sobre o assunto, responderam

à pesquisa; ou resultados de

uma amostra de 2.500 pessoas

selecionadas aleatoriamente no

território brasileiro?

No entanto, essa não é uma questão

muito importante para obtermos o

tamanho da amostra adequada para

uma pesquisa, visto que é necessário

estudarmos alguns conceitos

probabilísticos, que serão apresentadas

somente nas próximas unidades.

IMPORTANTE

A maioria das pessoas, quando questionadas

sobre qual o tamanho da amostra necessária

para uma pesquisa, tem o raciocínio equivocado

de que o tamanho da amostra (n) tem relação

direta com o tamanho da população amostrada

(N). Inevitavelmente, a maioria das pessoas

afirma erroneamente que uma boa amostra deve

conter pelo menos, digamos, 30% da população.

O que a cozinheira diria disto? Para provar dois

litros de sopa, quanto de amostra ela teria que

avaliar? Isso mesmo, uma pitada. E para provar

400 litros de sopa, ela beberia um prato inteiro?

Não. Ela provará a mesma pitada, pois sabe que, o

mais importante nesse processo inferencial não é

o tamanho da amostra, mas provar uma amostra

não viciada, representativa de toda a sopa.

Voltando aos processos de amostragem,

as amostras podem ser classificadas em

probabilísticas e não probabilísticas:

ESTATÍSTICA E PROBABILIDADES

unidade 1010

Amostra probabilística:

- existe uma garantia, em termos de

probabilidade, de que qualquer membro

da população possa ser selecionado para

amostra.

Amostra não probabilística:

- os elementos da amostra não são

escolhidos por meio de um sorteio.

CARVALHO e COUTO (2003) apresentam

as principais características de tipos de

amostragem mais comuns, relacionados

principalmente com pesquisas de survey.

Outras amostras, por exemplo, amostragem

de minério, de solo, de gases e de líquidos

têm procedimentos próprios que buscam,

em última instância, obter amostras que

sejam representativas de cada população

envolvida. Em suma, qualquer que seja o

esquema de amostragem, probabilístico ou

não, deve-se sempre garantir que a amostra

reflita as características da população da

qual foi retirada.

LEMBREConforme discutido anteriormente, algumas

pessoas acreditam que uma amostra

representativa é necessária coletar dados

de um percentual mínimo da população,

digamos, 30% do total de indivíduos. Isso é

absolutamente falso e, o que é pior, mesmo

que fossem analisados tal percentual de

indivíduos da população, não é o tamanho

que garante representatividade da

amostra, mas a forma com ela é obtida. É

a imparcialidade do processo de seleção

dos seus elementos e a homogeneidade

da distribuição das características da

amostra e da população que garantem a

representatividade da amostra.

O PAPEL DAS VARIÁVEIS NUMA BASE DE DADOS: IDENTIFICAÇÃO, AUXILIARES, VARIÁVEIS EXPLICATIVAS E VARIÁVEL REPOSTA (DESFECHO)

O primeiro passo de qualquer processo

estatístico é a coleta de dados. Portanto,

tudo o mais será alicerçado sobre o que

for coletado. Sendo assim, essa fase deve

ser cuidadosamente planejada, já que da

qualidade dos dados coletados dependerá

toda a análise e a tomada de decisão

subsequente.

Antes da coleta de um dado, é importante

entender o conceito de variável que está

por trás da informação que você procura.

A variável contém a informação que você

quer analisar, sob a forma de uma medição

sobre determinadas características dos

ESTATÍSTICA E PROBABILIDADES

unidade 1011

indivíduos estudados e das unidades de

observação.

E, por que esse conceito é tão importante?

Porque, no fim das contas, é a variável

que é analisada e não a informação que

ela contém. Por isso, é importante que

você, antes de sair coletando informações,

analise o seu questionário de coleta de

dados, identifique cada variável envolvida

e responda perguntas, tais como: O que

exatamente a variável está medindo? Para

que serve esta variável e, principalmente,

é possível analisá-la? E com que método

estatístico?

CONCEITOUma variável é a quantificação de uma

característica de interesse da pesquisa (SOARES

e SIQUEIRA, 2002). Refere-se ao fenômeno a ser

pesquisado. É o campo de variação de cada tipo

de dado a ser pesquisado. Observe que, como o

próprio nome diz, uma variável deve variar, ou seja,

se você está coletando dados sobre características

de alunos da disciplina Cálculo Diferencial,

podemos pensar em inúmeras variáveis para a

unidade de observação “aluno”: idade, sexo, curso,

local do ensino médio, tempo entre final do ensino

médio e início da graduação, nota final, percentual

de presença às aulas etc. Entretanto, o tipo de

disciplina não é uma variável nesse caso, pois ela é

constante (Cálculo Diferencial).

O grau de variabilidade de uma variável é

chave no método estatístico e será foco

de discussões nas próximas unidades.

Entretanto, neste momento, é crucial que

você entenda dois aspectos básicos de

qualquer variável: o seu tipo e a sua função,

o papel que ela exerce na base de dados.

ATENÇÃOToda análise que será feita na base de dados

dependerá do seu entendimento sobre o tipo e a

função de cada variável coletada!

Vejamos os tipos de funções de cada

variável:

ESTATÍSTICA E PROBABILIDADES

unidade 1012

QUADRO 1 - O papel de uma variável numa base de dados.

Fonte: Elaborado pelo autor.

Variáveis de identificação e auxiliares

Variáveis explicativas

Variável desfecho

Servem para o rastreamento dos indivíduos e das unidades amostrais, ou são usadas na definição de outras variáveis. Exemplos de variáveis de identificação: CPF, nome, número de matrícula, número da amostra etc.

Exemplos de variáveis auxiliares: datas, peso e altura.

Variáveis de identificação e auxiliares não são analisadas, mas fazem parte da base de dados.

São aquelas que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. São chamadas também de co-variáveis ou variáveis independentes.

Para cada estudo existem variáveis explicativas próprias, definidas por hipóteses da própria pesquisa ou conforme revisão da literatura. Em processos químicos, quando se busca entender os fatores que afetam o rendimento de uma reação química, são exemplos de variáveis explicativas a temperatura, a pressão, o tipo de catalisador e a concentração de reagentes. Se alguém pesquisar sobre as razões de algumas pessoas serem maiores que outras, as alturas do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de variáveis explicativas.

É aquela que queremos explicar, em função de ser influenciada, afetada por outros fatores (variáveis explicativas). Também denominada de variável dependente ou variável resposta. Sempre defina um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de uma mesma região têm preços tão variados, o preço de venda seria uma variável resposta. Fatores como área, número de quatros, número e tipo de vaga de garagem, quantidade de suítes, presença de salão de festas ou piscina são algumas das possíveis variáveis explicativas para esse problema.

TIPOS CARACTERÍSTICAS

A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise

será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos

de análise estatística que serão estuados nas próximas unidades.

ESTATÍSTICA E PROBABILIDADES

unidade 1013

TIPOS DE VARIÁVEIS

Se considerarmos a maioria absoluta das

variáveis envolvidas em experimentos

de pequeno e médio porte nas áreas de

Ciências Exatas e Engenharia, teremos

duas situações para o tipo da variável.

I) Variável qualitativa ou categórica: é

aquela que expressa características ou

atributos de classificação, distribuídos

em categorias mutuamente

exclusivas de objetos ou entidades.

Categorias mutuamente exclusivas ou

mutuamente excludentes não podem

ser observadas simultaneamente

num mesmo indivíduo. Por exemplo,

grupo sanguíneo (A, B, AB, O) é uma

variável categórica mutuamente

exclusiva: um indivíduo tem somente

um grupo sanguíneo, não podendo

ser classificado em mais de uma

categoria ao mesmo tempo. Variáveis

qualitativas têm um nível baixo de

informação, sendo obtidas por um

critério de classificação. Por exemplo,

sexo (masculino, feminino), estado civil

(com companheiro, sem companheiro),

cor de um produto (branco, verde,

amarelo, azul), tipo de transmissão

de um carro (manual, automática),

conformidade de qualidade de um

produto (aceito, não aceito), dia

chuvoso (sim, não), resultado final de

um aluno numa disciplina (aprovado,

reprovado) etc.

A análise de uma variável categórica

é muito restrita e simples: conta-

se quantas unidades amostrais ou

resultados observados em cada

categoria da variável e calcula-se o

percentual de ocorrência de cada classe

ou categoria.

II) Variável quantitativa: é aquela obtida

por meio de um processo de medição

ou contagem. Por exemplo: peso,

altura, dosagem e concentrações

de produtos químicos e outros

insumos, temperatura, pressão,

altitude, umidade, largura, diâmetro,

comprimento, voltagem, corrente,

quantidade de chuva (mm), número

de falhas, número de ligações

telefônicas, número de mensagens

eletrônicas, número de faltas de um

aluno numa disciplina, nota final na

disciplina, área, preço, etc.

A variável quantitativa possui o mais

alto nível de informação, sendo objeto de

inúmeras técnicas de análise. Para cada

variável quantitativa podemos calcular

seu valor médio, mediano, modal, mínimo,

máximo, seu desvio padrão, coeficiente

de variação, intervalos específicos de

variação e outras técnicas analíticas que

serão descritas na próxima unidade.

ESTATÍSTICA E PROBABILIDADES

unidade 1014

As variáveis quantitativas são chamadas

também de numéricas, mas essa

nomenclatura pode gerar confusão,

pois o simples fato de alocar números

aos resultados de uma variável não a

torna quantitativa. Por exemplo, se os

grupos sanguíneos fossem classificados

em 1, 2, 3 e 4 (ao invés de A, B, AB e

O), tal codificação não a tornaria uma

variável quantitativa. Na verdade, para

que uma variável seja quantitativa,

deve ser possível aplicarmos operações

aritméticas aos seus resultados. A

capacidade de realizarmos, por exemplo,

somas e subtrações “válidas” aos

resultados de uma variável é um indicativo

de que ela é quantitativa. Claro que a

análise do seu processo de obtenção é

mais importante: os resultados de uma

variável quantitativa devem ser obtidos

por medição ou contagem. Além disso,

essas variáveis podem ser contínuas,

quando representadas por números reais,

ou discretas, quando representadas por

números inteiros.

Usualmente, se ela é obtida por

medição, então é contínua. Caso seja

obtida por meio de contagem, é uma

variável discreta. Para efeitos práticos,

não faremos distinção entre variáveis

contínuas e discretas, o fundamental é

entendê-las como quantitativas.

Algumas variáveis originalmente de

classificação. As notas obtidas por

um aluno numa prova são tratadas

como quantitativas, mesmo que não

sejam obtidas por meio de um aparelho

ou dosador. Nesse caso, a nota de

uma prova é tratada como variável

quantitativa porque considera-se válido

aplicar operações aritméticas aos

seus resultados. Entretanto, será que

um aluno que obtém 80 pontos numa

disciplina sabe o dobro que um aluno que

obteve 40 pontos? Claro que não. Já uma

pessoa de 100 Kg tem o dobro de peso

de uma pessoa de 50 Kg. Outro exemplo,

as temperaturas medidas em Graus

Celsius são tratadas como variáveis

quantitativas. Isso quer dizer que um dia

com 40ºC tem o dobro de calor de um

dia com 20ºC? Transforme os valores em

Graus Celsius para Kelvin e compare o

resultado.

Bom, os conceitos por trás dessa

discussão envolve o nível de mensuração

da variável (nominal, ordinal, intervalar

e de razão) que será tratado a seguir.

Para efeito prático, consideraremos

somente duas categorias de variáveis:

quantitativas versus categóricas.

Conforme citado anteriormente, esses

são os tipos de variável coletadas em

problemas típicos de Ciências Exatas e

de Engenharia.

ESTATÍSTICA E PROBABILIDADES

unidade 1015

USO DO EXCEL COMO UM SISTEMA DE GERENCIAMENTO DE DADOS E DOS FORMULÁRIOS DO GOOGLE DOCS PARA COLETA DE INFORMAÇÕES

Duas ferramentas essenciais para coleta

de dados de experimentos de pequeno

e médio porte na área de Ciências

Exatas e Engenharia são o Excel, um dos

componentes do pacote Office da Microsoft,

e os Formulários do Google Docs <https://

docs.google.com/forms>.

O Excel é uma planilha eletrônica com

origens no Lotus 1-2-3 (GAZZARRRINI,

2013). Ambas as ferramentas são

extremamente práticas, de grande utilidade

e serão discutidas por meio de vídeo aulas.

Os formulários do Google Docs são ótimos

para pesquisas envolvendo pessoas que

têm endereço eletrônico (e-mails). Para

usá-los você terá que obter uma lista com os

nomes dos respondentes e os respectivos

e-mails. Após construir o formulário de

coleta de dados no Google Docs, você

poderá enviá-lo usando o mecanismo de

“mala direta”, da aba “correspondências”

do Word, que também é parte do pacote

Office da Microsoft. As respostas enviadas

pelos respondentes são automaticamente

armazenadas em planilha eletrônica,

facilitando a coleta e a análise dos dados.

É crucial que você domine o Excel como

instrumento de coleta de dados e entenda

perfeitamente o papel de cada variável a ser

coletada. Identificar variáveis explicativas

e desfecho (s), distinguir entre variável

quantitativa e categórica é uma questão

relativamente simples, mas fundamental

para as discussões que serão feitas nas

próximas unidades.

APLICAÇÃO PRÁTICA

Considere o artigo “Utilização de efluente de

frigorífico, tratado com macrófita aquática,

no cultivo de tilápia do Nilo”, de autoria de

Adilson Reidel e outros pesquisadores da

Universidade Estadual do Oeste do Paraná

(REIDEL et al.; 2005) disponível em:

<http://www.agriambi.com.br/revista/

suplemento/index_arquivos/PDF/181.pdf>

Neste trabalho, os pesquisadores fizeram

um experimento em que, resumidamente,

foram colocadas amostras aleatórias de

alevinos (“filhotes”) de tilápia em aquários

com água potável (tratamento A) e em

tanques com efluente de frigorífico após

passar num sistema de filtro com aguapé

ESTATÍSTICA E PROBABILIDADES

unidade 1016

(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos

peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de

frigorífico tratado com aguapé?”

Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis

envolvidas na pesquisa.

TABELA 1 – Valores médios dos parâmetros físico-químicos determinados durante o cultivo da tilápia do Nilo (O. niloticus)

Fonte: REIDEL et al., 2005.

TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos de tilápia do Nilo, cultivados com água potável e efluente tratado

Fonte: REIDEL et al.; 2005.

Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos

de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado

em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados

ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário.

PARÂMETROS

VARIÁVEIS

TRATAMENTOS

Tratamento A Tratamento B Teste t-Student T calculado

A

média médiaO O

B

Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70

Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90

Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68

pH 8,44 = 0,12 7,40 = 0,35

Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0

Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001

Peso final (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028

Biomassa final (aquário) 5,280 a 38,890 4,300 a 45,721 0,028

Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08

Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de filtro de aguapé + ração)

Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância

ESTATÍSTICA E PROBABILIDADES

unidade 1017

Nesse trabalho são usadas três variáveis

resposta, uma categórica (“O peixe

sobreviveu?” “sim ou não”) e dois desfechos

quantitativos (peso final e biomassa final,

medidos em gramas). Dentre as variáveis

explicativas envolvidas, a mais importante,

que está diretamente ligada ao objetivo da

pesquisa é o tipo de tratamento (A versus

B), uma variável categórica dicotômica.

Muitas pessoas têm dificuldade em

identificar essa variável explicativa, apesar

dela ser a mais importante na pesquisa.

As outras variáveis explicativas são todas

quantitativas e, como tal, foram obtidas

por meio de um processo de medição,

contagem ou dosagem: temperatura (ºC),

oxigênio Dissolvido (mg L-1), condutividade

Elétrica (μS cm-1), pH, peso inicial (g) e

biomassa inicial (g).

Nas tabelas apresentadas aparecem

métricas (média, desvio padrão e valor de t

de student) que são usadas na análise e na

conclusão do projeto. Fique tranquilo, esses

conceitos serão tratados nas próximas

unidades!

De qualquer forma, a conclusão da pesquisa

para a pergunta “É possível cultivar tilápias

em efluente de frigorífico tratado com

aguapé?”, é: “Sim, é possível cultivar tilápias

em efluente de frigorífico tratado com

aguapé. Os dados não mostraram diferença

significativa entre os dois tratamentos,

tanto em relação ao desenvolvimento

quanto à sobrevivência dos peixes”.

O entendimento completo das razões

para chegar a essa conclusão será obtido

nas próximas unidades. Entretanto, neste

momento, é fundamental que você já

entenda conceitos referentes ao processo

de amostragem/coleta de dados e,

principalmente, que consiga diferenciar

os tipos e as funções das variáveis numa

pesquisa.

REVISÃO

Vimos nessa unidade alguns dos principais

tópicos introdutórios do campo da

Estatística. Em resumo, estudamos sobre:

População, amostra, censo e amostragem:

- Censo de toda a população não é viável,

devido aos altos custos e/ou quando a

pesquisa envolve ensaios destrutivos.

- Uma pequena, mas cuidadosamente

escolhida amostra pode ser usada para

representar a população.

- Os resultados observados numa amostra

representativa poderão ser generalizados,

sem risco de chegar a uma conclusão

diferente daquela que seria obtida no caso

de trabalhar com toda a população.

- A questão mais importante numa

amostragem não é o tamanho da amostra,

ESTATÍSTICA E PROBABILIDADES

unidade 1018

mas como a amostra será obtida, pois o

delineamento amostral mal feito invalida

qualquer pesquisa.

Tipos de variáveis:

- Variável qualitativa ou categórica: é

aquela que expressa características ou

atributos de classificação, distribuídos

em categorias mutuamente exclusivas de

objetos ou entidades.

- Variável quantitativa: é aquela obtida

por meio de um processo de medição ou

contagem.

Função das variáveis:

- Variáveis de identificação e auxiliares:

servem para o rastreamento dos

indivíduos e das unidades amostrais

ou são usadas na definição de outras

variáveis.

- Variáveis explicativas: são aquelas

que, por hipótese, podem influenciar,

determinar ou afetar a variável resposta

ou desfecho da pesquisa.

- Variável desfecho: é aquela que queremos

explicar, em função de ser influenciada e/

ou afetada por outros fatores (variáveis

explicativas). Também denominada de

variável dependente ou variável resposta.

Aconselha-se sempre definir um ou mais

desfechos para o estudo, conforme os

objetivos da sua pesquisa.

Ainda compreendemos que alguns sistemas

computacionais são ferramentas essenciais

para coleta de dados de experimentos de

pequeno e médio porte na área de Ciências

Exatas e da Engenharia. São eles: o Excel,

um dos componentes do pacote Office da

Microsoft, e os Formulários do Google Docs

<https://docs.google.com/forms>.

PARA SABER MAIS

Para aprofundar sobre as questões discutidas

nessa unidade, leia o Capítulo 1 do livro texto:

LEVINE, David M. et al. Estatística: teoria

e aplicações usando Microsoft Excel em

português, 3º edição ou superior: “Introdução e

Coleta de Dados”, assim como o suplemento do

capítulo 1 “Introdução à Utilização do Microsoft

Excel”. w

2UNIDADE

unidade 2020

ANÁLISE EXPLORATÓRIA DE DADOS

Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá

rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,

como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas

de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas

para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas

e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos

alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência

então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.

Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral

e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.

Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de

cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar

as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou

reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?

Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso

estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,

preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de

projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da

pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo

básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa

(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download

unidade 2021

ESTATÍSTICA E PROBABILIDADES

no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.

Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema

de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de

qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas

a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a

análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm

como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos

e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,

precisamos estudar as ferramentas da Estatística Descritiva:

a) Síntese tabular: Resumo da análise por meio de tabelas;

b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma

dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação);

c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico

de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot.

O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender

dados coletados, transformando dados brutos em informações úteis!

SÍNTESE GRÁFICA DE DADOS

Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil

palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe

gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar

para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de

pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras,

colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de

linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em

construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos

construir gráficos usando ferramentas computacionais como o Excel.

unidade 2022

ESTATÍSTICA E PROBABILIDADES

TABELA 3 - Gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia.

Fonte: Elaborado pelo autor.

Pizza ou setor

Colunas (verticais)

Barras (horizontais)

Histograma

Gráficos de linha

Séries históricas

Gráfico de Pareto

Gráfico misto, de coluna e linhas

Diagrama de dispersão

Box-plot

Uma

Uma

Uma

Uma

Duas

Duas

Uma

Duas

Duas

Uma ou mais

Categórica

Categórica

Categórica

Quantitativa, mas categorizada numa tabela de distribuição de frequências

Quantitativa no eixo vertical, e categórica no eixo horizontal

Quantitativa no eixo vertical, e o “tempo” no eixo horizontal

Categórica

Quantitativa no eixo vertical, e o “tempo” no eixo horizontal

Variável explicativa quantitativa no eixo horizontal, e desfecho quantitativo no eixo vertical

Quantitativa

TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS ENVOLVIDAS

TIPO DE VARIÁVEL ANALISADA

Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar

gráficos:

1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio

gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o

Excel, por exemplo, este será exportado para algum documento do Word ou para o

PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do

gráfico será então colocado no slide ou na descrição da figura no editor de textos,

sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em

casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo,

sendo impresso diretamente do Excel, o título não deve ser colocado no meio da

figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.

2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem

artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:

começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro

unidade 2023

ESTATÍSTICA E PROBABILIDADES

possível: toda informação necessária para o entendimento da figura deve estar no seu

título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e

tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma

regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de

figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:

O que? Quem? Quando? Onde? A interpretação das informações no gráfico também

deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas,

usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu

chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo.

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro. Fonte: BAILAR & MOSTELLER,1992.

FIGURA 2 – Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM).

3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para

entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida

envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar

os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a

menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de

um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo.

unidade 2024

ESTATÍSTICA E PROBABILIDADES

FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados. Fonte: Elaborado pelo autor.

4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa

desde que os valores no gráfico não fiquem muito espalhados nem muito juntos

numa única região da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado

usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses

efeitos são inúteis, podendo até mesmo distorcer o gráfico.

6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas

isso não é necessário se o ponto de início da escala é devidamente marcado na

figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do

gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar

de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base

da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma

interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não

começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!

unidade 2025

ESTATÍSTICA E PROBABILIDADES

FIGURA 4 – Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo

de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para

que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo

símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das

escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

unidade 2026

ESTATÍSTICA E PROBABILIDADES

8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo

aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção

da figura e da própria informação, que fica comprometida: o primeiro gráfico está

correto, mas os outros estão na categoria “como mentir com estatística”...

FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.

Fonte: Elaborado pelo autor.

unidade 2027

ESTATÍSTICA E PROBABILIDADES

FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura muito grande,

em relação à largura, a informação é falseada e se tem a sensação de redução

dos dados ao longo do tempo

Fonte: Elaborado pelo autor.

9. Gráficos de pizza, “o queridinho”:

Apesar de muito “engraçadinhos”,

estes gráficos são muitos confusos.

Evite o seu uso, substituindo por

gráficos de barra ou de colunas.

É aceitável construi-los somente

quando são poucos setores bem

definidos (até cinco pedaços). Evitar

gráficos de pizza em 3D, com vários

pedaços. Construi-los como na

figura 2.

10. Diagrama de dispersão: Ferramenta

que nos permite avaliar o efeito de

uma variável explicativa quantitativa

sobre um desfecho. Serve tanto para

visualizarmos funções matemáticas

teóricas (figura 9) quanto funções

de relacionamentos empíricos já

conhecidos (figura 10), mas a sua

grande utilidade é quando tentamos

estabelecer a associação entre

duas variáveis quantitativas (figura

11). A figura 9 é um diagrama de

dispersão mostrando uma relação

completamente teórica entre duas

variáveis (x e y). Como é uma relação

exata, somente é desenhada a linha

que liga os pontos do gráfico. Na

figura 10 é desenhada uma relação

empírica, no caso a lei de Abrams,

que relaciona a resistência do

concreto à compressão (R) com o

fator água/cimento (fx) da seguinte

forma: R = α/βfx. Nessa figura, α e

β foram definidos como 100 e 10

respectivamente, de tal forma que

a equação ficou R = 100/10fx, fx

variando de 0 a 3. Já a figura 11

mostra o uso “nobre” dos diagramas

de dispersão, quando tentamos

explorar, criar e propor uma nova

relação empírica entre duas variáveis

quantitativas. Nesse exemplo,

ao invés de aplicarmos a relação

empírica de Abrams, usamos dados

reais de fator fx de água/cimento

e a resistência medida em 28 dias

de uma amostra de concretos

(desfecho). Ao inserirmos uma

linha de tendência linear, estamos

unidade 2028

ESTATÍSTICA E PROBABILIDADES

FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando

uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à compressão

de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do concreto.

sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão

do concreto se relaciona com fx por meio de uma equação de reta.

unidade 2029

ESTATÍSTICA E PROBABILIDADES

FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à

compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf. Acesso em 14 maio 2015.

A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)

e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,

você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A)

Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em

“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)

Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto

mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,

quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim

“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)

e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)

Sem associação: Também é um padrão importante, pois indica que não há relação entre as

duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por

exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na

maioria das disciplinas que ele cursa.

unidade 2030

ESTATÍSTICA E PROBABILIDADES

FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e ausência de associação (D).

Fonte: Elaborado pelo autor.

11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a

em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e

construir um gráfico de colunas com o resultado. Ao se interpretar um histograma,

deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos

dados? Existe um ponto central bem definido? Como é a amplitude de variação dos

dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo

podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual

destes oito tipos o seu histograma se parece.

Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce

gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.

unidade 2031

ESTATÍSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Exemplo 2 - Histograma fortemente

assimétrico: A frequência dos dados

decresce rapidamente num dos lados e

muito lentamente no outro, provocando uma

assimetria na distribuição dos valores. A

distribuição dos salários numa empresa é um

exemplo comum de histograma assimétrico:

muitas pessoas ganham pouco e poucas

pessoas ganham muito (a). A situação (b),

apesar de mais rara, também pode acontecer.

Exemplo 3 - Histograma tipo despenhadeiro:

O histograma termina abruptamente em

um ou nos dois lados, dando a impressão

de que faltam dados. Na verdade, essa

possivelmente deve ser a explicação para

histogramas com esse formato: os dados

muito pequenos e/ou muito grandes foram

eliminados da amostra.

Exemplo 4 - Histograma com dois picos:

Ocorrem picos na distribuição e a frequência

é baixa entre os picos. Possivelmente, os

dados se referem a uma mistura de valores

de diferentes populações, devendo ser

avaliados com cuidado. Se houve mistura

dos dados, é melhor separá-los.

Fonte: Elaborado pelo autor.

unidade 2032

ESTATÍSTICA E PROBABILIDADES

Exemplo 5 - Histograma tipo platô: As

classes de valores centrais apresentam

aproximadamente a mesma frequência.

Essa situação também sugere mistura de

valores de diferentes populações.

Fonte: Elaborado pelo autor.Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

Exemplo 6 – Histograma com uma pequena

ilha isolada: Alguns valores isolados têm

frequência elevada, formando uma espécie

de ilha. Também pode ter ocorrido uma

mistura de dados.

Exemplo 7 – Histograma tipo serrote:

As frequências de valores se alternam

formando vários dentes. Pode indicar algum

problema na obtenção (leitura) dos dados.

Vamos usar como exemplo de dados para

a construção de um histograma notas de

amostra de alunos em uma prova de Cálculo

Diferencial (n=120):

unidade 2033

ESTATÍSTICA E PROBABILIDADES

FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

Fonte: Elaborado pelo autor.

0 0 0 1 5 5 6 9 13 17 18 21

0 0 0 1 5 5 6 10 13 17 18 21

0 0 0 1 5 5 6 11 14 17 20 22

0 0 0 2 5 5 9 11 14 17 20 22

0 0 0 2 5 5 9 12 14 17 20 24

0 0 0 3 5 5 9 12 14 17 20 24

0 0 0 3 5 5 9 13 15 17 20 25

0 0 0 5 5 6 9 13 15 17 20 25

0 0 0 5 5 6 9 13 17 18 21 25

0 0 1 5 5 6 9 13 17 18 21 25

Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O

número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e

5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.

Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ R

. No exemplo, h ≈ R

≈ 25

. ≈ 2,5

Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10

classes de tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero

(valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do

histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos

valores se encaixam em cada classe.

Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,

mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima

de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados

somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos

k k 10

unidade 2034

ESTATÍSTICA E PROBABILIDADES

entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode

ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira

classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de

valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas

com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à

esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores

maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo

Excel na construção de histogramas (figura 14).

Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho

da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência

relativa ou percentual de cada classe (em relação ao total de valores) e a frequência

acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que

será explicado mais à frente).

FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

Fonte: Elaborado pelo autor.

0,0 |--| 2,5 35 29% 29%

2,5 --| 5,0 22 18% 48%

5,0 --| 7,5 6 5% 53%

7,7 --| 10,0 9 8% 60%

10,0 --| 12,5 4 3% 63%

12,5 --| 15,0 12 10% 73%

15,0 --| 17,5 10 8% 82%

17,5 --| 20,0 10 8% 90%

20,0 --| 22,5 6 5% 95%

22,5 --| 25,0 6 5% 100%

Total 120 100%

Uma

Uma

Uma

Uma

Duas

Duas

Uma

Duas

Duas

Uma ou mais

NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO

unidade 2035

ESTATÍSTICA E PROBABILIDADES

FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico,

semelhante àquele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor.

12. Gráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades,

quando precisamos fazer um plano de ação para melhoria de qualidade de um

serviço ou produto. Por exemplo, se um determinado problema ou defeito pode

ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem

corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados

a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do

gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência

num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação

de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro

menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda

muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura,

estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao

se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria

absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro

menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir

possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas

ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!

unidade 2036

ESTATÍSTICA E PROBABILIDADES

FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias

para um plano de ação para melhorar a qualidade do processo de fabricação (rebarbas, diâmetro menor e diâmetro maior).

Fonte: Elaborado pelo autor.

13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e

bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis

quantitativas (figura 17), informando o menor valor (pequena linha horizontal

inferior) e valor máximo (pequena linha horizontal superior). A distância entre o

valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os

25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado

pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde

estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a

pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao

intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando

as duas caixas representa a mediana, que expressa o valor do meio se todos os

dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos

informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir

a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um

resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de

cursos de Engenharia.

unidade 2037

ESTATÍSTICA E PROBABILIDADES

FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com

menor taxa de aprovação e maior variabilidade dos dados.

unidade 2038

ESTATÍSTICA E PROBABILIDADES

SÍNTESE TABULAR DE DADOS

Na análise exploratória de dados, em última instância, todos os resultados são apresentados

ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e

sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?

Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no

próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas

realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo

para síntese de variáveis categóricas de uma base de dados.

TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas

categorias, a frequência de valores em cada categoria e os respectivos percentuais.

Fonte: Elaborado pelo autor.

Conceito Aprovado 2287 49%

Reprovado 2386 51%

Local do ensino médio Instituição privada 1509 32%

Instituição pública 3164 68%

Sexo Feminino 1948 42%

Masculino 2725 58%

Turno Manhã 1153 25%

Noite 3520 75%

VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL

SÍNTESE NUMÉRICA DE DADOS

A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas

categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como

apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve

resumir dois aspectos:

unidade 2039

ESTATÍSTICA E PROBABILIDADES

1) um valor típico ou característico para a variável;

2) uma medida do grau de variabilidade ou de dispersão dos dados.

1. V alor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele

que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais

aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e

Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da

soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).

Matematicamente, a média é obtida por:

Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que

“divide os dados em duas metades”:

Passo 1 – Colocar os dados em ordem crescente.

Passo 2 – Encontrar o “valor do meio”, isto é:

se n, o tamanho da amostra, é ímpar, então Md é o valor central;

se n é par, então Md é a média dos dois valores centrais.

Exemplo A (n=11), dados já ordenados:

{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º

valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):

Md = 9

Exemplo B (n=18), dados já ordenados:

{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

X = ∑ Xi

n

i =1

n

unidade 2040

ESTATÍSTICA E PROBABILIDADES

Para a mediana, como são 18 valores (n

é par) e a metade de 18 é 9, então Md é a

média entre o 9º e o 10º valor, ou seja:

Md = 30

+

40

= 352

ATENÇÃONão se esqueça, para obter a mediana é

necessário, antes de tudo, colocar os dados

em ordem crescente. Não ordenar os dados é a

principal fonte de erro no cálculo da mediana!

Algumas pessoas se perguntam: “Quantas

casas decimais devo apresentar no

resultado?”. Quanto menos casas decimais

você conseguir apresentar nos seus

resultados, melhor para o entendimento

da informação! Apresente seus resultados

usando o mesmo número de casas decimais

que os dados originais ou, no máximo, uma

casa decimal além do original, como foi

feito nos cálculos anteriores.

Outra questão é “Quando escolher entre

média e mediana para melhor representar

um conjunto de dados?” ou “Em que

situações resumir uma variável quantitativa

usando a média e quando a mediana é

melhor para representar os dados?”. Para

essa resposta, é preciso seguir uma regra

prática:

• Se média e mediana forem

semelhantes, então usar a média

para representar os dados.

• Se média e mediana forem muito

diferentes, então usar a mediana

para representar os dados.

Além de se basear nas regras acima, que

exigem uma interpretação caso a caso do

que seja “média e mediana muito diferentes”,

você poderá construir histogramas e, pelo

padrão do gráfico, escolher uma ou outra

medida para representar os dados. Nos

modelos de histograma colocados no

tópico anterior, os exemplos 1 (simétrico),

3 (despenhadeiro) e 5 (platô), a média

é a melhor medida de posição. Já nos

histogramas dos exemplos 2 (fortemente

assimétrico) e 6 (ilha isolada), a mediana é

a melhor medida de posição que caracteriza

o conjunto de dados.

2. Medida do grau de variabilidade ou

de dispersão dos dados: O objetivo

é quantificar o quanto os dados são

heterogêneos, são imprevisíveis,

em suma, quantificar o grau de

variabilidade de uma variável

quantitativa.

unidade 2041

ESTATÍSTICA E PROBABILIDADES

A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e

o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.

Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,

o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de

variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados

estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja

uma amostra de n = 5 pessoas e seus respectivos números de filhos:

Pessoa A B C D E

Número de filhos 0 1 1 2 3

Qual o número médio de filhos?

Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como

assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um

modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo

para esses dados e, caso seja necessário resumir toda a informação num único valor, ela

deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando

à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para

cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:

-1,4 -0,4 -0,4 +0,6 +1,6

Pessoa A B C D E

Número de filhos 0 1 1 2 3

Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =

O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma

medida de quanto os dados estão distantes da média. Para resumir os resíduos num único

valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão

X = 0 + 1 + 1 + 2 + 3

= 7

= 1,4.5 5

unidade 2042

ESTATÍSTICA E PROBABILIDADES

distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero,

pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.

Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular

o resíduo elevado ao quadrado:

-1,4 -0,4 -0,4 +0,6 +1,6

1,96 0,16 0,16 0,36 2,56

Pessoa A B C D E

Número de filhos 0 1 1 2 3

Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =

Resíduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =ao quadrado

Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos

( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior

a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa

métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):

n

i =1

s2 = ∑ ( Xi -X )2n

i =1

n - 1

Nessas fórmulas, Xi representa cada um dos dados individuais, X é a média e n o tamanho da

amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados

dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por

meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é

a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadrados

dos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se fizermos um

censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ 2 ), dividindo

a soma dos quadrados dos resíduos por (n):

n

Ợ 2 = ∑ ( Xi -X )2

n

i =1

unidade 2043

ESTATÍSTICA E PROBABILIDADES

É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no

Excel, que permite o cálculo tanto de s2 quanto de Ợ 2. Na prática (e na dúvida), sempre calcule

a variância amostral (s2).

Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da

variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada

da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.

Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância

amostral é:

O desvio padrão amostral é:

É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a

sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior,

essas pessoas têm 1,4 = 1,1 filhos.

Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 –

1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os

valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma

de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido

pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou

menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição

dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%

dos dados cairão no intervalo X = 3s .

Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como

interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade

unidade 2044

ESTATÍSTICA E PROBABILIDADES

dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da

média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do

valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:

Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;

Salto em altura: X = 2,2 e s = 0,8 e metros.

Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os

resultados com maior variabilidade? Se você responder essa questão comparando os dois

desvios padrões, estará cometendo dois erros:

1º Não se pode comparar diferentes unidades de medida (s versus m);

2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.

Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo

coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média:

cv = s x 100 (%).

Além de ser uma medida adimensional, o que possibilita comparações entre diferentes

variáveis, o CV pode ser interpretado de forma absoluta:

x

QUADRO 2 – Definição e interpretação do grau de variabilidade de um conjunto de dados.

Fonte: Elaborado pelo autor.

CV <= 20% Dados com pouca variabilidade, bem comportados, homogêneos. A variável tem um comportamento bem previsível.

20 < CV <= 30% Dados com variabilidade intermediária.

CV > 30% Dados com muita variabilidade, heterogêneos. A variável tem um comportamento muito imprevisível.

CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com variabilidade extrema, muito heterogênea. A variável tem um comportamento caótico, completamente imprevisível.

CV INTERPRETAÇÃO

unidade 2045

ESTATÍSTICA E PROBABILIDADES

No caso do atleta, teremos os seguintes valores de coeficiente de variação:

Tempo para correr 100 metros: cv = 2,1

x 100 = 19%;

Salto em altura: cv = 0,8

x 100 = 36%;

Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de

100 m e muita variabilidade nos saltos em altura.

11,5

2,2

LEMBREQuando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo

Excel. Lembre-se também de colocar os títulos das tabelas e das figuras o mais informativo possível.

E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira

na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por

meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e

o problema investigado.

A análise exploratória dos dados é o primeiro passo para que você se torne especialista na

área investigada. Suas ferramentas de análise não produzem conclusões definitivas sobre um

problema, mas possibilitam que hipóteses sejam construídas de forma consistente.

APLICAÇÃO PRÁTICA

O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de

Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação

em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos

ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota final em

Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação

nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma significativa

o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir

unidade 2046

ESTATÍSTICA E PROBABILIDADES

em projetos de “Cálculo Zero”? Quais são os fatores, as características que afetam o desempenho dos

alunos nessas duas disciplinas?

Várias técnicas de análise exploratória de dados foram utilizadas no artigo. Por exemplo, usando um

gráfico de linhas, uma série temporal, mostrou-se no artigo a elevação no número de matrículas nas

duas disciplinas-alvo do trabalho, Cálculo Diferencial e GAAL:

FIGURA 19 - Evolução do número de alunos matriculados e o percentual de aprovados em Cálculo Diferencial e GAAL. Entre o 2º semestre de 2009 e o 2º semestre de 2012, o

percentual de aprovação em ambas as disciplinas apresentou elevação, principalmente em Cálculo Diferencial. O número de alunos matriculados nas disciplinas também aumentou de

forma importante no período, principalmente após o 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de dispersão foi construído mostrando claramente o efeito das faltas às aulas na nota

final de Cálculo Diferencial:

unidade 2047

ESTATÍSTICA E PROBABILIDADES

FIGURA 20 – Gráfico de dispersão considerando o percentual de faltas/ausências às aulas de Cálculo Diferencial e a nota final do aluno nessa disciplina: análise considerando somente alunos em que foram registradas pelo menos uma falta às aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre

ausências às aulas e a nota final do aluno: quanto mais faltas às aulas o aluno tiver, menor a sua nota final em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Além de gráficos, tabelas com a síntese numérica dos dados coletados no estudo também foram

apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma

inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa

disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.

Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de

Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um

especialista na área.

Referência:

XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero no Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: <http://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.

unidade 2048

ESTATÍSTICA E PROBABILIDADES

REVISÃO

Vimos nesta unidade os principais tópicos

da análise exploratória de dados, também

denominada de Estatística Descritiva:

Síntese gráfica: Uma figura vale mais que

mil palavras! Isso é verdade, entretanto

um gráfico vale mais que mil palavras se

e somente se ele for desenhado de forma

clara, correta e concisa. Sempre desenhe

gráficos a partir de seus dados, mas tente

fazê-los de tal forma que a frase “basta

olhar para entender” seja válida. Os gráficos

mais úteis para análise de dados de

experimentos de pequeno e médio porte na

área de Ciências Exatas e Engenharia são:

gráficos de pizza, barras, colunas, linha,

séries históricas, histograma, gráfico de

Pareto, gráfico misto, de coluna e de linha,

diagrama de dispersão e box-plot. Na

prática devemos construir gráficos usando

ferramentas computacionais como o Excel.

Síntese tabular de dados: Na análise

exploratória de dados, em última instância,

todos os resultados são apresentados ou

na forma de figuras ou de tabelas. Assim,

invista no título da tabela e sempre coloque

respostas claras para pelo menos quatro

perguntas: O que? Quem? Quando? Onde?

Também sugiro que a interpretação das

informações na tabela seja colocada no

próprio título. Se necessário, coloque notas

explicativas, usando siglas somente para

coisas realmente conhecidas.

Síntese numérica: O resumo de uma

variável categórica é muito simples, basta

que você apresente suas categorias, a

frequência de valores em cada categoria

e os respectivos percentuais. Já a síntese

de variáveis quantitativas é mais ampla e

envolve resumir dois aspectos:

1) Um valor típico ou característico para a

variável, que é definido pela média ( X ) e

pela mediana (Md). Se média e mediana

forem semelhantes, então a média deve

ser usada para representar os dados.

Entretanto, caso haja discrepância muito

grande entre média e mediana, então se

deve usar a mediana para representar os

dados;

2) Uma medida do grau de variabilidade ou

de dispersão dos dados, calculada pelo

desvio padrão amostral ( ) e o coeficiente

de variação (CV).

PARA SABER MAIS

Caso você deseje aprofundar sobre as questões

discutidas nesta unidade, leia os capítulos 2 e 3

do livro texto: LEVINE, David M. et al. Estatística:

teoria e aplicações: usando Microsoft Excel em

português. 6. ed. Rio de Janeiro: LTC, 2012,

3UNIDADE

unidade 3050

INTRODUÇÃO À TEORIA DE PROBABILIDADES

A origem da teoria das probabilidades é comumente associada à questões colocadas

por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que

sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOLI

(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642),

dentre outros.

Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na tarefa de mensurar, ou seja,

quantificar uma pequena amostra do universo de interesse da investigação, almejando inferir

sobre toda a população em estudo, baseando-se em análises probabilísticas e embasando-se

em rigorosos métodos científicos.

A teoria das probabilidades, porém, só começa a fazer sentido nas engenharias por volta

de 1930, quando surgem os primeiros trabalhos práticos destinados aos engenheiros. O

primeiro foi executado pelo matemático WILLIAM GOSSET (1876 – 1937), com a aplicação das

probabilidades no Controle de Qualidade em uma fábrica de Cervejas.

A teoria das probabilidades é uma importante área da estatística que possibilita ao profissional

no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predições

em toda e qualquer área do conhecimento. No que tange às Engenharias, a probabilidade

está presente no controle de processos de produtos e serviços, permitindo estimar o risco e o

acaso de eventos futuros. Também é amplamente utilizada no que tange ao planejamento de

novas técnicas e estratégias de produção e vendas, dentre outras.

unidade 3051

ESTATÍSTICA E PROBABILIDADES

Suponha que você é o engenheiro responsável pela qualidade na linha de produção de uma

grande marca de bebidas. Sabe-se que não é possível “experimentar” todos os produtos

antes de disponibilizá-lo ao mercado, pois ninguém compraria uma bebida já provada, e que

o processo de fabricação é composto por etapas, por interferências dos funcionários, por

equipamentos (que podem estar ou não muito bem regulados), e por uma série de outros

fatores controláveis ou não, como até mesmo uma simples umidade excessiva no ambiente de

fabricação devido ao período chuvoso. No entanto, você pode suspeitar que um determinado

lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não

conformes maior que o permitido pelos órgãos fiscalizadores.

A teoria das probabilidades vem auxiliá-lo nesse processo de tomada de decisão, permitindo

inferir sobre a população em estudo, ou mesmo sobre eventos que ainda irão ocorrer,

estimando as “chances” de sucesso do mesmo.

A TEORIA DAS PROBABILIDADES

A teoria das probabilidades nasce na Idade Média com os tradicionais jogos de azar existentes

na Corte. Jogos de cartas e dados, ou mesmo os lançamentos de moeda são classificados

como fenômenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma

aplicação direta da teoria das probabilidades no campo das Engenharias é o processo de

decisão, seja para aumentar o investimento ou cortar despesas, no qual o profissional do

mercado de trabalho deve arriscar-se mantendo “os pés no chão”.

CONCEITOUm dos principais conceitos matemáticos amplamente estudado no que diz respeito à teoria das

probabilidades é o de conjunto. Um conjunto pode ser definido como uma coleção de objetos, itens ou

serviços que possuem característica (s) comum (s).

No contexto da teoria das probabilidades, o conjunto de todos os resultados possíveis a ser estudado

em um experimento aleatório é denominado espaço amostral.

Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis resultados em um experimento aleatório.

unidade 3052

ESTATÍSTICA E PROBABILIDADES

Sendo definido como experimento todo e

qualquer resultado que sugere a incerteza

antes da observação, ou seja, fenômenos

que, mesmo repetidos várias vezes sob

condições semelhantes, apresentam resultados

imprevisíveis (acaso). Os resultados dos

experimentos são nomeados estatisticamente

como eventos.

Um Evento Aleatório (E) é qualquer subconjunto

de um espaço amostral.

O espaço amostral (Ω) é essencial na teoria

das probabilidades por definir o espaço

de interesse da investigação, permitindo

ao pesquisador de toda e qualquer área

do conhecimento fazer inferências sobre

o todo a partir da parte estudada. Pode

ser definido de acordo com o evento de

interesse da investigação, podendo ser

caracterizado por: (1) o mesmo evento

repetidas vezes; ou (2) eventos distintos; ou

(3) eventos aleatórios.

Se tivermos o mesmo evento repetidas

vezes, como no lançamento de um

dado ou de uma moeda, ou mesmo nas

possibilidades de filhos de um casal, ou

de peças defeituosas em uma linha de

produção, o espaço amostral (Ω) é dado

pelas possibilidades do evento elevado

ao número de repetições realizadas, por

exemplo:

No lançamento de uma moeda três vezes,

temos duas possibilidades (cara ou coroa)

em cada lançamento, portanto o espaço

amostral (Ω) é dado por:

Ω = ( possibilidades )(repetições)= 23 = 8

Se tivermos eventos distintos, como no

lançamento de um dado e uma moeda, o

espaço amostral (Ω) é dado pelo produto

da quantidade de possibilidades de cada

evento, como:

No lançamento de uma moeda e um dado,

temos duas possibilidades da moeda (cara

ou coroa) e seis possibilidades do dado

(os números inteiros de 1 a 6). Portanto, o

espaço amostral (Ω) é dado por:

Ω = ( possibilidades ) . ( possibilidades ) =

2.6 = 12

Se tivermos eventos aleatórios, como o

número de funcionários ausentes em um

dia de trabalho de uma determinada linha

de produção, ou mesmo o número de

caminhões presentes em uma determinada

rota, não há um modelo matemático que

simplifique a mensuração dos elementos

que compõem esse espaço amostral.

É preciso “apelar” para o princípio

fundamental da contagem, ou seja, o

serviço “braçal”.

Os eventos que compõem o espaço

amostral podem ser classificados de acordo

unidade 3053

ESTATÍSTICA E PROBABILIDADES

com a sua ocorrência. Os eventos nos quais

cada elemento do banco de dados pode

ocorrer com a mesma probabilidade são

chamados de eventos equiprováveis.

Eventos Equiprováveis são aqueles cujos

todos os elementos do banco de dados

têm a mesma probabilidade de ocorrência.

Os eventos são classificados como

mutuamente exclusivos, se eles não

puderem ocorrer simultaneamente, ou

seja, A ∩ B= Ø.

Se E = Ω, E é chamado de evento certo.

Se E = Ø , E é chamado de evento impossível.

PROBABILIDADE CLÁSSICA E PROBABILIDADE FREQUENTISTA

A probabilidade de realização de um evento

A é dada pelo quociente entre o número de

ocorrências de A pelo número de eventos

possíveis, ou seja:

P ( A ) = número de orcorrências de A

A probabilidade pode ser resumida como

o quociente do que se “quer” pelo que se

“tem”. Na qual primeiro determina-se o que

é possível “ter” e depois retira o que se “quer

do que se tem”, não podendo “querer mais

espaço amostral (Ω)

Probabilidade = QuerTem

20 passo

10 passo

Existem duas restrições à aplicação da

definição da probabilidade clássica: (1)

todos os eventos possíveis devem ter a

mesma probabilidade de ocorrência, ou

seja, os eventos devem ser equiprováveis e

(2) deve-se ter um número finito de eventos

possíveis.

LEIS BÁSICAS DE PROBABILIDADES

Para qualquer evento E de um espaço

amostral Ω : 0 ≤ P ( E ) ≤ 1;

P ( Ω ) = 1;

P ( Ac ) = 1 - P ( A ), sendo Ac o evento

complementar ao evento A;

LEMBRE

As operações com os eventos utilizam as

mesmas propriedades matemáticas, ou seja:

do que tem”, ou seja:

unidade 3054

ESTATÍSTICA E PROBABILIDADES

QUADRO 3 – Leis Matemáticas

Fonte: Elaborado pelo autor.

Associatividade

Comutatividade

Distributividade

Absorção

Modulares

Leis de De Morgan

Dupla negação

( A ∩ B ) ∩ C = A ∩ ( B ∩ C ) ( A U B ) U C = A U ( B U C )

A ∩ B = B ∩ A A U B = B U A

( A ∩ B ) U C = ( A U C ) ∩ ( B U C ) ( A U B ) ∩ C = ( A ∩ C ) U ( B ∩ C )

A C B → A ∩ B = A A C B → A ∩ B = B

A ∩Ω = A A ∩Ω = Ω A ∩Ø = Ø A Ø = A

A ∩ B = A U B A U B = A ∩ B

A = A

PROPRIEDADE DESCRIÇÃO MATEMÁTICA

UNIÃO E INTERSEÇÃO DE EVENTOS

A união de dois eventos A e B, indicada por A U B, é o evento que contém todos os elementos

de A e todos os elementos de B.

P ( A U B ) = P ( A ) + P ( B ) - P ( A ∩ B )

P ( A U B ) = P ( A ) + P ( B ), se A e B são mutuamente exclusivos;

A interseção de dois eventos A e B, indicada por A∩B, é o evento que contém todos os elementos

comuns a A e B.

P ( A ∩ B ) = P ( B ) . P ( A | B )

unidade 3055

ESTATÍSTICA E PROBABILIDADES

Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade de A ocorrer sabendo

que o evento B ocorreu.

TABELA 12 – Tipo Sanguíneo

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguíneo O ou A é dada por:

184 + 164 = 0,8508

A probabilidade de o doador ter tipo sanguíneo B ou ser Rh negativo é dada por:

45 + 65 - 8 = 0,2494

409

409

CONCEITODois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realização de um

exclui a realização do (s) outro (s). No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar

coroa" são mutuamente exclusivos, já que a realização de um deles implica, necessariamente, na não

realização do outro.

Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à

soma das probabilidades de que cada um deles se realize.

Positivo

Negativo

Total

156

28

184

139

25

164

37

8

45

12

4

16

344

65

409

O A B AB TOTAL

TIPO SANGUÍNEO

unidade 3056

ESTATÍSTICA E PROBABILIDADES

DICASEventos mutuamente exclusivos não é a mesma

coisa de eventos independentes. O primeiro é

utilizado quando apenas um dos eventos pode

ocorrer, excluindo qualquer probabilidade de

ocorrência do outro. Já o segundo é utilizado

quando a ocorrência de um dos eventos não

afeta a ocorrência do outro.

Exemplo: Um grupo de alunos que usa óculos

é independente do número de alunos do sexo

masculino em sala de aula, mas não são eventos

mutuamente exclusivos, pois é possível ter

alunos do sexo masculino em sala de aula que

usam óculos.

TABELAS DE CONTINGÊNCIA

As tabelas de contingência são aplicadas na

avaliação do relacionamento das categorias

com respeito aos grupos segundo dois

modos: independência ou homogeneidade.

Ou seja, eventos com dupla entrada.

A aplicação de tabela de contingência

dois por dois é dada quando n elementos,

selecionados aleatoriamente de uma

população, são classificados em duas

categorias. Depois dos elementos serem

classificados, um tratamento é aplicado

e alguns são examinados novamente e

classificados nas duas categorias. O que

se almeja saber é: o tratamento alterou

significativamente a proporção de objetos

em cada uma das duas categorias?

EXEMPLOEm relação à pratica apresentada no início

dessa unidade, suponha que em uma amostra

de 2000 produtos disponibilizados ao mercado,

sejam 800 refrigerantes e 1200 cervejas, dos

quais 5 e 10 apresentaram algum tipo de

defeito, respectivamente, seja no rótulo da

embalagem, no volume líquido ou qualquer

outro tipo de avaria. A tabela 1 apresenta uma

tabela de contingência para melhor visualizar

esses dados.

unidade 3057

ESTATÍSTICA E PROBABILIDADES

TABELA 13 - Produtos Disponibilizados

Fonte: Elaborado pela autora.

Bom

Defeito

Total

1985

15

2000

795

5

800

1190

10

1200

CERVEJA REFRIGERANTE TOTAL

A partir dessa tabela, é possível estimar que a probabilidade dessa empresa disponibilizar um

produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito é dada por:

P (defeito) = 15 = 0,0075

Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum

tipo de defeito.

2000

IMPORTANTE

A tabela de contingência é um processo de organizar a informação correspondente a dados dicotômicos.

De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo

qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser

classificados segundo dois critérios.

EVENTOS INDEPENDENTES

Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realização

de um dos eventos não afeta a probabilidade de ocorrência do outro, e vice-versa.

Quando dois eventos são independentes, P ( A ∩ B ) = P ( A ) . P ( B ).

unidade 3058

ESTATÍSTICA E PROBABILIDADES

EXEMPLONota na prova e ter feito a prova de chinelo;

O valor de venda de um produto e a cor do cabelo das funcionárias que o fabricaram.

TEOREMA DE BAYES

A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro

evento B ocorreu, é dada por:

P ( A | B ) = P ( A ∩ B )

para P ( B ) > 0.

O teorema de Bayes propõe que, se os eventos E1,E2,…,En são partições do espaço

amostral Ω, então:

P ( Ei | B ) = P ( B | Ei ) . P ( Ei )

Recorrendo à lei de probabilidade total, é possível inferir que:

P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei )

P ( B )

P ( B )

∑ P ( B | Ej )

CONCEITOSeja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos cuja união forma o espaço amostral Ω.

Seja E outro evento no mesmo espaço amostral Ω, tal que P ( E ) > 0, então:

P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...∩+ P ( E | Bn )

P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...∩+ P( Bn ) P ( E | Bn )

unidade 3059

ESTATÍSTICA E PROBABILIDADES

Portanto,

P ( E ) = ∑ P ( Bi ) . P ( E | Bi )

EXEMPLONuma sala de aula, sabe-se que 10% dos

homens e 2% das mulheres têm mais de 1,80 m.

A sala tem 70% de mulheres e 30% de homens.

Um estudante foi escolhido aleatoriamente, e

constatou-se que tem mais de 1,80 m. Qual a

probabilidade de que seja homem?

0,10 . 0,70 = 0,92110,10.0,70+0,02.0,30

APLICAÇÃO PRÁTICA

A teoria das probabilidades pode auxiliar

facilmente a resolver o problema proposto no

início dessa unidade. Vejamos:

“Suponha que você é o engenheiro responsável

pela qualidade na linha de produção de uma

grande marca de bebidas. Está ciente de que

não é possível “experimentar” todos os produtos

antes de disponibilizá-lo ao mercado, pois

ninguém compraria uma bebida já provada, e

que o processo de fabricação é composto por

etapas, por interferências dos funcionários, por

equipamentos (que podem estar ou não muito

bem regulados), e por uma série de outros

fatores controláveis ou não, como até mesmo

uma simples umidade excessiva no ambiente

de fabricação devido ao período chuvoso. Você

pode suspeitar que um determinado lote, devido

à variabilidade inerente ao processo, apresente

um percentual de itens não conformes maior que

o permitido pelos órgãos fiscalizadores? ”

Se a empresa aqui citada produzir dois lotes

com duas mil unidades em cada por semana,

distribuídas entre 1000 cervejas, 600 refrigerantes

e 400 sucos por lote, com aproximadamente

0,2, 0,1 e 0,15 por cento de itens defeituosos,

respectivamente, podemos utilizar a teoria das

probabilidades para responder questões como:

a) Qual o percentual de refrigerantes

distribuídos semanalmente?

b) Qual a probabilidade do consumidor

adquirir um suco?

c) Dentre as cervejas, qual a

probabilidade do consumidor adquirir

uma cerveja com defeito?

d) Dentre os sucos, qual a probabilidade

do consumidor adquirir um suco sem

defeito do primeiro lote?

e) Sabendo que foi adquirido um produto

com defeito, qual a probabilidade de

ser um suco?

Para responder essas questões, utilizamos a

probabilidade clássica para responder o item (a);

a união de probabilidades para responder o item

(b); a probabilidade condicional para responder o

unidade 3060

ESTATÍSTICA E PROBABILIDADES

item (c); e o teorema de Bayes para responder o item (d). Ou seja:

a) P (refrigerante ) = 1200 =0,30 = 30%

b) P (suco) = 400 + 400 = 0,40 = 40%

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo

lote, independente da ordem de ocorrência do evento.

c) P ( defeito∩cerveja ) = P (cerveja com defeito ) = 0,2.1000 + 0,2 * 1000 = 400

= 0,20

d) P ( suco sem defeito do primeiro lote | suco ) =

4000

2000

P ( cerveja ) 1000 + 1000 2000

2000

0,5.0,2.0,85+0,5.0,2.0,85= 0,5. 0,2 . 0,85 = 0,0850 = 0,5

0,1700

unidade 3061

ESTATÍSTICA E PROBABILIDADES

P(sucocomdefeito│defeito)=

= 2. (0,5 . 0,2 . 0,15 ) = 0,0150 = 0,18750,08002. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2

REVISÃO

A teoria das probabilidades é utilizada em todas as áreas do conhecimento. Ela visa auxiliar

o profissional no mercado de trabalho a predizer valores futuros, estimando as “chances” de

ocorrência de um evento antes que ele ocorra.

Para calcular a probabilidade, basta dividir o que se “quer” pelo que se “tem”, ou seja:

Probabilidade = QuerTem

20 passo

10 passo

Sendo imprescindível, primeiro, definir o que se “tem” para somente depois retirar do que se

“tem” o que se “quer”.

Quando a ocorrência de um evento não afeta a realização ou não de um outro evento, eles são

classificados como eventos independentes.

O Teorema de Bayes é aplicado em situações cuja a probabilidade de ocorrência de um evento

está vinculada às chances de sucesso de um outro evento.

unidade 3062

ESTATÍSTICA E PROBABILIDADES

PARA SABER MAIS

Filmes

A Probabilidade Estatística do Amor Á Primeira

Vista (Adaptado)

Jennifer E. Smith

Com uma certa atmosfera de 'Um dia', mas voltado

para o público jovem adulto, a probabilidade

estatística do amor à primeira vista é uma

história romântica, capaz de conquistar fãs de

todas as idades. Quem imaginaria que quatro

minutos poderiam mudar a vida de alguém?

Mas é exatamente o que acontece com Hadley.

Presa no aeroporto em Nova York, esperando

outro voo depois de perder o seu, ela conhece

Oliver. Um britânico fofo, que se senta a seu lado

na viagem para Londres. Enquanto conversam

sobre tudo, eles provam que o tempo é, sim,

muito, muito relativo. Passada em apenas 24

horas, a história de Oliver e Hadley mostra que

o amor, diferentemente das bagagens, jamais se

extravia.

SMITH, Jennifer E. A Probabilidade Estatística do Amor à Primeira Vista. Rio de Janeiro: Galera Record, 2013

Quebrando a banca (Adaptado).

Ben Campbell (Jim Sturgess) é um brilhante

estudante do M.I.T. (Instituto Tecnológico de

Massachusetts). O seu único problema é não ter

dinheiro para pagar as contas escolares, mas

a solução está onde ele menos esperava: nas

cartas. Ele é recrutado para integrar o grupo dos

mais talentosos estudantes da escola, que todos

os fins-de-semana vão a Las Vegas, com falsas

identidades e com as suas mentes brilhantes,

são capazes de aumentar em grande escala as

probabilidades de ganhar no blackjack.

Além disto, ainda contam com o professor

de matemática (e gênio da estatística) Micky

Rosa (Kevin Spacey) como líder. A contagem

das cartas e um, muito bem definido esquemas

de sinais, que permitem à equipa vencer nos

grandes cassinos. Seduzido pelo dinheiro e pelo

estilo de vida de Vegas, e pela sua inteligente

e sexy amiga Jill Taylor (Kate Bosworth), Ben

começa a ir até ao limite.

Apesar da contagem da carta não ser ilegal,

o risco é cada vez mais elevado e o grande

desafio prende-se agora com, não só manter

a contagem correta, mas também enganar o

chefe de segurança dos casinos: Cole Williams

(Laurence Fishburne). Quebrando a Banca. Direção: Robert Luketic. EUA: Sony Pictures, 2008. (123 min), son., color., legendado.

4UNIDADE

unidade 4064

MODELOS PROBABILÍSTICOS

Assim como a Matemática, também a Estatística apresenta funções que norteiam

o comportamento de suas variáveis, como as retas, parábolas e hipérboles.

Na Estatística temos os modelos probabilísticos. Esses modelos são funções

paramétricas que descrevem o comportamento de uma variável em estudo.

unidade 4065

ESTATÍSTICA E PROBABILIDADES

VARIÁVEIS ALEATÓRIAS

O estudo das variáveis aleatórias é de suma

importância nas engenharias ou mesmo

em qualquer outra área do conhecimento

técnico e científico. Isso porque, nem

sempre, os dados que compõem o estudo

estatístico são números, sendo necessário

descobrir um meio de transformá-los em

números, a partir de uma função chamada

de ‘variável aleatória’, visando facilitar a

estimativa das medidas estatísticas.

CONCEITOProbabilidade

Seja um experimento aleatório qualquer

de um espaço amostral Ω e um espaço de

probabilidades P. Então a variável aleatória X

no espaço de probabilidade é uma função real

definida no espaço amostral Ω, tal que ( X ≤ x ) é

um evento aleatório para qualquer x real.

As variáveis aleatórias podem ser

classificadas como contínuas ou discretas,

de acordo com o domínio da variável

abordada no estudo. São classificadas

como variáveis discretas as funções para as

quais é possível associar um único número

real a cada evento de uma partição do

espaço amostral Ω. Portanto são variáveis

que resultam de processos aleatórios nos

quais os resultados possíveis são casuais e

formam um conjunto enumerável.

São classificadas como variáveis contínuas

as funções para as quais é possível associar

infinitos valores a um intervalo ( a, b ), sendo

que para valores que não pertencem ao

intervalo no qual se limita o experimento, a

probabilidade de ocorrência é zero.

VARIÁVEIS DISCRETAS

É função P ( x ) aquela nas quais se

associam probabilidades aos valores da

variável aleatória X abordada no estudo

estatístico. Ou seja, quando uma variável

aleatória X assume os valores x1,x2,x3,…,xn

com as respectivas probabilidades p ( x1 ),

p ( x2 ), p ( x3 ) ,…, p ( xn ) definidas por uma P

( X ), na qual a soma de todas as possíveis

probabilidades é igual a um, conforme

apresentado na tabela 14, ou seja:

unidade 4066

ESTATÍSTICA E PROBABILIDADES

TABELA 14 - Distribuição de probabilidades discretas

Fonte: Elaborado pelo autor.

X x1 x2 x3 ... xn

P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )

Para uma distribuição discreta de probabilidades, é possível definir a função acumulada

indicada por F ( x ) = P ( X ≤ xi ), ou seja, a probabilidade da variável aleatória assumir valores

menores ou iguais a xi.

O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória

discreta X que assume os valores x1, x2, x3, …, xn com as respectivas probabilidades p ( x1 ), p ( x2 ),

p ( x3 ),…, p ( xn ) definidas por uma P ( Xn ), ou seja, é igual ao valor médio da variável:

E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)

E (x) = ∑ xi . p ( xi )n

i =1

DICASO valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.

A variância, ou seja, a medida estatística que concentra as probabilidades em torno da média

é indicada por Var ( x ) ou σ2 e dada por:

Var ( x ) = E ( x2 ) - [ E ( x ) ] 2

sendo E ( x ) o valor esperado, e E (x2 ) dada por:

E ( x2 ) = x12 . p ( x1 ) + x2

2. p ( x2 ) + x32 . p ( x3 ) + ... + xn

2 . p ( xn )

E ( x2 ) = ∑ xi2 . p ( xi )

n

i =1

unidade 4067

ESTATÍSTICA E PROBABILIDADES

DICASO desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja:

DP ( x ) = √Var ( x )

Para uma variável aleatória n-dimensional (também chamada de vetor aleatório), com n=2,

denota-se por ( X,Y ) o vetor aleatório, sendo:

TABELA 15 - Distribuição discreta

Fonte: Elaborado pelo autor.

Valores associados à variável Y

P ( X )

Probabilidade conjuntaP ( X, Y )

Probabilidade marginal de X

Probabilidade marginal de Y

1

XY

VALORES ASSOCIADOS À VARIÁVEL X

P ( Y )

Pois P (X,Y) é uma

f.d.p.

IMPORTANTE

Só é possível realizar análises estatísticas sobre distribuições que sejam uma função densidade de

probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variáveis são uma f.d.p. quando a soma de todas

as probabilidades que compõem o evento em estudo é igual a 1, ou seja, 100%. Portanto, uma ou mais

variáveis podem ser classificadas como f.d.p. quando:

∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1n

i =1

unidade 4068

ESTATÍSTICA E PROBABILIDADES

ATENÇÃOAs probabilidades são sempre dispostas paralelamente às suas variáveis na construção da tabela

bidimensional. Portanto, se invertermos as posições de X e Y na tabela anterior, teremos a seguinte

distribuição de probabilidades:

TABELA 16 - Distribuição discreta

Fonte: Elaborado pelo autor.

Valores associados à variável Y

P ( Y )

Probabilidade conjuntaP ( X, Y )

Probabilidade marginal de Y

Probabilidade marginal de X

1

XY

VALORES ASSOCIADOS À VARIÁVEL Y

P ( X )

Pois P (X,Y) é uma

f.d.p.

O valor esperado da distribuição conjunta, indicado por E ( X, Y), é dado pelo produto entre

cada valor associado à variável X, com cada valor associado à variável Y e sua respectiva

probabilidade conjunta, ou seja:

E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj )

E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +

+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )

Para a tabela de distribuição a seguir:

n

i =1

n

j =1

TABELA 16 - Distribuição discreta

Fonte: Elaborado pelo autor.

d

e

f

P(X)

P (a, d ) P ( b, d) P ( c, d )

P ( a, e ) P ( b, e ) P ( c, e )

P ( a, f ) P ( b, f ) P ( c, f )

P ( a ) P ( b ) P ( c )

P ( d )

P ( e )

P ( f )

1

XY P ( Y )A B C

unidade 4069

ESTATÍSTICA E PROBABILIDADES

VARIÁVEIS CONTÍNUAS

É uma função f ( x ) aquela nas quais se

associam probabilidades aos infinitos

valores da variável aleatória X, abordada

no estudo estatístico. Ou seja, quando uma

variável aleatória X assume infinitos valores

em um determinado intervalo ( a, b ), sendo

a probabilidade igual a zero para valores

fora desse intervalo e a soma de todas as

possíveis probabilidades contidas nesse

intervalo igual a um. Portanto, para as

variáveis contínuas, temos que:

• f (x) ≥ 0, x C R;

• ∫ f ( x ) dx = 1 (toda área sob a

curva de probabilidade, ou curva

de frequência, definida por f ( x )

vale um);

• P ( a ≤ x ≤ b) = ∫ f ( x ) dx (probabilidade correspondente

à área sob a curva limitada pelo

intervalo compreendido entre x

= a e x = b ). Esse assunto será

mais detalhado posteriormente no

estudo da distribuição normal.

O valor esperado, indicado por E ( x ) = μ, é

a esperança matemática de uma variável

aleatória contínua X, que assume os

infinitos valores do intervalo ( a, b ), ou seja:

A

b

a

+ oo

- oo

E (x) = ∫ x .f ( x ) dx b

a

A variância, ou seja, a medida estatística

que concentra as probabilidades em torno

da média é indicada por Var ( x ) ou σ2 e

dada por:

Var ( x ) = E ( x2 ) - [ E ( x ) ]2,

sendo E ( x ) o valor esperado, e E ( x2 ) dada

por:

E ( x2 ) = ∫ x2 . f ( x ) dx∩

Para uma variável aleatória contínua

bidimensional, definida em todos os valores

dos números reais, a função densidade

de probabilidade conjunta f ( x, y ) é uma

função que satisfaz:

• f ( x, y ) ≥ 0, para todo ( x, y ) R2;

•∫R ∫R f ( x, y ) d x d y =1

O valor esperado da distribuição conjunta,

indicado por E ( X, Y ), é dado por:

E ( X, Y ) =∫R ∫R x . y . f ( x, y ) d x d y

A covariância para as variáveis contínuas

ou discretas, ou seja, a medida estatística

que possibilita verificar se as variáveis

envolvidas na análise são diretamente ou

b

a

unidade 4070

ESTATÍSTICA E PROBABILIDADES

inversamente proporcionais. Isso porque à medida que X aumenta o Y também aumenta, ou à

medida que X diminui o Y aumenta, respectivamente. Tal relação é dada por:

Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )

E o coeficiente de correlação das variáveis contínuas ou discretas, indicado por ρX , Y , ou seja,

a medida estatística que mensura a relação entre as variáveis X e Y é dado por:

ρ X, Y = Cov ( X, Y )σX . σY

Sendo -1 ≤ ρ X,Y ≤ 1.

IMPORTANTE

ndependentemente de a classificação da variável aleatória ser dada como discreta ou contínua, sendo

a e b constantes e x e y variáveis aleatórias, valem as propriedades:

E ( X ) = μ

E ( a ) = a

E ( a x ) = a . E ( x )

E ( a ± b x ) = a ± b . E ( x )

E ( a x ± b y ) = a . E ( x ) ± b . E ( y )

Var ( x ) = σ2

Var ( a ) = 0

Var ( a x ) = a2 . Var ( x )

Var ( a ± b x ) =b2 . Var ( x )

Var ( a x ± b y ) = a2 . Var ( x ) = b2 . Var ( y ) ± 2 . a . b . Cov ( x, y )

CONCEITO

Duas variáveis aleatórias X e Y são independentes se o produto das distribuições marginais for igual à

distribuição conjunta, ou seja:

p ( x ) . p ( y ) = p ( x , y ) para distribuição discreta;

f ( x ) . f ( y ) = f ( x , y ) para distribuição contínua.

unidade 4071

ESTATÍSTICA E PROBABILIDADES

MODELOS PROBABILÍSTICOS

Assim como na Matemática, temos os

modelos que representam o comportamento

da variável abordada no estudo, ou seja, as

retas, parábolas e hipérboles dentre tantas

outras funções matemáticas. Na Estatística,

os modelos probabilísticos descrevem o

comportamento de uma variável, sendo

possível calcular a probabilidade associada

aos eventos da variável abordada no

estudo, recorrendo apenas aos modelos

probabilísticos. Esses modelos são

chamados de distribuições, apresentando

particularidades próprias que facilitam a

sua identificação, podendo ser divididos

em contínuos e discretos, assim como as

variáveis estudadas no início deste capítulo.

DISTRIBUIÇÃO BINOMIAL

A distribuição binomial é denotada por

X~Bin ( n; p ), sendo n o número de

amostragens (tentativas) e p a probabilidade

de sucesso do experimento. Trata-se de

uma distribuição discreta, aplicada em

casos dicotômicos, ou seja, experimentos

aleatórios com apenas duas possibilidades

de resposta, denotadas por sucesso ou

falha. Podemos citar como exemplo o

lançamento de uma moeda, um item ter

defeito ou não, um funcionário faltar ou não.

Para se caracterizar como distribuição

binomial, a variável aleatória abordada no

estudo deve ter:

a) n tentativas ou provas independentes, ou

seja, eventos sem reposição;

b) cada uma das n tentativas só admite dois

resultados possíveis, sendo eles sucesso

ou falha;

c) as probabilidades de sucesso e falha são

complementares e constantes durante

todo o processo de observação.

O valor esperado, ou seja, a média da

distribuição binomial e a variância são

dadas por:

E ( x ) = μ = n . p e Var ( x ) = σ2 = np . ( 1 - p ),

respectivamente.

A probabilidade de ocorrência de um

determinado evento na distribuição

binomial é dada por:

P ( X = x ) = ( n ). px. ( 1 - p )n-xx

x

( n- x) ! . x!x

sendo: ( n ) a combinação de n elementos

x a x, ou seja: ( n ) = n! e p a

probabilidade de sucesso.

A distribuição binomial é amplamente

aplicada para avaliar probabilidades de

eventos relacionados com controle de

unidade 4072

ESTATÍSTICA E PROBABILIDADES

qualidade, mercado de ações, risco de

apólices de seguro, análise demográfica e

vendas, dentre outras inúmeras situações

de controle da variabilidade inerente ao

processo produtivo.

DISTRIBUIÇÃO POISSON

A distribuição Poisson é denotada por

X~Poisson (λ), sendo λ a taxa média,

ou seja, λ = 1 e sendo λ também sempre

inversamente proporcional ao intervalo de

tempo ou espaço definido no problema.

Portanto, o seu valor deve corresponder ao

tamanho do intervalo apresentado. Assim,

para qualquer outro intervalo, o valor da

média deve sofrer a correção numérica

adequada.

A distribuição Poisson é uma distribuição

discreta, aplicada em variáveis aleatórias

cujo número de sucessos observados num

intervalo contínuo, de tempo ou espaço,

pode estar relacionado à quantidade

de: carros que passam em um sinal por

minuto; defeitos por metro quadrado de um

revestimento; chamadas por hora numa

delegacia etc.

A probabilidade de ocorrência de um

determinado evento com distribuição

Poisson é dada por:

μ

P ( X = x ) = e-λ . λx

x!

A distribuição Poisson pode ser aplicada

como um caso limite da binomial, quando

o tamanho da amostra em eventos

dicotômicos é maior que 30.

DISTRIBUIÇÃO NORMAL

A distribuição normal é denotada por

X~Normal (μ; σ2 ), sendo o valor esperado,

ou seja, a média da distribuição normal e a

variância dadas por:

E ( x ) = μ e Var ( x ) = σ2, respectivamente.

Por diversas razões, tanto na teoria

quanto na prática, a distribuição normal

é a mais importante das distribuições de

probabilidade. Isso porque muitas variáveis

no mundo real têm comportamento bastante

aproximado dessa distribuição. Sua

relevância pode ser destacada pelo fato de:

a) seus resultados serem de fácil operação

matemática;

b) muitas técnicas estatísticas pressuporem

que os dados têm distribuição normal;

c) os dados de muitas situações reais,

unidade 4073

ESTATÍSTICA E PROBABILIDADES

embora não sejam rigorosamente normais, podem gerar bons resultados, facilitando o

tratamento matemático;

d) a distribuição amostral de muitas estatísticas tenderem à distribuição normal, em face do

teorema do limite central.

Essa distribuição é classificada como contínua, podendo a variável assumir qualquer valor

dentro de um intervalo previamente definido. Essa distribuição, delineada por uma curva em

forma de sino com f.d.p, é dada por:

As principais propriedades da distribuição normal são:

1) ter a forma de um sino;

2) ser simétrica em relação à média μ ;

3) ser assintótica1 em relação ao eixo de x;

4) ser unimodal2 e ter achatamento proporcional ao desvio padrão ou variância;

5) ter média, moda e mediana iguais.

FIGURA 21 - Distribuição normal

Fonte: TRIOLA, 2011, p.88.

1 - Não toca o eixo x.2 - Só tem uma moda.

unidade 4074

ESTATÍSTICA E PROBABILIDADES

Como o cálculo da área abaixo da curva é a integral da f.d.p. nos limites desejados e esse

cálculo é, muitas vezes, longo, a área sob a curva pode ser simplificada pela transformação:

z = x - μ w

Sendo z uma variável aleatória com distribuição normal, média zero e variância 1, e x sendo

uma variável aleatória com distribuição normal, média μ e variância σ2.

A área total limitada pela curva normal e pelo eixo das abscissas é 1u.a. (uma unidade de

área), ou seja, 100%, sendo as áreas sob a curva limitadas pela distância entre o desvio padrão

e a média. Essa área é apresentada na tabela a seguir.

σ

TABELA 18 - Área sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

unidade 4075

ESTATÍSTICA E PROBABILIDADES

Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa decimal e

a segunda casa decimal, respectivamente, do número z calculado pela estatística de teste

z = x - μ e, no centro da tabela, as probabilidades correspondentes à área entre zero e esse

ponto, conforme ilustração a seguir.σ

FIGURA 22 - Distribuição normal padrão

Fonte: Elaborado pela autora.

APLICAÇÃO PRÁTICA

Uma grande indústria compra diversos novos processadores de texto no final de cada ano, sendo que o número

exato deles depende da frequência dos reparos no ano anterior. Suponha que o número de processadores,

indicado por X, que são comprados a cada ano, tenha a seguinte distribuição de probabilidade:

TABELA 19 - Distribuição de frequências

Fonte: Elaborado pelo autor.

X 0 1 2 3

P(X) 0,10 0,30 0,40 0,20

Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2

(em reais) for fornecido em relação a qualquer compra, quanto a empresa espera gastar E ( X ) em novos

processadores no final do ano?

E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2

E ( X ) = 1,7

unidade 4076

ESTATÍSTICA E PROBABILIDADES

REVISÃO

A distribuição discreta é usada em casos cujos dados analisados podem ser alocados em uma

tabela de probabilidades, sendo que aquelas localizadas no centro da tabela são classificadas

como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais.

Probabilidades marginais são aquelas que correspondem a apenas uma das variáveis em

estudo, e as probabilidades conjuntas são as que correspondem a duas variáveis analisadas

concomitantemente.

A distribuição contínua é usada em casos cujos dados analisados podem ser alocados em um

intervalo contínuo.

No que tange as distribuições de probabilidade, cabe ressaltar:

TABELA 20 - Revisão das medidas de tendência central

Fonte: Elaborado pelo autor.

Binomial

Poisson

Normal

Não usual para amostras com mais de 30 elementos.

Quando os eventos estudados permitem apenas duas respostas possíveis.

Quando o foco do estudo é na quantidade do período.

Quando a média e o desvio padrão são conhecidos.

DISTRIBUIÇÃO LIMITAÇÕES QUANDO USAR

PARA SABER MAIS

MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014.

Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra:

MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed.

Rio de Janeiro: LTC, 2009.

5UNIDADE

unidade 5078

ESTIMAÇÃO DE MÉDIAS E PROPORÇÕES

Nas unidades anteriores, você estudou três grandes áreas do método estatístico:

amostragem e coleta de dados; análise exploratória de dados; e teoria de

probabilidades. A partir de agora, você vai entender como essas áreas se relacionam

para construir a quarta área do método estatístico, que é a decisão na presença de incerteza

ou estatística inferencial.

A estatística inferencial recebe esse nome por ser um conjunto de métodos e técnicas que

permitem, a partir dos dados provenientes de uma amostra, inferir informações sobre toda

a população alvo do estudo. Logicamente existe uma incerteza associada a esse processo,

mas ela é quantificada através dos níveis de confiança e margens de erro do estudo. Essa é a

grande contribuição da estatística inferencial, permitir que se conheça o nível de incerteza da

informação antes de tomar decisões.

Existe uma infinidade de técnicas de estatística inferencial, como os intervalos de confiança,

testes de hipóteses paramétricos e não paramétricos, análises de correlação e regressão,

dentre outras. Para que você tenha noção da quantidade de técnicas, imagine que exista um

curso de graduação em Estatística com duração de quatro anos em que o aluno passa a maior

parte do tempo estudando técnicas de estatística inferencial. E ainda assim esse tempo não é

suficiente para estudar todas as técnicas!

A boa notícia é que em todas essas técnicas existe um ponto em comum, conceitos que

são utilizados em todas elas, como estimativa pontual, intervalos de confiança e testes

de hipóteses. Esses conhecimentos estão presentes em todas as técnicas de estatística

unidade 5079

ESTATÍSTICA E PROBABILIDADES

inferencial. E é exatamente o que estudaremos nas próximas unidades.

Nesta unidade, especificamente, você vai conhecer o teorema principal da estatística, o

fundamento de grande parte das técnicas de estatística inferencial: o teorema central do

limite. Esse teorema fala sobre a relação entre o modelo normal de probabilidades e a média

calculada a partir de uma amostra. Você consegue imaginar qual seja essa relação?

Aqui você vai descobrir como são calculadas as margens de erro das pesquisas eleitorais,

que são obtidas através das estimativas pontuais e intervalares para médias e proporções

populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos

de confiança. E também um software muito útil para fazer várias análises estatísticas, o EpiInfo.

TEOREMA CENTRAL DO LIMITEImagine a seguinte situação: um engenheiro de produção deseja monitorar um processo de

produção de fibra sintética de maneira a garantir que a característica de qualidade resistência

à tração esteja sempre dentro dos limites de especificação. É conhecido que a resistência à

tração das fibras produzidas naquela empresa é normalmente distribuída com média de 75 psi

(libras força por polegada quadrada) com desvio-padrão de 3,5 psi.

Como não é viável medir a característica de qualidade em todas as peças produzidas (inspeção

100%) ele decidiu coletar amostras periodicamente para verificar se não houve alteração na

média do processo. Acontece que cada vez que ele coleta uma amostra e obtém a média

dessa amostra existe uma variação, ou seja, as médias das amostras são sempre diferentes.

A dúvida é: o engenheiro pode afirmar que houve alteração na média do processo (de todas as

peças produzidas) ou a variação é devida simplesmente à uma flutuação amostral?

O teorema central do limite (TCL) poderá auxiliar o engenheiro a interpretar os resultados

dessas amostras e resolver a dúvida. O TCL diz que quando trabalhamos com amostras e

calculamos médias, as médias das amostras são normalmente distribuídas em torno da

verdadeira média populacional. Isso acontece porque, exatamente pelo fato de serem

baseadas em sorteio aleatório, as amostras são sempre diferentes e, se calcularmos então a

média em cada amostra, é bem difícil encontrarmos exatamente os mesmos valores.

unidade 5080

ESTATÍSTICA E PROBABILIDADES

Entretanto, apesar de as amostras serem

diferentes e terem médias diferentes,

se selecionarmos várias amostras e

obtivermos suas médias, podemos fazer um

histograma dessas médias. Ao realizar esse

procedimento poderemos ver que, à medida

que aumentamos a quantidade de amostras,

o histograma mais se assemelha à curva

da distribuição normal de probabilidades

e, ainda, a média dessas médias mais se

aproxima da verdadeira média populacional.

Definição do teorema central do limite:

Se X é uma variável aleatória com média µ e

variância σ2 e é a média de uma amostra

com n elementos dessa variável aleatória,

então podemos dizer que a forma limite da

distribuição de

z = X - μ

é a distribuição normal padrão quando n

tende ao infinito.

Podemos dizer ainda que X é normalmente

distribuído com média μX = μ e desvio-

padrão σX = σ ⁄√n .

EXEMPLO

Pensando no exemplo das fibras sintéticas,

chamamos de X a variável aleatória

resistência à tração das fibras. Sabemos

que a média é 75 psi e o desvio-padrão é

3,5 psi. Encontre a probabilidade de uma

amostra aleatória de n = 25 fibras ter uma

resistência média menor que 73,6 psi.

Note que a distribuição amostral de é

normal, com média μX = ∩75 psi e um desvio-

padrão de

σX ∩ = σ = 3,5 = 0,7 psi

Consequentemente, a probabilidade

desejada corresponde à área sombreada na

figura abaixo.

σ⁄√n

√n √25

FIGURA 23 - Distribuição amostral de X - Média 75 e desvio-padrão 0,7

Fonte: Elaborada pelo autor.

Desse modo, podemos dizer que

P( < 73,6 ) = P ( Z < z ) onde o valor de z é

obtido através da padronização:

z = 73,6 - 75 = -235⁄√25

Então,

P( < 73,6 ) = P ( Z < -2 ) = 0,0228 (pela

unidade 5081

ESTATÍSTICA E PROBABILIDADES

FIGURA 24 - Distribuições amostrais de para diferentes populações e tamanhos de amostra

tabela da distribuição normal padrão).

O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter

resistência média menor que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa probabilidade

pode ser considerada baixa e, portanto, de posse dessa informação, o engenheiro poderia adotar

o seguinte critério: ao observar uma amostra de fibras com resistência média menor que 73,6

psi, o processo deve ser verificado.

É importante ressaltar que o TCL pode ser utilizado ainda que a distribuição da variável

aleatória X não seja normal, ou seja, o teorema é valido para qualquer que seja a distribuição

de X. Essa é a grande contribuição do TCL para o desenvolvimento dos métodos estatísticos.

Entretanto, nas situações em que a distribuição da variável aleatória X seja muito assimétrica,

a aplicação do TCL é adequada para amostras grandes ( n ≥ 30 ). A figura abaixo ilustra as

distribuições amostrais de para diferentes populações e diferentes tamanhos de amostra.

Fonte: Elaboração do autor.

População original (distribuição de X)

Distribuição amostral de X para n = 2

Distribuição amostral de X para n = 5

Distribuição amostral de X para n = 30

unidade 5082

ESTATÍSTICA E PROBABILIDADES

Note nos gráficos acima que a aproximação pela distribuição normal é razoável para amostras com

30 ou mais observações. Por essa razão, a utilização do teorema central do limite é adequada quando

o tamanho da amostra for ao menos 30 ou quando a distribuição da variável aleatória X for normal.

Nos próximos tópicos, você vai descobrir como aplicar o teorema central do limite para

obter estimativas intervalares para médias e proporções populacionais a partir da média e

proporções amostrais. Na Unidade 7, o TCL será utilizado para realizar testes de hipóteses

sobre os parâmetros populacionais.

ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA PARA UMA MÉDIA POPULACIONAL

Neste tópico, você vai aprender a obter uma estimativa para média populacional e calcular

a precisão dessa estimativa. Você vai entender por que apresentar a margem de erro e o

nível de confiança da pesquisa é tão importante quanto apresentar a estimativa pontual para

média. Após a leitura deste tópico, você terá um novo olhar sobre as estatísticas que lhe são

apresentadas diariamente em jornais ou revistas.

Considere que uma montadora desenvolveu um novo modelo e está elaborando a ficha técnica

do veículo. Uma informação relevante para o cliente é o consumo médio de combustível. Sabe-

se que o consumo está relacionado ao tipo de combustível (etanol ou gasolina ), à maneira

de conduzir, ao tipo de via (cidade ou estrada), à qualidade do combustível, dentre outras

variáveis. O consumo pode variar também entre os veículos de mesmo modelo, por essa razão

podemos tratar o consumo de combustível como uma variável aleatória.

Para definir o consumo médio de combustível do novo modelo de veículo, a montadora coletou

dados sobre distância percorrida e consumo de combustível de 35 veículos. Com esses dados,

calculou o consumo médio na estrada e na cidade tanto para gasolina quanto para etanol. Os

resultados são apresentados na tabela abaixo:

TABELA 20 - Revisão das medidas de tendência central

CidadeEstrada

8,710,4

12,515,2

TRAJETO ETANOL (KM/L) GASOLINA (KM/L)

Fonte: Elaborado pelo autor.

unidade 5083

ESTATÍSTICA E PROBABILIDADES

Os 35 veículos que participaram do

experimento podem ser considerados uma

amostra do total de veículos produzidos

pela montadora, já que o objetivo é obter

informação sobre todos os veículos do

referido modelo que são produzidos. Dessa

forma, a montadora está utilizando a média

da amostra para estimar µ, o consumo

médio de todos os veículos.

Dizemos que a média da amostra

representa um único estimador numérico

da média da população. Por essa razão,

recebe o nome de estimador pontual.

Observe, por exemplo, na tabela 21 que o

consumo médio do veículo na cidade com

etanol foi estimado em 8,7 km/l, mas não foi

apresentada nenhuma informação quanto à

precisão dessa estimativa.

No tópico anterior, vimos que a média

amostral pode ser considerada uma

variável aleatória. Isso significa que, caso

selecionássemos outra amostra de 35

veículos e calculássemos o consumo

médio na cidade com etanol, o resultado

poderia ser diferente de 8,7 km/l. Por

essa razão, a estimativa pontual deve vir

sempre acompanhada da margem de erro,

informando assim sua precisão. A margem

de erro pode ser obtida através da equação

abaixo:

E = Za/2 √nσ

Onde:

zα ⁄2 está relacionado ao nível de confiança

desejado para o estudo;

σ é o desvio-padrão populacional da

variável aleatória X;

n é o tamanho da amostra coletada.

O nível de confiança do estudo é definido

pelo valor de zα⁄2 que pode ser obtido da

tabela da distribuição normal padrão. O nível

de confiança é dado em valor percentual e

deve ser sempre inferior a 100%. Chamamos

significância (α) o percentual restante, de

maneira que confiança + significância =

100%. Por exemplo, para um estudo com

95% de confiança, o valor de α será 5%. O

valor de z = 1,96 é definido então a partir da

distribuição normal padrão, como ilustra a

figura abaixo:

FIGURA 25 - Definição do valor de z para confiança de 95%

Fonte: Elaborado pelo autor.

unidade 5084

ESTATÍSTICA E PROBABILIDADES

Observe também que, para o cálculo da

margem de erro, precisamos conhecer o

desvio-padrão populacional da variável

aleatória X, isto é, o desvio-padrão do

consumo de combustível de todos os

veículos do referido modelo produzidos

pela montadora. Entretanto, como a

amostra pode ser considerada grande ( n >

30 ), podemos utilizar o desvio-padrão da

amostra s como aproximação de σ, e então

o cálculo da margem de erro será:

E = Za/2 √nS

Vamos obter, portanto, a margem de erro

para o verdadeiro consumo médio de etanol

na cidade para esse veículo, com um nível

de 95% de confiança, sabendo que o desvio-

padrão do consumo de etanol na cidade

para a amostra dos 35 veículos foi de 4 km/l.

E = 1,96 4 = 1,325√35

O cálculo acima mostra que a margem de erro

do estudo é de 1,325 km/l para o consumo

do veículo ao rodar com etanol na cidade.

Com isso, podemos dizer que o verdadeiro

consumo médio do veículo é de 8,7 km/l com

uma margem de 1,325 km/l para mais ou para

menos, ou seja, está entre 8,7 - 1,325 = 7,375

km/l e 8,7 + 1,325 = 10,025 km/l. O intervalo

que acabamos de construir (7,375; 10,025)

é conhecido como intervalo de confiança ou

estimador intervalar e é definido pela equação:

IC [ μ; ( 100 - α ) % ] = ± E

IC [ μ; 95% ] = ± E

Ou seja, o intervalo de confiança para μ, a

verdadeira média populacional, com um nível

de ( 100 - α ) % de confiança, é dado pela

média amostral menos a margem de erro e a

média amostral mais a margem de erro.

O resultado do exemplo acima é comumente

interpretado da seguinte maneira: “se

obtivermos várias amostras de 35 veículos

e, para cada uma delas, calcularmos os

correspondentes intervalos com 95% de

confiança, esperamos que a proporção de

intervalos que contenham o verdadeiro

consumo médio μ seja igual a 95%”.

Exemplo:

Para os dados da tabela 1, supondo que o

desvio-padrão para o consumo de etanol na

estrada seja de 2 km/l, obtenha o intervalo

de 95% para o verdadeiro consumo médio.

Solução:

Para resolver a questão acima, podemos

utilizar a equação:

Precisamos, portanto, encontrar a margem

de erro do estudo. Para isso, vamos utilizar

a equação:

unidade 5085

ESTATÍSTICA E PROBABILIDADES

E = Za/2 √nS

Logo:

E = 1,96 * 2 = 0,663√35

Então:

IC [ μ ; 95% ] = 10,4 ± 0,663

O intervalo é comumente apresentado como

segue:

IC [ μ ; 95% ] = [ 9,737 ; 11,063 ]

Dessa forma, afirmamos com 95% de

confiança que o consumo médio de etanol

na estrada para o novo modelo de veículo

está entre 9,737 km/l e 11,063 km/l.

ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA PARA UMA MÉDIA POPULACIONAL (AMOSTRAS PEQUENAS)

Você deve ter observado no tópico anterior

que o cálculo da margem de erro para o

intervalo de confiança exige o conhecimento

do desvio-padrão populacional (σ).

Entretanto, na maioria das vezes em que

se deseja estimar a média populacional,

o desvio-padrão populacional também é

desconhecido, o que torna inadequada a

aplicação da equação para o cálculo da

margem de erro.

Felizmente, quando trabalhamos com

grandes amostras ( n > 30 ), o desvio-

padrão amostral (s) é uma boa aproximação

para o desvio-padrão populacional (σ), o

que possibilita a utilização da equação

apresentada para o cálculo da margem de

erro. Mas, o que fazer quando a amostra

é pequena ( n < 30 )? É exatamente o que

descobriremos aqui.

Nas situações em que a amostra é pequena,

nos deparamos com dois problemas:

1. Não podemos utilizar o teorema central

do limite para dizer que a média amostral

( ) é normalmente distribuída, pois o

TCL é válido somente para amostras com

mais de 30 observações.

2. A aproximação do desvio-padrão

populacional pelo desvio-padrão

amostral é considerada pobre.

Para contornar o problema 1, lançamos

mão do seguinte teorema:

Se X é uma variável aleatória normalmente

distribuída, ao selecionar amostras de

tamanho n, a distribuição amostral de

será uma distribuição normal.

unidade 5086

ESTATÍSTICA E PROBABILIDADES

Esse teorema garante que, se a variável aleatória X é normalmente distribuída, então a

distribuição amostral de será normal independente do tamanho da amostra.

Para contornar o problema 2, vamos precisar utilizar uma nova distribuição de probabilidades,

a distribuição t-student. Essa distribuição é muito semelhante à distribuição normal: tem

forma de sino, é simétrica e tem média zero. A diferença é que a distribuição t-student é

mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa

distribuição serão menos precisas.

FIGURA 26 - Comparação entre a distribuição normal e a distribuição t-student (5 gl)

Fonte: Elaborado pelo autor.

A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuição t-student.

Para construção de intervalos de confiança, devemos olhar os valores para área em duas

caudas e a área deve se referir ao valor de α ⁄ 2 + α ⁄ 2. Os graus de liberdade são dados por

n - 1, ou seja, o tamanho da amostra menos 1.

unidade 5087

ESTATÍSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuição t-studen

Fonte: TRIOLLA, 2013, p. 614.

Exemplo:

Uma equipe de engenharia está desenvolvendo uma nova mistura para concreto e deseja

estimar a resistência média do produto à compressão. Como o teste de resistência à

compressão é um ensaio destrutivo, o máximo que a equipe conseguiu para realização do

estudo foram 10 corpos de prova. A resistência média à compressão da amostra foi de 2.500

psi e o desvio-padrão foi de 45 psi. Sabendo que a resistência do concreto à compressão segue

uma distribuição normal, obtenha uma estimativa intervalar para a verdadeira resistência

média populacional com 95% de confiança.

Solução:

Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-padrão foi obtido da amostra

(não conhecemos o desvio-padrão populacional). Nesse caso, para construir o intervalo de

confiança, é necessário utilizar a distribuição t-student e a margem de erro deve ser calculada

utilizando a equação:

unidade 5088

ESTATÍSTICA E PROBABILIDADES

Onde tα ⁄2 ; n-1 é obtido da tabela t-student, sendo os parâmetros: α⁄2 a área em cada uma

das duas caudas e n - 1 os graus de liberdade.

Como o intervalo é de 95% de confiança, sabemos que a significância é cx = 5% (para consultar

a tabela usamos o valor em decimal, 0,05). Os graus de liberdade são obtidos calculando n-1,

ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 é de 2,262.

E = tα/2 , n - 1 √nS

FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

Com isso, estimamos que a margem de erro será:

E = 2,262 45 = 32,189

O intervalo de confiança pode ser então obtido:

IC [ μ ; 95% ] = 2.500 ± 32,189

IC [ μ ; 95% ] = [ 2.467,81 ; 2.532,19 ]

A equipe de engenharia pôde interpretar o resultado como segue: afirmamos com 95% de confiança

que a resistência média do concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.

√10

unidade 5089

ESTATÍSTICA E PROBABILIDADES

ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA PARA UMA PROPORÇÃO POPULACIONALComo são calculadas as margens de erro das pesquisas eleitorais? Possivelmente no início da

unidade você tenha ficado instigado a descobrir como é feito esse cálculo. Antes de dar início,

é preciso entender que as pesquisas eleitorais buscam descobrir o percentual de eleitores

que são favoráveis ao candidato A ou B, e esses percentuais são tratados na estatística como

proporções.

Para simplificar os cálculos, vamos pensar em uma eleição que foi para o segundo turno e, portanto,

tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto à

intenção de voto nos candidatos A e B. Note que "candidato" é uma variável qualitativa, e o que

queremos descobrir é como estimar a probabilidade de sucesso em um experimento binomial em

que p é a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira

bem intuitiva de estimar p para a população é usar a proporção de sucessos da amostra:

p = Número de eleitores que preferem o candidato A

Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado intenção de votar

no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a

proporção de eleitores que votariam no candidato A por:

p ∩= 1.300 = 0,52

Ou seja, a amostra indica que cerca de 52% dos eleitores têm intenção de votar no candidato

A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem

selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de p ∩ é

uma estimativa pontual para p, a verdadeira proporção de eleitores que têm intenção de votar

no candidato A em toda a população.

Podemos tratar p como uma média, se pensarmos que X é uma variável aleatória que assume

0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara

votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que p é

Número de eleitores amostrados

ˆ

ˆ

ˆ

2.500

ˆ

unidade 5090

ESTATÍSTICA E PROBABILIDADES

normalmente distribuído com média μp =

p e desvio-padrão σp = √p.q , onde q = 1-p,

ou de maneira aproximada σp = √p.q , pois

não conhecemos os verdadeiros valores de

p e q.

Sabemos que o TCL é válido apenas

para amostras grandes. No caso de

estimativas para proporções, dizemos

que a amostra é grande quando n . p ≥

5 e também n . q ≥ 5, ou seja, ambos os

critérios devem ser satisfeitos.

Caso esses critérios tenham sido satisfeitos,

podemos calcular a margem de erro através

da equação:

n

n

E = Za/2 √ npq

E então o intervalo de confiança para p será:

IC [ p ; ( 100 - α) % ]= p ± E

No exemplo da pesquisa eleitoral, n . p ∩=

2.500 * 0,52 = 1.300 e n.q ∩= 2.500 * 0,48

= 1.200. Como ambos os critérios foram

satisfeitos, dizemos que temos uma

amostra grande o bastante para justificar

a utilização do TCL, logo podemos obter

a margem de erro com o nível de 95% de

confiança:

E= 1,96 √ = 0,01960,52 × 0,48

2.500

E o intervalo de confiança será:

IC [ p ; 95% ] = 0,52 ± 0,0196

IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]

Podemos afirmar com 95% de confiança

que a verdadeira proporção de eleitores que

votam no candidato A em toda a população

está entre 50,04% e 53,96%. Observe que

afirmar com 95% de confiança significa

dizer que, se fossem feitas 100 pesquisas

e calculados os intervalos de confiança,

cerca de 95 deles conteriam a verdadeira

proporção de eleitores que votam no

candidato A.

Exemplo:

A empresa XYZ compra tubos de aço do

fornecedor A. Na última semana, a XYZ

recebeu uma proposta de comprar tubos de

aço do fornecedor B pela metade do preço

do fornecedor A. Para decidir, o gerente de

compras deseja estimar qual o percentual de

não conformidade nos tubos do fornecedor

B (proporção de tubos defeituosos). Em um

lote de 150 tubos havia 21 não conformes.

Obtenha o intervalo de 90% de confiança

para a verdadeira proporção de tubos não

conformes do fornecedor B.

Solução:

Uma estimativa pontual para a verdadeira

proporção de tubos não conformes é dada por:

ˆ

ˆ ˆ ˆ

ˆ ˆ

ˆ

ˆ

ˆ

unidade 5091

ESTATÍSTICA E PROBABILIDADES

p = 21 = 0,14

Verificamos que a aplicação do teorema

central do limite é adequada, pois n . p = 21

e n . q = 150 * 0,86 = 129, ou seja, ambos

são maiores que 5, indicando que a amostra

é suficientemente grande. Podemos estimar

a margem de erro do estudo pela equação:

E = 1,645 √ = 0,047

Então, definimos o intervalo com 90% de

confiança para p pela equação:

IC [ p ; 90% ] = p ± E

IC [ p ; 90% ] = 0,14 ± 0,047

IC [ p ; 90% ] = [ 0,093 ;0,187 ]

O gerente de compras pode afirmar,

com 90% de confiança, que a verdadeira

proporção de tubos não conformes

provenientes do fornecedor B está entre

9,3% e 18,7%. O gerente fará sua decisão

baseado nessa informação e em outras que

julgar convenientes.

150

E = Za/2 √ npq

0,14 × 0,86150

USO DO EXCEL NO CÁLCULO DE INTERVALOS DE CONFIANÇA PARA MÉDIA E PROPORÇÃO

Agora que você já sabe exatamente como

são obtidos os intervalos de confiança,

vamos utilizar o Excel para construir uma

calculadora de intervalos de confiança.

Começaremos pelo intervalo para média.

Nos tópicos anteriores, vimos que o

intervalo de confiança para a média

populacional pode ser obtido de duas

maneiras: utilizando a distribuição

normal (estatística z) ou a distribuição

t-student (estatística t). Vimos também

que a distribuição t-student é utilizada

quando o tamanho da amostra é menor

que 30 e o desvio-padrão populacional

é desconhecido. Nos outros casos,

utilizamos a distribuição normal.

Vamos construir primeiramente uma

calculadora para intervalos de confiança

utilizando a distribuição normal.

Utilizaremos os dados sobre consumo

de combustível do primeiro exemplo.

A figura abaixo ilustra como deve ficar

nossa calculadora nas colunas A e B.

ˆ

ˆ

ˆ ˆ

ˆ

unidade 5092

ESTATÍSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de confiança para média: amostras grandes ou desvio-padrão populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 são inseridas as informações iniciais do problema, como: desvio-padrão,

que pode ser tanto da população quanto da amostra; a média amostral ∩; o tamanho da

amostra n; e o nível de confiança desejado. Note que a célula B7 deve ser configurada como

porcentagem.

Nas linhas 9 a 11 são realizados cálculos intermediários como erro padrão da média σx (ou σx ∩),

o valor de z relativo ao nível de confiança desejado e a margem de erro resultante. As fórmulas

utilizadas para cada um dos cálculos são apresentadas exatamente à sua direita. Por exemplo,

na célula B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão dividido pela raiz do

tamanho da amostra. Nas linhas 13 e 14 é apresentado o intervalo de confiança, sendo limite

inferior do intervalo o valor de - E e o limite superior do intervalo o valor de + E.

Para construir a calculadora para amostras pequenas e desvio-padrão populacional

desconhecido, vamos utilizar os dados do exemplo sobre a resistência do concreto à

compressão. O procedimento é o mesmo do anterior, alterando apenas as informações

relativas aos parâmetros da distribuição t-student:

ˆ

unidade 5093

ESTATÍSTICA E PROBABILIDADES

FIGURA 30 - Calculadora para intervalo de confiança para média: amostras pequenas e desvio-padrão populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de confiança para proporções, vamos utilizar os

dados do exemplo da pesquisa eleitoral. Nesse caso, os dados iniciais são o número de

sucessos e o tamanho da amostra. Lembrando que a palavra sucesso está relacionada à

distribuição binomial e se refere ao número de vezes que ocorreu o evento de interesse. No

caso do exemplo sobre as eleições, o número de sucessos é a quantidade de entrevistados

que declarou intenção de votar no candidato A, 1300 pessoas. O tamanho da amostra foi de

2500 entrevistados. Com esses dados, calcula-se a proporção estimada p ∩ dividindo o número

de sucessos pelo tamanho da amostra (célula B6).

O erro padrão da média é calculado através da equação σp = √p.q = implementada na célula

B9. As demais células utilizam as mesmas fórmulas já apresentadas nas calculadoras

anteriores.

nˆˆ ˆ

unidade 5094

ESTATÍSTICA E PROBABILIDADES

FIGURA 31 - Calculadora para intervalo de confiança para proporção

Fonte: Elaborado pelo autor.

INTRODUÇÃO AO PROGRAMA EPIINFO

O software EpiInfo é uma ferramenta muito útil para análise de dados. Esse software foi

desenvolvido pelo Centro de Controle de Doenças (CDC) para análise de dados epidemiológicos,

entretanto pode ser utilizado em qualquer área, inclusive em engenharia. O software está

disponível no site www.cdc.gov/epiinfo

Veja no material web da disciplina os vídeos de instalação do EpiInfo e de introdução à análise

de dados utilizando essa ferramenta.

APLICAÇÃO PRÁTICA

Um fabricante de anéis para pistões de motor deseja verificar se seu produto atende as especificações

do cliente. Para isso, resolveu estimar o diâmetro médio dos anéis produzidos. A partir de uma amostra

unidade 5095

ESTATÍSTICA E PROBABILIDADES

de 40 anéis, registrou-se diâmetro médio de

74,045 milímetros com desvio-padrão de 0,02

milímetros. Construa o intervalo com 99% de

confiança para o verdadeiro diâmetro médio dos

anéis.

Solução:

Note que o enunciado não informou a distribuição

de probabilidade da variável diâmetro dos anéis

e, além disso, também não temos informação

a respeito do desvio-padrão populacional

dessa variável. Entretanto, como a amostra é

considerada grande (40 anéis), podemos valer

do teorema central do limite e afirmar que a

distribuição amostral do diâmetro médio dos

anéis é normal, com média μ e desvio-padrão σ⁄√n , onde μ é o verdadeiro diâmetro médio dos

anéis e σ o verdadeiro desvio-padrão. Sabemos

ainda que o estimador de μ é X ∩, a média amostral

e o estimador de σ é s, o desvio-padrão amostral.

Dessa forma, utilizaremos as equações abaixo

para construir o intervalo com 99% de confiança

para o verdadeiro diâmetro médio dos anéis.

IC [ μ ;99% ] = x ± E

Precisamos, portanto, encontrar a margem

de erro do estudo. Para isso, vamos utilizar a

equação:

Logo:

E = 2,575 * 0,02

= 0,008

Então:

IC [ μ ; 99% ] = 74,045 ± 0,008

O intervalo é comumente apresentado como

segue:

IC [ μ ;99% ] = [ 74,037 ; 74,053]

Dessa forma, afirmamos com 99% de confiança

que o diâmetro médio dos anéis está entre

74,037 milímetros e 74,053 milímetros.

E = Za/2 √nS

√40

REVISÃO

Nesta unidade, você aprendeu a construir

estimativas pontuais e por intervalos para

os verdadeiros parâmetros populacionais

através de dados provenientes de amostras.

Aprendeu também que existem ao menos

quatro maneiras de obter estimativas

intervalares, e que a escolha da maneira

adequada para cada situação é determinada

basicamente pelo tipo de dados (qualitativo

ou quantitativo) e pelo tamanho da amostra

( n < 30 ou n ≥ 30 ). O esquema abaixo

apresenta de maneira resumida o processo

de decisão:

unidade 5096

ESTATÍSTICA E PROBABILIDADES

FIGURA 32– Processo de decisão

Tipo de dados

Quantitativo parâmetro μ

Amostra grande ( n ≥ 30 )

Pelo teorema central do limite, o intervalo de

confiança pode ser obtido pelas equações 1 ou 2.

Amostra pequena ( n < 30 )

O intervalo de confiança pode ser obtido pela equação 3

apenas se a população tem distribuição normal.

Aplicável quando np ≥ 5 e nq ≥ 5

O intervalo de confiança pode ser

obtido pela equação 4.

Qualitativo parâmetro p

Equação 1: ∩ ± zα⁄2 √n

Equação 2: ∩ ± zα⁄2 √n

Equação 3: ∩ ± tα⁄2; n -1 √n

Equação 4: p ∩± zα⁄2 √p.q

σ

s

s

n

PARA SABER MAIS

Fonte: Elaborada pelo autor

Caso você tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse conteúdo,

recomendo a leitura do capítulo 5 do livro texto:

McCLAVE, James T. George Benson, Terry Sincich. Estatística para administração e economia. trad.

Fabrício Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo:

Pearson Prentice Hall, 2009.

Se você deseja uma leitura mais formal e tem interesse em demonstrações das equações, leia o capítulo

8 do livro texto:

ˆ ˆ ˆ

unidade 5097

ESTATÍSTICA E PROBABILIDADES

MONTGMOMERY, Douglas C. George C. Runger.

Estatística aplicada e probabilidade para

engenheiros. trad. e rev. téc. Verônica Calado.

Rio de Janeiro: LTC, 2009.

Se você deseja um estudo de caso com aplicação

do conteúdo na área de engenharia, leia o artigo:

NETO, Antônio Peli. Intervalos de confiança,

Intervalos de Predição e Campo de Arbítrio nas

Avaliações de Imóveis Urbanos. Associação

Brasileira dos Engenheiros Civis - Departamento

da Bahia. Bahia, 2010. Disponível em: <http://

www.abenc-ba.org.br/attachments/289_

ANTONIO_PELLI_ABNT%20NBR%2014653-2%20

%282%C2%BAProjeto%29212751_1.pdf>.

Acesso em 16 jun. 2015.

6UNIDADE

unidade 6099

PLANEJAMENTO DE EXPERIMENTOS

Na Unidade 5, Estimação de médias e proporções, você aprendeu a estimar

parâmetros populacionais a partir de dados amostrais. Você deve ter observado

que os resultados amostrais foram disponibilizados, mas não foram apresentados

os métodos utilizados para seleção das amostras ou sequer a justificativa para o tamanho

amostral. Nesta unidade você vai aprender a planejar um experimento de pequeno e médio

porte na área de Engenharia e Ciências Exatas, bem como calcular o tamanho mínimo de

uma amostra que tenha representatividade estatística.

Uma situação que utiliza o planejamento de experimentos muito frequentemente é o estudo

dos efeitos do tratamento térmico de metais sobre suas propriedades mecânicas. Considere

que uma equipe de engenharia deseja estudar o efeito de três diferentes tipos de banho

de têmpera sobre a dureza de um determinado tipo de aço. Os tipos de banho de têmpera1

utilizados são têmpera em água, têmpera em óleo e têmpera em solução aquosa de cloreto de

sódio (água salgada). O propósito do estudo é determinar qual banho de têmpera produzirá a

dureza máxima do aço.

A princípio, a equipe considerou suficiente para o propósito do estudo submeter um

determinado número de corpos de provas a cada meio de têmpera e medir a dureza da liga

metálica. A partir desses resultados calcular-se-ia a dureza média em cada um dos diferentes

tipos de banho. Aquele que apresentasse a maior dureza média seria o mais adequado.

A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa temperatura e, a seguir, resfriá-la rapidamente em um banho, usualmente água, óleo ou soluções salinas. Seu objetivo é, em geral, aumentar a dureza do aço e tornar mais elevadas suas resistências à tração, à compressão e ao desgaste

unidade 6100

ESTATÍSTICA E PROBABILIDADES

Entretanto, ao analisar o experimento com cautela, o engenheiro de produção detectou várias

questões que deviam ser respondidas antes do início da coleta de dados: água, óleo e água salgada

são os únicos banhos de interesse no processo de têmpera? Há outros fatores que possam afetar

a dureza do aço e que devem ser pesquisados? Quantos corpos de prova devem ser submetidos a

cada banho de têmpera? De que modo os corpos de prova devem ser alocados aos três diferentes

banhos? Em que ordem os dados devem ser coletados? Qual método de análise de dados deve ser

utilizado? Qual diferença entre dureza média será considerada significativa do ponto de vista prático?

Diante de todas essas questões, a equipe constatou a necessidade de utilizar técnicas

estatísticas para planejamento do experimento, a fim de assegurar a confiabilidade dos

resultados do estudo. São estas técnicas que você irá aprender nessa unidade.

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA PROPORÇÃO

Para alguns pesquisadores, a definição do tamanho da amostra é o único cuidado necessário

para validade estatística do estudo. Como você observou na introdução dessa unidade, existe

uma série de cuidados que devem ser tomados ao conduzir experimentos em engenharia,

além do tamanho da amostra. A começar pelo objetivo do estudo.

Se o objetivo do estudo é comparar resultados expressos em forma de porcentagens ou

proporções, existe um método adequado para o cálculo do tamanho amostral. Se o objetivo

é comparar resultados expressos em forma de médias, existe outro método adequado para

o cálculo do tamanho amostral. Diversos outros fatores podem ser considerados nestes

cálculos, alterando, assim, a adequação de cada método.

Neste tópico você aprenderá a calcular o tamanho amostral para um estudo que tem o

interesse de estimar uma proporção populacional. Os parâmetros controlados são o nível de

confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo:

Exemplo 8

Uma empresa fabricante de motores deseja comprar correias do fornecedor Borrachão,

pois o atual fornecedor tem apresentado um percentual elevado de peças defeituosas (não

unidade 6101

ESTATÍSTICA E PROBABILIDADES

conformes). Para estimar o percentual de

correias não conformes produzidas pelo

fornecedor Borrachão, a empresa fabricante

de motores deseja adquirir uma amostra que

seja representativa. A equipe de engenharia

deseja que seja conduzido um estudo com

95% de confiança e margem de erro máxima

da estimativa de 2 pontos percentuais, para

mais ou para menos. Qual o tamanho de

amostra necessário para esse estudo? A

equação abaixo deverá ser utilizada para o

cálculo do tamanho amostral desejado:

Equação 1: Tamanho de amostra

exigido para estimativa de uma

proporção populacional – Conhecendo

uma estimativa de p

n = Za/2pq

Onde:

n: é o tamanho da amostra calculado

zα⁄2 : escore z que separa uma área de

α/2 na cauda direita da distribuição

normal padrão

p: é uma estimativa da verdadeira proporção

populacional.

q ∩: é obtido por 1-p ∩

E: é a margem de erro máxima aceitável

para o estudo.

Note que a equação acima exige que

se tenha um conhecimento prévio da

E2

ˆˆ

ˆ

ˆ ˆ

verdadeira proporção populacional. Esse

pressuposto pode não ser satisfeito na

prática. Nesse caso, deve-se utilizar o valor

0,5 no lugar de p, e a equação passa a ser:

Equação 2: Tamanho de amostra

exigido para estimativa de uma

proporção populacional –

Desconhecendo estimativa de p ̂

n = Za/20,25

Para o exemplo das correias, a equipe

utilizou a equação 2, uma vez que não havia

conhecimento sobre a estimativa de p.

n = 1,96 x 0,25

n = 1.225

Dessa forma, a equipe concluiu que para

estimar a verdadeira proporção de correias

não conformes produzidas pelo fornecedor

Borrachão, com 95% de confiança e uma

precisão de 2%, será necessário coletar uma

amostra de 1.225 correias.

Note que, caso a equipe tivesse uma

informação quanto ao verdadeiro percentual

de correias não conformes e desejasse

realizar um estudo apenas para confirmação

da informação o tamanho amostral, poderia

ser significativamente menor. Suponha

que o fornecedor Borrachão afirmasse

que o percentual de peças não conformes

ˆ

ˆ

ˆ

E2

0,022

ˆ

unidade 6102

ESTATÍSTICA E PROBABILIDADES

fosse de 5%. A equipe poderia utilizar essa

informação como uma estimativa de p e

poderia então utilizar a equação 1:

n = 1,96 x 0,5 x 0,95

n = 232,8 ˜ 233

Observe que o tamanho de amostra

necessário para confirmar a afirmação

do fornecedor é de apenas 233 correias.

Isso sempre acontecerá, ou seja, o

tamanho amostral resultante da equação

1 será sempre menor que o resultante

da equação 2, pois na primeira já temos

um conhecimento a priori do verdadeiro

valor populacional e desejamos apenas

confirmá-lo.

0,022

IMPORTANTE

É importante destacar que, para o cálculo do

tamanho amostral, o resultado deve ser sempre

arredondado para cima, independentemente

do valor decimal. Assim, no exemplo anterior,

caso o cálculo exato resultasse em 232,1

ainda assim arredondaríamos para 233

correias. Isso ocorre porque o tamanho de

amostra mínimo necessário para atender aos

requisitos do nível de confiança e margem

de erro seria de 232,1 correias. Como não

faz sentido amostrar 0,1 correia, devemos

selecionar uma peça a mais.

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA PROPORÇÃO – POPULAÇÃO FINITA

ˆ

No tópico anterior aprendemos a calcular

o tamanho de amostra para estimar

uma proporção, mas observe que não

foi considerado o total de elementos na

população. Isso ocorre em situações em

que a população é considerada infinita, ou

seja, o número de elementos da população

é tão grande que pode ser considerado

infinito. Em algumas situações, no entanto,

esse pressuposto não é minimamente

razoável. Nessas situações precisamos

utilizar um fator de correção para população

finita. Utilizamos, então, a equação 3:

Equação 3: Tamanho de amostra

exigido para estimativa de uma

proporção populacional –

Correção para população finita

n = pq (za/2)2

Considere que desejamos estimar o

percentual de peças defeituosas em um lote

de 100 peças. Qual o tamanho de amostra

necessário, se queremos uma estimativa

com 90% de confiança e margem de erro

máxima de 3%? Utilizando a equação 2

pq (za/2)2 + (N - 1) E2ˆˆ

ˆˆ

unidade 6103

ESTATÍSTICA E PROBABILIDADES

teríamos o seguinte resultado:

n = 1,645 x 0,25 = 457

Observe que o resultado da equação é

irreal, pois como poderíamos amostrar 457

peças em um lote de 100? Nessa situação

devemos utilizar a equação 3, que leva em

consideração o tamanho do lote:

n = 100 x 0,5 x 0,5 (1,645)2

O tamanho da amostra passa a ser então

89 peças, o que é real, ou possível, tendo em

vista que o tamanho do lote é de 100 peças.

Caso já existisse uma informação sobre

o percentual de peças defeituosas e fosse

desejável apenas confirmar a informação,

o tamanho amostral seria menor. Por

exemplo, considere que normalmente

cerca de 5% das peças são defeituosas.

Para confirmar tal informação, seriam

necessárias 60 peças na amostra.

n = 100 x 0,05 x 0,95 (1,645)2

0,032

0,5 x 0,5 (1,645)2 + (100 - 1) 0,032

0,05 x 0,95 (1,645)2 + (100 - 1) 0,032

n = 89

n = 60

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA MÉDIA

No início dessa unidade falamos que o

cálculo do tamanho amostral depende

de vários fatores, sendo o principal deles

o objetivo do estudo. Nesta seção você

aprenderá a calcular o tamanho amostral

para um estudo que tem o interesse de

estimar uma média populacional. Os

parâmetros controlados continuam sendo

o nível de confiança e a margem de erro

máxima desejados para o estudo. Vejamos

um exemplo:

Exemplo 9

Uma empresa fabricante de baterias

automotivas desenvolveu um novo produto

e deseja estimar a sua vida média. De

estudos anteriores, sabe-se que a vida

média das baterias produzidas por esse

fabricante segue uma distribuição normal,

com desvio-padrão de seis meses. A

equipe de engenharia do produto ressalta

a importância da correta estimação da vida

média da bateria, pois a partir desta será

determinado o tempo de garantia. Por essa

razão, decidiu-se que o nível de confiança

do estudo será de 99% e a margem de erro

máxima aceitável para a estimativa é de

três meses. Utilizando a equação abaixo,

unidade 6104

ESTATÍSTICA E PROBABILIDADES

a equipe poderá determinar o tamanho

amostral necessário para atender às

exigências do estudo.

Equação 4: Tamanho de amostra exigido

para estimativa de uma média populacional

n = { Za/2Ợ }2

Onde:

n: é o tamanho da amostra

Za/2: escore z que separa uma área de

α/2 na cauda direita da distribuição

normal padrão

σ: é o desvio-padrão populacional

E: é a margem de erro máxima aceitável

para a estimativa.

Utilizando a equação 4, a equipe determinou

que para estimar a vida média da nova

bateria desenvolvida, com 99% de confiança

na estimativa e margem de erro máxima de

três meses, será necessária uma amostra

de 27 baterias.

n = { 2,575 x 6 }2

n = 26,5 ˜ 27

Ao calcular tamanho de amostra para

estimativa de uma média populacional,

continua valendo aquela regra de

arredondamento apresentada no tópico

anterior, ou seja, devemos sempre

E

E

arredondar o resultado para cima.

Você deve ter observado no exemplo 9

que já dispúnhamos de uma estimativa a

priori do desvio-padrão populacional (σ),

ou seja, a equipe utilizou o desvio-padrão

das outras baterias. Em muitas situações

práticas, o desvio-padrão populacional não

é conhecido e nesses casos pode-se utilizar

uma das seguintes alternativas:

1 – Utilização da regra empírica da

amplitude para estimação do desvio-

padrão: σ ≈ Amplitude⁄4. Para aplicação

dessa alternativa, é necessário

coletar uma amostra piloto de

aproximadamente 87 observações.

Para maior esclarecimento sobre essa

regra, consulte Triolla (2013), seção 3-3.

2 – Comece o processo de coleta sem o

conhecimento de σ e, como base nos

primeiros resultados, obtenha o desvio-

padrão amostral s. Use essa estimativa

em lugar de σ.

3 – Utilize o valor de σ estimado por outros

estudos realizados anteriormente.

unidade 6105

ESTATÍSTICA E PROBABILIDADES

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA MÉDIA – POPULAÇÃO FINITA

Nos tópicos anteriores apresentamos

uma fórmula alternativa para o cálculo

do tamanho amostral para estimativa de

uma proporção populacional, no caso

de populações finitas. Da mesma forma,

para calcular o tamanho amostral para

estimativa de uma média populacional, no

caso de populações finitas, existe também

um fator de correção. A equação abaixo

apresenta o método correto para essas

situações:

Equação 5: Tamanho de amostra

exigido para estimativa de uma média

populacional – população finita

n = Nσ2 (Za/2)2

Exemplo 10

Suponha que o exército brasileiro deseje

encomendar uma remessa de uniformes

para os novos recrutas. Para melhor

adequação dos tamanhos dos uniformes,

o sargento decidiu obter uma estimativa da

altura média deles. Dos 100 novos recrutas,

o sargento deseja obter a estimativa

a partir de uma amostra com 95% de

(N - 1) E2 + σ2(Za/2)2

confiança e margem de erro máxima de

cinco centímetros. Sabendo que nos anos

anteriores o desvio-padrão da altura dos

recrutas era de 30 centímetros, o sargento

utilizou a equação 4 para determinar

o tamanho da amostra necessária,

encontrando o valor 139 (maior que o total

de novos recrutas):

n = { 1,96 x 30 }2

n = 139

Sem entender o que havia feito de errado, o

sargento decidiu conversar com um soldado

que tinha conhecimento de estatística para

auxiliá-lo. O soldado informou então que,

neste caso, o sargento deveria utilizar a

equação 5, que leva em consideração o

tamanho populacional. Utilizando o método

adequado, o sargento decidiu, portanto, que

para estimar a altura média dos 100 novos

recrutas, com 95% de confiança e margem

de erro máxima da estimativa de cinco cm,

era necessária uma amostra de 59 recrutas:

n = 100 x 302 (1,96)2

n = 58,3 ˜ 59

5

(100 - 1) x 52 +302 x (1,96)2

unidade 6106

ESTATÍSTICA E PROBABILIDADES

PLANEJAMENTO DE EXPERIMENTOS

O planejamento de experimentos,

também conhecido como DOE (Design of

Experiments), é um conjunto de técnicas

estatísticas que visa garantir uma coleta

de dados eficiente para uma análise de

dados que seja informativa e confiável. Esse

conjunto de técnicas tem vasta utilização

em diversas áreas do conhecimento, desde

ciências ligadas à saúde até as engenharias.

Em engenharia, especialmente, o DOE é

utilizado principalmente em Pesquisa e

Desenvolvimento, ou na área de qualidade e

desenvolvimento do produto.

O propósito dos experimentos planejados,

estatisticamente, é tornar a análise de

dados tão informativa quanto possível.

Experimentos que tenham sido mal

planejados fornecem pouca ou nenhuma

informação útil, mesmo com sofisticadas

técnicas de análise de dados, e podem levar,

inclusive, à conclusões completamente

equivocadas.

Em engenharia, o DOE é utilizado em

conjunto com outras técnicas estatísticas,

como as cartas de controle de processos,

por exemplo, ou combinado ao ciclo PDCA.

Nesses casos o objetivo é, normalmente,

estudar os efeitos de possíveis fatores

sobre o resultado de um processo, expresso

como uma característica da qualidade do

produto (ou processo). O planejamento de

experimentos pode ser definido assim:

Um experimento é um procedimento no

qual alterações propositais são feitas

nas variáveis de entrada de um processo

ou sistema, de modo que se possa

avaliar as possíveis alterações sofridas

pela variável resposta como também as

razões destas alterações (WERKEMA &

AGUIAR, 1996).

Todo processo ou sistema é impactado

pelos insumos e por um conjunto de fatores.

O objetivo do DOE é identificar quais são os

fatores que atuam sobre o processo, quais

desses fatores são controláveis e, dentre os

controláveis, qual a relação que têm com o

resultado do processo ou a característica

de qualidade de interesse. A figura

abaixo ilustra essa situação, podem estar

aturando sobre o sistema os insumos, os

equipamentos, as informações do processo,

as condições ambientais, as pessoas, os

métodos e os procedimentos:

unidade 6107

ESTATÍSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema

Fatores de ruído (não controláveis)

SISTEMA (PRODUTO/PROCESSOEntradas

V Varíaveis resposta (Características de

Qualidade)

Fatores controláveis (especificados pelo pesquisador)

Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situação em que se deseja estudar a resistência à compressão de um concreto.

O engenheiro civil identificou que existem quatro tipos de técnicas de mistura desse concreto

e ele acredita que a resistência à compressão resultante varia conforme a técnica de mistura

utilizada. O objetivo do engenheiro é determinar qual a técnica produzirá o concreto com maior

resistência.

Com esse objetivo, decidiu produzir uma série de corpos de prova, utilizando cada uma das

quatro técnicas e medindo a resistência à compressão desses concretos. A resistência média

seria utilizada para determinar qual seria a melhor técnica de mistura.

Analisando o experimento com mais cautela, o engenheiro detectou várias questões que

deveriam ser respondidas antes do início da coleta de dados: existem apenas essas quatro

técnicas de mistura ou existem outras? Por que foram escolhidas estas quatro técnicas?

Existem outros fatores que possam afetar a resistência à compressão do concreto? Quantos

corpos de prova devem ser produzidos com cada técnica? De que modo os corpos de prova

devem ser alocados às diferentes técnicas de mistura? Qual método de análise de dados deve

ser utilizado? Qual resistência à compressão deverá ser considerada significativa do ponto de

vista prático?

Em todo experimento, a forma de coleta dos dados é fundamental para interpretação dos

resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo

unidade 6108

ESTATÍSTICA E PROBABILIDADES

sobre a resistência à compressão do

concreto tenham sido utilizados quatro

sacos de cimento, provenientes de quatro

fornecedores distintos, sendo alocados da

seguinte maneira:

Técnica de mistura 1 – cimento do

fornecedor A

Técnica de mistura 2 – cimento do

fornecedor B

Técnica de mistura 3 – cimento do

fornecedor C

Técnica de mistura 4 – cimento do

fornecedor D

Você concorda com esse procedimento?

Ao adotá-lo, o engenheiro assumiu que as

características do cimento dos diferentes

fornecedores são idênticas, ou que qualquer

diferença entre os cimentos não exerceria

influência sobre a resistência à compressão

dos corpos de prova. Entretanto, não

podemos tomar essa conduta, pois é

bem provável que existam características

específicas de cada fornecedor que

poderiam impactar na resistência à

compressão dos corpos de prova.

Da maneira como o estudo foi conduzido

pelo engenheiro, quando forem obtidas

as resistências à compressão médias de

cada técnica ele não será capaz de dizer

quanto da diferença observada é resultado

da técnica de mistura utilizada e quanto

é resultado das diferenças inerentes aos

quatro tipos de cimento utilizados. Nesse

caso, dizemos que o efeito da técnica de

mistura foi confundido com o efeito do

tipo de cimento. Vamos apresentar agora

três princípios básicos do planejamento

de experimentos que devem ser sempre

utilizados. Estes princípios são: réplica,

aleatorização e blocagem.

As réplicas são repetições do experimento

feitas sob as mesmas condições

experimentais. No exemplo que estamos

considerando, uma réplica do experimento

completo consiste em medir a resistência

à compressão de um corpo de prova

produzido pela técnica de mistura 1, outro

pela técnica 2, outro pela técnica 3 e outro

pela técnica 4. Se três corpos de prova

foram produzidos para cada técnica,

dizemos que foram produzidas três réplicas

do experimento (veja que teremos 3 x 4 = 12

corpos de prova, mas apenas três réplicas).

É muito importante que as réplicas sejam

produzidas sob as mesmas condições

experimentais. Isso significa que todos

os demais fatores que possam exercer

impacto sobre a característica resultante de

interesse devem ser mantidos constantes.

O segundo princípio básico do DOE é a

aleatorização. De acordo com esse princípio,

são definidos de maneira aleatória tanto a

ordem de realização dos ensaios individuais

unidade 6109

ESTATÍSTICA E PROBABILIDADES

do experimento, quanto a alocação de cada

corpo de prova às respectivas condições

experimentais. Esse princípio garante

que o efeito dos fatores não controláveis

sejam distribuídos igualmente ao longo de

todos os ensaios, evitando assim que haja

confusão do efeito desses fatores com o

efeito dos fatores de interesse.

No exemplo citado, suponha que os corpos

de prova serão produzidos por operadores

distintos e, como se sabe, a habilidade dos

operadores pode influenciar a qualidade

do concreto produzido. Logo, se todas as

amostras produzidas através da técnica de

mistura 1 forem feitas pelo operador menos

experiente, poderemos estar continuamente

colocando a técnica de mistura 1 em

desvantagem, em relação às outras

técnicas de mistura. A distribuição aleatória

da ordem de produção de cada corpo de

prova para cada operador atenuaria esse

problema.

O terceiro e último princípio básico é o

princípio da blocagem. Chamamos de

blocos os conjuntos homogêneos de

unidades experimentais. No exemplo

considerado, os corpos de prova são

produzidos com cimento de fornecedores

distintos. Logo são bastante heterogêneos

em relação a outros fatores além da técnica

de mistura.

Para resolver esse problema, podemos

realizar o experimento da seguinte maneira:

Cada pacote de cimento será utilizado

para produzir um corpo de prova para cada

técnica de mistura. Nesse caso, cada bloco

é um pacote de cimento (fornecedor) que

será utilizado para produzir quatro corpos

de prova. A figura 34 ilustra como ficaria o

experimento. Cada retângulo vertical (azul

claro) é considerado um bloco enquanto

cada retângulo horizontal (azul escuro) é

um corpo de prova produzido por uma das

quatro técnicas de mistura. Logo, para o

cimento proveniente do fornecedor A, por

exemplo, serão produzidos quatro corpos

de prova, um para cada técnica de mistura.

Este procedimento é mais adequado que

aquele proposto pelo engenheiro no início

da seção, em que cada pacote de cimento

seria utilizado para produção de quatro

corpos de prova, utilizando uma única

técnica de mistura.

unidade 6110

ESTATÍSTICA E PROBABILIDADES

FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto

FORNECEDOR A FORNECEDOR B FORNECEDOR C FORNECEDOR D

Téc. 1 Téc. 1 Téc. 1 Téc. 1

Téc. 2 Téc. 2 Téc. 2 Téc. 2

Téc. 3 Téc. 3 Téc. 3 Téc. 3

Téc. 4 Téc. 4 Téc. 4 Téc. 4

Fonte: Elaborado pelo autor

TERMINOLOGIA BÁSICA

Agora que você já aprendeu quais são os princípios básicos do DOE, vamos aprender alguns

termos comuns e muito úteis para o bom planejamento do experimento. Serão apresentados

seis termos básicos, a saber: Unidade Experimental, Fatores, Níveis de um Fator, Tratamento,

Ensaio e Variável Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo

sobre resistência à compressão do concreto, do tópico anterior, e definir cada termo.

A Unidade Experimental é a unidade básica para a qual será feita a medida da resposta. No

nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto

utilizado no estudo.

Os Fatores são os tipos distintos de condições que são manipuladas as unidades

experimentais. Ou seja, são as variáveis controláveis que podem exercer influência sobre a

variável resposta. E desejamos conhecer essa influência. No exemplo citado temos um único

fator: técnica de mistura.

Os Níveis de um fator são os diferentes modos de presença de um fator no estudo considerado.

No exemplo citado, os níveis do fator técnica de mistura são os diferentes tipos de técnica:

Técnica 1, Técnica 2, Técnica 3 e Técnica 4. Podemos dizer, portanto, que nosso fator tem

quatro níveis.

unidade 6111

ESTATÍSTICA E PROBABILIDADES

Chamamos de Tratamento as combinações

específicas dos níveis de diferentes fatores.

Quanto temos apenas um fator, como no

nosso exemplo, os tratamentos são os

próprios níveis dos fatores, Tratamento

1 = Técnica 1, Tratamento 2 = Técnica 2,

Tratamento 3 = Técnica 3 e Tratamento 4 =

Técnica 4.

Em alguns estudos podemos desejar

estudar dois ou mais fatores com diferentes

níveis. Nesses casos, os tratamentos

seriam a combinação de cada nível do fator

1 com cada um dos diferentes níveis do

fator 2. Suponha que um engenheiro deseja

estudar o efeito de dois métodos de pintura

de para-choques de automóveis (imersão e

aspersão) e de três tipos de tinta (A, B e C)

sobre a força de adesão da tinta.

Aqui, o fator 1 seria o método de pintura,

que tem dois níveis (Imersão e Aspersão) e

o fator 2 seria o tipo de tinta, que tem três

níveis (A, B e C). Para esse estudo, teríamos

2x3=6 tratamentos, a saber: T1 = Imersão +

Tinta A, Imersão + Tinta B, Imersão + Tinta

C, Aspersão + Tinta A, Aspersão + Tinta B

e por fim, Aspersão + Tinta C. Observe que

a unidade experimental seria cada um dos

para-choques sobre os quais aplicaríamos

os distintos tratamentos.

Definimos como Ensaio cada realização do

experimento em uma determinada condição

de interesse (tratamento), ou seja, ao aplicar

um tratamento a uma unidade experimental,

realizamos um ensaio. No nosso exemplo

sobre a resistência à compressão do

concreto, cada ensaio consiste em produzir

um corpo de prova utilizando determinada

técnica de mistura do concreto.

No exemplo sobre os métodos de pintura de

para-choques automotivos, um ensaio seria

aplicar um tratamento em uma unidade

experimental (para-choque), por exemplo,

pintar um para-choque por Imersão usando

tinta A.

Por fim, o termo Variável Resposta, você

já conheceu nas unidades anteriores,

nada mais é que o resultado de interesse

registrado após a realização de um ensaio.

No exemplo sobre as técnicas de mistura do

concreto, a variável resposta é a resistência

à compressão do corpo de prova produzido

com cada uma das técnicas de mistura. Já

no exemplo sobre os métodos de pintura

de para-choques automotivos, a variável

resposta é força de adesão da tinta sobre o

para-choque, medida após a aplicação da

tinta com cada método de aplicação e tipo

de tinta.

unidade 6112

ESTATÍSTICA E PROBABILIDADES

APLICAÇÃO PRÁTICA

Considere que você tenha uma máquina de

secar roupas que trabalha com diferentes

níveis de temperatura e deseja determinar o

efeito do nível de temperatura sobre o tempo

de secagem das roupas.

a) Defina para essa situação cada um

dos seis termos básicos.

b) O que seria uma réplica nesse estudo?

c) Descreva um viés de amostragem

que poderia ser resolvido pela

aleatorização.

d) Descreva um viés de amostragem que

poderia ser resolvido pela blocagem.

SOLUÇÂO:

a) Unidade Experimental: Cada trouxa de

roupa molhada que será introduzida para

secagem.

Fator: O fator, nesse caso, é a temperatura

de operação da máquina de lavar.

Níveis do fator: Os níveis do fator são

as diferentes faixas de temperatura da

secadora, podendo ser Baixo, Médio e Alto,

por exemplo.

Tratamento: Como estamos trabalhando

com um único fator, os níveis do fator

são o próprio tratamento, logo, T1=baixo,

T2=médio e T3 = Alto.

Ensaio: Um ensaio seria secar uma trouxa

de roupa utilizando temperatura baixa, por

exemplo. Outro ensaio seria secar outra

trouxa de roupa utilizando temperatura alta.

Variável resposta: A variável resposta

desse estudo é o tempo para secagem das

roupas, que pode ser medido em minutos,

por exemplo.

b) Para este estudo, uma réplica seria secar

umas três trouxas de roupa, sendo uma

para cada nível de temperatura da secadora,

ou seja, um ensaio para cada um dos

tratamentos existentes.

c) A temperatura ambiente poderia ser um fator,

de maneira que, caso realizássemos todos

os ensaios com tratamento 1 (temperatura

baixa) no período manhã (normalmente mais

frio) e todos os ensaios com tratamento

3 (temperatura alta) no período da tarde

(normalmente mais quente), por exemplo,

no final não saberíamos dizer quanto da

diferença no tempo de secagem é devido

aos diferentes níveis de temperatura da

máquina, e quanto é devido à variação

da temperatura ambiente. Aleatorizando

a ordem de realização dos ensaios

atenuaríamos esse problema.

d) Diferentes tipos de roupa poderiam ser um

problema, uma vez que roupas com malhas

mais grossas levam um tempo maior para

secar do que outras. Devem-se agrupar as

unidade 6113

ESTATÍSTICA E PROBABILIDADES

roupas por características semelhantes de fabricação, como leveza do pano, tamanho das peças.

A quantidade das mesmas também deve ser controlada para que cada ensaio seja feito de forma

mais homogênea possível. Por exemplo, se tiver disponível três peças de moletom, deve-se alocar

uma a cada trouxa de roupas, ou se tiver seis peças jeans, deve-se alocar duas para cada trouxa

de roupas.

REVISÃO

Nesta unidade você aprendeu que, para calcular o tamanho amostral, diversos fatores devem

ser levados em consideração. Em especial você aprendeu a calcular o tamanho amostral em

quatro situações: quando o objetivo do estudo é a estimativa de uma proporção populacional,

sendo o tamanho populacional finito ou “infinito”. E quando o objetivo do estudo é a estimativa

de uma média populacional, novamente, sendo o tamanho populacional finito ou “infinito”. O

quadro abaixo resume essas situações:

QUADRO 4 - Equações para cálculo de tamanho amostral segundo objetivos do estudo

Estimar uma proporção populacional Estimar uma média populacional

População Infinita: Equação 1

n = Za/2 pq

População Infinita: Equação 3

n = { Za/2Ợ }2

População Finita: Equação 2

n = Nqp (Za/2)2

População Finita: Equação 2

n = Nσ2 (Za/2)2

ˆˆ

ˆˆ

ˆˆ

E2 E

pq (Za/2)2 + (N - 1) E2 (N - 1) E2 + σ2(Za/2)2

Fonte: Elaborado pelo autor.

Você aprendeu também que em qualquer área do conhecimento a coleta de dados deve ser

sempre precedida pelo planejamento do experimento. Essa prática assegura a confiabilidade

dos resultados e simplifica os métodos de análise. Por outro lado, a não observância dessa

prática inviabiliza a utilização dos resultados a despeito de qualquer técnica estatística, por

mais sofisticada que seja.

Neste sentido, os princípios básicos que você aprendeu foram: réplica, aleatorização e

unidade 6114

ESTATÍSTICA E PROBABILIDADES

blocagem. E também os seis termos básicos

utilizados em qualquer planejamento

de experimentos, a saber: Unidade

Experimental, Fatores, Níveis de um fator,

Tratamento, Ensaio e Variável Resposta.

PARA SABER MAIS

Se você tem interesse em aprender mais

sobre o cálculo do tamanho de amostra para

estimação de médias ou proporções, levando em

consideração o nível de confiança e margem de

erro da estimativa, leia o capítulo 8 do livro:

MONTGMOMERY, Douglas C. George C. Runger.

Estatística aplicada e probabilidade para

engenheiros. trad e rev téc Verônica Calado - Rio

de Janeiro: LTC, 2009.

Para este assunto você pode ler também o

capítulo 7 do livro:

TRIOLLA, Mario F. Introdução à Estatística:

Atualização da tecnologia. trad e rev téc Ana

Maria Lima de Farias, Vera Regina Lima de Farias

e Flores. Rio de Janeiro: LTC, 2013.

Se você tem interesse em aprofundar sobre

Planejamento de Experimentos, leia o capítulo

13 do livro:

MONTGMOMERY, Douglas C. George C. Runger.

Estatística aplicada e probabilidade para

engenheiros. trad e rev téc Verônica Calado. Rio

de Janeiro: LTC, 2009.

Ou você pode ler o capítulo 1 do livro:

WERKEMA, Maria Cristina Catarino; AGUIAR,

Silvio. Planejamento e análise de experimentos:

Como Identificar as principais variáveis

influentes em um processo. Belo Horizonte:

Fundação Cristiano Ottoni, Escola de Engenharia

da UFMG, 1996.

7UNIDADE

unidade 7116

TESTES DE HIPÓTESES

O teste de hipóteses é uma técnica estatística utilizada para avaliar alguma

afirmação feita sobre uma população de interesse através de dados amostrais.

Por exemplo: um engenheiro pode estar interessado em avaliar a hipótese de que

o tempo de duração de um fusível seja de 1.000 horas, contra a hipótese de que tal valor

seja diferente de 1.000 horas. Essa seria uma afirmação sobre uma média, uma vez que a

variável de interesse – tempo de duração – é quantitativa. Nesse caso, o objetivo é testar

se a hipotética média de 1.000 horas é verdadeira.

No exemplo em questão, seria impraticável observar o tempo de duração de todos os fusíveis

fabricados, ou seja, da população de interesse. De forma que é necessária a utilização de

dados amostrais. O engenheiro poderia selecionar alguns fusíveis, calcular o valor da média e

comparar com o valor proposto de 1.000 horas.

Você irá aprender que, além de avaliar afirmações sobre médias, as hipóteses estatísticas

também podem ser testadas para outros parâmetros de interesse, como proporções (em caso

de variáveis categóricas), desvio-padrão, medianas, etc.

unidade 7117

ESTATÍSTICA E PROBABILIDADES

A CONSTRUÇÃO E O SIGNIFICADO DE UMA HIPÓTESE ESTATÍSTICAUma hipótese estatística pode ser

construída a partir de alguma teoria sobre

determinado assunto, ou através de

alguma afirmação sobre certo parâmetro

da população em análise. No caso do

engenheiro interessado em testar se o

tempo médio de duração de um fusível é

1.000 horas, a hipótese não se deu através

de uma teoria, mas possivelmente em

função da experiência dele com o assunto.

Um teste estatístico tem como objetivo o

fornecimento de evidências para subsidiar a

decisão de rejeitar ou não rejeitar uma hipótese

sobre algum parâmetro de uma população

através de dados obtidos por uma amostra.

A afirmação sobre a média populacional

é tida como a hipótese nula. Damos o

nome de hipótese alternativa à afirmação

contrária à da hipótese nula.

CONCEITO CONCEITOHipótese nula: Refere-se a uma afirmação do

que queremos provar sobre algum parâmetro.

Geralmente representada por H0.

Hipótese alternativa: Refere-se a uma afirmação

contrária ao que queremos provar. Geralmente

representada por H1 ou Ha.

Exemplo 7.1

Um fabricante afirma que o tempo médio

de secagem da tinta de sua marca é de 30

minutos. Uma pessoa decide testar se essa

afirmação é verdadeira. Para isso, marca o

tempo de secagem de 40 paredes e depois

calcula a média. Quais seriam as hipóteses

nula e alternativa?

SOLUÇÃO:

A hipótese nula é o tempo de secagem, igual

a 30 minutos.

A hipótese alternativa é o contrário (ou

o complemento): o tempo de secagem é

diferente de 30 minutos. As hipóteses são

representadas da seguinte forma:

H0: μ = 30 minutos

H1: μ ≠ 30 minutos

Além da definição acerca das hipóteses,

o nível de significância também deve ser

escolhido pelo analista.

Nível de significância: Consiste na probabilidade

de rejeitar a hipótese nula, dado que ela é

verdadeira. Geralmente é representado pela letra

grega alfa (α). O nível de significância também é

conhecido como erro tipo I.

unidade 7118

ESTATÍSTICA E PROBABILIDADES

Qual seria o significado da expressão “...

rejeitar a hipótese nula, dado que ela é

verdadeira”? Assim como no exemplo do

tempo de duração do fusível, em que o

analista resolve testar se a afirmação de

que o fusível sobrevive por 1.000 horas,

a operacionalização do teste ocorre a

partir de dados amostrais. Nesse caso,

pode ser obtida uma amostra muito ou

pouco parecida com a população. Tanto

no primeiro como no segundo caso

existem probabilidades associadas.

Existem chances de coletar uma amostra

que dê evidências de que a hipótese seja

rejeitada, mesmo quando, na verdade,

a hipótese seja verdadeira. O analista

sempre corre o risco de tomar uma

decisão equivocada no que se refere à

rejeição ou não da hipótese nula, cabendo

a ele escolher quanto risco aceita correr.

Esse risco é conhecido como nível de

significância e geralmente é estipulado

em 10%, 5% ou 1%. Dessa forma, ao

efetuar um teste de hipóteses com 5% de

significância, podemos afirmar que exista

5% de probabilidade de rejeitar a hipótese

nula, quando na verdade ela é verdadeira,

ou seja, 5% de chance de cometer o erro

tipo I.

Os testes de hipótese com afirmações

sobre médias ou proporções podem ser

feitos principalmente com uma ou duas

amostras. No primeiro caso é testada

uma afirmação sobre o valor que a

variável assume. No segundo caso são

comparados os valores de média ou

proporção entre dois grupos. Além disso,

podemos fazer testes unilaterais ou

bilaterais. O próximo tópico aborda o teste

bilateral com uma amostra.

TESTES PARA UMA AMOSTRA

A distribuição da estatística de teste

tende para o formato de uma distribuição

normal quando o tamanho da amostra é

relativamente grande (geralmente maior

ou igual a 30). Se o tamanho da amostra

for pequeno (menor do que 30) e o desvio-

padrão for desconhecido, a distribuição da

estatística de teste apresenta formato mais

próximo da distribuição t de Student. Essa

informação é importante porque definirá até

que valor da estatística de teste a hipótese

deve ser rejeitada.

TESTES DE GRANDES AMOSTRAS PARA UMA MÉDIA POPULACIONAL

O exemplo a seguir consiste numa situação

em que é feita uma afirmação acerca

do valor de uma média (parâmetro mais

testado quando trabalhamos com variáveis

quantitativas).

unidade 7119

ESTATÍSTICA E PROBABILIDADES

Exemplo 7.2

Uma indústria realiza o empacotamento

do produto café em grãos. Um dos

objetivos é que a embalagem contenha

500 gramas de café. É natural que em

situações como essa exista alguma

variação no peso do produto empacotado.

Dessa forma, podem ter pacotes com

498 gramas, com 502 gramas, com 501

gramas, com 499 gramas, ou qualquer

outro valor próximo do especificado.

No entanto, a indústria geralmente

trabalha para que exista certa margem

de aceitação tanto para cima quanto para

baixo, devido aos seguintes fatores:

a) pacotes com volume muito

alto podem provocar aumento

exagerado de custos;

b) pacotes com peso muito abaixo

dos 500 gramas podem provocar

sanções à indústria junto aos

órgãos de fiscalização.

Para certificar de que o peso esteja

dentro da margem aceitável, pode ser

inviável verificar todos os produtos

embalados (ou seja, toda a população

de interesse). Nesse contexto, torna-se

interessante utilizar amostras para testar

se o processo encontra-se dentro de

padrões aceitáveis, ou seja, para testar se

o processo encontra-se sobre controle.

Suponha que um profissional especializado

em controle estatístico de processos resolva

fazer esse teste. Nesse caso, o objetivo é

testar a hipótese de que o processo esteja

sob controle, ou seja, que o peso médio

do café após empacotamento seja de 500

gramas. Para a operacionalização do teste,

36 pacotes foram inspecionados (pesados).

Sabendo que a média obtida através dessa

amostra foi de 502 gramas, e que o desvio-

padrão foi de 3 gramas, podemos afirmar

que o processo está sob controle?

Para operacionalizar esse teste, devemos

seguir as seguintes etapas:

1ª etapa: Estabeleça as hipóteses de

interesse

No caso em estudo, o parâmetro2 a ser

testado é a média. Temos o interesse em

verificar se ela é igual a 500 gramas. Então

devemos estabelecer as hipóteses nula e

alternativa. Dessa forma, as hipóteses são:

H0: μ = 500 gramas

H1: μ ≠ 500 gramas

2 - Um parâmetro refere-se à determinada medida que caracterize a população de interesse. Os parâmetros mais frequentemente investigados através dos testes de hipóteses são: a média, o desvio-padrão, no caso de variáveis quantitativas e a proporção, no caso de variáveis categóricas.)

unidade 7120

ESTATÍSTICA E PROBABILIDADES

Note que o teste refere-se à média

populacional e não amostral. A média

amostral será utilizada como base para

tomar a decisão sobre rejeição ou não

rejeição da hipótese nula.

2ª etapa: Obtenção da estatística de teste

O valor médio obtido pela amostra foi: =

502 gramas. Será que esse valor foi obtido

em função da variabilidade amostral3 , ou

seja, o valor obtido de 502 gramas é próximo

do valor proposto de μ = 500 gramas? Para

respondermos a essa questão devemos

verificar qual a probabilidade de obter o

valor 502 gramas, levando em consideração

a distribuição das médias amostrais,

ou seja, a possibilidade de obtenção de

resultados diferentes de amostra para

amostra. Para isso, utilizamos a distribuição

normal padronizada quando o valor de σ é

conhecido ou quando o tamanho da amostra

é razoavelmente grande (geralmente igual

ou acima de 30). Quando a amostra é

pequena (geralmente menor do que 30) e o

desvio-padrão é desconhecido, utilizamos

a distribuição t para avaliar a probabilidade

em questão. Como no presente exemplo

temos uma amostra de tamanho igual a

36, podemos trabalhar com a distribuição

normal padronizada. Nomeamos o valor

obtido da estatística de teste, que é

calculada de acordo com a fórmula abaixo:

Z = - μ

Essa fórmula permite que a média

amostral obtida passe de qualquer escala

(em gramas, no presente exemplo) para

número de desvio-padrão. Isso possibilita

traçar comparações com os valores de

probabilidade da distribuição normal

padronizada (em que a unidade de medida

é a quantidade de desvio-padrão). Sem

esse procedimento, essa comparação seria

pouco viável. A fórmula é composta dos

seguintes itens:

Z: Escore da distribuição normal

padronizada

: Média obtida através da amostra

μ: Valor da média populacional a ser testada

σx: Valor do desvio-padrão da distribuição

das médias amostrais.

σx = σ

Caso não se conheça o desvio-padrão

populacional σ (situação muito comum),

podemos utilizar o desvio-padrão obtido

através da amostra:

sx = σ

3 - A variabilidade amostral ocorre porque existem chances de tomarmos tanto amostras parecidas com a população de interesse quanto amostras pouco semelhantes à população. Qualquer processo de amostragem sujeita-se a essa situação. Cabe ao pesquisador levar esse fato em consideração ao construir um teste de hipóteses

σx

√n

√n

unidade 7121

ESTATÍSTICA E PROBABILIDADES

Dessa forma, a estatística de teste passa a ser:

Z = - μ

Com os dados do problema, temos então:

Z = 502 - 500 = 4,0

O número obtido significa que 502 gramas encontram-se a 4,0 desvios-padrão de distância da

média populacional de 500 gramas. Mas esse valor é perto ou longe da média populacional?

• Quando Z = 0, pode-se afirmar que a média amostral é exatamente igual ao valor

hipotético da média populacional.

• Quando Z = 1, a probabilidade do valor da média amostral ter sido obtido devido à

flutuação amostral é de aproximadamente 34%, pois 68% dos dados encontram-se a

até um desvio-padrão de distância da média, conforme a figura 8.1

s/√n

s/√36

FIGURA 8.1: Área da distribuição normal padronizada de acordo com o número de desvios-padrão.

Fonte: TRIOLA, 2013, p. 88.

unidade 7122

ESTATÍSTICA E PROBABILIDADES

• Quando Z = 2, a probabilidade do valor da média amostral ter sido obtido devido à

flutuação amostral é de aproximadamente 5%, pois 95% dos dados encontram-se a

até um desvio-padrão de distância da média4.

• Quando Z = 3, a probabilidade do valor da média amostral ter sido obtido devido à

flutuação amostral é de aproximadamente 0,2%, pois 99,8% dos dados encontram-se

a até um desvio-padrão de distância da média.

Utilizando o mesmo raciocínio, com o valor de Z = 4,0, depreende-se que a probabilidade do

valor da média amostral ter sido obtida devido à flutuação amostral seja bem menor que 0,2%.

Dessa forma, o valor de Z = 4 significa que os 502 gramas obtidos pela amostra apresentam

uma grande distância dos 500 gramas propostos na hipótese nula (a distância de 2 gramas

corresponde a 4 desvios-padrão). O fato dos valores serem tidos como distantes implica

na rejeição da hipótese nula. Para definir quais valores do escore Z são considerados altos,

utiliza-se o desenho da distribuição normal padronizada, conforme o 3º passo.

Os valores acima podem ser obtidos através de um software estatístico, ou pela tabela Z.

3ª etapa: Obtenção da região de rejeição

Para tomar a decisão de rejeitar ou não a hipótese nula, podemos utilizar o diagrama da figura 8.2:

4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.

FIGURA 8.2 - Regiões de rejeição da hipótese nula

Fonte: Elaborado pelo autor.

unidade 7123

ESTATÍSTICA E PROBABILIDADES

A figura 8.2 representa a distribuição normal

padronizada. A área em vermelho refere-

se à região de rejeição da hipótese nula.

Valores menores que - 1,96 desvios-padrão

ou maiores que + 1,96 desvios-padrão são

considerados demasiadamente afastados

quando consideramos uma significância de

5% para o teste bilateral (ou seja, podemos

considerar que tais valores sejam pontos de

corte). Dessa forma, cada uma das áreas

em vermelho representa 2,5% dos dados. A

área total abaixo dos dados (soma da área

verde com a área vermelha) representa

100% dos dados.

Quando o valor da estatística de teste

encontra-se na região em vermelho,

consideramos pouco provável que a média

amostral (ou outra estatística) tenha sido

resultado das flutuações amostrais. Os

valores críticos (- 1,96 e 1,96) foram obtidos

pelo percentil 97,5 da tabela da distribuição

normal padronizada. Podem ser calculados

também através de softwares estatísticos.

A figura 8.3 indica de onde os dados foram

obtidos.

Devemos procurar na tabela o valor do nível

de significância dividido por 2, ou seja α⁄2,

pois o teste é bilateral, o que implica em

duas regiões de rejeição (as caudas direita

e esquerda da distribuição, conforme a

figura 8.3). Observe que a combinação da

linha com a coluna gera o valor do escore

Z = 1,96. O número 1,96 foi obtido através

da combinação da coluna e linha formados

pelo valor 0,0250 referente à área da cauda

direita (ou esquerda) da distribuição normal

padronizada.

unidade 7124

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.3 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

unidade 7125

ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

Com base nos valores obtidos pela estatística

de teste e pela região de rejeição, tomamos

uma decisão em relação à hipótese nula.

No caso em questão, a decisão é rejeitá-la,

pois o valor 4 desvios-padrão (relativo aos 2

gramas de distância entre a média amostral

e a média populacional proposta na hipótese

nula) pode ser considerado muito longe da

média, uma vez que se encontra na parte

vermelha do diagrama. A estatística de teste

no valor de 4,00 é maior do que o valor crítico

de + 1,96 (número obtido na tabela da Figura

8.3, que serve de referência para rejeição ou

não rejeição da hipótese nula).

Exemplo 7.3

Um processo foi delineado para fabricar

bancadas de tamanho igual a 120

centímetros. Para verificar se o processo

encontra-se sob controle, um especialista

coletou uma amostra de 64 peças. Foi

obtida uma média amostral = 120,2

centímetros, com desvio-padrão s = 1,6

centímetros. Teste a hipótese de que o

processo encontra-se sob controle, ou seja,

que a média populacional μ seja igual a 120

centímetros. Use significância de 10%.

1ª etapa: Estabeleça as hipóteses de

interesse

H0: μ = 120 centímetros

H1: μ ≠ 120 centímetros

2ª etapa: Obtenção da estatística de teste

Z = - μ

s/√n

1,6/√64

Com os dados do problema, temos então:

Z = 120,2 - 120,0

3ª etapa: Obtenção da região de rejeição

unidade 7126

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.4 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,645 positivo (ou negativo) foi obtido pela combinação da linha e coluna

relativas à área igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuição normal padrão da

figura 8.4.

5 - O valor 0,10 refere-se aos 10% escolhidos como nível de significância pelo pesquisador. Tal valor consiste na probabilidade de rejeitar a hipótese nula, dado que ela é verdadeira, ou seja, probabilidade de tomar uma decisão equivocada em relação à hipótese.

unidade 7127

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.5 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

unidade 7128

ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

Como o valor de Z = 1,00 obtido pela

estatística de teste não supera a valor

crítico de 1,645, ou seja, não pertence à

região crítica, não rejeitamos a hipótese

nula. Não podemos descartar a hipótese de

que a média seja 120 centímetros. Portanto,

há indícios de que o processo encontra-se

sob controle.

TESTES DE HIPÓTESES PARA AMOSTRAS PEQUENAS

Nos exemplos 7.2 e 7.3 as amostras têm

tamanho maior que 30. Quando a amostra

for pequena (menor do que 30) e o desvio-

padrão for desconhecido (situação mais

frequente), devemos utilizar a Distribuição t

de Student para realizar o teste.

O exemplo 7.4 consiste num problema de

teste de média em que a amostra é pequena

e o desvio-padrão (σ) é desconhecido.

Exemplo 7.4

Um engenheiro acredita que um processo

esteja sob controle produzindo esferas com

10 milímetros de diâmetro. Foi coletada

uma amostra com 16 esferas cujo o valor

obtido para a média foi X ∩ = 10,2 milímetros

e desvio-padrão s = 0,20 milímetros. Teste

a hipótese de que a média seja igual a 10

milímetros. Use significância de 5%.

1ª etapa: Estabeleça as hipóteses de

interesse

H0: μ = 10 milímetros

H1: μ ≠ 10 milímetros

2ª etapa: Obtenção da estatística de teste

Nesse caso, devemos utilizar o escore t no

lugar do Z:

Com os dados do problema, temos então:

t = - μ = 10,2 - 10,0

3ª etapa: Obtenção da região de rejeição

Nesse caso, devemos trabalhar com a

distribuição t:

s/√n 0,2/√16

unidade 7129

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.6 - Distribuição t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crítico, devemos consultar a tabela t. Como a amostra conta com 16

elementos, temos 15 graus de liberdade. Como o nível de significância é igual a 5%, devemos

procurar o escore t na coluna do 0,05 (área em duas caudas, pois o teste é bilateral)

unidade 7130

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.7 - Tabela da Distribuição t

Fonte: TRIOLA, 2013, p. 614.

4ª etapa: Conclusão

Como o valor 0,4 obtido pela estatística de teste não supera a valor crítico 2,13, obtido pela

distribuição t, não rejeitamos a hipótese de que a média seja de 10 milímetros. Portanto, o

processo encontra-se sob controle.

unidade 7131

ESTATÍSTICA E PROBABILIDADES

TESTE PARA UMA PROPORÇÃO

Quando trabalhamos com variáveis

quantitativas, o principal parâmetro de

interesse costuma ser a média. Além da

média, outros parâmetros também podem

ser testados, como, por exemplo, o desvio-

padrão. No caso de variáveis categóricas,

geralmente a medida de interesse a ser

testada é uma proporção.

No teste de hipóteses, o valor do erro padrão

da proporção geralmente está baseado no

uso do valor hipotético:

Sp = √π (1 -π)n

A fórmula para o cálculo de Z para testar

uma hipótese voltada para o valor da

proporção da população é:

SpZ = p - π

O exemplo 7.5 consiste num teste de

proporção.

Exemplo 7.5

Um engenheiro acredita que 30% dos

trabalhadores de uma determinada

firma ficam estressados quando fazem

horas extras durante a madrugada.

Foi coletada uma amostra com 49

trabalhadores, dos quais 12 afirmaram

se estressar nessa situação. Teste a

hipótese de que a proporção seja de

30%. Use significância de 5%.

1ª etapa: Estabeleça as hipóteses de

interesse

H0: π = 0,30

H1: π ≠ 0,30

Observação 1: Enquanto a média é

representada pela letra μ, a proporção é

representada pela letra grega π (pi).

Observação 2: Para representarmos os

30% propostos na hipótese nula, utilizamos

a escala decimal. Dessa forma, o valor

utilizado nos cálculos é 0,30 (ou seja, 30

dividido por 100).

2ª etapa: Obtenção da estatística de teste

Antes de obtermos o escore padronizado

Z, devemos calcular o desvio-padrão da

proporção populacional, dado pela fórmula

a seguir:

unidade 7132

ESTATÍSTICA E PROBABILIDADES

Sp = √π (1 -π) = √0,30 (1 - 0,30) = √0,21= √0,00428 = 0,0655n

n 0,0655

49

49

49

O escore padronizado então é:

Z = p - π

= 0,2653 - 0,3000

= - 0,0347

= -,053

3ª etapa: Obtenção da região de rejeição

Como o teste é bilateral e com 5% de significância, obtemos através da tabela Z o valor crítico

igual a - 1,96.

FIGURA 8.8 - Distribuição normal padronizada

Fonte: Elaborado pelo autor.

4ª etapa: Conclusão

O valor - 0,53, obtido pela estatística de teste, encontra-se fora da região de rejeição, sendo

próximo de zero e longe do valor crítico de -1,96. Dessa forma, não rejeitamos a hipótese

nula. Portanto, não há indícios de que a proporção de trabalhadores estressados na empresa

estudada seja diferente de 30%.

No próximo tópico você verá situações em que o pesquisador tem como interesse comparar

os valores dos parâmetros de duas amostras.

unidade 7133

ESTATÍSTICA E PROBABILIDADES

TESTES PARA DUAS OU MAIS AMOSTRAS

Nos tópicos anteriores aprendemos a

delinear testes de hipóteses bilaterais

em que uma afirmação numérica é feita

sobre uma média ou uma proporção para

uma amostra. Em algumas situações o

pesquisador tem interesse em comparar

tais valores em dois grupos. Nesse caso,

podemos afirmar que temos um teste

de hipótese para a comparação de duas

médias ou de duas proporções.

TESTE PARA A COMPARAÇÃO DE DUAS MÉDIAS EM AMOSTRAS INDEPENDENTES

Em várias situações devemos decidir se

uma diferença observada entre as médias

de dois grupos pode ser atribuída ao acaso

ou se há indícios de que os valores obtidos

de fato provêm de populações com médias

diferentes. Quando desejamos comparar

as médias obtidas por duas amostras

independentes, utilizamos a seguinte

estatística de teste:

Z = 1 - 2

√s21 + s2

2n1 n2

O numerador apresenta as médias das

duas amostras, enquanto o denominador

consiste na raiz da soma dos desvios-

padrão divididos pelos respectivos

tamanhos de amostras. No exemplo 7.6 é

feito um teste em que são comparadas as

médias de duas amostras.

Exemplo 7.6

Um engenheiro resolveu comparar o tempo

de secagem de duas marcas diferentes de

tintas para determinado tipo de parede.

Para a marca A foram verificados os tempos

de secagem de 50 paredes. O tempo médio

obtido foi A = 80 minutos, com desvio-

padrão s1 = 6 minutos. Para a marca B,

foram verificadas 40 paredes, com tempo

médio B = 88 minutos e desvio-padrão

s2 = 10 minutos. Teste a hipótese de que

não existe diferença entre as médias. Use

significância 1%.

1ª Etapa: Estabeleça as hipóteses de

interesse

H0: μA = μB

H1: μA ≠ μB

2ª Etapa: Obtenção da estatística de teste

Aplicando a fórmula, temos:

unidade 7134

ESTATÍSTICA E PROBABILIDADES

√62 +102 √36 +100 √0,72 + 2,5 √3,22 1,794450 50

Z = 1 - 2

= 80 - 88

= - 8

= - 8

= -8

= -8

= -4,46√s21 + s2

2n1 n2 40 40

3º Etapa: Obtenção da região de rejeição.

FIGURA 8.9 - Regiões de rejeição da hipótese nula.

O valor crítico de 2,33 positivo (ou negativo) foi obtido pela combinação da linha e coluna

relativas à área igual a 0,005 (0,010 dividido por 2) da tabela da distribuição normal padrão.

4ª Etapa: Conclusão

Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33, obtido pela tabela da

distribuição normal padronizada, rejeitamos a hipótese nula. Não há indícios de que o tempo

médio de secagem das tintas seja diferente.

TESTE PARA A COMPARAÇÃO DE DUAS PROPORÇÕES

Quando se deseja testar a hipótese de que as proporções em duas populações são iguais, o

procedimento é análogo ao teste para a comparação de médias. A fórmula é a seguinte:

Fonte: Elaborado pelo autor.

unidade 7135

ESTATÍSTICA E PROBABILIDADES

Z = p1

- p2

√p (1 - p) + p (1 - p) n1 n2

Onde p = x1 e p2 = x2 (proporções amostrais)

p = x1 + x2 (proporção amostral combinada)

Exemplo 7.7

Um especialista acredita que a proporção de trabalhadores com estresse ocupacional no

turno da manhã seja estatisticamente diferente do turno da tarde. Uma amostra de 100

trabalhadores foi estudada, sendo 50 pela manhã e 50 a tarde. No turno da manhã contou-se

10 trabalhadores nessa situação. No turno da tarde contou-se 15. Teste a hipótese de que as

proporções sejam diferentes nos respectivos turnos. Nível de significância: 5%.

1ª Etapa: Estabeleça as hipóteses de interesse

H0: p1 = p2

H1: p1 ≠ p2

2ª Etapa: Obtenção da estatística de teste

Aplicando a fórmula, temos:

p = x1 + x2 = 10 + 15 = 25 = 0,25

p1 = 10 = 0,20

p2 = 15 = 0,30

ˆ ˆ

n1

n1 + n2

n1 + n2 50 + 50

50

50

100

n2

ˆ

ˆ

ˆ

Z = p1

- p2

= √p (1 - p) + p (1 - p) n1 n2

ˆ ˆ

0,20 - 0,30 =

- 0,10

= - 0,10

= - 0,10

= -1,15

√0,25 (1 - 0,25) + 0,25 (1 - 0,25)

√0,25 (0,75) + 0,25 (0,75) √0,00750,0866

50

50

50

50

unidade 7136

ESTATÍSTICA E PROBABILIDADES

3º Etapa: Obtenção da região de rejeição.

FIGURA 8.10 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,96 positivo (ou negativo) foi obtido pela combinação da linha e coluna

relativas à área igual a 0,025 (0,050 dividido por 2) da tabela da distribuição normal padrão.

4ª Etapa: Conclusão

O Z calculado de - 1,15 encontra-se fora da região crítica. Não rejeitamos a hipótese nula.

Portanto, não há diferença na proporção de trabalhadores com estresse entre os turnos da

manhã e tarde.

APLICAÇÃO PRÁTICA

Os testes de hipótese são extremamente úteis na engenharia, principalmente no delineamento

de experimentos. Em várias situações busca-se a otimização de processos. Espera-se que os

insumos sejam combinados da melhor maneira possível, de forma a obter produtos de qualidade

ao menor custo possível. Nesse contexto, diversos fatores podem determinar o sucesso de um

processo de produção de produtos ou serviços.

Num processo produtivo em que determinada mercadoria é embalada de forma manual por um

trabalhador, diversos fatores (ou seja, diversas variáveis) exercem influência sobre o desempenho

unidade 7137

ESTATÍSTICA E PROBABILIDADES

desse trabalhador, como, por exemplo, a

iluminação, a temperatura, o número de horas

trabalhadas, e talvez até a altura de uma

bancada. Dessa forma, a execução de um

experimento com diversas combinações de

valores que as variáveis possam assumir pode

ser útil para a otimização do processo. Por

exemplo: o desempenho dos trabalhadores é

melhor quando a temperatura de um galpão é

de 22 graus celsius, de 23 ou de 24? Como um

experimento desse tipo depende da utilização

de amostras, torna-se fundamental o uso

de testes de hipóteses para obtenção de

conclusões acerca do processo.

REVISÃO

Nessa unidade aprendemos os

fundamentos dos testes de hipóteses. O

principal objetivo deles é contrapor uma

hipótese de interesse, conhecida como

hipótese nula, a uma hipótese contrária,

conhecida como hipótese alternativa,

em relação a um parâmetro de interesse

(geralmente a média, no caso de variáveis

quantitativas e a proporção, no caso de

variáveis categóricas).

As hipóteses podem ser unilaterais ou

bilaterais. No primeiro caso, a hipótese

nula de igualdade contrapõe-se à hipótese

alternativa, em que o sinal é de menor

ou maior. No caso dos testes bilaterais,

na hipótese alternativa temos o sinal

de diferente. Todos os exemplos dessa

unidade focaram em testes bilaterais.

Para definir o tipo de teste a ser utilizado,

levamos em consideração o tamanho

da amostra e o conhecimento ou não do

desvio-padrão populacional. Quando

desconhecemos o desvio-padrão e a

amostra tem tamanho inferior a 30,

utilizamos o teste t. No caso de conhecer o

desvio-padrão populacional ou a amostra

igual ou superior a 30, utilizamos o teste

Z. O nome do teste ocorre em função

da distribuição da estatística de teste,

que é construída através do conjunto de

possíveis amostras, o que é conhecido

como distribuição amostral.

Os testes podem ser utilizados para

verificar uma afirmação sobre uma

amostra, sobre duas amostras ou sobre

mais de duas amostras. Os dois primeiros

casos foram abordados nessa unidade.

A grande utilidade do teste de hipóteses

para o engenheiro ocorre no delineamento

de experimentos e no controle estatístico

de processos.

unidade 7138

ESTATÍSTICA E PROBABILIDADES

PARA SABER MAIS

LEVINE, David; BERENSON, Mark; STEPHAN,

David. Estatística: teoria e aplicações - usando

o Microsoft Excel em português. 6 ed. LTC, 2011,

812 p.

MOORE, David. A estatística básica e sua prática.

Rio de Janeiro: LTC, 2014.

TRIOLA, Mário. Introdução à Estatística:

Atualização da Tecnologia. 11 ed. LTC, 2013.

VitalBook file.

Para uma fundamentação matemática mais

aprofundada sobre o assunto, consulte a

seguinte obra:

MONTGOMERY, Douglas; RUNGER, George

Estatística aplicada e probabilidade para

engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

8UNIDADE

unidade 8140

ANÁLISE DE CORRELAÇÃO E REGRESSÃO

Ao analisar um conjunto de dados, podemos ter interesse no relacionamento

entre duas variáveis quantitativas. Dessa forma, poderíamos traçar o seguinte

questionamento: um aumento no valor da variável X se relaciona a um aumento

na variável Y? Qual seria a magnitude dessa relação? As técnicas de análise de correlação

e análise de regressão podem ser utilizadas para estudos desse tipo.

A relação entre variáveis quantitativas pode ser modelada através de análise de correlação e

regressão. Com a evolução da informática nos últimos 20 anos, essas técnicas têm sido cada

vez mais utilizadas no ambiente empresarial.

Nesta unidade, você aprenderá a desenvolver cálculos para correlação e regressão tanto

passo a passo como através do software Microsoft Excel.

unidade 8141

ESTATÍSTICA E PROBABILIDADES

ANÁLISE DE CORRELAÇÃOQuando temos interesse em investigar o quanto duas variáveis quantitativas estão associadas,

podemos utilizar uma medida conhecida como coeficiente de correlação.

CONCEITO

CONCEITO

O coeficiente de correlação mede o grau de intensidade do relacionamento linear entre duas variáveis

quantitativas.

DIAGRAMA DE DISPERSÃO

Antes de calcular a correlação entre duas variáveis, é interessante representar os dados num

diagrama de dispersão.

Diagrama de dispersão: Consiste na representação gráfica de duas variáveis quantitativas no plano

cartesiano.

A figura 8.1 se refere a uma pesquisa com anúncios de vendas de 58 imóveis. As variáveis são:

ÁREA DO IMÓVEL (em metros quadrados) e VALOR DO IMÓVEL (em R$ mil).

unidade 8142

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.1 - Área do imóvel x valor do Imóvel

-

100

200

300

400

500

600

700

800

0 50 100 150 200 250 300

Valo

r do

imóv

el (R

$ m

il)

Área (em metros quadrados)

Fonte: Elaborado pelo autor

Através do gráfico de dispersão é possível visualizar graficamente alguns aspectos relativos

ao comportamento conjunto das variáveis, como: direção, forma e força da relação.

No que se refere à direção, a figura 8.1 apresenta indícios de que as variáveis (ÁREA e VALOR)

estejam positivamente relacionadas, ou seja, parece que a direção é ascendente. Há situações

em que as variáveis apresentam associação negativa6 como por exemplo o PREÇO e a

QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preço, menor a

quantidade demandada).

Em relação à forma, na figura 8.1 podemos observar que a relação entre as variáveis parece

ser linear. Observe a reta que resume a associação. Existem situações em que duas variáveis

se encontram associadas, porém de forma não linear, como na figura 8.2.

6 - Associação negativa: Duas variáveis apresentam associação negativa quando o crescimento de uma se associa à diminuição da outra, ou o contrário, a queda em uma se associa ao acréscimo da outra.

unidade 8143

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.2 - Relação não linear entre as variáveis X e Y

0

10

20

30

40

50

60

70

80

0 5 10 15 20

Y

X

Fonte: Elaborado pelo autor

Outro aspecto de grande importância ao observar o diagrama de dispersão é a força da

relação. Na figura 8.1, o VALOR DO IMÓVEL se relaciona à ÁREA, mas a intensidade da relação

não parece tão extrema.

A figura 8.3 mostra um diagrama de dispersão onde as variáveis apresentam ausência de

relação.

FIGURA 8.3: Ausência de relação entre as variáveis X e Y

10111112121313141415

0 5 10 15 20

Y

X

Fonte: Elaborado pelo autor

unidade 8144

ESTATÍSTICA E PROBABILIDADES

O grau de intensidade da relação linear entre duas variáveis quantitativas é dado pelo

coeficiente de correlação de Pearson.

COEFICIENTE DE CORRELAÇÃO DE PEARSON

O coeficiente de correlação linear de Pearson consiste na medida do grau de intensidade

da relação linear entre duas variáveis quantitativas, podendo assumir valores entre -1 e 1.

Podemos afirmar que duas variáveis estão positivamente correlacionadas se elas caminham

no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra também

aumenta. Nesse caso, quanto mais próxima de 1, maior a intensidade da associação entre

as variáveis. Quando as variáveis caminham em sentidos opostos, dizemos que elas

estão negativamente correlacionadas. Quanto mais próxima de -1, maior a intensidade da

associação, porém a relação é inversa.

É importante destacar que o fato de duas variáveis estarem associadas não significa,

necessariamente, que exista uma relação de causa e efeito. Por exemplo: geralmente crianças

mais novas apresentam menor peso, entretanto isso não significa que o envelhecimento

causa aumento de peso. É mais provável que a criança aumente o peso pelo fato de aumentar

a altura.

A análise de correlação tem objetivo exploratório servindo como elemento auxiliar na análise

da relação entre variáveis. Dessa forma, em muitas ocasiões o estudo da correlação é utilizado

como um recurso a mais na análise dos dados.

O coeficiente de correlação de Pearson é dado pela fórmula:

Cor ( X, Y ) = r = ∑ ( x - ) ( y - y )sxsy ( n - 1)

O numerador da fórmula se refere ao somatório do produto dos desvios da variável X e da

variável Y em relação às suas respectivas médias. No denominador, encontra-se o produto

dos desvios padrão de cada uma das duas variáveis multiplicado pelo tamanho da amostra

menos uma unidade.

unidade 8145

ESTATÍSTICA E PROBABILIDADES

Exemplo 8.1 (adaptado de HINES et al, 2006)

Um engenheiro químico está estudando o efeito da temperatura de operação do processo

sobre o resultado da produção. O estudo resultou nos seguintes dados:

X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89

Calcule o coeficiente de correlação entre as variáveis.

Solução:

Ao realizar uma análise de correlação, é interessante construir o diagrama de dispersão para

ter uma ideia sobre a associação entre as variáveis:

FIGURA 8.4 - Resultado do processo (em %) em função da temperatura (em °C)

0102030405060708090

100

0 50 100 150 200

Y -R

esul

tado

(%

)

X - Temperatura (º C)

Fonte: HINES et al (2006), pag.369

A figura 8.4 apresenta indícios de que as variáveis estão fortemente associadas. Para

confirmar essa suspeita, podemos calcular o coeficiente de correlação, conforme a tabela 8.1:

unidade 8146

ESTATÍSTICA E PROBABILIDADES

TABELA 8.1 - Dados para o cálculo do coeficiente de correlação entre temperatura (X) e resultado (Y)

X Y100 45 100 - 145 = -45 45 - 67,3 = -22,3 (-45) × (-22,3) = 1003,5110 51 110 - 145 = -35 51 - 67,3 = -16,3 (-35) × (-16,3) = 570,5120 54 120 - 145 = -25 54 - 67,3 = -13,3 (-25) × (-13,3) = 332,5130 61 130 - 145 = -15 61 - 67,3 = -06,3 (-15) × (-6,3) = 94,5140 66 140 - 145 = -05 66 - 67,3 = -01,3 (-5) × (-1,3) = 6,5150 70 150 - 145 = +05 70 - 67,3 = +02,7 (5) × (2,7) = 13,5160 74 160 - 145 = +15 74 - 67,3 = +06,7 (15) × (6,7) = 100,5170 78 170 - 145 = +25 78 - 67,3 = +10,7 (25) × (10,7) = 267,5180 85 180 - 145 = +35 85 - 67,3 = +17,7 (35) × (17,7) = 619,5190 89 190 - 145 = +45 89 - 67,3 = +21,7 (45) × (21,7) = 976,5

Média (X) = 145 Média (Y) = 67,3Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7 3985

(𝑥𝑥𝑖𝑖 − 𝑥𝑥 ) (𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) (𝑥𝑥𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 )

(𝑥𝑥𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) =𝑛𝑛

𝑖𝑖= 1

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r = 3985 = 3985 = + 0,99( 30,3) (14,7) (10 -1) 4008,7

O valor + 0,99 obtido pelo coeficiente de correlação confirma que as variáveis estão fortemente

associadas, conforme indício dado pelo diagrama de dispersão (figura 8.4).

O exemplo 8.2 se refere a uma situação em que as variáveis apresentam correlação negativa.

Exemplo 8.2

O quadro abaixo representa o PREÇO (em R$) e a QUANTIDADE DEMANDADA de uma

determinada mercadoria.

Preço (X) 10 11 12 13 14 15 16 17 18 19Quantidade (Y) 200 171 168 165 170 147 120 130 105 124

Solução:

Antes de calcular o coeficiente de correlação, é interessante construir o diagrama de dispersão

para ter uma ideia da direção e da forma da associação entre as variáveis.

unidade 8147

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.5 - Quantidade x preço

100

120

140

160

180

200

220

8 10 12 14 16 18 20

Y -Q

uant

idad

e

X - Preço

Fonte: Elaborado pelo autor

TABELA 8.2 - Dados para o cálculo do coeficiente de correlação entre preço (X) e quantidade (Y)

Preço (X) Quantidade (Y)10 200 -4,5 50 -22511 171 -3,5 21 -73,512 168 -2,5 18 -4513 165 -1,5 15 -22,514 170 -0,5 20 -1015 147 0,5 -3 -1,516 120 1,5 -30 -4517 130 2,5 -20 -5018 105 3,5 -45 -157,519 124 4,5 -26 -117

Média (X) = 14,5 Média (Y) = 150Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6

-747

(𝑥𝑥𝑖𝑖 − �̅�𝑥) (𝑦𝑦𝑖𝑖 − 𝑦𝑦�) (𝑥𝑥𝑖𝑖 − �̅�𝑥)(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)

�(𝑥𝑥𝑖𝑖 − �̅�𝑥)(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) =𝑛𝑛

𝑖𝑖=1

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r = -747 = -747 = - 0,93( 3,0) (29,6) (10 -1) 799,2

Portanto, as variáveis apresentam forte correlação negativa, conforme indício do diagrama de

dispersão.

Observações importantes sobre o coeficiente de correlação de Pearson:

Para o cálculo do coeficiente de correlação, temos:

unidade 8148

ESTATÍSTICA E PROBABILIDADES

• O valor da correlação independe da

unidade de medida dos dados. Por

exemplo, se tivermos interesse em

medir a correlação entre ALTURA

e PESO de um grupo de pessoas,

tanto faz a ALTURA entrar nos

cálculos em centímetros ou em

metros;

• A correlação não se aplica a mais

de duas variáveis;

• A correlação não faz distinção

sobre qual variável se projeta em

cada eixo do plano cartesiano.

Dessa forma, Cor (X,Y) = Cor (Y,X);

• As variáveis devem ser

quantitativas. O coeficiente de

correlação linear de Pearson não se

aplica a variáveis categóricas;

• A correlação mede o grau de

associação linear. Dessa forma,

se duas variáveis quantitativas se

relacionam de forma quadrática

ou exponencial, o coeficiente de

correlação linear não é indicado,

uma vez que matematicamente tem

a capacidade de captar relações

lineares.

USO DA TECNOLOGIA PARA O CÁLCULO DO COEFICIENTE DE CORRELAÇÃO

O cálculo do coeficiente de correlação no

Excel é dado pela função:

= CORREL (matriz1;matriz2)

Onde os parâmetros (matriz1 e matriz2)

se referem aos dados das duas variáveis.

Observe a figura 8.6.

unidade 8149

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.6 - Coeficiente de correlação no Excel

Fonte: Elaborado pelo autor

REGRESSÃO LINEAR SIMPLES

A regressão linear simples tem como objetivo estimar uma equação que relacione

matematicamente duas variáveis, sendo que uma delas é explicada pela outra. A variável

explicada geralmente é denominada variável resposta ou variável dependente. A variável

explicativa é denominada variável explanatória ou variável independente.

A análise de regressão múltipla tem por objetivo estimar uma equação que relacione

matematicamente uma variável resposta a duas ou mais variáveis explicativas.

A figura 8.7 reapresenta os dados relativos à figura 8.1 onde a variável resposta VALOR se

correlaciona à ÁREA DO IMÓVEL.

unidade 8150

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.7 - Valor do imóvel x área do imóvel

Fonte: Elaborado pelo autor

Observe que os pontos do diagrama não caem exatamente sobre a reta de regressão, mas a

reta é capaz de resumir o padrão geral de comportamento dos dados. Uma das técnicas mais

utilizadas para obtenção dessa reta é conhecida como método dos mínimos quadrados.

CONCEITOMétodo dos mínimos quadrados: É uma técnica estatística utilizada para resumir um conjunto de

variáveis quantitativas numa equação. Ela se baseia na minimização da distância quadrática de cada

ponto em relação à reta.

A equação que representa o modelo de regressão linear simples é:

Y1 = β0 + β1 X1 = ε1

unidade 8151

ESTATÍSTICA E PROBABILIDADES

Onde:

Yi = valor da variável dependente na i-ésima

tentativa, ou observação;

β0 = primeiro parâmetro da equação de

regressão, o qual indica o intercepto

no eixo Y, ou seja, o valor de Y quando

X = 0;

β1= segundo parâmetro da equação de

regressão, chamado coeficiente

angular, que indica a inclinação da reta

de regressão;

εi = o valor do erro, que significa a diferença

entre o valor verdadeiro e o valor

previsto pela equação de regressão (ε é

a letra grega épsilon). Após a estimação

da equação de regressão, o erro passa a

ser denominado resíduo.

Os parâmetros β0 e β1 no modelo de

regressão linear são estimados pelos

valores β0 e β1 que se baseiam nos dados

amostrais. O “chapéu” sobre as letras indica

que foi feita uma estimativa dos parâmetros

do modelo com base em dados obtidos

através de uma amostra.

Dessa forma, a equação de regressão linear

baseada nos dados da amostra que é usada

para estimar um simples valor da variável

dependente, onde o “chapéu” sobre o Y

indica que ele é um valor estimado, é:

Y = β0 + β1X^ ^ ^

A análise de regressão se distingue da

correlação por supor uma relação de

causalidade entre as variáveis resposta e

explanatória. A análise geralmente se baseia

numa referência teórica, que justifique uma

relação matemática de causalidade.

A estimativa dos parâmetros β0 e β1

do modelo se dá a partir das seguintes

fórmulas:

^ ^

β̂1 = ∑ XY - nXY∑ X2 - nX2

β1 = Y - β1X^

Exemplo 8.3

Um professor acredita que a NOTA na

prova de estatística esteja relacionada ao

número de HORAS DE ESTUDO dos alunos.

Para tentar convencer os estudantes dessa

relação, o professor resolve fazer a pesquisa

levantando dados de sete estudantes,

conforme o quadro abaixo.

unidade 8152

ESTATÍSTICA E PROBABILIDADES

QUADRO 8.1 -Dados para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X)

Horas de Nota naestudo (X) prova (Y)

1 20 722 15 623 35 874 26 775 30 906 24 837 18 68

Estudante

Fonte: Elaborado pelo autor

[a] Determine a equação da reta de regressão para os dados da tabela.

[b] Use a eq uação de regressão para estimar a nota de um estudante que tenha dedicado 20

horas de estudo para a prova.

Solução:

[a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalização dos

cálculos:

QUADRO 8.2 - Cálculos para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X)

Horas de Nota naestudo (X) prova (Y)

1 20 72 400 14402 15 62 225 9303 35 87 1225 30454 26 77 676 20025 30 90 900 27006 24 83 576 19927 18 68 324 1224

MÉDIA (X) = 24 MÉDIA(Y) = 77 ΣX2 = 4.326 ΣXY = 13.333

Estudante X2 X.Y

Fonte: Elaborado pelo autor

Na penúltima coluna foram obtidos os valores da variável X ao quadrado. Na última coluna os

valores de X foram multiplicados pelos valores de Y para cada estudante. Em seguida, foram

obtidas as médias de cada variável e, finalmente, o somatório das duas últimas colunas.

Colocando os dados obtidos nas fórmulas, temos:

unidade 8153

ESTATÍSTICA E PROBABILIDADES

β̂1 = ∑ XY - nXY∑ X2 - nX2

= 13.333 - 7 . 24. 77 = 13.333 -12.936 = 397 = 1,354.326 - 7.242 4.326 - 4.032 294

βo = 77 - (1,35) . (24) = 77 - 32,4 = 44,6^

^

^

A equação estimada foi:

Y = 44,6 + 1,35 . X

FIGURA 8.8 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

Para calcular o valor estimado da nota (Y) com base no número de horas estudadas (X), basta

inserir o valor de X na equação. Considerando X = 20, temos:

Y = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6

Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha

aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8:

unidade 8154

ESTATÍSTICA E PROBABILIDADES

INTERPRETAÇÃO DO RESULTADO DA REGRESSÃO

Além de permitir a previsão de uma variável resposta em função de uma variável explanatória,

a análise de regressão também mede a variação de Y quando variamos X. A partir da equação

obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na

variável X (número de horas estudadas) aumenta, em média, 1,35 unidades na variável Y

(pontos na prova de estatística).

USO DA TECNOLOGIA PARA A ESTIMAÇÃO DA REGRESSÃO

Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais

utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.

No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel.

Exemplo 8.4

Estime a equação de regressão com os dados do exemplo 8.2 utilizando o Excel.

Solução:

DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK

FIGURA 8.9 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória (X – horas de

estudo) e resposta (Y – nota na prova), respectivamente. Em seguida, aperte OK.

unidade 8155

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.10 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Após rodar a regressão, o Excel apresenta três quadros. O primeiro mostra, dentre outras

estatísticas, o valor do R-quadrado. No exemplo em questão, o valor observado é igual a 0,843.

Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da

variação em X.

TABELA 8.3 - Estatísticas para análise de regressão

A tabela 8.4 diz respeito ao teste de significância do modelo, conhecido como teste F, que

produziu uma estatística igual a 26,8, que implica num valor p próximo de zero. Dessa forma,

rejeitamos a hipótese de que o modelo não se ajusta bem aos dados. Portanto, o modelo é

estatisticamente significativo.

Estatística de regressãoR múltiplo 0,918 R-Quadrado 0,843 R-quadrado ajustado 0,811 Erro padrão 4,470 Observações 7

unidade 8156

ESTATÍSTICA E PROBABILIDADES

TABELA 8.4 - Resultados do teste de adequação do modelo de regressão simples (teste F)

ANOVAgl SQ MQ F Valor p

Regressão 1 536,085 536,085 26,8271 0,00353Resíduo 5 99,915 19,983Total 6 636

A outra saída se refere a valores p dos testes dos coeficientes β0 e β1.

As hipóteses para o intercepto são:

H0: β0 = 0

H0: β0 ≠ 0

As hipóteses para a variável explanatória são:

H0: β1 = 0

H0: β1 ≠ 0

Os valores p iguais a zero para o intercepto e para a variável X1 implicam na rejeição da

hipótese de que os valores sejam não significativos. Portanto os coeficientes ( β0 e β1 ) são

significativos com base no teste t para cada um separadamente.

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

TABELA 8.5 - Coeficientes da regressão e estatísticas de interesse

Coeficientes Erro padrão Stat t valor-PInterseção 44,59 6,48 6,88 0,00 Variável X 1 1,35 0,26 5,18 0,00

A equação estimada é:

Y = 44,6 +1,35 . X1

Dessa forma, o modelo se mostra útil tanto para analisar o impacto que a variável explanatória

exerce sobre a variável resposta, quanto para previsão.

ˆ

unidade 8157

ESTATÍSTICA E PROBABILIDADES

A interpretação do coeficiente da variável X1 é: o aumento de uma unidade na variável X (ou

seja, a cada hora a mais de estudo) consiste no aumento de 1,35 unidades na variável Y (1,35

pontos na prova de estatística)

Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equação é 85:

Y = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85ˆ

REGRESSÃO LINEAR MÚLTIPLA

Na regressão linear simples, uma variável resposta pode ser explicada por uma variável

explanatória. Na figura 8.7, o valor do imóvel pode ser previsto com base no seu tamanho

(em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a variável

explanatória X explica 45% da variação na variável Y. No exemplo em questão, outras variáveis

também podem ser utilizadas para explicar melhor a variação de Y (preço do imóvel), como

por exemplo a idade do imóvel, o preço do condomínio, o número de banheiros, etc.

Dessa forma, na regressão múltipla, uma variável resposta se relaciona a duas ou mais

variáveis explanatórias. O objetivo também é predizer os valores de Y com base nas variáveis

explanatórias.

Na maioria das vezes, uma variável resposta se relaciona a mais de uma variável explanatória.

Nessa situação, também podemos utilizar o método dos mínimos quadrados para obter uma

equação que relacione as variáveis. Nesse caso, temos uma regressão múltipla:

Yi = β0 + β1 X1 + β2 X2 + … + βk Xk + εi

Onde:

Yi = variável resposta (variável dependente);

β0 = intercepto (valor assumido por Y quando todas as demais variáveis assumem valor igual

a zero);

β1, β2,..., βk = coeficientes angulares;

k = número de variáveis explanatórias (variáveis independentes).

unidade 8158

ESTATÍSTICA E PROBABILIDADES

A estimação da equação de regressão linear múltipla também se dá através do método dos

mínimos quadrados. O objetivo é obter o hiperplano que melhor se ajuste ao conjunto de

dados através da minimização dos desvios quadráticos.

Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais

utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.

No exemplo 8.5, o preço do imóvel é estimado com base em duas variáveis: ÁREA DO IMÓVEL

e NÚMERO DE QUARTOS.

Exemplo 8.5

Estime a equação de regressão relacionando o VALOR DO IMÓVEL às variáveis: ÁREA do

apartamento e NÚMERO DE QUARTOS.

Solução

DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK

Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória e dependente,

respectivamente, assim como foi feito para a regressão simples. Em seguida, aperte OK.

Após rodar a regressão múltipla, o Excel produz tabelas. Segue a primeira:

TABELA 8.7 - Resultados do teste de adequação do modelo de regressão múltipla (teste F)

Fonte: Elaborado pelo autor

A saída da última coluna se refere aos valores p do teste dos coeficientes da regressão. A

hipótese nula é de que cada coeficiente é igual a zero, individualmente, versus a hipótese

alternativa de que seja diferente de zero, respectivamente.

ANOVAgl SQ MQ F Valor p

Regressão 2 557.278.841.710 278.639.420.855 42,5 0,000Resíduo 55 360.283.037.601 6.550.600.684Total 57 917.561.879.310

unidade 8159

ESTATÍSTICA E PROBABILIDADES

TABELA 8.8 - Coeficientes de regressão e estatísticas de interesse

Coeficientes Erro padrão Stat t valor-PInterseção 86.873 60.689 1,43 0,16Variável X 1 1.335 285 4,68 0,00Variável X 2 67.719 24.091 2,81 0,01

Fonte: Elaborado pelo autor

A equação estimada é:

Y = 86.873 + 1.335X1 + 67.719X2

Na última coluna temos os valores p, que mostram que as variáveis são significativas e o

intercepto não, conforme os testes t para cada coeficiente separadamente. O intercepto no

caso não tem significado prático nesse exemplo.

Dessa forma, o modelo se mostra útil tanto para analisar o impacto que cada uma das variáveis

explanatórias exerce sobre a variável resposta, mantendo constantes as outras variáveis,

quanto para previsão.

A interpretação do coeficiente da variável X1 é: a cada uma unidade de aumento na ÁREA (ou

seja a cada metro quadrado a mais) a variável Y (VALOR) aumenta em R$ 1.335,00, se mantida

constante a variável X2 (NÚMERO DE QUARTOS).

A interpretação do coeficiente da variável X2 é: a cada uma unidade de aumento na variável

X2 (NÚMERO DE QUARTOS), a variável Y (VALOR) aumenta em média R$ 67.719, se mantida

constante a variável X1 (ÁREA).

Para um apartamento que tenha 80 metros quadrados e três quartos, o valor previsto pela

equação é:

Y = 86.873 + 1.335 × 80 + 67.719 × 3=

Y = 86.873 + 106.800 + 203.157 = R$ 396.830

ˆ

ˆ

ˆ

unidade 8160

ESTATÍSTICA E PROBABILIDADES

APLICAÇÃO PRÁTICA

Os exemplos de análise de regressão utilizados

nesta unidade contêm uma variável explicativa,

no caso da regressão simples, ou duas variáveis

explicativas, no caso da regressão múltipla. Tais

situações ilustram a utilização dos modelos

de regressão para situações mais simples. Na

verdade, esses modelos podem ser utilizados

com um número bem maior de variáveis

explicativas.

Por exemplo, para prever o preço de revenda

de um automóvel, o analista de dados pode

utilizar diversas variáveis, como: idade, número

de quilômetros rodados, presença de vidros

elétricos, presença de ar condicionado, consumo

de combustível na estrada, consumo de

combustível na cidade, estado de conservação

dos pneus, estado de conservação da pintura,

etc.

Nesse sentido, os modelos de regressão se

mostram muito úteis para a realização de

previsões. Outro exemplo: imagine o gestor de

uma empresa de varejo de alimentos que tem

que tomar a decisão sobre a quantidade de itens

em estoque. Nesse caso, ele não pode estocar

muito, pois os produtos podem perder validade,

além do custo do espaço utilizado para guardar

as mercadorias. Ao mesmo tempo, estocar uma

quantidade insatisfatória pode implicar na falta

de produtos para a venda. Nesse caso, é de

grande valia a utilização de modelos de previsão

para estimar a quantidade de mercadorias que

serão comercializadas num certo espaço de

tempo.

Um terceiro exemplo do uso de modelos de

regressão se refere à decisão dos bancos

sobre conceder ou não um empréstimo para

determinado candidato. Para isso, o banco

geralmente levanta diversas variáveis para

estimar a probabilidade de o cliente ser ou não

um bom pagador.

REVISÃO

A presente unidade tratou do tema

relação entre duas ou mais variáveis

quantitativas. Foi demonstrado que, para

o estudo de duas variáveis quantitativas

simultaneamente, faz-se interessante o

uso de diagramas de dispersão com o

objetivo de inspecionar visualmente se elas

apresentam associação. Devemos observar,

principalmente, a forma, a intensidade e a

direção da relação entre as variáveis. Além

disso, também é importante o cálculo do

coeficiente de correlação, que fornece um

valor entre 0 e 1, podendo ser negativo no

caso de relacionamento linear inverso entre

as variáveis.

Outra técnica bastante interessante para

o estudo da relação entre duas variáveis é

a regressão simples, muito útil para fazer

previsões. Além da regressão simples, a

regressão múltipla também é bastante

unidade 8161

ESTATÍSTICA E PROBABILIDADES

utilizada, pois na maioria das situações

as variáveis previstas são associadas a

diversas variáveis explanatórias, tanto

quantitativas quanto categóricas.

Para que o modelo de regressão seja útil,

o analista depende do conhecimento da

teoria acerca do assunto e de alguma

experiência prática capaz de auxiliar na

escolha das melhores variáveis candidatas

e explicativas.

A utilização dos modelos de regressão na

engenharia é muito importante, uma vez

que vários experimentos são delineados na

otimização de processos de produção.

PARA SABER MAIS

Para estudar mais sobre os modelos de

regressão, consulte as seguintes obras:

DOANE, David, SEWARD, Lori. Estatística

Aplicada à Administração e à Economia.

ArtMed, 2010. VitalBook file.

FREUND, John, SIMON, Gary. Estatística

Aplicada: Economia, Administração e

Contabilidade. 9 Ed. Porto Alegre: Bookman,

2007.

LEVINE, David; BERENSON, Mark; STEPHAN,

David. Estatística: teoria e aplicações -

usando o Microsoft Excel em português. 6

ed.Rio de Janeiro: LTC, 2011, 812 p.

MONTGOMERY, Douglas, RUNGER, George.

Estatística aplicada e probabilidade para

engenheiros. 3.ed. Rio de Janeiro: LTC,

2009.

MOORE, David. A estatística básica e sua

prática. Rio de Janeiro: LTC, 2014.

TRIOLA, Mário. Introdução à Estatística. 10

ed. Rio de Janeiro: LTC. 2008. 722p.

162

REFERÊNCIAS

BARBETTA, Pedro Alberto, REIS, Marcelo

Menezes, BORNIA, Antônio Cezar.

Estatística: Para Cursos de Engenharia e

Informática. 3 ed. Atlas, 2010. VitalBook file.

BAILAR III, John.C.; MOSTELLER, Frederick.

Medical uses of statistics. 2. ed. Boston:

NEJM Books, 1992.

CARVALHO, Danilo Heraldo; COUTO, Bráulio

Roberto Gonçalves Marinho. Levantamentos

por amostragem ou “pesquisas de survey.

Relatório técnico DCET, Nº 3/2003. 107p

DAVID M. et al. Estatística: teoria e

aplicações usando Microsoft Excel em

português. 3 ed. Rio de Janeiro: LTC, 2000

DOANE, David, SEWARD, Lori. Estatística

Aplicada à Administração e à Economia.

ArtMed, 2010. VitalBook file.

DOWNING, Douglas. Estatística Aplicada.

Trad. Alfedro Alves de Farias: 2ed São Paulo:

Saraiva, 2003

FIELD, Andy. Descobrindo a Estatística

Usando o SPSS. 2 ed. Porto Alegre:

ARTMED, 2009. 688p

FORMULÁRIO GOOGLE DOCS. Disponível em:

<https://docs.google.com/forms>. Acesso

em: 15 abr. 2015

FREUND, John. Estatística Aplicada à Economia.

11 ed. Bookman, 2006. VitalBook file.

GAZZARRRINI, Rafael. Lotus 1-2-3: o software

que ajudou a mudar o mundo. 18 fev. 2013. In:

Site “TecMundo”. Disponível em: <http://www.

tecmundo.com.br/tecnologia/36697-lotus-

1-2-3-o-software-que-ajudou-a-mudar-o-

mundo.htm>. Acesso em: 15 abr. 2015

GRIFFITHS, Dawn. Use a cabeça! Estatística.

Rio de Janeiro: Altabooks, 2009.

HINES, William, MONTGOMERY, Douglas,

GOLDSMAN, Dave, BORROR, Connie.

Probabilidade e Estatística na Engenharia. 4

ed. Rio de Janeiro: LTC, 2006. VitalBook file.

KAZMIER, Leonard. Estatística Aplicada à

Administração e Economia. Bookman, 2007.

LEVINE, David M. et al. Estatística - teoria

e aplicações: usando Microsoft Excel em

português. 6 ed. Rio de Janeiro: LTC, 2012. 804 p

MAGALHÃES, Marcos Nascimento; LIMA,

Antônio Carlos Pedroso. Noções de

Probabilidade e Estatística. 6. ed. São Paulo:

Editora da Universidade de São Paulo, 2007.

MALHOTRA, Naresh K.. Pesquisa de

marketing: uma orientação aplicada. trad.

Lene Belon Ribeiro, Monica Stefani. rev. téc.

Janaína de Moura Engracia Giraldi. Porto

Alegre: Bookman, 2012.

163

McCLAVE, James T.; BENSON, George;

SINCICH, Terry. Estatística para

administração e economia. trad. Fabrício

Pereira Soares e Fernando Sampaio Filho;

rev. téc. Galo Carlos Lopez Noriega. São

Paulo: Pearson Prentice Hall, 2009.

MONTGMOMERY, Douglas C; RUNGER,

George C. Estatística aplicada e probabilidade

para engenheiros. trad. e rev. téc. Verônica

Calado. Rio de Janeiro: LTC, 2009.

MOORE, David. A estatística básica e sua

prática. Rio de Janeiro. LTC, 2014.

NETO, Antônio Peli. Intervalos de confiança,

Intervalos de Predição e Campo de Arbítrio

nas Avaliações de Imóveis Urbanos.

Associação Brasileira dos Engenheiros

Civis - Departamento da Bahia. Bahia, 2010.

Disponível em: <http://goo.gl/6uFFSt>.

Acesso em 16 jun. 2015.

REIDEL, Adilson et al. Utilização de efluente de

frigorífico, tratado com macrófita aquática, no

cultivo de tilápia do Nilo. R. Bras. Eng. Agríc.

Ambiental, Campina Grande, v.9, (Suplemento),

p.181-185, 2005. Disponível em: <http://goo.

gl/TQP0re>. Acesso em: 21 jan. 2015

SILVA, Nilza Nunes. Amostragem

probabilística. 2 ed. São Paulo: Editora da

Universidade de São Paulo, 2001. 120p

SHARP, Norean, DE VEAUX, Richard,

VELLEMAN. Paul. Estatística Aplicada -

Administração, Economia e Negócios. Porto

Alegre: Bookman, 2011.

SOARES, José Francisco; SIQUEIRA,

Armanda Lúcia. Introdução à Estatística

Médica. Belo Horizonte: UFMG, 2002. 300p

STEVENSON, William. Estatística Aplicada

à Administração. ed 2001. São Paulo:

Harbra, 1981.

TRIOLA, Mario Farias. Introdução à Estatística:

tradução de Vera Regina Lima de Farias e

Flores, revisão técnica Ana Maria Lima de

Farias. 10 ed. Rio de Janeiro: LTC, 2008

TRIOLA, Mario F. Introdução à Estatística:

Atualização da Tecnologia, 11 ed. LTC,

03/2013. VitalBook file.

WERKEMA, Maria Cristina Catarino;

AGUIAR, Silvio. Planejamento e análise de

experimentos: Como Identificar as principais

variáveis influentes em um processo. Belo

Horizonte: Fundação Cristiano Ottoni,

Escola de Engenharia da UFMG, 1996.

WALPOLE, Ronald. Probabilidade e

estatística para engenharia e ciências. São

Paulo: Pears, 2008

www.animaeducacao.com.br