Livro estat e proba
-
Upload
independent -
Category
Documents
-
view
0 -
download
0
Transcript of Livro estat e proba
Bráulio Roberto Gonçalves Marinho CoutoJanaína Giovani Noronha de Oliveira
Octávio Alcântara TorresReinaldo Carvalho de Morais
Estatística e Probabilidades
Bráulio Roberto Gonçalves Marinho CoutoJanaína Giovani Noronha de Oliveira
Octávio Alcântara TorresReinaldo Carvalho de Morais
ESTATÍSTICA E PROBABILIDADES
Belo HorizonteJunho de 2015
COPYRIGHT © 2015GRUPO ĂNIMA EDUCAÇÃO
Todos os direitos reservados ao:Grupo Ănima Educação
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.
EdiçãoGrupo Ănima Educação
Vice PresidênciaArthur Sperandeo de Macedo
Coordenação de ProduçãoGislene Garcia Nora de Oliveira
Ilustração e CapaAlexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD
CONHEÇA O AUTOR
CONHEÇA A AUTORA
Bráulio Roberto Gonçalves Marinho Couto é
doutor em Bioinformática, mestre em Ciência
da Computação, especialista em Estatística,
bacharel em Engenharia Química e técnico
em Química. Atuante nas áreas de Estatística,
Cálculo Numérico, Informática em Saúde,
Epidemiologia Hospitalar e Bioinformática.
Professor do Centro Universitário de Belo
Horizonte (UniBH).
Janaína Giovani Noronha de Oliveira
é mestre em Estatística e graduada
em Licenciatura em Matemática com
Habilitação em Física. Possui experiência
como docente na área de Matemática
e Estatística do Ensino superior e
médio. Experiência com orientação de
Monografias.
CONHEÇA O AUTOR
CONHEÇA O AUTOR
Octávio Alcântara Torres é bacharel em
Estatística e mestre em Demografia. Possui
experiência nas áreas de probabilidade e
estatística, regressão e correlação, análise
estatística multivariada e controle estatístico
de processo. Áreas de interesse: projeções
populacionais, projeções de mão de obra
qualificada, pesquisa de mercado, estatística
aplicada.
Reinaldo Carvalho de Morais é mestre
e bacharel em Administração Pública,
graduado em Estatística e especialista
em Gestão Financeira. Possui experiência
em pesquisas sobre economia e finanças
públicas mineiras, bem como docência nas
disciplinas de estatística, de economia,
de engenharia econômica, de matemática
financeira e de administração da produção.
Egressos de cursos de Engenharia e
Tecnologia são profissionais que resolvem
problemas. E como isso ocorre? Pela
aplicação eficiente do método científico.
Pois bem, é disso que se trata essa
disciplina: apresentar ferramentas
estatísticas que possibilitarão a você
transformar-se num especialista em
qualquer área do conhecimento e, portanto,
apto a resolver problemas. A disciplina é
dividida em oito unidades cujo objetivo é
introduzir o aluno na área da Estatística
e Probabilidades, tornando-o capaz de
planejar e de executar experimentos de
pequeno e médio porte nas áreas de
Ciências Exatas e de Engenharia. Além de
fazer a análise exploratória dos dados e de
realizar inferências, por meio da tomada de
decisão na presença de incerteza.
A Unidade 1 apresenta definições
fundamentais para a correta compreensão
do processo de coleta e de análise de dados.
Conceitos sobre população e amostra,
censo e amostragem, e variáveis são
discutidos nessa unidade. A Unidade 2 trata
da análise exploratória de dados, quando
são apresentadas técnicas de Estatística
Descritiva. O objeto dessa unidade,
bastante intuitiva, é trabalhar a síntese
numérica, gráfica e tabular dos dados.
A ideia é usar ferramentas como o Excel
para construir tabelas e gráficos, como
histograma, diagrama de dispersão, Pareto
e calcular valores como média, mediana,
desvio padrão, e coeficiente de variação.
Na Unidade 3 são introduzidos conceitos
básicos de probabilidades, cruciais para
que se entenda o processo de tomada
de decisão na presença de incerteza. A
Unidade 4 é uma continuação da terceira
unidade, são apresentados os modelos
probabilísticos mais importantes para se
modelar problemas de pequeno e médio
porte na área de Engenharia e Tecnologia.
A partir da Unidade 5 caminhamos para
a área “nobre” da Estatística, que envolve
as inferências, isto é, o processo de
generalização de resultados parciais,
observados em amostras, para toda a
população envolvida num problema. Nessa
unidade é discutida a forma de obter os
intervalos de confiança, tanto para média
quanto para proporção. Na Unidade 5
discute-se, por exemplo, como o resultado
de uma pesquisa eleitoral é calculado e o
significado do intervalo definido pela soma
e subtração de uma “margem de erro”.
A Unidade 6 é voltada para o planejamento
de experimentos, quando é apresentado,
APRESENTAÇÃO DA DISCIPLINA
por exemplo, como calcular o tamanho
de uma amostra. Em alguns livros este
item é colocado na primeira unidade, o
que tem certa lógica por tratar da coleta
de dados, primeira etapa de qualquer
análise estatística. Entretanto, como são
necessários conceitos probabilísticos e de
inferência para entender o planejamento
de experimentos, optamos por colocar
essa unidade logo após a discussão sobre
intervalos de confiança.
As Unidades 7 e 8 fecham a disciplina,
apresentado as ferramentas mais úteis
para que você finalmente se transforme
num especialista em uma área qualquer e,
portanto, realmente apto a resolver seus
problemas. Na Unidade 7 são discutidos
os métodos para fazer e interpretar testes
de hipóteses, num contexto uni variado
e, na Unidade 8, discute-se métodos de
correlação e regressão, introduzindo a
análise multivariada.
Ao longo das oito unidades, procuraremos
apresentar uma abordagem baseada
em PPL – Aprendizagem Baseada em
Problemas, além de usarmos como
ferramentas computacionais o Microsoft®
Excel e o software de domínio público,
EpiInfo.
Bom trabalho!
Bráulio, Janaína, Octávio e Reinaldo.
UNIDADE 1 003Introdução à Estatística 004Conceitos básicos 006O papel das variáveis numa base de dados: identificação, auxiliares, variáveis explicativas e variável reposta (desfecho) 010Tipos de variáves 013Uso do excel como um sistema de gerenciamento de dados e dos formulários do google docs para coleta de informações 015Revisão 017
UNIDADE 2 019Análise exploratória de dados 020Síntese gráfica de dados 021Síntese tabulador de dados 038Síntese numérica de dados 038Revisão 048
UNIDADE 3 049Introdução à teoria de probabilidades 050Probabilidade clássica e probabilidade frequentista 053Leis básicas de probabilidade 053União e interseção de eventos 054Tabelas de contigência 056Eventos independentes 057Teorema de Bayes 058Revisão 061
UNIDADE 4 063Modelos probabilísticos 064Varieaveis aleatórias 065Modelos probabilísticos 071Distribuição binomial 071Distribuição Poisson 072Distribuição normal 072Revisão 076
UNIDADE 5 077Estimação de médias e proporções 078Teorema central do limite 079Estimação pontual e por intervalos de confiança para uma média populacional 082Estimação pontual e por intervalos de confiança para uma proporção populacional 089Uso do excel no cálculo de intervalos de confiança para média e proporção 091Introdução ao programa Epiinfo 094Revisão 095
UNIDADE 6 098Planejamento de experimentos 099Cálculo de tamanho de amostra baseado em intervalos de confiança para uma proporção 100 Cálculo de tamanho de amostra baseado em intervalos de confiança para uma média 103Planejamento de experimentos 106Revisão 113
UNIDADE 7 115Testes de hipóteses 116A construção e o significado de uma hipótese estatística 117Testes para uma amostra 118Testes para duas ou mais amostras 133Revisão 137
UNIDADE 8 139Análise de correlação e regressão 140Análise de correlação 141Regressão linear simples 149Regressão linear múltipla 157Revisão 160
REFERÊNCIAS 117
unidade 1004
INTRODUÇÃO À ESTATÍSTICA
Podemos entender o método estatístico como um processo para obter, apresentar e
analisar características ou valores numéricos, identificando padrões que possibilitam
a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o
método estatístico para a análise e solução de problemas, muito rapidamente se tornará um
especialista de qualquer área do conhecimento! Num mundo real, completamente cercado
de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos,
produtos, serviços, etc pode transformá-lo num “mago”.
Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento
adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não
é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática
que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente
confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na
Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente
uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única
resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem
chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer
a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai
completamente contra a conceituação usual dos problemas em simplesmente certo ou errado.
Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão
tomar decisões com alto grau de confiança.
ESTATÍSTICA E PROBABILIDADES
unidade 1005
Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro
grandes áreas:
1) amostragem e coleta de dados;
2) análise exploratória de dados (estatística descritiva);
3) teoria de probabilidades;
4) decisão na presença de incerteza (inferência).
A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões
simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,
que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:
a) apresentar conceitos básicos de Estatística e Probabilidades;
b) identificar as funções e os principais tipos de dados e de variáveis;
c) identificar e corrigir problemas de dados faltantes (missing);
d) configurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereçamento de células do Excel.
f) construir formulários de coleta de dados no Google Docs;
g) enviar formulários de coleta de dados por meio de mala direta.
É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o
entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de
dados, não há como você ser feliz nas outras etapas do processo!
ESTATÍSTICA E PROBABILIDADES
unidade 1006
CONCEITOS BÁSICOS
Vamos supor que uma cozinheira esteja
preparando dois litros de sopa.
Como ela sabe se a sopa está temperada?
Os dois litros de sopa formam a população
e, se a cozinheira comer/provar toda a sopa,
estará fazendo um censo, o que geraria um
absurdo do tipo “É, a sopa estava ótima!”.
A cozinheira sabe que em experimentos
baseados em ensaios destrutivos, quando
a própria análise destrói o dado coletado, o
censo é um absurdo. Na verdade, ela sabe
que censos, de modo geral, são inviáveis,
muito caros e/ou muito demorados. Mais
ainda, ela sabe que se usar uma pequena
amostra cuidadosamente retirada, chamada
amostra representativa, poderá tomar
decisões sobre toda a população envolvida
no problema com um alto grau de confiança.
A cozinheira então retira uma pequena
amostra, uma “pitada” da comida, prova-a
e generaliza o resultado para toda a sopa.
Isso é chamado de inferência: tomar
decisões sobre toda uma população com
base em informações parciais de uma
amostra (veja a FIGURA 1).
Entretanto, a cozinheira sabe que para fazer
inferências válidas, deve tomar cuidado
para não trabalhar com amostras viciadas.
E o que seria isso?
Se ela retirar uma amostra somente da
parte de cima da sopa, muito provavelmente
terá uma amostra viciada, isto é, sem
representantes de todos os componentes
da sopa como um todo que, neste caso, é a
população amostrada.
E como ela retira uma amostra
representativa da sua população (“sopa”)?
Como a cozinheira procede para obter uma
amostra com “representantes” de cada
estrato da sopa?
Simples, ela mistura a sopa fazendo uma
homogeneização e sorteia uma porção/
pitada que será usada no seu processo
decisório. Fazendo uma amostragem
aleatória, a cozinheira sabe que terá
grande chance de trabalhar com amostras
representativas.
Podemos agora resumir esses conceitos.
População:
a) consiste na totalidade das unidades de
observação a partir dos quais ou sobre
os quais deseja tomar uma decisão;
b) conjunto de elementos que formam o
universo do nosso estudo e que são
Você sabe o que é população? E
amostra? Vejamos o exemplo a seguir.
ESTATÍSTICA E PROBABILIDADES
unidade 1007
passíveis de serem observados;
c) conjunto de indivíduos sobre os quais
recairão todas as generalizações das
conclusões obtidas no estudo;
d) usualmente, as unidades de observações
são pessoas, objetos ou eventos;
e) é o universo a ser amostrado;
f) do ponto de vista matemático, a população
é definida como um conjunto de
elementos que possuem pelo menos uma
característica em comum (SILVA, 2001).
População finita: o número de unidades de
observação pode ser contado e é limitado.
Exemplos:
a) alunos matriculados na disciplina
Estatística e Probabilidades;
b) todas as declarações de renda recebidas
pela Receita Federal;
c) todas as pessoas que compram telefone
celular num determinado ano;
d) um lote com N produtos.
População infinita: a quantidade de
unidades de observação é ilimitada, ou
a sua composição é tal que as unidades
da população não podem ser contadas.
Exemplos:
a) conjunto de medidas de determinado
comprimento;
b) gases, líquidos e alguns sólidos em
que as suas unidades não podem ser
identificadas e contadas.
Amostra: conjunto de unidades
selecionadas de uma população, ou seja,
uma parte dos elementos da população.
Amostra representativa: é uma versão
em miniatura da população, exatamente
como ela é, somente menor. A amostra
representativa segue o modelo populacional,
tal que suas características importantes
são distribuídas similarmente entre ambos
os grupos.
Unidade amostral: é a menor parte distinta
de uma população, identificável para fins de
seleção e construção da amostra.
Amostra aleatória: é aquela obtida por meio
de um processo de sorteio ou aleatorização.
Amostra viciada: é aquela que representa
apenas parte da população, não possuindo
elementos de todos os estratos ou
subconjuntos que formam a população
como um todo.
Censo: exame de todas as unidades de
observação de uma população. Como
discutido no exemplo da cozinheira, se
a pesquisa envolve ensaio destrutivo, o
censo é inviável. Na verdade, somente se a
ESTATÍSTICA E PROBABILIDADES
unidade 1008
FIGURA 1 - População alvo, população amostrada e amostra
População alvo do estudo
Amostra
População amostrada
Inferência
Fonte: Elaborado pelo autor.
Inferir significa generalizar resultados de uma amostra para toda a população.
Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?
A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela
é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados
desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,
como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem
menores que a população, podem ser estudadas mais rapidamente que censos e são
também mais baratas. Além disso, se o processo de amostragem gerar uma amostra
representativa da população alvo do estudo, os resultados observados poderão ser
generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida
se trabalhar com toda a população.
população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo
quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos
quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de
aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de
resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.
Amostragem: processo pelo qual uma amostra de unidades da população é retirada e
observada. É a parte mais importante do processo de pesquisa. O principal e fundamental
objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela
retrate fielmente a população pesquisada.
ESTATÍSTICA E PROBABILIDADES
unidade 1009
Vejamos agora alguns aspectos
relevantes para o campo da amostragem.
São eles:
• Questões da amostragem: Qual
o tamanho da amostra? Como
a amostra será obtida? Como
garantir que a amostra obtida
seja representante da população
objeto do estudo? A questão mais
importante não é o seu tamanho,
mas como a amostra será obtida,
pois a amostragem mal feita
invalida qualquer pesquisa.
• Tamanho da amostra (n): está
relacionado ao total de unidades
amostradas, usadas no processo
de inferência. Imagino que
você esteja curioso em relação
ao tamanho da amostra, mas,
como citado anteriormente,
esta não é de longe a questão
mais importante. Por exemplo,
o que você que teria mais
credibilidade numa pesquisa
sobre a aceitação (ou não) do
aborto por parte da população
brasileira: resultados de pesquisa
realizada no domingo à noite por
uma emissora de TV, envolvendo
milhões de pessoas que, após
assistirem a uma reportagem
sobre o assunto, responderam
à pesquisa; ou resultados de
uma amostra de 2.500 pessoas
selecionadas aleatoriamente no
território brasileiro?
No entanto, essa não é uma questão
muito importante para obtermos o
tamanho da amostra adequada para
uma pesquisa, visto que é necessário
estudarmos alguns conceitos
probabilísticos, que serão apresentadas
somente nas próximas unidades.
IMPORTANTE
A maioria das pessoas, quando questionadas
sobre qual o tamanho da amostra necessária
para uma pesquisa, tem o raciocínio equivocado
de que o tamanho da amostra (n) tem relação
direta com o tamanho da população amostrada
(N). Inevitavelmente, a maioria das pessoas
afirma erroneamente que uma boa amostra deve
conter pelo menos, digamos, 30% da população.
O que a cozinheira diria disto? Para provar dois
litros de sopa, quanto de amostra ela teria que
avaliar? Isso mesmo, uma pitada. E para provar
400 litros de sopa, ela beberia um prato inteiro?
Não. Ela provará a mesma pitada, pois sabe que, o
mais importante nesse processo inferencial não é
o tamanho da amostra, mas provar uma amostra
não viciada, representativa de toda a sopa.
Voltando aos processos de amostragem,
as amostras podem ser classificadas em
probabilísticas e não probabilísticas:
ESTATÍSTICA E PROBABILIDADES
unidade 1010
Amostra probabilística:
- existe uma garantia, em termos de
probabilidade, de que qualquer membro
da população possa ser selecionado para
amostra.
Amostra não probabilística:
- os elementos da amostra não são
escolhidos por meio de um sorteio.
CARVALHO e COUTO (2003) apresentam
as principais características de tipos de
amostragem mais comuns, relacionados
principalmente com pesquisas de survey.
Outras amostras, por exemplo, amostragem
de minério, de solo, de gases e de líquidos
têm procedimentos próprios que buscam,
em última instância, obter amostras que
sejam representativas de cada população
envolvida. Em suma, qualquer que seja o
esquema de amostragem, probabilístico ou
não, deve-se sempre garantir que a amostra
reflita as características da população da
qual foi retirada.
LEMBREConforme discutido anteriormente, algumas
pessoas acreditam que uma amostra
representativa é necessária coletar dados
de um percentual mínimo da população,
digamos, 30% do total de indivíduos. Isso é
absolutamente falso e, o que é pior, mesmo
que fossem analisados tal percentual de
indivíduos da população, não é o tamanho
que garante representatividade da
amostra, mas a forma com ela é obtida. É
a imparcialidade do processo de seleção
dos seus elementos e a homogeneidade
da distribuição das características da
amostra e da população que garantem a
representatividade da amostra.
O PAPEL DAS VARIÁVEIS NUMA BASE DE DADOS: IDENTIFICAÇÃO, AUXILIARES, VARIÁVEIS EXPLICATIVAS E VARIÁVEL REPOSTA (DESFECHO)
O primeiro passo de qualquer processo
estatístico é a coleta de dados. Portanto,
tudo o mais será alicerçado sobre o que
for coletado. Sendo assim, essa fase deve
ser cuidadosamente planejada, já que da
qualidade dos dados coletados dependerá
toda a análise e a tomada de decisão
subsequente.
Antes da coleta de um dado, é importante
entender o conceito de variável que está
por trás da informação que você procura.
A variável contém a informação que você
quer analisar, sob a forma de uma medição
sobre determinadas características dos
ESTATÍSTICA E PROBABILIDADES
unidade 1011
indivíduos estudados e das unidades de
observação.
E, por que esse conceito é tão importante?
Porque, no fim das contas, é a variável
que é analisada e não a informação que
ela contém. Por isso, é importante que
você, antes de sair coletando informações,
analise o seu questionário de coleta de
dados, identifique cada variável envolvida
e responda perguntas, tais como: O que
exatamente a variável está medindo? Para
que serve esta variável e, principalmente,
é possível analisá-la? E com que método
estatístico?
CONCEITOUma variável é a quantificação de uma
característica de interesse da pesquisa (SOARES
e SIQUEIRA, 2002). Refere-se ao fenômeno a ser
pesquisado. É o campo de variação de cada tipo
de dado a ser pesquisado. Observe que, como o
próprio nome diz, uma variável deve variar, ou seja,
se você está coletando dados sobre características
de alunos da disciplina Cálculo Diferencial,
podemos pensar em inúmeras variáveis para a
unidade de observação “aluno”: idade, sexo, curso,
local do ensino médio, tempo entre final do ensino
médio e início da graduação, nota final, percentual
de presença às aulas etc. Entretanto, o tipo de
disciplina não é uma variável nesse caso, pois ela é
constante (Cálculo Diferencial).
O grau de variabilidade de uma variável é
chave no método estatístico e será foco
de discussões nas próximas unidades.
Entretanto, neste momento, é crucial que
você entenda dois aspectos básicos de
qualquer variável: o seu tipo e a sua função,
o papel que ela exerce na base de dados.
ATENÇÃOToda análise que será feita na base de dados
dependerá do seu entendimento sobre o tipo e a
função de cada variável coletada!
Vejamos os tipos de funções de cada
variável:
ESTATÍSTICA E PROBABILIDADES
unidade 1012
QUADRO 1 - O papel de uma variável numa base de dados.
Fonte: Elaborado pelo autor.
Variáveis de identificação e auxiliares
Variáveis explicativas
Variável desfecho
Servem para o rastreamento dos indivíduos e das unidades amostrais, ou são usadas na definição de outras variáveis. Exemplos de variáveis de identificação: CPF, nome, número de matrícula, número da amostra etc.
Exemplos de variáveis auxiliares: datas, peso e altura.
Variáveis de identificação e auxiliares não são analisadas, mas fazem parte da base de dados.
São aquelas que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. São chamadas também de co-variáveis ou variáveis independentes.
Para cada estudo existem variáveis explicativas próprias, definidas por hipóteses da própria pesquisa ou conforme revisão da literatura. Em processos químicos, quando se busca entender os fatores que afetam o rendimento de uma reação química, são exemplos de variáveis explicativas a temperatura, a pressão, o tipo de catalisador e a concentração de reagentes. Se alguém pesquisar sobre as razões de algumas pessoas serem maiores que outras, as alturas do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de variáveis explicativas.
É aquela que queremos explicar, em função de ser influenciada, afetada por outros fatores (variáveis explicativas). Também denominada de variável dependente ou variável resposta. Sempre defina um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de uma mesma região têm preços tão variados, o preço de venda seria uma variável resposta. Fatores como área, número de quatros, número e tipo de vaga de garagem, quantidade de suítes, presença de salão de festas ou piscina são algumas das possíveis variáveis explicativas para esse problema.
TIPOS CARACTERÍSTICAS
A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise
será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos
de análise estatística que serão estuados nas próximas unidades.
ESTATÍSTICA E PROBABILIDADES
unidade 1013
TIPOS DE VARIÁVEIS
Se considerarmos a maioria absoluta das
variáveis envolvidas em experimentos
de pequeno e médio porte nas áreas de
Ciências Exatas e Engenharia, teremos
duas situações para o tipo da variável.
I) Variável qualitativa ou categórica: é
aquela que expressa características ou
atributos de classificação, distribuídos
em categorias mutuamente
exclusivas de objetos ou entidades.
Categorias mutuamente exclusivas ou
mutuamente excludentes não podem
ser observadas simultaneamente
num mesmo indivíduo. Por exemplo,
grupo sanguíneo (A, B, AB, O) é uma
variável categórica mutuamente
exclusiva: um indivíduo tem somente
um grupo sanguíneo, não podendo
ser classificado em mais de uma
categoria ao mesmo tempo. Variáveis
qualitativas têm um nível baixo de
informação, sendo obtidas por um
critério de classificação. Por exemplo,
sexo (masculino, feminino), estado civil
(com companheiro, sem companheiro),
cor de um produto (branco, verde,
amarelo, azul), tipo de transmissão
de um carro (manual, automática),
conformidade de qualidade de um
produto (aceito, não aceito), dia
chuvoso (sim, não), resultado final de
um aluno numa disciplina (aprovado,
reprovado) etc.
A análise de uma variável categórica
é muito restrita e simples: conta-
se quantas unidades amostrais ou
resultados observados em cada
categoria da variável e calcula-se o
percentual de ocorrência de cada classe
ou categoria.
II) Variável quantitativa: é aquela obtida
por meio de um processo de medição
ou contagem. Por exemplo: peso,
altura, dosagem e concentrações
de produtos químicos e outros
insumos, temperatura, pressão,
altitude, umidade, largura, diâmetro,
comprimento, voltagem, corrente,
quantidade de chuva (mm), número
de falhas, número de ligações
telefônicas, número de mensagens
eletrônicas, número de faltas de um
aluno numa disciplina, nota final na
disciplina, área, preço, etc.
A variável quantitativa possui o mais
alto nível de informação, sendo objeto de
inúmeras técnicas de análise. Para cada
variável quantitativa podemos calcular
seu valor médio, mediano, modal, mínimo,
máximo, seu desvio padrão, coeficiente
de variação, intervalos específicos de
variação e outras técnicas analíticas que
serão descritas na próxima unidade.
ESTATÍSTICA E PROBABILIDADES
unidade 1014
As variáveis quantitativas são chamadas
também de numéricas, mas essa
nomenclatura pode gerar confusão,
pois o simples fato de alocar números
aos resultados de uma variável não a
torna quantitativa. Por exemplo, se os
grupos sanguíneos fossem classificados
em 1, 2, 3 e 4 (ao invés de A, B, AB e
O), tal codificação não a tornaria uma
variável quantitativa. Na verdade, para
que uma variável seja quantitativa,
deve ser possível aplicarmos operações
aritméticas aos seus resultados. A
capacidade de realizarmos, por exemplo,
somas e subtrações “válidas” aos
resultados de uma variável é um indicativo
de que ela é quantitativa. Claro que a
análise do seu processo de obtenção é
mais importante: os resultados de uma
variável quantitativa devem ser obtidos
por medição ou contagem. Além disso,
essas variáveis podem ser contínuas,
quando representadas por números reais,
ou discretas, quando representadas por
números inteiros.
Usualmente, se ela é obtida por
medição, então é contínua. Caso seja
obtida por meio de contagem, é uma
variável discreta. Para efeitos práticos,
não faremos distinção entre variáveis
contínuas e discretas, o fundamental é
entendê-las como quantitativas.
Algumas variáveis originalmente de
classificação. As notas obtidas por
um aluno numa prova são tratadas
como quantitativas, mesmo que não
sejam obtidas por meio de um aparelho
ou dosador. Nesse caso, a nota de
uma prova é tratada como variável
quantitativa porque considera-se válido
aplicar operações aritméticas aos
seus resultados. Entretanto, será que
um aluno que obtém 80 pontos numa
disciplina sabe o dobro que um aluno que
obteve 40 pontos? Claro que não. Já uma
pessoa de 100 Kg tem o dobro de peso
de uma pessoa de 50 Kg. Outro exemplo,
as temperaturas medidas em Graus
Celsius são tratadas como variáveis
quantitativas. Isso quer dizer que um dia
com 40ºC tem o dobro de calor de um
dia com 20ºC? Transforme os valores em
Graus Celsius para Kelvin e compare o
resultado.
Bom, os conceitos por trás dessa
discussão envolve o nível de mensuração
da variável (nominal, ordinal, intervalar
e de razão) que será tratado a seguir.
Para efeito prático, consideraremos
somente duas categorias de variáveis:
quantitativas versus categóricas.
Conforme citado anteriormente, esses
são os tipos de variável coletadas em
problemas típicos de Ciências Exatas e
de Engenharia.
ESTATÍSTICA E PROBABILIDADES
unidade 1015
USO DO EXCEL COMO UM SISTEMA DE GERENCIAMENTO DE DADOS E DOS FORMULÁRIOS DO GOOGLE DOCS PARA COLETA DE INFORMAÇÕES
Duas ferramentas essenciais para coleta
de dados de experimentos de pequeno
e médio porte na área de Ciências
Exatas e Engenharia são o Excel, um dos
componentes do pacote Office da Microsoft,
e os Formulários do Google Docs <https://
docs.google.com/forms>.
O Excel é uma planilha eletrônica com
origens no Lotus 1-2-3 (GAZZARRRINI,
2013). Ambas as ferramentas são
extremamente práticas, de grande utilidade
e serão discutidas por meio de vídeo aulas.
Os formulários do Google Docs são ótimos
para pesquisas envolvendo pessoas que
têm endereço eletrônico (e-mails). Para
usá-los você terá que obter uma lista com os
nomes dos respondentes e os respectivos
e-mails. Após construir o formulário de
coleta de dados no Google Docs, você
poderá enviá-lo usando o mecanismo de
“mala direta”, da aba “correspondências”
do Word, que também é parte do pacote
Office da Microsoft. As respostas enviadas
pelos respondentes são automaticamente
armazenadas em planilha eletrônica,
facilitando a coleta e a análise dos dados.
É crucial que você domine o Excel como
instrumento de coleta de dados e entenda
perfeitamente o papel de cada variável a ser
coletada. Identificar variáveis explicativas
e desfecho (s), distinguir entre variável
quantitativa e categórica é uma questão
relativamente simples, mas fundamental
para as discussões que serão feitas nas
próximas unidades.
APLICAÇÃO PRÁTICA
Considere o artigo “Utilização de efluente de
frigorífico, tratado com macrófita aquática,
no cultivo de tilápia do Nilo”, de autoria de
Adilson Reidel e outros pesquisadores da
Universidade Estadual do Oeste do Paraná
(REIDEL et al.; 2005) disponível em:
<http://www.agriambi.com.br/revista/
suplemento/index_arquivos/PDF/181.pdf>
Neste trabalho, os pesquisadores fizeram
um experimento em que, resumidamente,
foram colocadas amostras aleatórias de
alevinos (“filhotes”) de tilápia em aquários
com água potável (tratamento A) e em
tanques com efluente de frigorífico após
passar num sistema de filtro com aguapé
ESTATÍSTICA E PROBABILIDADES
unidade 1016
(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos
peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de
frigorífico tratado com aguapé?”
Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis
envolvidas na pesquisa.
TABELA 1 – Valores médios dos parâmetros físico-químicos determinados durante o cultivo da tilápia do Nilo (O. niloticus)
Fonte: REIDEL et al., 2005.
TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos de tilápia do Nilo, cultivados com água potável e efluente tratado
Fonte: REIDEL et al.; 2005.
Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos
de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado
em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados
ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário.
PARÂMETROS
VARIÁVEIS
TRATAMENTOS
Tratamento A Tratamento B Teste t-Student T calculado
A
média médiaO O
B
Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70
Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90
Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35
Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0
Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso final (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa final (aquário) 5,280 a 38,890 4,300 a 45,721 0,028
Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08
Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de filtro de aguapé + ração)
Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância
ESTATÍSTICA E PROBABILIDADES
unidade 1017
Nesse trabalho são usadas três variáveis
resposta, uma categórica (“O peixe
sobreviveu?” “sim ou não”) e dois desfechos
quantitativos (peso final e biomassa final,
medidos em gramas). Dentre as variáveis
explicativas envolvidas, a mais importante,
que está diretamente ligada ao objetivo da
pesquisa é o tipo de tratamento (A versus
B), uma variável categórica dicotômica.
Muitas pessoas têm dificuldade em
identificar essa variável explicativa, apesar
dela ser a mais importante na pesquisa.
As outras variáveis explicativas são todas
quantitativas e, como tal, foram obtidas
por meio de um processo de medição,
contagem ou dosagem: temperatura (ºC),
oxigênio Dissolvido (mg L-1), condutividade
Elétrica (μS cm-1), pH, peso inicial (g) e
biomassa inicial (g).
Nas tabelas apresentadas aparecem
métricas (média, desvio padrão e valor de t
de student) que são usadas na análise e na
conclusão do projeto. Fique tranquilo, esses
conceitos serão tratados nas próximas
unidades!
De qualquer forma, a conclusão da pesquisa
para a pergunta “É possível cultivar tilápias
em efluente de frigorífico tratado com
aguapé?”, é: “Sim, é possível cultivar tilápias
em efluente de frigorífico tratado com
aguapé. Os dados não mostraram diferença
significativa entre os dois tratamentos,
tanto em relação ao desenvolvimento
quanto à sobrevivência dos peixes”.
O entendimento completo das razões
para chegar a essa conclusão será obtido
nas próximas unidades. Entretanto, neste
momento, é fundamental que você já
entenda conceitos referentes ao processo
de amostragem/coleta de dados e,
principalmente, que consiga diferenciar
os tipos e as funções das variáveis numa
pesquisa.
REVISÃO
Vimos nessa unidade alguns dos principais
tópicos introdutórios do campo da
Estatística. Em resumo, estudamos sobre:
População, amostra, censo e amostragem:
- Censo de toda a população não é viável,
devido aos altos custos e/ou quando a
pesquisa envolve ensaios destrutivos.
- Uma pequena, mas cuidadosamente
escolhida amostra pode ser usada para
representar a população.
- Os resultados observados numa amostra
representativa poderão ser generalizados,
sem risco de chegar a uma conclusão
diferente daquela que seria obtida no caso
de trabalhar com toda a população.
- A questão mais importante numa
amostragem não é o tamanho da amostra,
ESTATÍSTICA E PROBABILIDADES
unidade 1018
mas como a amostra será obtida, pois o
delineamento amostral mal feito invalida
qualquer pesquisa.
Tipos de variáveis:
- Variável qualitativa ou categórica: é
aquela que expressa características ou
atributos de classificação, distribuídos
em categorias mutuamente exclusivas de
objetos ou entidades.
- Variável quantitativa: é aquela obtida
por meio de um processo de medição ou
contagem.
Função das variáveis:
- Variáveis de identificação e auxiliares:
servem para o rastreamento dos
indivíduos e das unidades amostrais
ou são usadas na definição de outras
variáveis.
- Variáveis explicativas: são aquelas
que, por hipótese, podem influenciar,
determinar ou afetar a variável resposta
ou desfecho da pesquisa.
- Variável desfecho: é aquela que queremos
explicar, em função de ser influenciada e/
ou afetada por outros fatores (variáveis
explicativas). Também denominada de
variável dependente ou variável resposta.
Aconselha-se sempre definir um ou mais
desfechos para o estudo, conforme os
objetivos da sua pesquisa.
Ainda compreendemos que alguns sistemas
computacionais são ferramentas essenciais
para coleta de dados de experimentos de
pequeno e médio porte na área de Ciências
Exatas e da Engenharia. São eles: o Excel,
um dos componentes do pacote Office da
Microsoft, e os Formulários do Google Docs
<https://docs.google.com/forms>.
PARA SABER MAIS
Para aprofundar sobre as questões discutidas
nessa unidade, leia o Capítulo 1 do livro texto:
LEVINE, David M. et al. Estatística: teoria
e aplicações usando Microsoft Excel em
português, 3º edição ou superior: “Introdução e
Coleta de Dados”, assim como o suplemento do
capítulo 1 “Introdução à Utilização do Microsoft
Excel”. w
unidade 2020
ANÁLISE EXPLORATÓRIA DE DADOS
Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá
rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,
como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas
de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas
para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas
e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos
alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência
então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.
Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral
e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.
Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de
cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar
as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou
reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?
Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso
estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,
preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de
projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da
pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo
básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa
(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download
unidade 2021
ESTATÍSTICA E PROBABILIDADES
no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.
Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema
de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de
qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas
a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a
análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm
como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos
e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,
precisamos estudar as ferramentas da Estatística Descritiva:
a) Síntese tabular: Resumo da análise por meio de tabelas;
b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma
dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação);
c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico
de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot.
O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender
dados coletados, transformando dados brutos em informações úteis!
SÍNTESE GRÁFICA DE DADOS
Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe
gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar
para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de
pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras,
colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de
linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em
construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos
construir gráficos usando ferramentas computacionais como o Excel.
unidade 2022
ESTATÍSTICA E PROBABILIDADES
TABELA 3 - Gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia.
Fonte: Elaborado pelo autor.
Pizza ou setor
Colunas (verticais)
Barras (horizontais)
Histograma
Gráficos de linha
Séries históricas
Gráfico de Pareto
Gráfico misto, de coluna e linhas
Diagrama de dispersão
Box-plot
Uma
Uma
Uma
Uma
Duas
Duas
Uma
Duas
Duas
Uma ou mais
Categórica
Categórica
Categórica
Quantitativa, mas categorizada numa tabela de distribuição de frequências
Quantitativa no eixo vertical, e categórica no eixo horizontal
Quantitativa no eixo vertical, e o “tempo” no eixo horizontal
Categórica
Quantitativa no eixo vertical, e o “tempo” no eixo horizontal
Variável explicativa quantitativa no eixo horizontal, e desfecho quantitativo no eixo vertical
Quantitativa
TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS ENVOLVIDAS
TIPO DE VARIÁVEL ANALISADA
Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar
gráficos:
1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio
gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o
Excel, por exemplo, este será exportado para algum documento do Word ou para o
PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do
gráfico será então colocado no slide ou na descrição da figura no editor de textos,
sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em
casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo,
sendo impresso diretamente do Excel, o título não deve ser colocado no meio da
figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.
2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem
artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:
começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro
unidade 2023
ESTATÍSTICA E PROBABILIDADES
possível: toda informação necessária para o entendimento da figura deve estar no seu
título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e
tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma
regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de
figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:
O que? Quem? Quando? Onde? A interpretação das informações no gráfico também
deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas,
usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu
chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo.
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro. Fonte: BAILAR & MOSTELLER,1992.
FIGURA 2 – Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM).
3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para
entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar
os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de
um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo.
unidade 2024
ESTATÍSTICA E PROBABILIDADES
FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.
Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados. Fonte: Elaborado pelo autor.
4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa
desde que os valores no gráfico não fiquem muito espalhados nem muito juntos
numa única região da figura.
5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado
usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses
efeitos são inúteis, podendo até mesmo distorcer o gráfico.
6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas
isso não é necessário se o ponto de início da escala é devidamente marcado na
figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do
gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar
de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base
da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma
interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não
começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!
unidade 2025
ESTATÍSTICA E PROBABILIDADES
FIGURA 4 – Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura.
Fonte: Elaborado pelo autor.
7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo
de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para
que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo
símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.
Fonte: Elaborado pelo autor.
unidade 2026
ESTATÍSTICA E PROBABILIDADES
8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo
aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção
da figura e da própria informação, que fica comprometida: o primeiro gráfico está
correto, mas os outros estão na categoria “como mentir com estatística”...
FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com a altura tendo aproximadamente 75% da largura.
Fonte: Elaborado pelo autor.
FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.
Fonte: Elaborado pelo autor.
unidade 2027
ESTATÍSTICA E PROBABILIDADES
FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura muito grande,
em relação à largura, a informação é falseada e se tem a sensação de redução
dos dados ao longo do tempo
Fonte: Elaborado pelo autor.
9. Gráficos de pizza, “o queridinho”:
Apesar de muito “engraçadinhos”,
estes gráficos são muitos confusos.
Evite o seu uso, substituindo por
gráficos de barra ou de colunas.
É aceitável construi-los somente
quando são poucos setores bem
definidos (até cinco pedaços). Evitar
gráficos de pizza em 3D, com vários
pedaços. Construi-los como na
figura 2.
10. Diagrama de dispersão: Ferramenta
que nos permite avaliar o efeito de
uma variável explicativa quantitativa
sobre um desfecho. Serve tanto para
visualizarmos funções matemáticas
teóricas (figura 9) quanto funções
de relacionamentos empíricos já
conhecidos (figura 10), mas a sua
grande utilidade é quando tentamos
estabelecer a associação entre
duas variáveis quantitativas (figura
11). A figura 9 é um diagrama de
dispersão mostrando uma relação
completamente teórica entre duas
variáveis (x e y). Como é uma relação
exata, somente é desenhada a linha
que liga os pontos do gráfico. Na
figura 10 é desenhada uma relação
empírica, no caso a lei de Abrams,
que relaciona a resistência do
concreto à compressão (R) com o
fator água/cimento (fx) da seguinte
forma: R = α/βfx. Nessa figura, α e
β foram definidos como 100 e 10
respectivamente, de tal forma que
a equação ficou R = 100/10fx, fx
variando de 0 a 3. Já a figura 11
mostra o uso “nobre” dos diagramas
de dispersão, quando tentamos
explorar, criar e propor uma nova
relação empírica entre duas variáveis
quantitativas. Nesse exemplo,
ao invés de aplicarmos a relação
empírica de Abrams, usamos dados
reais de fator fx de água/cimento
e a resistência medida em 28 dias
de uma amostra de concretos
(desfecho). Ao inserirmos uma
linha de tendência linear, estamos
unidade 2028
ESTATÍSTICA E PROBABILIDADES
FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando
uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à compressão
de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do concreto.
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão
do concreto se relaciona com fx por meio de uma equação de reta.
unidade 2029
ESTATÍSTICA E PROBABILIDADES
FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf. Acesso em 14 maio 2015.
A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,
você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A)
Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em
“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)
Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,
quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim
“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)
e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)
Sem associação: Também é um padrão importante, pois indica que não há relação entre as
duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por
exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na
maioria das disciplinas que ele cursa.
unidade 2030
ESTATÍSTICA E PROBABILIDADES
FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e ausência de associação (D).
Fonte: Elaborado pelo autor.
11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a
em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um gráfico de colunas com o resultado. Ao se interpretar um histograma,
deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos
dados? Existe um ponto central bem definido? Como é a amplitude de variação dos
dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo
podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual
destes oito tipos o seu histograma se parece.
Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce
gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.
unidade 2031
ESTATÍSTICA E PROBABILIDADES
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Exemplo 2 - Histograma fortemente
assimétrico: A frequência dos dados
decresce rapidamente num dos lados e
muito lentamente no outro, provocando uma
assimetria na distribuição dos valores. A
distribuição dos salários numa empresa é um
exemplo comum de histograma assimétrico:
muitas pessoas ganham pouco e poucas
pessoas ganham muito (a). A situação (b),
apesar de mais rara, também pode acontecer.
Exemplo 3 - Histograma tipo despenhadeiro:
O histograma termina abruptamente em
um ou nos dois lados, dando a impressão
de que faltam dados. Na verdade, essa
possivelmente deve ser a explicação para
histogramas com esse formato: os dados
muito pequenos e/ou muito grandes foram
eliminados da amostra.
Exemplo 4 - Histograma com dois picos:
Ocorrem picos na distribuição e a frequência
é baixa entre os picos. Possivelmente, os
dados se referem a uma mistura de valores
de diferentes populações, devendo ser
avaliados com cuidado. Se houve mistura
dos dados, é melhor separá-los.
Fonte: Elaborado pelo autor.
unidade 2032
ESTATÍSTICA E PROBABILIDADES
Exemplo 5 - Histograma tipo platô: As
classes de valores centrais apresentam
aproximadamente a mesma frequência.
Essa situação também sugere mistura de
valores de diferentes populações.
Fonte: Elaborado pelo autor.Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
Exemplo 6 – Histograma com uma pequena
ilha isolada: Alguns valores isolados têm
frequência elevada, formando uma espécie
de ilha. Também pode ter ocorrido uma
mistura de dados.
Exemplo 7 – Histograma tipo serrote:
As frequências de valores se alternam
formando vários dentes. Pode indicar algum
problema na obtenção (leitura) dos dados.
Vamos usar como exemplo de dados para
a construção de um histograma notas de
amostra de alunos em uma prova de Cálculo
Diferencial (n=120):
unidade 2033
ESTATÍSTICA E PROBABILIDADES
FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
Fonte: Elaborado pelo autor.
0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25
Passo 1 - Determinar valores mínimo, máximo e amplitude (R):
mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25
Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O
número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ R
. No exemplo, h ≈ R
≈ 25
. ≈ 2,5
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10
classes de tamanho 2,5.
Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero
(valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos
valores se encaixam em cada classe.
Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,
mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos
k k 10
unidade 2034
ESTATÍSTICA E PROBABILIDADES
entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira
classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de
valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas
com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à
esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores
maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo
Excel na construção de histogramas (figura 14).
Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho
da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência
relativa ou percentual de cada classe (em relação ao total de valores) e a frequência
acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que
será explicado mais à frente).
FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
Fonte: Elaborado pelo autor.
0,0 |--| 2,5 35 29% 29%
2,5 --| 5,0 22 18% 48%
5,0 --| 7,5 6 5% 53%
7,7 --| 10,0 9 8% 60%
10,0 --| 12,5 4 3% 63%
12,5 --| 15,0 12 10% 73%
15,0 --| 17,5 10 8% 82%
17,5 --| 20,0 10 8% 90%
20,0 --| 22,5 6 5% 95%
22,5 --| 25,0 6 5% 100%
Total 120 100%
Uma
Uma
Uma
Uma
Duas
Duas
Uma
Duas
Duas
Uma ou mais
NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO
unidade 2035
ESTATÍSTICA E PROBABILIDADES
FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico,
semelhante àquele apresentado no histograma do exemplo 2.
Fonte: Elaborado pelo autor.
12. Gráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades,
quando precisamos fazer um plano de ação para melhoria de qualidade de um
serviço ou produto. Por exemplo, se um determinado problema ou defeito pode
ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem
corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do
gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência
num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação
de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro
menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda
muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura,
estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao
se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria
absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro
menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir
possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas
ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!
unidade 2036
ESTATÍSTICA E PROBABILIDADES
FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias
para um plano de ação para melhorar a qualidade do processo de fabricação (rebarbas, diâmetro menor e diâmetro maior).
Fonte: Elaborado pelo autor.
13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e
bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis
quantitativas (figura 17), informando o menor valor (pequena linha horizontal
inferior) e valor máximo (pequena linha horizontal superior). A distância entre o
valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os
25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde
estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a
pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao
intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando
as duas caixas representa a mediana, que expressa o valor do meio se todos os
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos
informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir
a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um
resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de
cursos de Engenharia.
unidade 2037
ESTATÍSTICA E PROBABILIDADES
FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com
menor taxa de aprovação e maior variabilidade dos dados.
unidade 2038
ESTATÍSTICA E PROBABILIDADES
SÍNTESE TABULAR DE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados
ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e
sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?
Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no
próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas
realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo
para síntese de variáveis categóricas de uma base de dados.
TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais.
Fonte: Elaborado pelo autor.
Conceito Aprovado 2287 49%
Reprovado 2386 51%
Local do ensino médio Instituição privada 1509 32%
Instituição pública 3164 68%
Sexo Feminino 1948 42%
Masculino 2725 58%
Turno Manhã 1153 25%
Noite 3520 75%
VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL
SÍNTESE NUMÉRICA DE DADOS
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como
apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve
resumir dois aspectos:
unidade 2039
ESTATÍSTICA E PROBABILIDADES
1) um valor típico ou característico para a variável;
2) uma medida do grau de variabilidade ou de dispersão dos dados.
1. V alor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele
que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais
aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e
Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da
soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).
Matematicamente, a média é obtida por:
Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que
“divide os dados em duas metades”:
Passo 1 – Colocar os dados em ordem crescente.
Passo 2 – Encontrar o “valor do meio”, isto é:
se n, o tamanho da amostra, é ímpar, então Md é o valor central;
se n é par, então Md é a média dos dois valores centrais.
Exemplo A (n=11), dados já ordenados:
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}
Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º
valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):
Md = 9
Exemplo B (n=18), dados já ordenados:
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}
X = ∑ Xi
n
i =1
n
unidade 2040
ESTATÍSTICA E PROBABILIDADES
Para a mediana, como são 18 valores (n
é par) e a metade de 18 é 9, então Md é a
média entre o 9º e o 10º valor, ou seja:
Md = 30
+
40
= 352
ATENÇÃONão se esqueça, para obter a mediana é
necessário, antes de tudo, colocar os dados
em ordem crescente. Não ordenar os dados é a
principal fonte de erro no cálculo da mediana!
Algumas pessoas se perguntam: “Quantas
casas decimais devo apresentar no
resultado?”. Quanto menos casas decimais
você conseguir apresentar nos seus
resultados, melhor para o entendimento
da informação! Apresente seus resultados
usando o mesmo número de casas decimais
que os dados originais ou, no máximo, uma
casa decimal além do original, como foi
feito nos cálculos anteriores.
Outra questão é “Quando escolher entre
média e mediana para melhor representar
um conjunto de dados?” ou “Em que
situações resumir uma variável quantitativa
usando a média e quando a mediana é
melhor para representar os dados?”. Para
essa resposta, é preciso seguir uma regra
prática:
• Se média e mediana forem
semelhantes, então usar a média
para representar os dados.
• Se média e mediana forem muito
diferentes, então usar a mediana
para representar os dados.
Além de se basear nas regras acima, que
exigem uma interpretação caso a caso do
que seja “média e mediana muito diferentes”,
você poderá construir histogramas e, pelo
padrão do gráfico, escolher uma ou outra
medida para representar os dados. Nos
modelos de histograma colocados no
tópico anterior, os exemplos 1 (simétrico),
3 (despenhadeiro) e 5 (platô), a média
é a melhor medida de posição. Já nos
histogramas dos exemplos 2 (fortemente
assimétrico) e 6 (ilha isolada), a mediana é
a melhor medida de posição que caracteriza
o conjunto de dados.
2. Medida do grau de variabilidade ou
de dispersão dos dados: O objetivo
é quantificar o quanto os dados são
heterogêneos, são imprevisíveis,
em suma, quantificar o grau de
variabilidade de uma variável
quantitativa.
unidade 2041
ESTATÍSTICA E PROBABILIDADES
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e
o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.
Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,
o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de
variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados
estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja
uma amostra de n = 5 pessoas e seus respectivos números de filhos:
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Qual o número médio de filhos?
Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como
assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um
modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo
para esses dados e, caso seja necessário resumir toda a informação num único valor, ela
deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando
à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para
cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:
-1,4 -0,4 -0,4 +0,6 +1,6
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma
medida de quanto os dados estão distantes da média. Para resumir os resíduos num único
valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão
X = 0 + 1 + 1 + 2 + 3
= 7
= 1,4.5 5
unidade 2042
ESTATÍSTICA E PROBABILIDADES
distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero,
pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.
Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular
o resíduo elevado ao quadrado:
-1,4 -0,4 -0,4 +0,6 +1,6
1,96 0,16 0,16 0,36 2,56
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
Resíduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =ao quadrado
Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos
( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior
a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa
métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):
n
i =1
s2 = ∑ ( Xi -X )2n
i =1
n - 1
Nessas fórmulas, Xi representa cada um dos dados individuais, X é a média e n o tamanho da
amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados
dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por
meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é
a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadrados
dos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se fizermos um
censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ 2 ), dividindo
a soma dos quadrados dos resíduos por (n):
n
Ợ 2 = ∑ ( Xi -X )2
n
i =1
unidade 2043
ESTATÍSTICA E PROBABILIDADES
É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no
Excel, que permite o cálculo tanto de s2 quanto de Ợ 2. Na prática (e na dúvida), sempre calcule
a variância amostral (s2).
Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da
variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada
da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.
Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância
amostral é:
O desvio padrão amostral é:
É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a
sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior,
essas pessoas têm 1,4 = 1,1 filhos.
Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 –
1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os
valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma
de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido
pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou
menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição
dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%
dos dados cairão no intervalo X = 3s .
Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como
interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade
unidade 2044
ESTATÍSTICA E PROBABILIDADES
dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da
média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do
valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:
Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;
Salto em altura: X = 2,2 e s = 0,8 e metros.
Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os
resultados com maior variabilidade? Se você responder essa questão comparando os dois
desvios padrões, estará cometendo dois erros:
1º Não se pode comparar diferentes unidades de medida (s versus m);
2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.
Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo
coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média:
cv = s x 100 (%).
Além de ser uma medida adimensional, o que possibilita comparações entre diferentes
variáveis, o CV pode ser interpretado de forma absoluta:
x
QUADRO 2 – Definição e interpretação do grau de variabilidade de um conjunto de dados.
Fonte: Elaborado pelo autor.
CV <= 20% Dados com pouca variabilidade, bem comportados, homogêneos. A variável tem um comportamento bem previsível.
20 < CV <= 30% Dados com variabilidade intermediária.
CV > 30% Dados com muita variabilidade, heterogêneos. A variável tem um comportamento muito imprevisível.
CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com variabilidade extrema, muito heterogênea. A variável tem um comportamento caótico, completamente imprevisível.
CV INTERPRETAÇÃO
unidade 2045
ESTATÍSTICA E PROBABILIDADES
No caso do atleta, teremos os seguintes valores de coeficiente de variação:
Tempo para correr 100 metros: cv = 2,1
x 100 = 19%;
Salto em altura: cv = 0,8
x 100 = 36%;
Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de
100 m e muita variabilidade nos saltos em altura.
11,5
2,2
LEMBREQuando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo
Excel. Lembre-se também de colocar os títulos das tabelas e das figuras o mais informativo possível.
E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira
na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por
meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e
o problema investigado.
A análise exploratória dos dados é o primeiro passo para que você se torne especialista na
área investigada. Suas ferramentas de análise não produzem conclusões definitivas sobre um
problema, mas possibilitam que hipóteses sejam construídas de forma consistente.
APLICAÇÃO PRÁTICA
O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de
Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação
em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos
ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota final em
Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação
nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma significativa
o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir
unidade 2046
ESTATÍSTICA E PROBABILIDADES
em projetos de “Cálculo Zero”? Quais são os fatores, as características que afetam o desempenho dos
alunos nessas duas disciplinas?
Várias técnicas de análise exploratória de dados foram utilizadas no artigo. Por exemplo, usando um
gráfico de linhas, uma série temporal, mostrou-se no artigo a elevação no número de matrículas nas
duas disciplinas-alvo do trabalho, Cálculo Diferencial e GAAL:
FIGURA 19 - Evolução do número de alunos matriculados e o percentual de aprovados em Cálculo Diferencial e GAAL. Entre o 2º semestre de 2009 e o 2º semestre de 2012, o
percentual de aprovação em ambas as disciplinas apresentou elevação, principalmente em Cálculo Diferencial. O número de alunos matriculados nas disciplinas também aumentou de
forma importante no período, principalmente após o 1º semestre de 2011.
Fonte: COUTO et al., 2013.
Um diagrama de dispersão foi construído mostrando claramente o efeito das faltas às aulas na nota
final de Cálculo Diferencial:
unidade 2047
ESTATÍSTICA E PROBABILIDADES
FIGURA 20 – Gráfico de dispersão considerando o percentual de faltas/ausências às aulas de Cálculo Diferencial e a nota final do aluno nessa disciplina: análise considerando somente alunos em que foram registradas pelo menos uma falta às aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre
ausências às aulas e a nota final do aluno: quanto mais faltas às aulas o aluno tiver, menor a sua nota final em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.
Fonte: COUTO et al., 2013.
Além de gráficos, tabelas com a síntese numérica dos dados coletados no estudo também foram
apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma
inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa
disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.
Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de
Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um
especialista na área.
Referência:
XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero no Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: <http://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.
unidade 2048
ESTATÍSTICA E PROBABILIDADES
REVISÃO
Vimos nesta unidade os principais tópicos
da análise exploratória de dados, também
denominada de Estatística Descritiva:
Síntese gráfica: Uma figura vale mais que
mil palavras! Isso é verdade, entretanto
um gráfico vale mais que mil palavras se
e somente se ele for desenhado de forma
clara, correta e concisa. Sempre desenhe
gráficos a partir de seus dados, mas tente
fazê-los de tal forma que a frase “basta
olhar para entender” seja válida. Os gráficos
mais úteis para análise de dados de
experimentos de pequeno e médio porte na
área de Ciências Exatas e Engenharia são:
gráficos de pizza, barras, colunas, linha,
séries históricas, histograma, gráfico de
Pareto, gráfico misto, de coluna e de linha,
diagrama de dispersão e box-plot. Na
prática devemos construir gráficos usando
ferramentas computacionais como o Excel.
Síntese tabular de dados: Na análise
exploratória de dados, em última instância,
todos os resultados são apresentados ou
na forma de figuras ou de tabelas. Assim,
invista no título da tabela e sempre coloque
respostas claras para pelo menos quatro
perguntas: O que? Quem? Quando? Onde?
Também sugiro que a interpretação das
informações na tabela seja colocada no
próprio título. Se necessário, coloque notas
explicativas, usando siglas somente para
coisas realmente conhecidas.
Síntese numérica: O resumo de uma
variável categórica é muito simples, basta
que você apresente suas categorias, a
frequência de valores em cada categoria
e os respectivos percentuais. Já a síntese
de variáveis quantitativas é mais ampla e
envolve resumir dois aspectos:
1) Um valor típico ou característico para a
variável, que é definido pela média ( X ) e
pela mediana (Md). Se média e mediana
forem semelhantes, então a média deve
ser usada para representar os dados.
Entretanto, caso haja discrepância muito
grande entre média e mediana, então se
deve usar a mediana para representar os
dados;
2) Uma medida do grau de variabilidade ou
de dispersão dos dados, calculada pelo
desvio padrão amostral ( ) e o coeficiente
de variação (CV).
PARA SABER MAIS
Caso você deseje aprofundar sobre as questões
discutidas nesta unidade, leia os capítulos 2 e 3
do livro texto: LEVINE, David M. et al. Estatística:
teoria e aplicações: usando Microsoft Excel em
português. 6. ed. Rio de Janeiro: LTC, 2012,
unidade 3050
INTRODUÇÃO À TEORIA DE PROBABILIDADES
A origem da teoria das probabilidades é comumente associada à questões colocadas
por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que
sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOLI
(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642),
dentre outros.
Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na tarefa de mensurar, ou seja,
quantificar uma pequena amostra do universo de interesse da investigação, almejando inferir
sobre toda a população em estudo, baseando-se em análises probabilísticas e embasando-se
em rigorosos métodos científicos.
A teoria das probabilidades, porém, só começa a fazer sentido nas engenharias por volta
de 1930, quando surgem os primeiros trabalhos práticos destinados aos engenheiros. O
primeiro foi executado pelo matemático WILLIAM GOSSET (1876 – 1937), com a aplicação das
probabilidades no Controle de Qualidade em uma fábrica de Cervejas.
A teoria das probabilidades é uma importante área da estatística que possibilita ao profissional
no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predições
em toda e qualquer área do conhecimento. No que tange às Engenharias, a probabilidade
está presente no controle de processos de produtos e serviços, permitindo estimar o risco e o
acaso de eventos futuros. Também é amplamente utilizada no que tange ao planejamento de
novas técnicas e estratégias de produção e vendas, dentre outras.
unidade 3051
ESTATÍSTICA E PROBABILIDADES
Suponha que você é o engenheiro responsável pela qualidade na linha de produção de uma
grande marca de bebidas. Sabe-se que não é possível “experimentar” todos os produtos
antes de disponibilizá-lo ao mercado, pois ninguém compraria uma bebida já provada, e que
o processo de fabricação é composto por etapas, por interferências dos funcionários, por
equipamentos (que podem estar ou não muito bem regulados), e por uma série de outros
fatores controláveis ou não, como até mesmo uma simples umidade excessiva no ambiente de
fabricação devido ao período chuvoso. No entanto, você pode suspeitar que um determinado
lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não
conformes maior que o permitido pelos órgãos fiscalizadores.
A teoria das probabilidades vem auxiliá-lo nesse processo de tomada de decisão, permitindo
inferir sobre a população em estudo, ou mesmo sobre eventos que ainda irão ocorrer,
estimando as “chances” de sucesso do mesmo.
A TEORIA DAS PROBABILIDADES
A teoria das probabilidades nasce na Idade Média com os tradicionais jogos de azar existentes
na Corte. Jogos de cartas e dados, ou mesmo os lançamentos de moeda são classificados
como fenômenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma
aplicação direta da teoria das probabilidades no campo das Engenharias é o processo de
decisão, seja para aumentar o investimento ou cortar despesas, no qual o profissional do
mercado de trabalho deve arriscar-se mantendo “os pés no chão”.
CONCEITOUm dos principais conceitos matemáticos amplamente estudado no que diz respeito à teoria das
probabilidades é o de conjunto. Um conjunto pode ser definido como uma coleção de objetos, itens ou
serviços que possuem característica (s) comum (s).
No contexto da teoria das probabilidades, o conjunto de todos os resultados possíveis a ser estudado
em um experimento aleatório é denominado espaço amostral.
Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis resultados em um experimento aleatório.
unidade 3052
ESTATÍSTICA E PROBABILIDADES
Sendo definido como experimento todo e
qualquer resultado que sugere a incerteza
antes da observação, ou seja, fenômenos
que, mesmo repetidos várias vezes sob
condições semelhantes, apresentam resultados
imprevisíveis (acaso). Os resultados dos
experimentos são nomeados estatisticamente
como eventos.
Um Evento Aleatório (E) é qualquer subconjunto
de um espaço amostral.
O espaço amostral (Ω) é essencial na teoria
das probabilidades por definir o espaço
de interesse da investigação, permitindo
ao pesquisador de toda e qualquer área
do conhecimento fazer inferências sobre
o todo a partir da parte estudada. Pode
ser definido de acordo com o evento de
interesse da investigação, podendo ser
caracterizado por: (1) o mesmo evento
repetidas vezes; ou (2) eventos distintos; ou
(3) eventos aleatórios.
Se tivermos o mesmo evento repetidas
vezes, como no lançamento de um
dado ou de uma moeda, ou mesmo nas
possibilidades de filhos de um casal, ou
de peças defeituosas em uma linha de
produção, o espaço amostral (Ω) é dado
pelas possibilidades do evento elevado
ao número de repetições realizadas, por
exemplo:
No lançamento de uma moeda três vezes,
temos duas possibilidades (cara ou coroa)
em cada lançamento, portanto o espaço
amostral (Ω) é dado por:
Ω = ( possibilidades )(repetições)= 23 = 8
Se tivermos eventos distintos, como no
lançamento de um dado e uma moeda, o
espaço amostral (Ω) é dado pelo produto
da quantidade de possibilidades de cada
evento, como:
No lançamento de uma moeda e um dado,
temos duas possibilidades da moeda (cara
ou coroa) e seis possibilidades do dado
(os números inteiros de 1 a 6). Portanto, o
espaço amostral (Ω) é dado por:
Ω = ( possibilidades ) . ( possibilidades ) =
2.6 = 12
Se tivermos eventos aleatórios, como o
número de funcionários ausentes em um
dia de trabalho de uma determinada linha
de produção, ou mesmo o número de
caminhões presentes em uma determinada
rota, não há um modelo matemático que
simplifique a mensuração dos elementos
que compõem esse espaço amostral.
É preciso “apelar” para o princípio
fundamental da contagem, ou seja, o
serviço “braçal”.
Os eventos que compõem o espaço
amostral podem ser classificados de acordo
unidade 3053
ESTATÍSTICA E PROBABILIDADES
com a sua ocorrência. Os eventos nos quais
cada elemento do banco de dados pode
ocorrer com a mesma probabilidade são
chamados de eventos equiprováveis.
Eventos Equiprováveis são aqueles cujos
todos os elementos do banco de dados
têm a mesma probabilidade de ocorrência.
Os eventos são classificados como
mutuamente exclusivos, se eles não
puderem ocorrer simultaneamente, ou
seja, A ∩ B= Ø.
Se E = Ω, E é chamado de evento certo.
Se E = Ø , E é chamado de evento impossível.
PROBABILIDADE CLÁSSICA E PROBABILIDADE FREQUENTISTA
A probabilidade de realização de um evento
A é dada pelo quociente entre o número de
ocorrências de A pelo número de eventos
possíveis, ou seja:
P ( A ) = número de orcorrências de A
A probabilidade pode ser resumida como
o quociente do que se “quer” pelo que se
“tem”. Na qual primeiro determina-se o que
é possível “ter” e depois retira o que se “quer
do que se tem”, não podendo “querer mais
espaço amostral (Ω)
Probabilidade = QuerTem
20 passo
10 passo
Existem duas restrições à aplicação da
definição da probabilidade clássica: (1)
todos os eventos possíveis devem ter a
mesma probabilidade de ocorrência, ou
seja, os eventos devem ser equiprováveis e
(2) deve-se ter um número finito de eventos
possíveis.
LEIS BÁSICAS DE PROBABILIDADES
Para qualquer evento E de um espaço
amostral Ω : 0 ≤ P ( E ) ≤ 1;
P ( Ω ) = 1;
P ( Ac ) = 1 - P ( A ), sendo Ac o evento
complementar ao evento A;
LEMBRE
As operações com os eventos utilizam as
mesmas propriedades matemáticas, ou seja:
do que tem”, ou seja:
unidade 3054
ESTATÍSTICA E PROBABILIDADES
QUADRO 3 – Leis Matemáticas
Fonte: Elaborado pelo autor.
Associatividade
Comutatividade
Distributividade
Absorção
Modulares
Leis de De Morgan
Dupla negação
( A ∩ B ) ∩ C = A ∩ ( B ∩ C ) ( A U B ) U C = A U ( B U C )
A ∩ B = B ∩ A A U B = B U A
( A ∩ B ) U C = ( A U C ) ∩ ( B U C ) ( A U B ) ∩ C = ( A ∩ C ) U ( B ∩ C )
A C B → A ∩ B = A A C B → A ∩ B = B
A ∩Ω = A A ∩Ω = Ω A ∩Ø = Ø A Ø = A
A ∩ B = A U B A U B = A ∩ B
A = A
PROPRIEDADE DESCRIÇÃO MATEMÁTICA
UNIÃO E INTERSEÇÃO DE EVENTOS
A união de dois eventos A e B, indicada por A U B, é o evento que contém todos os elementos
de A e todos os elementos de B.
P ( A U B ) = P ( A ) + P ( B ) - P ( A ∩ B )
P ( A U B ) = P ( A ) + P ( B ), se A e B são mutuamente exclusivos;
A interseção de dois eventos A e B, indicada por A∩B, é o evento que contém todos os elementos
comuns a A e B.
P ( A ∩ B ) = P ( B ) . P ( A | B )
unidade 3055
ESTATÍSTICA E PROBABILIDADES
Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade de A ocorrer sabendo
que o evento B ocorreu.
TABELA 12 – Tipo Sanguíneo
Fonte: Elaborado pela autora.
A probabilidade de o doador ter tipo sanguíneo O ou A é dada por:
184 + 164 = 0,8508
A probabilidade de o doador ter tipo sanguíneo B ou ser Rh negativo é dada por:
45 + 65 - 8 = 0,2494
409
409
CONCEITODois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realização de um
exclui a realização do (s) outro (s). No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar
coroa" são mutuamente exclusivos, já que a realização de um deles implica, necessariamente, na não
realização do outro.
Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à
soma das probabilidades de que cada um deles se realize.
Positivo
Negativo
Total
156
28
184
139
25
164
37
8
45
12
4
16
344
65
409
O A B AB TOTAL
TIPO SANGUÍNEO
unidade 3056
ESTATÍSTICA E PROBABILIDADES
DICASEventos mutuamente exclusivos não é a mesma
coisa de eventos independentes. O primeiro é
utilizado quando apenas um dos eventos pode
ocorrer, excluindo qualquer probabilidade de
ocorrência do outro. Já o segundo é utilizado
quando a ocorrência de um dos eventos não
afeta a ocorrência do outro.
Exemplo: Um grupo de alunos que usa óculos
é independente do número de alunos do sexo
masculino em sala de aula, mas não são eventos
mutuamente exclusivos, pois é possível ter
alunos do sexo masculino em sala de aula que
usam óculos.
TABELAS DE CONTINGÊNCIA
As tabelas de contingência são aplicadas na
avaliação do relacionamento das categorias
com respeito aos grupos segundo dois
modos: independência ou homogeneidade.
Ou seja, eventos com dupla entrada.
A aplicação de tabela de contingência
dois por dois é dada quando n elementos,
selecionados aleatoriamente de uma
população, são classificados em duas
categorias. Depois dos elementos serem
classificados, um tratamento é aplicado
e alguns são examinados novamente e
classificados nas duas categorias. O que
se almeja saber é: o tratamento alterou
significativamente a proporção de objetos
em cada uma das duas categorias?
EXEMPLOEm relação à pratica apresentada no início
dessa unidade, suponha que em uma amostra
de 2000 produtos disponibilizados ao mercado,
sejam 800 refrigerantes e 1200 cervejas, dos
quais 5 e 10 apresentaram algum tipo de
defeito, respectivamente, seja no rótulo da
embalagem, no volume líquido ou qualquer
outro tipo de avaria. A tabela 1 apresenta uma
tabela de contingência para melhor visualizar
esses dados.
unidade 3057
ESTATÍSTICA E PROBABILIDADES
TABELA 13 - Produtos Disponibilizados
Fonte: Elaborado pela autora.
Bom
Defeito
Total
1985
15
2000
795
5
800
1190
10
1200
CERVEJA REFRIGERANTE TOTAL
A partir dessa tabela, é possível estimar que a probabilidade dessa empresa disponibilizar um
produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito é dada por:
P (defeito) = 15 = 0,0075
Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum
tipo de defeito.
2000
IMPORTANTE
A tabela de contingência é um processo de organizar a informação correspondente a dados dicotômicos.
De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo
qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser
classificados segundo dois critérios.
EVENTOS INDEPENDENTES
Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realização
de um dos eventos não afeta a probabilidade de ocorrência do outro, e vice-versa.
Quando dois eventos são independentes, P ( A ∩ B ) = P ( A ) . P ( B ).
unidade 3058
ESTATÍSTICA E PROBABILIDADES
EXEMPLONota na prova e ter feito a prova de chinelo;
O valor de venda de um produto e a cor do cabelo das funcionárias que o fabricaram.
TEOREMA DE BAYES
A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro
evento B ocorreu, é dada por:
P ( A | B ) = P ( A ∩ B )
para P ( B ) > 0.
O teorema de Bayes propõe que, se os eventos E1,E2,…,En são partições do espaço
amostral Ω, então:
P ( Ei | B ) = P ( B | Ei ) . P ( Ei )
Recorrendo à lei de probabilidade total, é possível inferir que:
P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei )
P ( B )
P ( B )
∑ P ( B | Ej )
CONCEITOSeja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos cuja união forma o espaço amostral Ω.
Seja E outro evento no mesmo espaço amostral Ω, tal que P ( E ) > 0, então:
P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...∩+ P ( E | Bn )
P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...∩+ P( Bn ) P ( E | Bn )
unidade 3059
ESTATÍSTICA E PROBABILIDADES
Portanto,
P ( E ) = ∑ P ( Bi ) . P ( E | Bi )
EXEMPLONuma sala de aula, sabe-se que 10% dos
homens e 2% das mulheres têm mais de 1,80 m.
A sala tem 70% de mulheres e 30% de homens.
Um estudante foi escolhido aleatoriamente, e
constatou-se que tem mais de 1,80 m. Qual a
probabilidade de que seja homem?
0,10 . 0,70 = 0,92110,10.0,70+0,02.0,30
APLICAÇÃO PRÁTICA
A teoria das probabilidades pode auxiliar
facilmente a resolver o problema proposto no
início dessa unidade. Vejamos:
“Suponha que você é o engenheiro responsável
pela qualidade na linha de produção de uma
grande marca de bebidas. Está ciente de que
não é possível “experimentar” todos os produtos
antes de disponibilizá-lo ao mercado, pois
ninguém compraria uma bebida já provada, e
que o processo de fabricação é composto por
etapas, por interferências dos funcionários, por
equipamentos (que podem estar ou não muito
bem regulados), e por uma série de outros
fatores controláveis ou não, como até mesmo
uma simples umidade excessiva no ambiente
de fabricação devido ao período chuvoso. Você
pode suspeitar que um determinado lote, devido
à variabilidade inerente ao processo, apresente
um percentual de itens não conformes maior que
o permitido pelos órgãos fiscalizadores? ”
Se a empresa aqui citada produzir dois lotes
com duas mil unidades em cada por semana,
distribuídas entre 1000 cervejas, 600 refrigerantes
e 400 sucos por lote, com aproximadamente
0,2, 0,1 e 0,15 por cento de itens defeituosos,
respectivamente, podemos utilizar a teoria das
probabilidades para responder questões como:
a) Qual o percentual de refrigerantes
distribuídos semanalmente?
b) Qual a probabilidade do consumidor
adquirir um suco?
c) Dentre as cervejas, qual a
probabilidade do consumidor adquirir
uma cerveja com defeito?
d) Dentre os sucos, qual a probabilidade
do consumidor adquirir um suco sem
defeito do primeiro lote?
e) Sabendo que foi adquirido um produto
com defeito, qual a probabilidade de
ser um suco?
Para responder essas questões, utilizamos a
probabilidade clássica para responder o item (a);
a união de probabilidades para responder o item
(b); a probabilidade condicional para responder o
unidade 3060
ESTATÍSTICA E PROBABILIDADES
item (c); e o teorema de Bayes para responder o item (d). Ou seja:
a) P (refrigerante ) = 1200 =0,30 = 30%
b) P (suco) = 400 + 400 = 0,40 = 40%
Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo
lote, independente da ordem de ocorrência do evento.
c) P ( defeito∩cerveja ) = P (cerveja com defeito ) = 0,2.1000 + 0,2 * 1000 = 400
= 0,20
d) P ( suco sem defeito do primeiro lote | suco ) =
4000
2000
P ( cerveja ) 1000 + 1000 2000
2000
0,5.0,2.0,85+0,5.0,2.0,85= 0,5. 0,2 . 0,85 = 0,0850 = 0,5
0,1700
unidade 3061
ESTATÍSTICA E PROBABILIDADES
P(sucocomdefeito│defeito)=
= 2. (0,5 . 0,2 . 0,15 ) = 0,0150 = 0,18750,08002. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2
REVISÃO
A teoria das probabilidades é utilizada em todas as áreas do conhecimento. Ela visa auxiliar
o profissional no mercado de trabalho a predizer valores futuros, estimando as “chances” de
ocorrência de um evento antes que ele ocorra.
Para calcular a probabilidade, basta dividir o que se “quer” pelo que se “tem”, ou seja:
Probabilidade = QuerTem
20 passo
10 passo
Sendo imprescindível, primeiro, definir o que se “tem” para somente depois retirar do que se
“tem” o que se “quer”.
Quando a ocorrência de um evento não afeta a realização ou não de um outro evento, eles são
classificados como eventos independentes.
O Teorema de Bayes é aplicado em situações cuja a probabilidade de ocorrência de um evento
está vinculada às chances de sucesso de um outro evento.
unidade 3062
ESTATÍSTICA E PROBABILIDADES
PARA SABER MAIS
Filmes
A Probabilidade Estatística do Amor Á Primeira
Vista (Adaptado)
Jennifer E. Smith
Com uma certa atmosfera de 'Um dia', mas voltado
para o público jovem adulto, a probabilidade
estatística do amor à primeira vista é uma
história romântica, capaz de conquistar fãs de
todas as idades. Quem imaginaria que quatro
minutos poderiam mudar a vida de alguém?
Mas é exatamente o que acontece com Hadley.
Presa no aeroporto em Nova York, esperando
outro voo depois de perder o seu, ela conhece
Oliver. Um britânico fofo, que se senta a seu lado
na viagem para Londres. Enquanto conversam
sobre tudo, eles provam que o tempo é, sim,
muito, muito relativo. Passada em apenas 24
horas, a história de Oliver e Hadley mostra que
o amor, diferentemente das bagagens, jamais se
extravia.
SMITH, Jennifer E. A Probabilidade Estatística do Amor à Primeira Vista. Rio de Janeiro: Galera Record, 2013
Quebrando a banca (Adaptado).
Ben Campbell (Jim Sturgess) é um brilhante
estudante do M.I.T. (Instituto Tecnológico de
Massachusetts). O seu único problema é não ter
dinheiro para pagar as contas escolares, mas
a solução está onde ele menos esperava: nas
cartas. Ele é recrutado para integrar o grupo dos
mais talentosos estudantes da escola, que todos
os fins-de-semana vão a Las Vegas, com falsas
identidades e com as suas mentes brilhantes,
são capazes de aumentar em grande escala as
probabilidades de ganhar no blackjack.
Além disto, ainda contam com o professor
de matemática (e gênio da estatística) Micky
Rosa (Kevin Spacey) como líder. A contagem
das cartas e um, muito bem definido esquemas
de sinais, que permitem à equipa vencer nos
grandes cassinos. Seduzido pelo dinheiro e pelo
estilo de vida de Vegas, e pela sua inteligente
e sexy amiga Jill Taylor (Kate Bosworth), Ben
começa a ir até ao limite.
Apesar da contagem da carta não ser ilegal,
o risco é cada vez mais elevado e o grande
desafio prende-se agora com, não só manter
a contagem correta, mas também enganar o
chefe de segurança dos casinos: Cole Williams
(Laurence Fishburne). Quebrando a Banca. Direção: Robert Luketic. EUA: Sony Pictures, 2008. (123 min), son., color., legendado.
unidade 4064
MODELOS PROBABILÍSTICOS
Assim como a Matemática, também a Estatística apresenta funções que norteiam
o comportamento de suas variáveis, como as retas, parábolas e hipérboles.
Na Estatística temos os modelos probabilísticos. Esses modelos são funções
paramétricas que descrevem o comportamento de uma variável em estudo.
unidade 4065
ESTATÍSTICA E PROBABILIDADES
VARIÁVEIS ALEATÓRIAS
O estudo das variáveis aleatórias é de suma
importância nas engenharias ou mesmo
em qualquer outra área do conhecimento
técnico e científico. Isso porque, nem
sempre, os dados que compõem o estudo
estatístico são números, sendo necessário
descobrir um meio de transformá-los em
números, a partir de uma função chamada
de ‘variável aleatória’, visando facilitar a
estimativa das medidas estatísticas.
CONCEITOProbabilidade
Seja um experimento aleatório qualquer
de um espaço amostral Ω e um espaço de
probabilidades P. Então a variável aleatória X
no espaço de probabilidade é uma função real
definida no espaço amostral Ω, tal que ( X ≤ x ) é
um evento aleatório para qualquer x real.
As variáveis aleatórias podem ser
classificadas como contínuas ou discretas,
de acordo com o domínio da variável
abordada no estudo. São classificadas
como variáveis discretas as funções para as
quais é possível associar um único número
real a cada evento de uma partição do
espaço amostral Ω. Portanto são variáveis
que resultam de processos aleatórios nos
quais os resultados possíveis são casuais e
formam um conjunto enumerável.
São classificadas como variáveis contínuas
as funções para as quais é possível associar
infinitos valores a um intervalo ( a, b ), sendo
que para valores que não pertencem ao
intervalo no qual se limita o experimento, a
probabilidade de ocorrência é zero.
VARIÁVEIS DISCRETAS
É função P ( x ) aquela nas quais se
associam probabilidades aos valores da
variável aleatória X abordada no estudo
estatístico. Ou seja, quando uma variável
aleatória X assume os valores x1,x2,x3,…,xn
com as respectivas probabilidades p ( x1 ),
p ( x2 ), p ( x3 ) ,…, p ( xn ) definidas por uma P
( X ), na qual a soma de todas as possíveis
probabilidades é igual a um, conforme
apresentado na tabela 14, ou seja:
unidade 4066
ESTATÍSTICA E PROBABILIDADES
TABELA 14 - Distribuição de probabilidades discretas
Fonte: Elaborado pelo autor.
X x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )
Para uma distribuição discreta de probabilidades, é possível definir a função acumulada
indicada por F ( x ) = P ( X ≤ xi ), ou seja, a probabilidade da variável aleatória assumir valores
menores ou iguais a xi.
O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória
discreta X que assume os valores x1, x2, x3, …, xn com as respectivas probabilidades p ( x1 ), p ( x2 ),
p ( x3 ),…, p ( xn ) definidas por uma P ( Xn ), ou seja, é igual ao valor médio da variável:
E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)
E (x) = ∑ xi . p ( xi )n
i =1
DICASO valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.
A variância, ou seja, a medida estatística que concentra as probabilidades em torno da média
é indicada por Var ( x ) ou σ2 e dada por:
Var ( x ) = E ( x2 ) - [ E ( x ) ] 2
sendo E ( x ) o valor esperado, e E (x2 ) dada por:
E ( x2 ) = x12 . p ( x1 ) + x2
2. p ( x2 ) + x32 . p ( x3 ) + ... + xn
2 . p ( xn )
E ( x2 ) = ∑ xi2 . p ( xi )
n
i =1
unidade 4067
ESTATÍSTICA E PROBABILIDADES
DICASO desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja:
DP ( x ) = √Var ( x )
Para uma variável aleatória n-dimensional (também chamada de vetor aleatório), com n=2,
denota-se por ( X,Y ) o vetor aleatório, sendo:
TABELA 15 - Distribuição discreta
Fonte: Elaborado pelo autor.
Valores associados à variável Y
P ( X )
Probabilidade conjuntaP ( X, Y )
Probabilidade marginal de X
Probabilidade marginal de Y
1
XY
VALORES ASSOCIADOS À VARIÁVEL X
P ( Y )
Pois P (X,Y) é uma
f.d.p.
IMPORTANTE
Só é possível realizar análises estatísticas sobre distribuições que sejam uma função densidade de
probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variáveis são uma f.d.p. quando a soma de todas
as probabilidades que compõem o evento em estudo é igual a 1, ou seja, 100%. Portanto, uma ou mais
variáveis podem ser classificadas como f.d.p. quando:
∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1n
i =1
unidade 4068
ESTATÍSTICA E PROBABILIDADES
ATENÇÃOAs probabilidades são sempre dispostas paralelamente às suas variáveis na construção da tabela
bidimensional. Portanto, se invertermos as posições de X e Y na tabela anterior, teremos a seguinte
distribuição de probabilidades:
TABELA 16 - Distribuição discreta
Fonte: Elaborado pelo autor.
Valores associados à variável Y
P ( Y )
Probabilidade conjuntaP ( X, Y )
Probabilidade marginal de Y
Probabilidade marginal de X
1
XY
VALORES ASSOCIADOS À VARIÁVEL Y
P ( X )
Pois P (X,Y) é uma
f.d.p.
O valor esperado da distribuição conjunta, indicado por E ( X, Y), é dado pelo produto entre
cada valor associado à variável X, com cada valor associado à variável Y e sua respectiva
probabilidade conjunta, ou seja:
E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj )
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )
Para a tabela de distribuição a seguir:
n
i =1
n
j =1
TABELA 16 - Distribuição discreta
Fonte: Elaborado pelo autor.
d
e
f
P(X)
P (a, d ) P ( b, d) P ( c, d )
P ( a, e ) P ( b, e ) P ( c, e )
P ( a, f ) P ( b, f ) P ( c, f )
P ( a ) P ( b ) P ( c )
P ( d )
P ( e )
P ( f )
1
XY P ( Y )A B C
unidade 4069
ESTATÍSTICA E PROBABILIDADES
VARIÁVEIS CONTÍNUAS
É uma função f ( x ) aquela nas quais se
associam probabilidades aos infinitos
valores da variável aleatória X, abordada
no estudo estatístico. Ou seja, quando uma
variável aleatória X assume infinitos valores
em um determinado intervalo ( a, b ), sendo
a probabilidade igual a zero para valores
fora desse intervalo e a soma de todas as
possíveis probabilidades contidas nesse
intervalo igual a um. Portanto, para as
variáveis contínuas, temos que:
• f (x) ≥ 0, x C R;
• ∫ f ( x ) dx = 1 (toda área sob a
curva de probabilidade, ou curva
de frequência, definida por f ( x )
vale um);
• P ( a ≤ x ≤ b) = ∫ f ( x ) dx (probabilidade correspondente
à área sob a curva limitada pelo
intervalo compreendido entre x
= a e x = b ). Esse assunto será
mais detalhado posteriormente no
estudo da distribuição normal.
O valor esperado, indicado por E ( x ) = μ, é
a esperança matemática de uma variável
aleatória contínua X, que assume os
infinitos valores do intervalo ( a, b ), ou seja:
A
b
a
+ oo
- oo
E (x) = ∫ x .f ( x ) dx b
a
A variância, ou seja, a medida estatística
que concentra as probabilidades em torno
da média é indicada por Var ( x ) ou σ2 e
dada por:
Var ( x ) = E ( x2 ) - [ E ( x ) ]2,
sendo E ( x ) o valor esperado, e E ( x2 ) dada
por:
E ( x2 ) = ∫ x2 . f ( x ) dx∩
Para uma variável aleatória contínua
bidimensional, definida em todos os valores
dos números reais, a função densidade
de probabilidade conjunta f ( x, y ) é uma
função que satisfaz:
• f ( x, y ) ≥ 0, para todo ( x, y ) R2;
•∫R ∫R f ( x, y ) d x d y =1
O valor esperado da distribuição conjunta,
indicado por E ( X, Y ), é dado por:
E ( X, Y ) =∫R ∫R x . y . f ( x, y ) d x d y
A covariância para as variáveis contínuas
ou discretas, ou seja, a medida estatística
que possibilita verificar se as variáveis
envolvidas na análise são diretamente ou
b
a
unidade 4070
ESTATÍSTICA E PROBABILIDADES
inversamente proporcionais. Isso porque à medida que X aumenta o Y também aumenta, ou à
medida que X diminui o Y aumenta, respectivamente. Tal relação é dada por:
Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )
E o coeficiente de correlação das variáveis contínuas ou discretas, indicado por ρX , Y , ou seja,
a medida estatística que mensura a relação entre as variáveis X e Y é dado por:
ρ X, Y = Cov ( X, Y )σX . σY
Sendo -1 ≤ ρ X,Y ≤ 1.
IMPORTANTE
ndependentemente de a classificação da variável aleatória ser dada como discreta ou contínua, sendo
a e b constantes e x e y variáveis aleatórias, valem as propriedades:
E ( X ) = μ
E ( a ) = a
E ( a x ) = a . E ( x )
E ( a ± b x ) = a ± b . E ( x )
E ( a x ± b y ) = a . E ( x ) ± b . E ( y )
Var ( x ) = σ2
Var ( a ) = 0
Var ( a x ) = a2 . Var ( x )
Var ( a ± b x ) =b2 . Var ( x )
Var ( a x ± b y ) = a2 . Var ( x ) = b2 . Var ( y ) ± 2 . a . b . Cov ( x, y )
CONCEITO
Duas variáveis aleatórias X e Y são independentes se o produto das distribuições marginais for igual à
distribuição conjunta, ou seja:
p ( x ) . p ( y ) = p ( x , y ) para distribuição discreta;
f ( x ) . f ( y ) = f ( x , y ) para distribuição contínua.
unidade 4071
ESTATÍSTICA E PROBABILIDADES
MODELOS PROBABILÍSTICOS
Assim como na Matemática, temos os
modelos que representam o comportamento
da variável abordada no estudo, ou seja, as
retas, parábolas e hipérboles dentre tantas
outras funções matemáticas. Na Estatística,
os modelos probabilísticos descrevem o
comportamento de uma variável, sendo
possível calcular a probabilidade associada
aos eventos da variável abordada no
estudo, recorrendo apenas aos modelos
probabilísticos. Esses modelos são
chamados de distribuições, apresentando
particularidades próprias que facilitam a
sua identificação, podendo ser divididos
em contínuos e discretos, assim como as
variáveis estudadas no início deste capítulo.
DISTRIBUIÇÃO BINOMIAL
A distribuição binomial é denotada por
X~Bin ( n; p ), sendo n o número de
amostragens (tentativas) e p a probabilidade
de sucesso do experimento. Trata-se de
uma distribuição discreta, aplicada em
casos dicotômicos, ou seja, experimentos
aleatórios com apenas duas possibilidades
de resposta, denotadas por sucesso ou
falha. Podemos citar como exemplo o
lançamento de uma moeda, um item ter
defeito ou não, um funcionário faltar ou não.
Para se caracterizar como distribuição
binomial, a variável aleatória abordada no
estudo deve ter:
a) n tentativas ou provas independentes, ou
seja, eventos sem reposição;
b) cada uma das n tentativas só admite dois
resultados possíveis, sendo eles sucesso
ou falha;
c) as probabilidades de sucesso e falha são
complementares e constantes durante
todo o processo de observação.
O valor esperado, ou seja, a média da
distribuição binomial e a variância são
dadas por:
E ( x ) = μ = n . p e Var ( x ) = σ2 = np . ( 1 - p ),
respectivamente.
A probabilidade de ocorrência de um
determinado evento na distribuição
binomial é dada por:
P ( X = x ) = ( n ). px. ( 1 - p )n-xx
x
( n- x) ! . x!x
sendo: ( n ) a combinação de n elementos
x a x, ou seja: ( n ) = n! e p a
probabilidade de sucesso.
A distribuição binomial é amplamente
aplicada para avaliar probabilidades de
eventos relacionados com controle de
unidade 4072
ESTATÍSTICA E PROBABILIDADES
qualidade, mercado de ações, risco de
apólices de seguro, análise demográfica e
vendas, dentre outras inúmeras situações
de controle da variabilidade inerente ao
processo produtivo.
DISTRIBUIÇÃO POISSON
A distribuição Poisson é denotada por
X~Poisson (λ), sendo λ a taxa média,
ou seja, λ = 1 e sendo λ também sempre
inversamente proporcional ao intervalo de
tempo ou espaço definido no problema.
Portanto, o seu valor deve corresponder ao
tamanho do intervalo apresentado. Assim,
para qualquer outro intervalo, o valor da
média deve sofrer a correção numérica
adequada.
A distribuição Poisson é uma distribuição
discreta, aplicada em variáveis aleatórias
cujo número de sucessos observados num
intervalo contínuo, de tempo ou espaço,
pode estar relacionado à quantidade
de: carros que passam em um sinal por
minuto; defeitos por metro quadrado de um
revestimento; chamadas por hora numa
delegacia etc.
A probabilidade de ocorrência de um
determinado evento com distribuição
Poisson é dada por:
μ
P ( X = x ) = e-λ . λx
x!
A distribuição Poisson pode ser aplicada
como um caso limite da binomial, quando
o tamanho da amostra em eventos
dicotômicos é maior que 30.
DISTRIBUIÇÃO NORMAL
A distribuição normal é denotada por
X~Normal (μ; σ2 ), sendo o valor esperado,
ou seja, a média da distribuição normal e a
variância dadas por:
E ( x ) = μ e Var ( x ) = σ2, respectivamente.
Por diversas razões, tanto na teoria
quanto na prática, a distribuição normal
é a mais importante das distribuições de
probabilidade. Isso porque muitas variáveis
no mundo real têm comportamento bastante
aproximado dessa distribuição. Sua
relevância pode ser destacada pelo fato de:
a) seus resultados serem de fácil operação
matemática;
b) muitas técnicas estatísticas pressuporem
que os dados têm distribuição normal;
c) os dados de muitas situações reais,
unidade 4073
ESTATÍSTICA E PROBABILIDADES
embora não sejam rigorosamente normais, podem gerar bons resultados, facilitando o
tratamento matemático;
d) a distribuição amostral de muitas estatísticas tenderem à distribuição normal, em face do
teorema do limite central.
Essa distribuição é classificada como contínua, podendo a variável assumir qualquer valor
dentro de um intervalo previamente definido. Essa distribuição, delineada por uma curva em
forma de sino com f.d.p, é dada por:
As principais propriedades da distribuição normal são:
1) ter a forma de um sino;
2) ser simétrica em relação à média μ ;
3) ser assintótica1 em relação ao eixo de x;
4) ser unimodal2 e ter achatamento proporcional ao desvio padrão ou variância;
5) ter média, moda e mediana iguais.
FIGURA 21 - Distribuição normal
Fonte: TRIOLA, 2011, p.88.
1 - Não toca o eixo x.2 - Só tem uma moda.
unidade 4074
ESTATÍSTICA E PROBABILIDADES
Como o cálculo da área abaixo da curva é a integral da f.d.p. nos limites desejados e esse
cálculo é, muitas vezes, longo, a área sob a curva pode ser simplificada pela transformação:
z = x - μ w
Sendo z uma variável aleatória com distribuição normal, média zero e variância 1, e x sendo
uma variável aleatória com distribuição normal, média μ e variância σ2.
A área total limitada pela curva normal e pelo eixo das abscissas é 1u.a. (uma unidade de
área), ou seja, 100%, sendo as áreas sob a curva limitadas pela distância entre o desvio padrão
e a média. Essa área é apresentada na tabela a seguir.
σ
TABELA 18 - Área sob a curva da normal
Fonte: BARBETTA, 2010, p. 377.
unidade 4075
ESTATÍSTICA E PROBABILIDADES
Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa decimal e
a segunda casa decimal, respectivamente, do número z calculado pela estatística de teste
z = x - μ e, no centro da tabela, as probabilidades correspondentes à área entre zero e esse
ponto, conforme ilustração a seguir.σ
FIGURA 22 - Distribuição normal padrão
Fonte: Elaborado pela autora.
APLICAÇÃO PRÁTICA
Uma grande indústria compra diversos novos processadores de texto no final de cada ano, sendo que o número
exato deles depende da frequência dos reparos no ano anterior. Suponha que o número de processadores,
indicado por X, que são comprados a cada ano, tenha a seguinte distribuição de probabilidade:
TABELA 19 - Distribuição de frequências
Fonte: Elaborado pelo autor.
X 0 1 2 3
P(X) 0,10 0,30 0,40 0,20
Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2
(em reais) for fornecido em relação a qualquer compra, quanto a empresa espera gastar E ( X ) em novos
processadores no final do ano?
E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2
E ( X ) = 1,7
unidade 4076
ESTATÍSTICA E PROBABILIDADES
REVISÃO
A distribuição discreta é usada em casos cujos dados analisados podem ser alocados em uma
tabela de probabilidades, sendo que aquelas localizadas no centro da tabela são classificadas
como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais.
Probabilidades marginais são aquelas que correspondem a apenas uma das variáveis em
estudo, e as probabilidades conjuntas são as que correspondem a duas variáveis analisadas
concomitantemente.
A distribuição contínua é usada em casos cujos dados analisados podem ser alocados em um
intervalo contínuo.
No que tange as distribuições de probabilidade, cabe ressaltar:
TABELA 20 - Revisão das medidas de tendência central
Fonte: Elaborado pelo autor.
Binomial
Poisson
Normal
Não usual para amostras com mais de 30 elementos.
Quando os eventos estudados permitem apenas duas respostas possíveis.
Quando o foco do estudo é na quantidade do período.
Quando a média e o desvio padrão são conhecidos.
DISTRIBUIÇÃO LIMITAÇÕES QUANDO USAR
PARA SABER MAIS
MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014.
Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra:
MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed.
Rio de Janeiro: LTC, 2009.
unidade 5078
ESTIMAÇÃO DE MÉDIAS E PROPORÇÕES
Nas unidades anteriores, você estudou três grandes áreas do método estatístico:
amostragem e coleta de dados; análise exploratória de dados; e teoria de
probabilidades. A partir de agora, você vai entender como essas áreas se relacionam
para construir a quarta área do método estatístico, que é a decisão na presença de incerteza
ou estatística inferencial.
A estatística inferencial recebe esse nome por ser um conjunto de métodos e técnicas que
permitem, a partir dos dados provenientes de uma amostra, inferir informações sobre toda
a população alvo do estudo. Logicamente existe uma incerteza associada a esse processo,
mas ela é quantificada através dos níveis de confiança e margens de erro do estudo. Essa é a
grande contribuição da estatística inferencial, permitir que se conheça o nível de incerteza da
informação antes de tomar decisões.
Existe uma infinidade de técnicas de estatística inferencial, como os intervalos de confiança,
testes de hipóteses paramétricos e não paramétricos, análises de correlação e regressão,
dentre outras. Para que você tenha noção da quantidade de técnicas, imagine que exista um
curso de graduação em Estatística com duração de quatro anos em que o aluno passa a maior
parte do tempo estudando técnicas de estatística inferencial. E ainda assim esse tempo não é
suficiente para estudar todas as técnicas!
A boa notícia é que em todas essas técnicas existe um ponto em comum, conceitos que
são utilizados em todas elas, como estimativa pontual, intervalos de confiança e testes
de hipóteses. Esses conhecimentos estão presentes em todas as técnicas de estatística
unidade 5079
ESTATÍSTICA E PROBABILIDADES
inferencial. E é exatamente o que estudaremos nas próximas unidades.
Nesta unidade, especificamente, você vai conhecer o teorema principal da estatística, o
fundamento de grande parte das técnicas de estatística inferencial: o teorema central do
limite. Esse teorema fala sobre a relação entre o modelo normal de probabilidades e a média
calculada a partir de uma amostra. Você consegue imaginar qual seja essa relação?
Aqui você vai descobrir como são calculadas as margens de erro das pesquisas eleitorais,
que são obtidas através das estimativas pontuais e intervalares para médias e proporções
populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos
de confiança. E também um software muito útil para fazer várias análises estatísticas, o EpiInfo.
TEOREMA CENTRAL DO LIMITEImagine a seguinte situação: um engenheiro de produção deseja monitorar um processo de
produção de fibra sintética de maneira a garantir que a característica de qualidade resistência
à tração esteja sempre dentro dos limites de especificação. É conhecido que a resistência à
tração das fibras produzidas naquela empresa é normalmente distribuída com média de 75 psi
(libras força por polegada quadrada) com desvio-padrão de 3,5 psi.
Como não é viável medir a característica de qualidade em todas as peças produzidas (inspeção
100%) ele decidiu coletar amostras periodicamente para verificar se não houve alteração na
média do processo. Acontece que cada vez que ele coleta uma amostra e obtém a média
dessa amostra existe uma variação, ou seja, as médias das amostras são sempre diferentes.
A dúvida é: o engenheiro pode afirmar que houve alteração na média do processo (de todas as
peças produzidas) ou a variação é devida simplesmente à uma flutuação amostral?
O teorema central do limite (TCL) poderá auxiliar o engenheiro a interpretar os resultados
dessas amostras e resolver a dúvida. O TCL diz que quando trabalhamos com amostras e
calculamos médias, as médias das amostras são normalmente distribuídas em torno da
verdadeira média populacional. Isso acontece porque, exatamente pelo fato de serem
baseadas em sorteio aleatório, as amostras são sempre diferentes e, se calcularmos então a
média em cada amostra, é bem difícil encontrarmos exatamente os mesmos valores.
unidade 5080
ESTATÍSTICA E PROBABILIDADES
Entretanto, apesar de as amostras serem
diferentes e terem médias diferentes,
se selecionarmos várias amostras e
obtivermos suas médias, podemos fazer um
histograma dessas médias. Ao realizar esse
procedimento poderemos ver que, à medida
que aumentamos a quantidade de amostras,
o histograma mais se assemelha à curva
da distribuição normal de probabilidades
e, ainda, a média dessas médias mais se
aproxima da verdadeira média populacional.
Definição do teorema central do limite:
Se X é uma variável aleatória com média µ e
variância σ2 e é a média de uma amostra
com n elementos dessa variável aleatória,
então podemos dizer que a forma limite da
distribuição de
z = X - μ
é a distribuição normal padrão quando n
tende ao infinito.
Podemos dizer ainda que X é normalmente
distribuído com média μX = μ e desvio-
padrão σX = σ ⁄√n .
EXEMPLO
Pensando no exemplo das fibras sintéticas,
chamamos de X a variável aleatória
resistência à tração das fibras. Sabemos
que a média é 75 psi e o desvio-padrão é
3,5 psi. Encontre a probabilidade de uma
amostra aleatória de n = 25 fibras ter uma
resistência média menor que 73,6 psi.
Note que a distribuição amostral de é
normal, com média μX = ∩75 psi e um desvio-
padrão de
σX ∩ = σ = 3,5 = 0,7 psi
Consequentemente, a probabilidade
desejada corresponde à área sombreada na
figura abaixo.
σ⁄√n
√n √25
FIGURA 23 - Distribuição amostral de X - Média 75 e desvio-padrão 0,7
Fonte: Elaborada pelo autor.
Desse modo, podemos dizer que
P( < 73,6 ) = P ( Z < z ) onde o valor de z é
obtido através da padronização:
z = 73,6 - 75 = -235⁄√25
Então,
P( < 73,6 ) = P ( Z < -2 ) = 0,0228 (pela
unidade 5081
ESTATÍSTICA E PROBABILIDADES
FIGURA 24 - Distribuições amostrais de para diferentes populações e tamanhos de amostra
tabela da distribuição normal padrão).
O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter
resistência média menor que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa probabilidade
pode ser considerada baixa e, portanto, de posse dessa informação, o engenheiro poderia adotar
o seguinte critério: ao observar uma amostra de fibras com resistência média menor que 73,6
psi, o processo deve ser verificado.
É importante ressaltar que o TCL pode ser utilizado ainda que a distribuição da variável
aleatória X não seja normal, ou seja, o teorema é valido para qualquer que seja a distribuição
de X. Essa é a grande contribuição do TCL para o desenvolvimento dos métodos estatísticos.
Entretanto, nas situações em que a distribuição da variável aleatória X seja muito assimétrica,
a aplicação do TCL é adequada para amostras grandes ( n ≥ 30 ). A figura abaixo ilustra as
distribuições amostrais de para diferentes populações e diferentes tamanhos de amostra.
Fonte: Elaboração do autor.
População original (distribuição de X)
Distribuição amostral de X para n = 2
Distribuição amostral de X para n = 5
Distribuição amostral de X para n = 30
unidade 5082
ESTATÍSTICA E PROBABILIDADES
Note nos gráficos acima que a aproximação pela distribuição normal é razoável para amostras com
30 ou mais observações. Por essa razão, a utilização do teorema central do limite é adequada quando
o tamanho da amostra for ao menos 30 ou quando a distribuição da variável aleatória X for normal.
Nos próximos tópicos, você vai descobrir como aplicar o teorema central do limite para
obter estimativas intervalares para médias e proporções populacionais a partir da média e
proporções amostrais. Na Unidade 7, o TCL será utilizado para realizar testes de hipóteses
sobre os parâmetros populacionais.
ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA PARA UMA MÉDIA POPULACIONAL
Neste tópico, você vai aprender a obter uma estimativa para média populacional e calcular
a precisão dessa estimativa. Você vai entender por que apresentar a margem de erro e o
nível de confiança da pesquisa é tão importante quanto apresentar a estimativa pontual para
média. Após a leitura deste tópico, você terá um novo olhar sobre as estatísticas que lhe são
apresentadas diariamente em jornais ou revistas.
Considere que uma montadora desenvolveu um novo modelo e está elaborando a ficha técnica
do veículo. Uma informação relevante para o cliente é o consumo médio de combustível. Sabe-
se que o consumo está relacionado ao tipo de combustível (etanol ou gasolina ), à maneira
de conduzir, ao tipo de via (cidade ou estrada), à qualidade do combustível, dentre outras
variáveis. O consumo pode variar também entre os veículos de mesmo modelo, por essa razão
podemos tratar o consumo de combustível como uma variável aleatória.
Para definir o consumo médio de combustível do novo modelo de veículo, a montadora coletou
dados sobre distância percorrida e consumo de combustível de 35 veículos. Com esses dados,
calculou o consumo médio na estrada e na cidade tanto para gasolina quanto para etanol. Os
resultados são apresentados na tabela abaixo:
TABELA 20 - Revisão das medidas de tendência central
CidadeEstrada
8,710,4
12,515,2
TRAJETO ETANOL (KM/L) GASOLINA (KM/L)
Fonte: Elaborado pelo autor.
unidade 5083
ESTATÍSTICA E PROBABILIDADES
Os 35 veículos que participaram do
experimento podem ser considerados uma
amostra do total de veículos produzidos
pela montadora, já que o objetivo é obter
informação sobre todos os veículos do
referido modelo que são produzidos. Dessa
forma, a montadora está utilizando a média
da amostra para estimar µ, o consumo
médio de todos os veículos.
Dizemos que a média da amostra
representa um único estimador numérico
da média da população. Por essa razão,
recebe o nome de estimador pontual.
Observe, por exemplo, na tabela 21 que o
consumo médio do veículo na cidade com
etanol foi estimado em 8,7 km/l, mas não foi
apresentada nenhuma informação quanto à
precisão dessa estimativa.
No tópico anterior, vimos que a média
amostral pode ser considerada uma
variável aleatória. Isso significa que, caso
selecionássemos outra amostra de 35
veículos e calculássemos o consumo
médio na cidade com etanol, o resultado
poderia ser diferente de 8,7 km/l. Por
essa razão, a estimativa pontual deve vir
sempre acompanhada da margem de erro,
informando assim sua precisão. A margem
de erro pode ser obtida através da equação
abaixo:
E = Za/2 √nσ
Onde:
zα ⁄2 está relacionado ao nível de confiança
desejado para o estudo;
σ é o desvio-padrão populacional da
variável aleatória X;
n é o tamanho da amostra coletada.
O nível de confiança do estudo é definido
pelo valor de zα⁄2 que pode ser obtido da
tabela da distribuição normal padrão. O nível
de confiança é dado em valor percentual e
deve ser sempre inferior a 100%. Chamamos
significância (α) o percentual restante, de
maneira que confiança + significância =
100%. Por exemplo, para um estudo com
95% de confiança, o valor de α será 5%. O
valor de z = 1,96 é definido então a partir da
distribuição normal padrão, como ilustra a
figura abaixo:
FIGURA 25 - Definição do valor de z para confiança de 95%
Fonte: Elaborado pelo autor.
unidade 5084
ESTATÍSTICA E PROBABILIDADES
Observe também que, para o cálculo da
margem de erro, precisamos conhecer o
desvio-padrão populacional da variável
aleatória X, isto é, o desvio-padrão do
consumo de combustível de todos os
veículos do referido modelo produzidos
pela montadora. Entretanto, como a
amostra pode ser considerada grande ( n >
30 ), podemos utilizar o desvio-padrão da
amostra s como aproximação de σ, e então
o cálculo da margem de erro será:
E = Za/2 √nS
Vamos obter, portanto, a margem de erro
para o verdadeiro consumo médio de etanol
na cidade para esse veículo, com um nível
de 95% de confiança, sabendo que o desvio-
padrão do consumo de etanol na cidade
para a amostra dos 35 veículos foi de 4 km/l.
E = 1,96 4 = 1,325√35
O cálculo acima mostra que a margem de erro
do estudo é de 1,325 km/l para o consumo
do veículo ao rodar com etanol na cidade.
Com isso, podemos dizer que o verdadeiro
consumo médio do veículo é de 8,7 km/l com
uma margem de 1,325 km/l para mais ou para
menos, ou seja, está entre 8,7 - 1,325 = 7,375
km/l e 8,7 + 1,325 = 10,025 km/l. O intervalo
que acabamos de construir (7,375; 10,025)
é conhecido como intervalo de confiança ou
estimador intervalar e é definido pela equação:
IC [ μ; ( 100 - α ) % ] = ± E
IC [ μ; 95% ] = ± E
Ou seja, o intervalo de confiança para μ, a
verdadeira média populacional, com um nível
de ( 100 - α ) % de confiança, é dado pela
média amostral menos a margem de erro e a
média amostral mais a margem de erro.
O resultado do exemplo acima é comumente
interpretado da seguinte maneira: “se
obtivermos várias amostras de 35 veículos
e, para cada uma delas, calcularmos os
correspondentes intervalos com 95% de
confiança, esperamos que a proporção de
intervalos que contenham o verdadeiro
consumo médio μ seja igual a 95%”.
Exemplo:
Para os dados da tabela 1, supondo que o
desvio-padrão para o consumo de etanol na
estrada seja de 2 km/l, obtenha o intervalo
de 95% para o verdadeiro consumo médio.
Solução:
Para resolver a questão acima, podemos
utilizar a equação:
Precisamos, portanto, encontrar a margem
de erro do estudo. Para isso, vamos utilizar
a equação:
unidade 5085
ESTATÍSTICA E PROBABILIDADES
E = Za/2 √nS
Logo:
E = 1,96 * 2 = 0,663√35
Então:
IC [ μ ; 95% ] = 10,4 ± 0,663
O intervalo é comumente apresentado como
segue:
IC [ μ ; 95% ] = [ 9,737 ; 11,063 ]
Dessa forma, afirmamos com 95% de
confiança que o consumo médio de etanol
na estrada para o novo modelo de veículo
está entre 9,737 km/l e 11,063 km/l.
ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA PARA UMA MÉDIA POPULACIONAL (AMOSTRAS PEQUENAS)
Você deve ter observado no tópico anterior
que o cálculo da margem de erro para o
intervalo de confiança exige o conhecimento
do desvio-padrão populacional (σ).
Entretanto, na maioria das vezes em que
se deseja estimar a média populacional,
o desvio-padrão populacional também é
desconhecido, o que torna inadequada a
aplicação da equação para o cálculo da
margem de erro.
Felizmente, quando trabalhamos com
grandes amostras ( n > 30 ), o desvio-
padrão amostral (s) é uma boa aproximação
para o desvio-padrão populacional (σ), o
que possibilita a utilização da equação
apresentada para o cálculo da margem de
erro. Mas, o que fazer quando a amostra
é pequena ( n < 30 )? É exatamente o que
descobriremos aqui.
Nas situações em que a amostra é pequena,
nos deparamos com dois problemas:
1. Não podemos utilizar o teorema central
do limite para dizer que a média amostral
( ) é normalmente distribuída, pois o
TCL é válido somente para amostras com
mais de 30 observações.
2. A aproximação do desvio-padrão
populacional pelo desvio-padrão
amostral é considerada pobre.
Para contornar o problema 1, lançamos
mão do seguinte teorema:
Se X é uma variável aleatória normalmente
distribuída, ao selecionar amostras de
tamanho n, a distribuição amostral de
será uma distribuição normal.
unidade 5086
ESTATÍSTICA E PROBABILIDADES
Esse teorema garante que, se a variável aleatória X é normalmente distribuída, então a
distribuição amostral de será normal independente do tamanho da amostra.
Para contornar o problema 2, vamos precisar utilizar uma nova distribuição de probabilidades,
a distribuição t-student. Essa distribuição é muito semelhante à distribuição normal: tem
forma de sino, é simétrica e tem média zero. A diferença é que a distribuição t-student é
mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa
distribuição serão menos precisas.
FIGURA 26 - Comparação entre a distribuição normal e a distribuição t-student (5 gl)
Fonte: Elaborado pelo autor.
A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuição t-student.
Para construção de intervalos de confiança, devemos olhar os valores para área em duas
caudas e a área deve se referir ao valor de α ⁄ 2 + α ⁄ 2. Os graus de liberdade são dados por
n - 1, ou seja, o tamanho da amostra menos 1.
unidade 5087
ESTATÍSTICA E PROBABILIDADES
FIGURA 27 -Valores tabelados para distribuição t-studen
Fonte: TRIOLLA, 2013, p. 614.
Exemplo:
Uma equipe de engenharia está desenvolvendo uma nova mistura para concreto e deseja
estimar a resistência média do produto à compressão. Como o teste de resistência à
compressão é um ensaio destrutivo, o máximo que a equipe conseguiu para realização do
estudo foram 10 corpos de prova. A resistência média à compressão da amostra foi de 2.500
psi e o desvio-padrão foi de 45 psi. Sabendo que a resistência do concreto à compressão segue
uma distribuição normal, obtenha uma estimativa intervalar para a verdadeira resistência
média populacional com 95% de confiança.
Solução:
Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-padrão foi obtido da amostra
(não conhecemos o desvio-padrão populacional). Nesse caso, para construir o intervalo de
confiança, é necessário utilizar a distribuição t-student e a margem de erro deve ser calculada
utilizando a equação:
unidade 5088
ESTATÍSTICA E PROBABILIDADES
Onde tα ⁄2 ; n-1 é obtido da tabela t-student, sendo os parâmetros: α⁄2 a área em cada uma
das duas caudas e n - 1 os graus de liberdade.
Como o intervalo é de 95% de confiança, sabemos que a significância é cx = 5% (para consultar
a tabela usamos o valor em decimal, 0,05). Os graus de liberdade são obtidos calculando n-1,
ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 é de 2,262.
E = tα/2 , n - 1 √nS
FIGURA 28: Tabela t-student - encontrando t 0,025;9
Fonte: TRIOLA, 2013, p. 614
Com isso, estimamos que a margem de erro será:
E = 2,262 45 = 32,189
O intervalo de confiança pode ser então obtido:
IC [ μ ; 95% ] = 2.500 ± 32,189
IC [ μ ; 95% ] = [ 2.467,81 ; 2.532,19 ]
A equipe de engenharia pôde interpretar o resultado como segue: afirmamos com 95% de confiança
que a resistência média do concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.
√10
unidade 5089
ESTATÍSTICA E PROBABILIDADES
ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA PARA UMA PROPORÇÃO POPULACIONALComo são calculadas as margens de erro das pesquisas eleitorais? Possivelmente no início da
unidade você tenha ficado instigado a descobrir como é feito esse cálculo. Antes de dar início,
é preciso entender que as pesquisas eleitorais buscam descobrir o percentual de eleitores
que são favoráveis ao candidato A ou B, e esses percentuais são tratados na estatística como
proporções.
Para simplificar os cálculos, vamos pensar em uma eleição que foi para o segundo turno e, portanto,
tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto à
intenção de voto nos candidatos A e B. Note que "candidato" é uma variável qualitativa, e o que
queremos descobrir é como estimar a probabilidade de sucesso em um experimento binomial em
que p é a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira
bem intuitiva de estimar p para a população é usar a proporção de sucessos da amostra:
p = Número de eleitores que preferem o candidato A
Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado intenção de votar
no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a
proporção de eleitores que votariam no candidato A por:
p ∩= 1.300 = 0,52
Ou seja, a amostra indica que cerca de 52% dos eleitores têm intenção de votar no candidato
A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de p ∩ é
uma estimativa pontual para p, a verdadeira proporção de eleitores que têm intenção de votar
no candidato A em toda a população.
Podemos tratar p como uma média, se pensarmos que X é uma variável aleatória que assume
0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara
votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que p é
Número de eleitores amostrados
ˆ
ˆ
ˆ
2.500
ˆ
unidade 5090
ESTATÍSTICA E PROBABILIDADES
normalmente distribuído com média μp =
p e desvio-padrão σp = √p.q , onde q = 1-p,
ou de maneira aproximada σp = √p.q , pois
não conhecemos os verdadeiros valores de
p e q.
Sabemos que o TCL é válido apenas
para amostras grandes. No caso de
estimativas para proporções, dizemos
que a amostra é grande quando n . p ≥
5 e também n . q ≥ 5, ou seja, ambos os
critérios devem ser satisfeitos.
Caso esses critérios tenham sido satisfeitos,
podemos calcular a margem de erro através
da equação:
n
n
E = Za/2 √ npq
E então o intervalo de confiança para p será:
IC [ p ; ( 100 - α) % ]= p ± E
No exemplo da pesquisa eleitoral, n . p ∩=
2.500 * 0,52 = 1.300 e n.q ∩= 2.500 * 0,48
= 1.200. Como ambos os critérios foram
satisfeitos, dizemos que temos uma
amostra grande o bastante para justificar
a utilização do TCL, logo podemos obter
a margem de erro com o nível de 95% de
confiança:
E= 1,96 √ = 0,01960,52 × 0,48
2.500
E o intervalo de confiança será:
IC [ p ; 95% ] = 0,52 ± 0,0196
IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]
Podemos afirmar com 95% de confiança
que a verdadeira proporção de eleitores que
votam no candidato A em toda a população
está entre 50,04% e 53,96%. Observe que
afirmar com 95% de confiança significa
dizer que, se fossem feitas 100 pesquisas
e calculados os intervalos de confiança,
cerca de 95 deles conteriam a verdadeira
proporção de eleitores que votam no
candidato A.
Exemplo:
A empresa XYZ compra tubos de aço do
fornecedor A. Na última semana, a XYZ
recebeu uma proposta de comprar tubos de
aço do fornecedor B pela metade do preço
do fornecedor A. Para decidir, o gerente de
compras deseja estimar qual o percentual de
não conformidade nos tubos do fornecedor
B (proporção de tubos defeituosos). Em um
lote de 150 tubos havia 21 não conformes.
Obtenha o intervalo de 90% de confiança
para a verdadeira proporção de tubos não
conformes do fornecedor B.
Solução:
Uma estimativa pontual para a verdadeira
proporção de tubos não conformes é dada por:
ˆ
ˆ ˆ ˆ
ˆ ˆ
ˆ
ˆ
ˆ
unidade 5091
ESTATÍSTICA E PROBABILIDADES
p = 21 = 0,14
Verificamos que a aplicação do teorema
central do limite é adequada, pois n . p = 21
e n . q = 150 * 0,86 = 129, ou seja, ambos
são maiores que 5, indicando que a amostra
é suficientemente grande. Podemos estimar
a margem de erro do estudo pela equação:
E = 1,645 √ = 0,047
Então, definimos o intervalo com 90% de
confiança para p pela equação:
IC [ p ; 90% ] = p ± E
IC [ p ; 90% ] = 0,14 ± 0,047
IC [ p ; 90% ] = [ 0,093 ;0,187 ]
O gerente de compras pode afirmar,
com 90% de confiança, que a verdadeira
proporção de tubos não conformes
provenientes do fornecedor B está entre
9,3% e 18,7%. O gerente fará sua decisão
baseado nessa informação e em outras que
julgar convenientes.
150
E = Za/2 √ npq
0,14 × 0,86150
USO DO EXCEL NO CÁLCULO DE INTERVALOS DE CONFIANÇA PARA MÉDIA E PROPORÇÃO
Agora que você já sabe exatamente como
são obtidos os intervalos de confiança,
vamos utilizar o Excel para construir uma
calculadora de intervalos de confiança.
Começaremos pelo intervalo para média.
Nos tópicos anteriores, vimos que o
intervalo de confiança para a média
populacional pode ser obtido de duas
maneiras: utilizando a distribuição
normal (estatística z) ou a distribuição
t-student (estatística t). Vimos também
que a distribuição t-student é utilizada
quando o tamanho da amostra é menor
que 30 e o desvio-padrão populacional
é desconhecido. Nos outros casos,
utilizamos a distribuição normal.
Vamos construir primeiramente uma
calculadora para intervalos de confiança
utilizando a distribuição normal.
Utilizaremos os dados sobre consumo
de combustível do primeiro exemplo.
A figura abaixo ilustra como deve ficar
nossa calculadora nas colunas A e B.
ˆ
ˆ
ˆ ˆ
ˆ
unidade 5092
ESTATÍSTICA E PROBABILIDADES
FIGURA 29 - Calculadora para intervalo de confiança para média: amostras grandes ou desvio-padrão populacional conhecido
Fonte: Elaborado pelo autor.
Nas linhas 4 a 7 são inseridas as informações iniciais do problema, como: desvio-padrão,
que pode ser tanto da população quanto da amostra; a média amostral ∩; o tamanho da
amostra n; e o nível de confiança desejado. Note que a célula B7 deve ser configurada como
porcentagem.
Nas linhas 9 a 11 são realizados cálculos intermediários como erro padrão da média σx (ou σx ∩),
o valor de z relativo ao nível de confiança desejado e a margem de erro resultante. As fórmulas
utilizadas para cada um dos cálculos são apresentadas exatamente à sua direita. Por exemplo,
na célula B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão dividido pela raiz do
tamanho da amostra. Nas linhas 13 e 14 é apresentado o intervalo de confiança, sendo limite
inferior do intervalo o valor de - E e o limite superior do intervalo o valor de + E.
Para construir a calculadora para amostras pequenas e desvio-padrão populacional
desconhecido, vamos utilizar os dados do exemplo sobre a resistência do concreto à
compressão. O procedimento é o mesmo do anterior, alterando apenas as informações
relativas aos parâmetros da distribuição t-student:
ˆ
unidade 5093
ESTATÍSTICA E PROBABILIDADES
FIGURA 30 - Calculadora para intervalo de confiança para média: amostras pequenas e desvio-padrão populacional desconhecido
Fonte: Elaborado pelo autor.
Para construir a calculadora de intervalos de confiança para proporções, vamos utilizar os
dados do exemplo da pesquisa eleitoral. Nesse caso, os dados iniciais são o número de
sucessos e o tamanho da amostra. Lembrando que a palavra sucesso está relacionada à
distribuição binomial e se refere ao número de vezes que ocorreu o evento de interesse. No
caso do exemplo sobre as eleições, o número de sucessos é a quantidade de entrevistados
que declarou intenção de votar no candidato A, 1300 pessoas. O tamanho da amostra foi de
2500 entrevistados. Com esses dados, calcula-se a proporção estimada p ∩ dividindo o número
de sucessos pelo tamanho da amostra (célula B6).
O erro padrão da média é calculado através da equação σp = √p.q = implementada na célula
B9. As demais células utilizam as mesmas fórmulas já apresentadas nas calculadoras
anteriores.
nˆˆ ˆ
unidade 5094
ESTATÍSTICA E PROBABILIDADES
FIGURA 31 - Calculadora para intervalo de confiança para proporção
Fonte: Elaborado pelo autor.
INTRODUÇÃO AO PROGRAMA EPIINFO
O software EpiInfo é uma ferramenta muito útil para análise de dados. Esse software foi
desenvolvido pelo Centro de Controle de Doenças (CDC) para análise de dados epidemiológicos,
entretanto pode ser utilizado em qualquer área, inclusive em engenharia. O software está
disponível no site www.cdc.gov/epiinfo
Veja no material web da disciplina os vídeos de instalação do EpiInfo e de introdução à análise
de dados utilizando essa ferramenta.
APLICAÇÃO PRÁTICA
Um fabricante de anéis para pistões de motor deseja verificar se seu produto atende as especificações
do cliente. Para isso, resolveu estimar o diâmetro médio dos anéis produzidos. A partir de uma amostra
unidade 5095
ESTATÍSTICA E PROBABILIDADES
de 40 anéis, registrou-se diâmetro médio de
74,045 milímetros com desvio-padrão de 0,02
milímetros. Construa o intervalo com 99% de
confiança para o verdadeiro diâmetro médio dos
anéis.
Solução:
Note que o enunciado não informou a distribuição
de probabilidade da variável diâmetro dos anéis
e, além disso, também não temos informação
a respeito do desvio-padrão populacional
dessa variável. Entretanto, como a amostra é
considerada grande (40 anéis), podemos valer
do teorema central do limite e afirmar que a
distribuição amostral do diâmetro médio dos
anéis é normal, com média μ e desvio-padrão σ⁄√n , onde μ é o verdadeiro diâmetro médio dos
anéis e σ o verdadeiro desvio-padrão. Sabemos
ainda que o estimador de μ é X ∩, a média amostral
e o estimador de σ é s, o desvio-padrão amostral.
Dessa forma, utilizaremos as equações abaixo
para construir o intervalo com 99% de confiança
para o verdadeiro diâmetro médio dos anéis.
IC [ μ ;99% ] = x ± E
Precisamos, portanto, encontrar a margem
de erro do estudo. Para isso, vamos utilizar a
equação:
Logo:
E = 2,575 * 0,02
= 0,008
Então:
IC [ μ ; 99% ] = 74,045 ± 0,008
O intervalo é comumente apresentado como
segue:
IC [ μ ;99% ] = [ 74,037 ; 74,053]
Dessa forma, afirmamos com 99% de confiança
que o diâmetro médio dos anéis está entre
74,037 milímetros e 74,053 milímetros.
E = Za/2 √nS
√40
REVISÃO
Nesta unidade, você aprendeu a construir
estimativas pontuais e por intervalos para
os verdadeiros parâmetros populacionais
através de dados provenientes de amostras.
Aprendeu também que existem ao menos
quatro maneiras de obter estimativas
intervalares, e que a escolha da maneira
adequada para cada situação é determinada
basicamente pelo tipo de dados (qualitativo
ou quantitativo) e pelo tamanho da amostra
( n < 30 ou n ≥ 30 ). O esquema abaixo
apresenta de maneira resumida o processo
de decisão:
unidade 5096
ESTATÍSTICA E PROBABILIDADES
FIGURA 32– Processo de decisão
Tipo de dados
Quantitativo parâmetro μ
Amostra grande ( n ≥ 30 )
Pelo teorema central do limite, o intervalo de
confiança pode ser obtido pelas equações 1 ou 2.
Amostra pequena ( n < 30 )
O intervalo de confiança pode ser obtido pela equação 3
apenas se a população tem distribuição normal.
Aplicável quando np ≥ 5 e nq ≥ 5
O intervalo de confiança pode ser
obtido pela equação 4.
Qualitativo parâmetro p
Equação 1: ∩ ± zα⁄2 √n
Equação 2: ∩ ± zα⁄2 √n
Equação 3: ∩ ± tα⁄2; n -1 √n
Equação 4: p ∩± zα⁄2 √p.q
σ
s
s
n
PARA SABER MAIS
Fonte: Elaborada pelo autor
Caso você tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse conteúdo,
recomendo a leitura do capítulo 5 do livro texto:
McCLAVE, James T. George Benson, Terry Sincich. Estatística para administração e economia. trad.
Fabrício Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo:
Pearson Prentice Hall, 2009.
Se você deseja uma leitura mais formal e tem interesse em demonstrações das equações, leia o capítulo
8 do livro texto:
ˆ ˆ ˆ
unidade 5097
ESTATÍSTICA E PROBABILIDADES
MONTGMOMERY, Douglas C. George C. Runger.
Estatística aplicada e probabilidade para
engenheiros. trad. e rev. téc. Verônica Calado.
Rio de Janeiro: LTC, 2009.
Se você deseja um estudo de caso com aplicação
do conteúdo na área de engenharia, leia o artigo:
NETO, Antônio Peli. Intervalos de confiança,
Intervalos de Predição e Campo de Arbítrio nas
Avaliações de Imóveis Urbanos. Associação
Brasileira dos Engenheiros Civis - Departamento
da Bahia. Bahia, 2010. Disponível em: <http://
www.abenc-ba.org.br/attachments/289_
ANTONIO_PELLI_ABNT%20NBR%2014653-2%20
%282%C2%BAProjeto%29212751_1.pdf>.
Acesso em 16 jun. 2015.
unidade 6099
PLANEJAMENTO DE EXPERIMENTOS
Na Unidade 5, Estimação de médias e proporções, você aprendeu a estimar
parâmetros populacionais a partir de dados amostrais. Você deve ter observado
que os resultados amostrais foram disponibilizados, mas não foram apresentados
os métodos utilizados para seleção das amostras ou sequer a justificativa para o tamanho
amostral. Nesta unidade você vai aprender a planejar um experimento de pequeno e médio
porte na área de Engenharia e Ciências Exatas, bem como calcular o tamanho mínimo de
uma amostra que tenha representatividade estatística.
Uma situação que utiliza o planejamento de experimentos muito frequentemente é o estudo
dos efeitos do tratamento térmico de metais sobre suas propriedades mecânicas. Considere
que uma equipe de engenharia deseja estudar o efeito de três diferentes tipos de banho
de têmpera sobre a dureza de um determinado tipo de aço. Os tipos de banho de têmpera1
utilizados são têmpera em água, têmpera em óleo e têmpera em solução aquosa de cloreto de
sódio (água salgada). O propósito do estudo é determinar qual banho de têmpera produzirá a
dureza máxima do aço.
A princípio, a equipe considerou suficiente para o propósito do estudo submeter um
determinado número de corpos de provas a cada meio de têmpera e medir a dureza da liga
metálica. A partir desses resultados calcular-se-ia a dureza média em cada um dos diferentes
tipos de banho. Aquele que apresentasse a maior dureza média seria o mais adequado.
A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa temperatura e, a seguir, resfriá-la rapidamente em um banho, usualmente água, óleo ou soluções salinas. Seu objetivo é, em geral, aumentar a dureza do aço e tornar mais elevadas suas resistências à tração, à compressão e ao desgaste
unidade 6100
ESTATÍSTICA E PROBABILIDADES
Entretanto, ao analisar o experimento com cautela, o engenheiro de produção detectou várias
questões que deviam ser respondidas antes do início da coleta de dados: água, óleo e água salgada
são os únicos banhos de interesse no processo de têmpera? Há outros fatores que possam afetar
a dureza do aço e que devem ser pesquisados? Quantos corpos de prova devem ser submetidos a
cada banho de têmpera? De que modo os corpos de prova devem ser alocados aos três diferentes
banhos? Em que ordem os dados devem ser coletados? Qual método de análise de dados deve ser
utilizado? Qual diferença entre dureza média será considerada significativa do ponto de vista prático?
Diante de todas essas questões, a equipe constatou a necessidade de utilizar técnicas
estatísticas para planejamento do experimento, a fim de assegurar a confiabilidade dos
resultados do estudo. São estas técnicas que você irá aprender nessa unidade.
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA PROPORÇÃO
Para alguns pesquisadores, a definição do tamanho da amostra é o único cuidado necessário
para validade estatística do estudo. Como você observou na introdução dessa unidade, existe
uma série de cuidados que devem ser tomados ao conduzir experimentos em engenharia,
além do tamanho da amostra. A começar pelo objetivo do estudo.
Se o objetivo do estudo é comparar resultados expressos em forma de porcentagens ou
proporções, existe um método adequado para o cálculo do tamanho amostral. Se o objetivo
é comparar resultados expressos em forma de médias, existe outro método adequado para
o cálculo do tamanho amostral. Diversos outros fatores podem ser considerados nestes
cálculos, alterando, assim, a adequação de cada método.
Neste tópico você aprenderá a calcular o tamanho amostral para um estudo que tem o
interesse de estimar uma proporção populacional. Os parâmetros controlados são o nível de
confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo:
Exemplo 8
Uma empresa fabricante de motores deseja comprar correias do fornecedor Borrachão,
pois o atual fornecedor tem apresentado um percentual elevado de peças defeituosas (não
unidade 6101
ESTATÍSTICA E PROBABILIDADES
conformes). Para estimar o percentual de
correias não conformes produzidas pelo
fornecedor Borrachão, a empresa fabricante
de motores deseja adquirir uma amostra que
seja representativa. A equipe de engenharia
deseja que seja conduzido um estudo com
95% de confiança e margem de erro máxima
da estimativa de 2 pontos percentuais, para
mais ou para menos. Qual o tamanho de
amostra necessário para esse estudo? A
equação abaixo deverá ser utilizada para o
cálculo do tamanho amostral desejado:
Equação 1: Tamanho de amostra
exigido para estimativa de uma
proporção populacional – Conhecendo
uma estimativa de p
n = Za/2pq
Onde:
n: é o tamanho da amostra calculado
zα⁄2 : escore z que separa uma área de
α/2 na cauda direita da distribuição
normal padrão
p: é uma estimativa da verdadeira proporção
populacional.
q ∩: é obtido por 1-p ∩
E: é a margem de erro máxima aceitável
para o estudo.
Note que a equação acima exige que
se tenha um conhecimento prévio da
E2
ˆˆ
ˆ
ˆ ˆ
verdadeira proporção populacional. Esse
pressuposto pode não ser satisfeito na
prática. Nesse caso, deve-se utilizar o valor
0,5 no lugar de p, e a equação passa a ser:
Equação 2: Tamanho de amostra
exigido para estimativa de uma
proporção populacional –
Desconhecendo estimativa de p ̂
n = Za/20,25
Para o exemplo das correias, a equipe
utilizou a equação 2, uma vez que não havia
conhecimento sobre a estimativa de p.
n = 1,96 x 0,25
n = 1.225
Dessa forma, a equipe concluiu que para
estimar a verdadeira proporção de correias
não conformes produzidas pelo fornecedor
Borrachão, com 95% de confiança e uma
precisão de 2%, será necessário coletar uma
amostra de 1.225 correias.
Note que, caso a equipe tivesse uma
informação quanto ao verdadeiro percentual
de correias não conformes e desejasse
realizar um estudo apenas para confirmação
da informação o tamanho amostral, poderia
ser significativamente menor. Suponha
que o fornecedor Borrachão afirmasse
que o percentual de peças não conformes
ˆ
ˆ
ˆ
E2
0,022
ˆ
unidade 6102
ESTATÍSTICA E PROBABILIDADES
fosse de 5%. A equipe poderia utilizar essa
informação como uma estimativa de p e
poderia então utilizar a equação 1:
n = 1,96 x 0,5 x 0,95
n = 232,8 ˜ 233
Observe que o tamanho de amostra
necessário para confirmar a afirmação
do fornecedor é de apenas 233 correias.
Isso sempre acontecerá, ou seja, o
tamanho amostral resultante da equação
1 será sempre menor que o resultante
da equação 2, pois na primeira já temos
um conhecimento a priori do verdadeiro
valor populacional e desejamos apenas
confirmá-lo.
0,022
IMPORTANTE
É importante destacar que, para o cálculo do
tamanho amostral, o resultado deve ser sempre
arredondado para cima, independentemente
do valor decimal. Assim, no exemplo anterior,
caso o cálculo exato resultasse em 232,1
ainda assim arredondaríamos para 233
correias. Isso ocorre porque o tamanho de
amostra mínimo necessário para atender aos
requisitos do nível de confiança e margem
de erro seria de 232,1 correias. Como não
faz sentido amostrar 0,1 correia, devemos
selecionar uma peça a mais.
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA PROPORÇÃO – POPULAÇÃO FINITA
ˆ
No tópico anterior aprendemos a calcular
o tamanho de amostra para estimar
uma proporção, mas observe que não
foi considerado o total de elementos na
população. Isso ocorre em situações em
que a população é considerada infinita, ou
seja, o número de elementos da população
é tão grande que pode ser considerado
infinito. Em algumas situações, no entanto,
esse pressuposto não é minimamente
razoável. Nessas situações precisamos
utilizar um fator de correção para população
finita. Utilizamos, então, a equação 3:
Equação 3: Tamanho de amostra
exigido para estimativa de uma
proporção populacional –
Correção para população finita
n = pq (za/2)2
Considere que desejamos estimar o
percentual de peças defeituosas em um lote
de 100 peças. Qual o tamanho de amostra
necessário, se queremos uma estimativa
com 90% de confiança e margem de erro
máxima de 3%? Utilizando a equação 2
pq (za/2)2 + (N - 1) E2ˆˆ
ˆˆ
unidade 6103
ESTATÍSTICA E PROBABILIDADES
teríamos o seguinte resultado:
n = 1,645 x 0,25 = 457
Observe que o resultado da equação é
irreal, pois como poderíamos amostrar 457
peças em um lote de 100? Nessa situação
devemos utilizar a equação 3, que leva em
consideração o tamanho do lote:
n = 100 x 0,5 x 0,5 (1,645)2
O tamanho da amostra passa a ser então
89 peças, o que é real, ou possível, tendo em
vista que o tamanho do lote é de 100 peças.
Caso já existisse uma informação sobre
o percentual de peças defeituosas e fosse
desejável apenas confirmar a informação,
o tamanho amostral seria menor. Por
exemplo, considere que normalmente
cerca de 5% das peças são defeituosas.
Para confirmar tal informação, seriam
necessárias 60 peças na amostra.
n = 100 x 0,05 x 0,95 (1,645)2
0,032
0,5 x 0,5 (1,645)2 + (100 - 1) 0,032
0,05 x 0,95 (1,645)2 + (100 - 1) 0,032
n = 89
n = 60
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA MÉDIA
No início dessa unidade falamos que o
cálculo do tamanho amostral depende
de vários fatores, sendo o principal deles
o objetivo do estudo. Nesta seção você
aprenderá a calcular o tamanho amostral
para um estudo que tem o interesse de
estimar uma média populacional. Os
parâmetros controlados continuam sendo
o nível de confiança e a margem de erro
máxima desejados para o estudo. Vejamos
um exemplo:
Exemplo 9
Uma empresa fabricante de baterias
automotivas desenvolveu um novo produto
e deseja estimar a sua vida média. De
estudos anteriores, sabe-se que a vida
média das baterias produzidas por esse
fabricante segue uma distribuição normal,
com desvio-padrão de seis meses. A
equipe de engenharia do produto ressalta
a importância da correta estimação da vida
média da bateria, pois a partir desta será
determinado o tempo de garantia. Por essa
razão, decidiu-se que o nível de confiança
do estudo será de 99% e a margem de erro
máxima aceitável para a estimativa é de
três meses. Utilizando a equação abaixo,
unidade 6104
ESTATÍSTICA E PROBABILIDADES
a equipe poderá determinar o tamanho
amostral necessário para atender às
exigências do estudo.
Equação 4: Tamanho de amostra exigido
para estimativa de uma média populacional
n = { Za/2Ợ }2
Onde:
n: é o tamanho da amostra
Za/2: escore z que separa uma área de
α/2 na cauda direita da distribuição
normal padrão
σ: é o desvio-padrão populacional
E: é a margem de erro máxima aceitável
para a estimativa.
Utilizando a equação 4, a equipe determinou
que para estimar a vida média da nova
bateria desenvolvida, com 99% de confiança
na estimativa e margem de erro máxima de
três meses, será necessária uma amostra
de 27 baterias.
n = { 2,575 x 6 }2
n = 26,5 ˜ 27
Ao calcular tamanho de amostra para
estimativa de uma média populacional,
continua valendo aquela regra de
arredondamento apresentada no tópico
anterior, ou seja, devemos sempre
E
E
arredondar o resultado para cima.
Você deve ter observado no exemplo 9
que já dispúnhamos de uma estimativa a
priori do desvio-padrão populacional (σ),
ou seja, a equipe utilizou o desvio-padrão
das outras baterias. Em muitas situações
práticas, o desvio-padrão populacional não
é conhecido e nesses casos pode-se utilizar
uma das seguintes alternativas:
1 – Utilização da regra empírica da
amplitude para estimação do desvio-
padrão: σ ≈ Amplitude⁄4. Para aplicação
dessa alternativa, é necessário
coletar uma amostra piloto de
aproximadamente 87 observações.
Para maior esclarecimento sobre essa
regra, consulte Triolla (2013), seção 3-3.
2 – Comece o processo de coleta sem o
conhecimento de σ e, como base nos
primeiros resultados, obtenha o desvio-
padrão amostral s. Use essa estimativa
em lugar de σ.
3 – Utilize o valor de σ estimado por outros
estudos realizados anteriormente.
unidade 6105
ESTATÍSTICA E PROBABILIDADES
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA PARA UMA MÉDIA – POPULAÇÃO FINITA
Nos tópicos anteriores apresentamos
uma fórmula alternativa para o cálculo
do tamanho amostral para estimativa de
uma proporção populacional, no caso
de populações finitas. Da mesma forma,
para calcular o tamanho amostral para
estimativa de uma média populacional, no
caso de populações finitas, existe também
um fator de correção. A equação abaixo
apresenta o método correto para essas
situações:
Equação 5: Tamanho de amostra
exigido para estimativa de uma média
populacional – população finita
n = Nσ2 (Za/2)2
Exemplo 10
Suponha que o exército brasileiro deseje
encomendar uma remessa de uniformes
para os novos recrutas. Para melhor
adequação dos tamanhos dos uniformes,
o sargento decidiu obter uma estimativa da
altura média deles. Dos 100 novos recrutas,
o sargento deseja obter a estimativa
a partir de uma amostra com 95% de
(N - 1) E2 + σ2(Za/2)2
confiança e margem de erro máxima de
cinco centímetros. Sabendo que nos anos
anteriores o desvio-padrão da altura dos
recrutas era de 30 centímetros, o sargento
utilizou a equação 4 para determinar
o tamanho da amostra necessária,
encontrando o valor 139 (maior que o total
de novos recrutas):
n = { 1,96 x 30 }2
n = 139
Sem entender o que havia feito de errado, o
sargento decidiu conversar com um soldado
que tinha conhecimento de estatística para
auxiliá-lo. O soldado informou então que,
neste caso, o sargento deveria utilizar a
equação 5, que leva em consideração o
tamanho populacional. Utilizando o método
adequado, o sargento decidiu, portanto, que
para estimar a altura média dos 100 novos
recrutas, com 95% de confiança e margem
de erro máxima da estimativa de cinco cm,
era necessária uma amostra de 59 recrutas:
n = 100 x 302 (1,96)2
n = 58,3 ˜ 59
5
(100 - 1) x 52 +302 x (1,96)2
unidade 6106
ESTATÍSTICA E PROBABILIDADES
PLANEJAMENTO DE EXPERIMENTOS
O planejamento de experimentos,
também conhecido como DOE (Design of
Experiments), é um conjunto de técnicas
estatísticas que visa garantir uma coleta
de dados eficiente para uma análise de
dados que seja informativa e confiável. Esse
conjunto de técnicas tem vasta utilização
em diversas áreas do conhecimento, desde
ciências ligadas à saúde até as engenharias.
Em engenharia, especialmente, o DOE é
utilizado principalmente em Pesquisa e
Desenvolvimento, ou na área de qualidade e
desenvolvimento do produto.
O propósito dos experimentos planejados,
estatisticamente, é tornar a análise de
dados tão informativa quanto possível.
Experimentos que tenham sido mal
planejados fornecem pouca ou nenhuma
informação útil, mesmo com sofisticadas
técnicas de análise de dados, e podem levar,
inclusive, à conclusões completamente
equivocadas.
Em engenharia, o DOE é utilizado em
conjunto com outras técnicas estatísticas,
como as cartas de controle de processos,
por exemplo, ou combinado ao ciclo PDCA.
Nesses casos o objetivo é, normalmente,
estudar os efeitos de possíveis fatores
sobre o resultado de um processo, expresso
como uma característica da qualidade do
produto (ou processo). O planejamento de
experimentos pode ser definido assim:
Um experimento é um procedimento no
qual alterações propositais são feitas
nas variáveis de entrada de um processo
ou sistema, de modo que se possa
avaliar as possíveis alterações sofridas
pela variável resposta como também as
razões destas alterações (WERKEMA &
AGUIAR, 1996).
Todo processo ou sistema é impactado
pelos insumos e por um conjunto de fatores.
O objetivo do DOE é identificar quais são os
fatores que atuam sobre o processo, quais
desses fatores são controláveis e, dentre os
controláveis, qual a relação que têm com o
resultado do processo ou a característica
de qualidade de interesse. A figura
abaixo ilustra essa situação, podem estar
aturando sobre o sistema os insumos, os
equipamentos, as informações do processo,
as condições ambientais, as pessoas, os
métodos e os procedimentos:
unidade 6107
ESTATÍSTICA E PROBABILIDADES
FIGURA 33 - Modelo geral de um processo ou sistema
Fatores de ruído (não controláveis)
SISTEMA (PRODUTO/PROCESSOEntradas
V Varíaveis resposta (Características de
Qualidade)
Fatores controláveis (especificados pelo pesquisador)
Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.
Considere uma situação em que se deseja estudar a resistência à compressão de um concreto.
O engenheiro civil identificou que existem quatro tipos de técnicas de mistura desse concreto
e ele acredita que a resistência à compressão resultante varia conforme a técnica de mistura
utilizada. O objetivo do engenheiro é determinar qual a técnica produzirá o concreto com maior
resistência.
Com esse objetivo, decidiu produzir uma série de corpos de prova, utilizando cada uma das
quatro técnicas e medindo a resistência à compressão desses concretos. A resistência média
seria utilizada para determinar qual seria a melhor técnica de mistura.
Analisando o experimento com mais cautela, o engenheiro detectou várias questões que
deveriam ser respondidas antes do início da coleta de dados: existem apenas essas quatro
técnicas de mistura ou existem outras? Por que foram escolhidas estas quatro técnicas?
Existem outros fatores que possam afetar a resistência à compressão do concreto? Quantos
corpos de prova devem ser produzidos com cada técnica? De que modo os corpos de prova
devem ser alocados às diferentes técnicas de mistura? Qual método de análise de dados deve
ser utilizado? Qual resistência à compressão deverá ser considerada significativa do ponto de
vista prático?
Em todo experimento, a forma de coleta dos dados é fundamental para interpretação dos
resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo
unidade 6108
ESTATÍSTICA E PROBABILIDADES
sobre a resistência à compressão do
concreto tenham sido utilizados quatro
sacos de cimento, provenientes de quatro
fornecedores distintos, sendo alocados da
seguinte maneira:
Técnica de mistura 1 – cimento do
fornecedor A
Técnica de mistura 2 – cimento do
fornecedor B
Técnica de mistura 3 – cimento do
fornecedor C
Técnica de mistura 4 – cimento do
fornecedor D
Você concorda com esse procedimento?
Ao adotá-lo, o engenheiro assumiu que as
características do cimento dos diferentes
fornecedores são idênticas, ou que qualquer
diferença entre os cimentos não exerceria
influência sobre a resistência à compressão
dos corpos de prova. Entretanto, não
podemos tomar essa conduta, pois é
bem provável que existam características
específicas de cada fornecedor que
poderiam impactar na resistência à
compressão dos corpos de prova.
Da maneira como o estudo foi conduzido
pelo engenheiro, quando forem obtidas
as resistências à compressão médias de
cada técnica ele não será capaz de dizer
quanto da diferença observada é resultado
da técnica de mistura utilizada e quanto
é resultado das diferenças inerentes aos
quatro tipos de cimento utilizados. Nesse
caso, dizemos que o efeito da técnica de
mistura foi confundido com o efeito do
tipo de cimento. Vamos apresentar agora
três princípios básicos do planejamento
de experimentos que devem ser sempre
utilizados. Estes princípios são: réplica,
aleatorização e blocagem.
As réplicas são repetições do experimento
feitas sob as mesmas condições
experimentais. No exemplo que estamos
considerando, uma réplica do experimento
completo consiste em medir a resistência
à compressão de um corpo de prova
produzido pela técnica de mistura 1, outro
pela técnica 2, outro pela técnica 3 e outro
pela técnica 4. Se três corpos de prova
foram produzidos para cada técnica,
dizemos que foram produzidas três réplicas
do experimento (veja que teremos 3 x 4 = 12
corpos de prova, mas apenas três réplicas).
É muito importante que as réplicas sejam
produzidas sob as mesmas condições
experimentais. Isso significa que todos
os demais fatores que possam exercer
impacto sobre a característica resultante de
interesse devem ser mantidos constantes.
O segundo princípio básico do DOE é a
aleatorização. De acordo com esse princípio,
são definidos de maneira aleatória tanto a
ordem de realização dos ensaios individuais
unidade 6109
ESTATÍSTICA E PROBABILIDADES
do experimento, quanto a alocação de cada
corpo de prova às respectivas condições
experimentais. Esse princípio garante
que o efeito dos fatores não controláveis
sejam distribuídos igualmente ao longo de
todos os ensaios, evitando assim que haja
confusão do efeito desses fatores com o
efeito dos fatores de interesse.
No exemplo citado, suponha que os corpos
de prova serão produzidos por operadores
distintos e, como se sabe, a habilidade dos
operadores pode influenciar a qualidade
do concreto produzido. Logo, se todas as
amostras produzidas através da técnica de
mistura 1 forem feitas pelo operador menos
experiente, poderemos estar continuamente
colocando a técnica de mistura 1 em
desvantagem, em relação às outras
técnicas de mistura. A distribuição aleatória
da ordem de produção de cada corpo de
prova para cada operador atenuaria esse
problema.
O terceiro e último princípio básico é o
princípio da blocagem. Chamamos de
blocos os conjuntos homogêneos de
unidades experimentais. No exemplo
considerado, os corpos de prova são
produzidos com cimento de fornecedores
distintos. Logo são bastante heterogêneos
em relação a outros fatores além da técnica
de mistura.
Para resolver esse problema, podemos
realizar o experimento da seguinte maneira:
Cada pacote de cimento será utilizado
para produzir um corpo de prova para cada
técnica de mistura. Nesse caso, cada bloco
é um pacote de cimento (fornecedor) que
será utilizado para produzir quatro corpos
de prova. A figura 34 ilustra como ficaria o
experimento. Cada retângulo vertical (azul
claro) é considerado um bloco enquanto
cada retângulo horizontal (azul escuro) é
um corpo de prova produzido por uma das
quatro técnicas de mistura. Logo, para o
cimento proveniente do fornecedor A, por
exemplo, serão produzidos quatro corpos
de prova, um para cada técnica de mistura.
Este procedimento é mais adequado que
aquele proposto pelo engenheiro no início
da seção, em que cada pacote de cimento
seria utilizado para produção de quatro
corpos de prova, utilizando uma única
técnica de mistura.
unidade 6110
ESTATÍSTICA E PROBABILIDADES
FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto
FORNECEDOR A FORNECEDOR B FORNECEDOR C FORNECEDOR D
Téc. 1 Téc. 1 Téc. 1 Téc. 1
Téc. 2 Téc. 2 Téc. 2 Téc. 2
Téc. 3 Téc. 3 Téc. 3 Téc. 3
Téc. 4 Téc. 4 Téc. 4 Téc. 4
Fonte: Elaborado pelo autor
TERMINOLOGIA BÁSICA
Agora que você já aprendeu quais são os princípios básicos do DOE, vamos aprender alguns
termos comuns e muito úteis para o bom planejamento do experimento. Serão apresentados
seis termos básicos, a saber: Unidade Experimental, Fatores, Níveis de um Fator, Tratamento,
Ensaio e Variável Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo
sobre resistência à compressão do concreto, do tópico anterior, e definir cada termo.
A Unidade Experimental é a unidade básica para a qual será feita a medida da resposta. No
nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto
utilizado no estudo.
Os Fatores são os tipos distintos de condições que são manipuladas as unidades
experimentais. Ou seja, são as variáveis controláveis que podem exercer influência sobre a
variável resposta. E desejamos conhecer essa influência. No exemplo citado temos um único
fator: técnica de mistura.
Os Níveis de um fator são os diferentes modos de presença de um fator no estudo considerado.
No exemplo citado, os níveis do fator técnica de mistura são os diferentes tipos de técnica:
Técnica 1, Técnica 2, Técnica 3 e Técnica 4. Podemos dizer, portanto, que nosso fator tem
quatro níveis.
unidade 6111
ESTATÍSTICA E PROBABILIDADES
Chamamos de Tratamento as combinações
específicas dos níveis de diferentes fatores.
Quanto temos apenas um fator, como no
nosso exemplo, os tratamentos são os
próprios níveis dos fatores, Tratamento
1 = Técnica 1, Tratamento 2 = Técnica 2,
Tratamento 3 = Técnica 3 e Tratamento 4 =
Técnica 4.
Em alguns estudos podemos desejar
estudar dois ou mais fatores com diferentes
níveis. Nesses casos, os tratamentos
seriam a combinação de cada nível do fator
1 com cada um dos diferentes níveis do
fator 2. Suponha que um engenheiro deseja
estudar o efeito de dois métodos de pintura
de para-choques de automóveis (imersão e
aspersão) e de três tipos de tinta (A, B e C)
sobre a força de adesão da tinta.
Aqui, o fator 1 seria o método de pintura,
que tem dois níveis (Imersão e Aspersão) e
o fator 2 seria o tipo de tinta, que tem três
níveis (A, B e C). Para esse estudo, teríamos
2x3=6 tratamentos, a saber: T1 = Imersão +
Tinta A, Imersão + Tinta B, Imersão + Tinta
C, Aspersão + Tinta A, Aspersão + Tinta B
e por fim, Aspersão + Tinta C. Observe que
a unidade experimental seria cada um dos
para-choques sobre os quais aplicaríamos
os distintos tratamentos.
Definimos como Ensaio cada realização do
experimento em uma determinada condição
de interesse (tratamento), ou seja, ao aplicar
um tratamento a uma unidade experimental,
realizamos um ensaio. No nosso exemplo
sobre a resistência à compressão do
concreto, cada ensaio consiste em produzir
um corpo de prova utilizando determinada
técnica de mistura do concreto.
No exemplo sobre os métodos de pintura de
para-choques automotivos, um ensaio seria
aplicar um tratamento em uma unidade
experimental (para-choque), por exemplo,
pintar um para-choque por Imersão usando
tinta A.
Por fim, o termo Variável Resposta, você
já conheceu nas unidades anteriores,
nada mais é que o resultado de interesse
registrado após a realização de um ensaio.
No exemplo sobre as técnicas de mistura do
concreto, a variável resposta é a resistência
à compressão do corpo de prova produzido
com cada uma das técnicas de mistura. Já
no exemplo sobre os métodos de pintura
de para-choques automotivos, a variável
resposta é força de adesão da tinta sobre o
para-choque, medida após a aplicação da
tinta com cada método de aplicação e tipo
de tinta.
unidade 6112
ESTATÍSTICA E PROBABILIDADES
APLICAÇÃO PRÁTICA
Considere que você tenha uma máquina de
secar roupas que trabalha com diferentes
níveis de temperatura e deseja determinar o
efeito do nível de temperatura sobre o tempo
de secagem das roupas.
a) Defina para essa situação cada um
dos seis termos básicos.
b) O que seria uma réplica nesse estudo?
c) Descreva um viés de amostragem
que poderia ser resolvido pela
aleatorização.
d) Descreva um viés de amostragem que
poderia ser resolvido pela blocagem.
SOLUÇÂO:
a) Unidade Experimental: Cada trouxa de
roupa molhada que será introduzida para
secagem.
Fator: O fator, nesse caso, é a temperatura
de operação da máquina de lavar.
Níveis do fator: Os níveis do fator são
as diferentes faixas de temperatura da
secadora, podendo ser Baixo, Médio e Alto,
por exemplo.
Tratamento: Como estamos trabalhando
com um único fator, os níveis do fator
são o próprio tratamento, logo, T1=baixo,
T2=médio e T3 = Alto.
Ensaio: Um ensaio seria secar uma trouxa
de roupa utilizando temperatura baixa, por
exemplo. Outro ensaio seria secar outra
trouxa de roupa utilizando temperatura alta.
Variável resposta: A variável resposta
desse estudo é o tempo para secagem das
roupas, que pode ser medido em minutos,
por exemplo.
b) Para este estudo, uma réplica seria secar
umas três trouxas de roupa, sendo uma
para cada nível de temperatura da secadora,
ou seja, um ensaio para cada um dos
tratamentos existentes.
c) A temperatura ambiente poderia ser um fator,
de maneira que, caso realizássemos todos
os ensaios com tratamento 1 (temperatura
baixa) no período manhã (normalmente mais
frio) e todos os ensaios com tratamento
3 (temperatura alta) no período da tarde
(normalmente mais quente), por exemplo,
no final não saberíamos dizer quanto da
diferença no tempo de secagem é devido
aos diferentes níveis de temperatura da
máquina, e quanto é devido à variação
da temperatura ambiente. Aleatorizando
a ordem de realização dos ensaios
atenuaríamos esse problema.
d) Diferentes tipos de roupa poderiam ser um
problema, uma vez que roupas com malhas
mais grossas levam um tempo maior para
secar do que outras. Devem-se agrupar as
unidade 6113
ESTATÍSTICA E PROBABILIDADES
roupas por características semelhantes de fabricação, como leveza do pano, tamanho das peças.
A quantidade das mesmas também deve ser controlada para que cada ensaio seja feito de forma
mais homogênea possível. Por exemplo, se tiver disponível três peças de moletom, deve-se alocar
uma a cada trouxa de roupas, ou se tiver seis peças jeans, deve-se alocar duas para cada trouxa
de roupas.
REVISÃO
Nesta unidade você aprendeu que, para calcular o tamanho amostral, diversos fatores devem
ser levados em consideração. Em especial você aprendeu a calcular o tamanho amostral em
quatro situações: quando o objetivo do estudo é a estimativa de uma proporção populacional,
sendo o tamanho populacional finito ou “infinito”. E quando o objetivo do estudo é a estimativa
de uma média populacional, novamente, sendo o tamanho populacional finito ou “infinito”. O
quadro abaixo resume essas situações:
QUADRO 4 - Equações para cálculo de tamanho amostral segundo objetivos do estudo
Estimar uma proporção populacional Estimar uma média populacional
População Infinita: Equação 1
n = Za/2 pq
População Infinita: Equação 3
n = { Za/2Ợ }2
População Finita: Equação 2
n = Nqp (Za/2)2
População Finita: Equação 2
n = Nσ2 (Za/2)2
ˆˆ
ˆˆ
ˆˆ
E2 E
pq (Za/2)2 + (N - 1) E2 (N - 1) E2 + σ2(Za/2)2
Fonte: Elaborado pelo autor.
Você aprendeu também que em qualquer área do conhecimento a coleta de dados deve ser
sempre precedida pelo planejamento do experimento. Essa prática assegura a confiabilidade
dos resultados e simplifica os métodos de análise. Por outro lado, a não observância dessa
prática inviabiliza a utilização dos resultados a despeito de qualquer técnica estatística, por
mais sofisticada que seja.
Neste sentido, os princípios básicos que você aprendeu foram: réplica, aleatorização e
unidade 6114
ESTATÍSTICA E PROBABILIDADES
blocagem. E também os seis termos básicos
utilizados em qualquer planejamento
de experimentos, a saber: Unidade
Experimental, Fatores, Níveis de um fator,
Tratamento, Ensaio e Variável Resposta.
PARA SABER MAIS
Se você tem interesse em aprender mais
sobre o cálculo do tamanho de amostra para
estimação de médias ou proporções, levando em
consideração o nível de confiança e margem de
erro da estimativa, leia o capítulo 8 do livro:
MONTGMOMERY, Douglas C. George C. Runger.
Estatística aplicada e probabilidade para
engenheiros. trad e rev téc Verônica Calado - Rio
de Janeiro: LTC, 2009.
Para este assunto você pode ler também o
capítulo 7 do livro:
TRIOLLA, Mario F. Introdução à Estatística:
Atualização da tecnologia. trad e rev téc Ana
Maria Lima de Farias, Vera Regina Lima de Farias
e Flores. Rio de Janeiro: LTC, 2013.
Se você tem interesse em aprofundar sobre
Planejamento de Experimentos, leia o capítulo
13 do livro:
MONTGMOMERY, Douglas C. George C. Runger.
Estatística aplicada e probabilidade para
engenheiros. trad e rev téc Verônica Calado. Rio
de Janeiro: LTC, 2009.
Ou você pode ler o capítulo 1 do livro:
WERKEMA, Maria Cristina Catarino; AGUIAR,
Silvio. Planejamento e análise de experimentos:
Como Identificar as principais variáveis
influentes em um processo. Belo Horizonte:
Fundação Cristiano Ottoni, Escola de Engenharia
da UFMG, 1996.
unidade 7116
TESTES DE HIPÓTESES
O teste de hipóteses é uma técnica estatística utilizada para avaliar alguma
afirmação feita sobre uma população de interesse através de dados amostrais.
Por exemplo: um engenheiro pode estar interessado em avaliar a hipótese de que
o tempo de duração de um fusível seja de 1.000 horas, contra a hipótese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmação sobre uma média, uma vez que a
variável de interesse – tempo de duração – é quantitativa. Nesse caso, o objetivo é testar
se a hipotética média de 1.000 horas é verdadeira.
No exemplo em questão, seria impraticável observar o tempo de duração de todos os fusíveis
fabricados, ou seja, da população de interesse. De forma que é necessária a utilização de
dados amostrais. O engenheiro poderia selecionar alguns fusíveis, calcular o valor da média e
comparar com o valor proposto de 1.000 horas.
Você irá aprender que, além de avaliar afirmações sobre médias, as hipóteses estatísticas
também podem ser testadas para outros parâmetros de interesse, como proporções (em caso
de variáveis categóricas), desvio-padrão, medianas, etc.
unidade 7117
ESTATÍSTICA E PROBABILIDADES
A CONSTRUÇÃO E O SIGNIFICADO DE UMA HIPÓTESE ESTATÍSTICAUma hipótese estatística pode ser
construída a partir de alguma teoria sobre
determinado assunto, ou através de
alguma afirmação sobre certo parâmetro
da população em análise. No caso do
engenheiro interessado em testar se o
tempo médio de duração de um fusível é
1.000 horas, a hipótese não se deu através
de uma teoria, mas possivelmente em
função da experiência dele com o assunto.
Um teste estatístico tem como objetivo o
fornecimento de evidências para subsidiar a
decisão de rejeitar ou não rejeitar uma hipótese
sobre algum parâmetro de uma população
através de dados obtidos por uma amostra.
A afirmação sobre a média populacional
é tida como a hipótese nula. Damos o
nome de hipótese alternativa à afirmação
contrária à da hipótese nula.
CONCEITO CONCEITOHipótese nula: Refere-se a uma afirmação do
que queremos provar sobre algum parâmetro.
Geralmente representada por H0.
Hipótese alternativa: Refere-se a uma afirmação
contrária ao que queremos provar. Geralmente
representada por H1 ou Ha.
Exemplo 7.1
Um fabricante afirma que o tempo médio
de secagem da tinta de sua marca é de 30
minutos. Uma pessoa decide testar se essa
afirmação é verdadeira. Para isso, marca o
tempo de secagem de 40 paredes e depois
calcula a média. Quais seriam as hipóteses
nula e alternativa?
SOLUÇÃO:
A hipótese nula é o tempo de secagem, igual
a 30 minutos.
A hipótese alternativa é o contrário (ou
o complemento): o tempo de secagem é
diferente de 30 minutos. As hipóteses são
representadas da seguinte forma:
H0: μ = 30 minutos
H1: μ ≠ 30 minutos
Além da definição acerca das hipóteses,
o nível de significância também deve ser
escolhido pelo analista.
Nível de significância: Consiste na probabilidade
de rejeitar a hipótese nula, dado que ela é
verdadeira. Geralmente é representado pela letra
grega alfa (α). O nível de significância também é
conhecido como erro tipo I.
unidade 7118
ESTATÍSTICA E PROBABILIDADES
Qual seria o significado da expressão “...
rejeitar a hipótese nula, dado que ela é
verdadeira”? Assim como no exemplo do
tempo de duração do fusível, em que o
analista resolve testar se a afirmação de
que o fusível sobrevive por 1.000 horas,
a operacionalização do teste ocorre a
partir de dados amostrais. Nesse caso,
pode ser obtida uma amostra muito ou
pouco parecida com a população. Tanto
no primeiro como no segundo caso
existem probabilidades associadas.
Existem chances de coletar uma amostra
que dê evidências de que a hipótese seja
rejeitada, mesmo quando, na verdade,
a hipótese seja verdadeira. O analista
sempre corre o risco de tomar uma
decisão equivocada no que se refere à
rejeição ou não da hipótese nula, cabendo
a ele escolher quanto risco aceita correr.
Esse risco é conhecido como nível de
significância e geralmente é estipulado
em 10%, 5% ou 1%. Dessa forma, ao
efetuar um teste de hipóteses com 5% de
significância, podemos afirmar que exista
5% de probabilidade de rejeitar a hipótese
nula, quando na verdade ela é verdadeira,
ou seja, 5% de chance de cometer o erro
tipo I.
Os testes de hipótese com afirmações
sobre médias ou proporções podem ser
feitos principalmente com uma ou duas
amostras. No primeiro caso é testada
uma afirmação sobre o valor que a
variável assume. No segundo caso são
comparados os valores de média ou
proporção entre dois grupos. Além disso,
podemos fazer testes unilaterais ou
bilaterais. O próximo tópico aborda o teste
bilateral com uma amostra.
TESTES PARA UMA AMOSTRA
A distribuição da estatística de teste
tende para o formato de uma distribuição
normal quando o tamanho da amostra é
relativamente grande (geralmente maior
ou igual a 30). Se o tamanho da amostra
for pequeno (menor do que 30) e o desvio-
padrão for desconhecido, a distribuição da
estatística de teste apresenta formato mais
próximo da distribuição t de Student. Essa
informação é importante porque definirá até
que valor da estatística de teste a hipótese
deve ser rejeitada.
TESTES DE GRANDES AMOSTRAS PARA UMA MÉDIA POPULACIONAL
O exemplo a seguir consiste numa situação
em que é feita uma afirmação acerca
do valor de uma média (parâmetro mais
testado quando trabalhamos com variáveis
quantitativas).
unidade 7119
ESTATÍSTICA E PROBABILIDADES
Exemplo 7.2
Uma indústria realiza o empacotamento
do produto café em grãos. Um dos
objetivos é que a embalagem contenha
500 gramas de café. É natural que em
situações como essa exista alguma
variação no peso do produto empacotado.
Dessa forma, podem ter pacotes com
498 gramas, com 502 gramas, com 501
gramas, com 499 gramas, ou qualquer
outro valor próximo do especificado.
No entanto, a indústria geralmente
trabalha para que exista certa margem
de aceitação tanto para cima quanto para
baixo, devido aos seguintes fatores:
a) pacotes com volume muito
alto podem provocar aumento
exagerado de custos;
b) pacotes com peso muito abaixo
dos 500 gramas podem provocar
sanções à indústria junto aos
órgãos de fiscalização.
Para certificar de que o peso esteja
dentro da margem aceitável, pode ser
inviável verificar todos os produtos
embalados (ou seja, toda a população
de interesse). Nesse contexto, torna-se
interessante utilizar amostras para testar
se o processo encontra-se dentro de
padrões aceitáveis, ou seja, para testar se
o processo encontra-se sobre controle.
Suponha que um profissional especializado
em controle estatístico de processos resolva
fazer esse teste. Nesse caso, o objetivo é
testar a hipótese de que o processo esteja
sob controle, ou seja, que o peso médio
do café após empacotamento seja de 500
gramas. Para a operacionalização do teste,
36 pacotes foram inspecionados (pesados).
Sabendo que a média obtida através dessa
amostra foi de 502 gramas, e que o desvio-
padrão foi de 3 gramas, podemos afirmar
que o processo está sob controle?
Para operacionalizar esse teste, devemos
seguir as seguintes etapas:
1ª etapa: Estabeleça as hipóteses de
interesse
No caso em estudo, o parâmetro2 a ser
testado é a média. Temos o interesse em
verificar se ela é igual a 500 gramas. Então
devemos estabelecer as hipóteses nula e
alternativa. Dessa forma, as hipóteses são:
H0: μ = 500 gramas
H1: μ ≠ 500 gramas
2 - Um parâmetro refere-se à determinada medida que caracterize a população de interesse. Os parâmetros mais frequentemente investigados através dos testes de hipóteses são: a média, o desvio-padrão, no caso de variáveis quantitativas e a proporção, no caso de variáveis categóricas.)
unidade 7120
ESTATÍSTICA E PROBABILIDADES
Note que o teste refere-se à média
populacional e não amostral. A média
amostral será utilizada como base para
tomar a decisão sobre rejeição ou não
rejeição da hipótese nula.
2ª etapa: Obtenção da estatística de teste
O valor médio obtido pela amostra foi: =
502 gramas. Será que esse valor foi obtido
em função da variabilidade amostral3 , ou
seja, o valor obtido de 502 gramas é próximo
do valor proposto de μ = 500 gramas? Para
respondermos a essa questão devemos
verificar qual a probabilidade de obter o
valor 502 gramas, levando em consideração
a distribuição das médias amostrais,
ou seja, a possibilidade de obtenção de
resultados diferentes de amostra para
amostra. Para isso, utilizamos a distribuição
normal padronizada quando o valor de σ é
conhecido ou quando o tamanho da amostra
é razoavelmente grande (geralmente igual
ou acima de 30). Quando a amostra é
pequena (geralmente menor do que 30) e o
desvio-padrão é desconhecido, utilizamos
a distribuição t para avaliar a probabilidade
em questão. Como no presente exemplo
temos uma amostra de tamanho igual a
36, podemos trabalhar com a distribuição
normal padronizada. Nomeamos o valor
obtido da estatística de teste, que é
calculada de acordo com a fórmula abaixo:
Z = - μ
Essa fórmula permite que a média
amostral obtida passe de qualquer escala
(em gramas, no presente exemplo) para
número de desvio-padrão. Isso possibilita
traçar comparações com os valores de
probabilidade da distribuição normal
padronizada (em que a unidade de medida
é a quantidade de desvio-padrão). Sem
esse procedimento, essa comparação seria
pouco viável. A fórmula é composta dos
seguintes itens:
Z: Escore da distribuição normal
padronizada
: Média obtida através da amostra
μ: Valor da média populacional a ser testada
σx: Valor do desvio-padrão da distribuição
das médias amostrais.
σx = σ
Caso não se conheça o desvio-padrão
populacional σ (situação muito comum),
podemos utilizar o desvio-padrão obtido
através da amostra:
sx = σ
3 - A variabilidade amostral ocorre porque existem chances de tomarmos tanto amostras parecidas com a população de interesse quanto amostras pouco semelhantes à população. Qualquer processo de amostragem sujeita-se a essa situação. Cabe ao pesquisador levar esse fato em consideração ao construir um teste de hipóteses
σx
√n
√n
unidade 7121
ESTATÍSTICA E PROBABILIDADES
Dessa forma, a estatística de teste passa a ser:
Z = - μ
Com os dados do problema, temos então:
Z = 502 - 500 = 4,0
O número obtido significa que 502 gramas encontram-se a 4,0 desvios-padrão de distância da
média populacional de 500 gramas. Mas esse valor é perto ou longe da média populacional?
• Quando Z = 0, pode-se afirmar que a média amostral é exatamente igual ao valor
hipotético da média populacional.
• Quando Z = 1, a probabilidade do valor da média amostral ter sido obtido devido à
flutuação amostral é de aproximadamente 34%, pois 68% dos dados encontram-se a
até um desvio-padrão de distância da média, conforme a figura 8.1
s/√n
s/√36
FIGURA 8.1: Área da distribuição normal padronizada de acordo com o número de desvios-padrão.
Fonte: TRIOLA, 2013, p. 88.
unidade 7122
ESTATÍSTICA E PROBABILIDADES
• Quando Z = 2, a probabilidade do valor da média amostral ter sido obtido devido à
flutuação amostral é de aproximadamente 5%, pois 95% dos dados encontram-se a
até um desvio-padrão de distância da média4.
• Quando Z = 3, a probabilidade do valor da média amostral ter sido obtido devido à
flutuação amostral é de aproximadamente 0,2%, pois 99,8% dos dados encontram-se
a até um desvio-padrão de distância da média.
Utilizando o mesmo raciocínio, com o valor de Z = 4,0, depreende-se que a probabilidade do
valor da média amostral ter sido obtida devido à flutuação amostral seja bem menor que 0,2%.
Dessa forma, o valor de Z = 4 significa que os 502 gramas obtidos pela amostra apresentam
uma grande distância dos 500 gramas propostos na hipótese nula (a distância de 2 gramas
corresponde a 4 desvios-padrão). O fato dos valores serem tidos como distantes implica
na rejeição da hipótese nula. Para definir quais valores do escore Z são considerados altos,
utiliza-se o desenho da distribuição normal padronizada, conforme o 3º passo.
Os valores acima podem ser obtidos através de um software estatístico, ou pela tabela Z.
3ª etapa: Obtenção da região de rejeição
Para tomar a decisão de rejeitar ou não a hipótese nula, podemos utilizar o diagrama da figura 8.2:
4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.
FIGURA 8.2 - Regiões de rejeição da hipótese nula
Fonte: Elaborado pelo autor.
unidade 7123
ESTATÍSTICA E PROBABILIDADES
A figura 8.2 representa a distribuição normal
padronizada. A área em vermelho refere-
se à região de rejeição da hipótese nula.
Valores menores que - 1,96 desvios-padrão
ou maiores que + 1,96 desvios-padrão são
considerados demasiadamente afastados
quando consideramos uma significância de
5% para o teste bilateral (ou seja, podemos
considerar que tais valores sejam pontos de
corte). Dessa forma, cada uma das áreas
em vermelho representa 2,5% dos dados. A
área total abaixo dos dados (soma da área
verde com a área vermelha) representa
100% dos dados.
Quando o valor da estatística de teste
encontra-se na região em vermelho,
consideramos pouco provável que a média
amostral (ou outra estatística) tenha sido
resultado das flutuações amostrais. Os
valores críticos (- 1,96 e 1,96) foram obtidos
pelo percentil 97,5 da tabela da distribuição
normal padronizada. Podem ser calculados
também através de softwares estatísticos.
A figura 8.3 indica de onde os dados foram
obtidos.
Devemos procurar na tabela o valor do nível
de significância dividido por 2, ou seja α⁄2,
pois o teste é bilateral, o que implica em
duas regiões de rejeição (as caudas direita
e esquerda da distribuição, conforme a
figura 8.3). Observe que a combinação da
linha com a coluna gera o valor do escore
Z = 1,96. O número 1,96 foi obtido através
da combinação da coluna e linha formados
pelo valor 0,0250 referente à área da cauda
direita (ou esquerda) da distribuição normal
padronizada.
unidade 7124
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.3 - Distribuição normal padrão
Fonte: BARBETTA, 2010, p. 377
unidade 7125
ESTATÍSTICA E PROBABILIDADES
4ª etapa: Conclusão
Com base nos valores obtidos pela estatística
de teste e pela região de rejeição, tomamos
uma decisão em relação à hipótese nula.
No caso em questão, a decisão é rejeitá-la,
pois o valor 4 desvios-padrão (relativo aos 2
gramas de distância entre a média amostral
e a média populacional proposta na hipótese
nula) pode ser considerado muito longe da
média, uma vez que se encontra na parte
vermelha do diagrama. A estatística de teste
no valor de 4,00 é maior do que o valor crítico
de + 1,96 (número obtido na tabela da Figura
8.3, que serve de referência para rejeição ou
não rejeição da hipótese nula).
Exemplo 7.3
Um processo foi delineado para fabricar
bancadas de tamanho igual a 120
centímetros. Para verificar se o processo
encontra-se sob controle, um especialista
coletou uma amostra de 64 peças. Foi
obtida uma média amostral = 120,2
centímetros, com desvio-padrão s = 1,6
centímetros. Teste a hipótese de que o
processo encontra-se sob controle, ou seja,
que a média populacional μ seja igual a 120
centímetros. Use significância de 10%.
1ª etapa: Estabeleça as hipóteses de
interesse
H0: μ = 120 centímetros
H1: μ ≠ 120 centímetros
2ª etapa: Obtenção da estatística de teste
Z = - μ
s/√n
1,6/√64
Com os dados do problema, temos então:
Z = 120,2 - 120,0
3ª etapa: Obtenção da região de rejeição
unidade 7126
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.4 - Regiões de rejeição da hipótese nula.
Fonte: Elaborado pelo autor.
O valor crítico de 1,645 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuição normal padrão da
figura 8.4.
5 - O valor 0,10 refere-se aos 10% escolhidos como nível de significância pelo pesquisador. Tal valor consiste na probabilidade de rejeitar a hipótese nula, dado que ela é verdadeira, ou seja, probabilidade de tomar uma decisão equivocada em relação à hipótese.
unidade 7127
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.5 - Distribuição normal padrão
Fonte: BARBETTA, 2010, p. 377
unidade 7128
ESTATÍSTICA E PROBABILIDADES
4ª etapa: Conclusão
Como o valor de Z = 1,00 obtido pela
estatística de teste não supera a valor
crítico de 1,645, ou seja, não pertence à
região crítica, não rejeitamos a hipótese
nula. Não podemos descartar a hipótese de
que a média seja 120 centímetros. Portanto,
há indícios de que o processo encontra-se
sob controle.
TESTES DE HIPÓTESES PARA AMOSTRAS PEQUENAS
Nos exemplos 7.2 e 7.3 as amostras têm
tamanho maior que 30. Quando a amostra
for pequena (menor do que 30) e o desvio-
padrão for desconhecido (situação mais
frequente), devemos utilizar a Distribuição t
de Student para realizar o teste.
O exemplo 7.4 consiste num problema de
teste de média em que a amostra é pequena
e o desvio-padrão (σ) é desconhecido.
Exemplo 7.4
Um engenheiro acredita que um processo
esteja sob controle produzindo esferas com
10 milímetros de diâmetro. Foi coletada
uma amostra com 16 esferas cujo o valor
obtido para a média foi X ∩ = 10,2 milímetros
e desvio-padrão s = 0,20 milímetros. Teste
a hipótese de que a média seja igual a 10
milímetros. Use significância de 5%.
1ª etapa: Estabeleça as hipóteses de
interesse
H0: μ = 10 milímetros
H1: μ ≠ 10 milímetros
2ª etapa: Obtenção da estatística de teste
Nesse caso, devemos utilizar o escore t no
lugar do Z:
Com os dados do problema, temos então:
t = - μ = 10,2 - 10,0
3ª etapa: Obtenção da região de rejeição
Nesse caso, devemos trabalhar com a
distribuição t:
s/√n 0,2/√16
unidade 7129
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.6 - Distribuição t de Student
Fonte: Elaborado pelo autor.
Para saber o valor crítico, devemos consultar a tabela t. Como a amostra conta com 16
elementos, temos 15 graus de liberdade. Como o nível de significância é igual a 5%, devemos
procurar o escore t na coluna do 0,05 (área em duas caudas, pois o teste é bilateral)
unidade 7130
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.7 - Tabela da Distribuição t
Fonte: TRIOLA, 2013, p. 614.
4ª etapa: Conclusão
Como o valor 0,4 obtido pela estatística de teste não supera a valor crítico 2,13, obtido pela
distribuição t, não rejeitamos a hipótese de que a média seja de 10 milímetros. Portanto, o
processo encontra-se sob controle.
unidade 7131
ESTATÍSTICA E PROBABILIDADES
TESTE PARA UMA PROPORÇÃO
Quando trabalhamos com variáveis
quantitativas, o principal parâmetro de
interesse costuma ser a média. Além da
média, outros parâmetros também podem
ser testados, como, por exemplo, o desvio-
padrão. No caso de variáveis categóricas,
geralmente a medida de interesse a ser
testada é uma proporção.
No teste de hipóteses, o valor do erro padrão
da proporção geralmente está baseado no
uso do valor hipotético:
Sp = √π (1 -π)n
A fórmula para o cálculo de Z para testar
uma hipótese voltada para o valor da
proporção da população é:
SpZ = p - π
O exemplo 7.5 consiste num teste de
proporção.
Exemplo 7.5
Um engenheiro acredita que 30% dos
trabalhadores de uma determinada
firma ficam estressados quando fazem
horas extras durante a madrugada.
Foi coletada uma amostra com 49
trabalhadores, dos quais 12 afirmaram
se estressar nessa situação. Teste a
hipótese de que a proporção seja de
30%. Use significância de 5%.
1ª etapa: Estabeleça as hipóteses de
interesse
H0: π = 0,30
H1: π ≠ 0,30
Observação 1: Enquanto a média é
representada pela letra μ, a proporção é
representada pela letra grega π (pi).
Observação 2: Para representarmos os
30% propostos na hipótese nula, utilizamos
a escala decimal. Dessa forma, o valor
utilizado nos cálculos é 0,30 (ou seja, 30
dividido por 100).
2ª etapa: Obtenção da estatística de teste
Antes de obtermos o escore padronizado
Z, devemos calcular o desvio-padrão da
proporção populacional, dado pela fórmula
a seguir:
unidade 7132
ESTATÍSTICA E PROBABILIDADES
Sp = √π (1 -π) = √0,30 (1 - 0,30) = √0,21= √0,00428 = 0,0655n
n 0,0655
49
49
49
O escore padronizado então é:
Z = p - π
= 0,2653 - 0,3000
= - 0,0347
= -,053
3ª etapa: Obtenção da região de rejeição
Como o teste é bilateral e com 5% de significância, obtemos através da tabela Z o valor crítico
igual a - 1,96.
FIGURA 8.8 - Distribuição normal padronizada
Fonte: Elaborado pelo autor.
4ª etapa: Conclusão
O valor - 0,53, obtido pela estatística de teste, encontra-se fora da região de rejeição, sendo
próximo de zero e longe do valor crítico de -1,96. Dessa forma, não rejeitamos a hipótese
nula. Portanto, não há indícios de que a proporção de trabalhadores estressados na empresa
estudada seja diferente de 30%.
No próximo tópico você verá situações em que o pesquisador tem como interesse comparar
os valores dos parâmetros de duas amostras.
unidade 7133
ESTATÍSTICA E PROBABILIDADES
TESTES PARA DUAS OU MAIS AMOSTRAS
Nos tópicos anteriores aprendemos a
delinear testes de hipóteses bilaterais
em que uma afirmação numérica é feita
sobre uma média ou uma proporção para
uma amostra. Em algumas situações o
pesquisador tem interesse em comparar
tais valores em dois grupos. Nesse caso,
podemos afirmar que temos um teste
de hipótese para a comparação de duas
médias ou de duas proporções.
TESTE PARA A COMPARAÇÃO DE DUAS MÉDIAS EM AMOSTRAS INDEPENDENTES
Em várias situações devemos decidir se
uma diferença observada entre as médias
de dois grupos pode ser atribuída ao acaso
ou se há indícios de que os valores obtidos
de fato provêm de populações com médias
diferentes. Quando desejamos comparar
as médias obtidas por duas amostras
independentes, utilizamos a seguinte
estatística de teste:
Z = 1 - 2
√s21 + s2
2n1 n2
O numerador apresenta as médias das
duas amostras, enquanto o denominador
consiste na raiz da soma dos desvios-
padrão divididos pelos respectivos
tamanhos de amostras. No exemplo 7.6 é
feito um teste em que são comparadas as
médias de duas amostras.
Exemplo 7.6
Um engenheiro resolveu comparar o tempo
de secagem de duas marcas diferentes de
tintas para determinado tipo de parede.
Para a marca A foram verificados os tempos
de secagem de 50 paredes. O tempo médio
obtido foi A = 80 minutos, com desvio-
padrão s1 = 6 minutos. Para a marca B,
foram verificadas 40 paredes, com tempo
médio B = 88 minutos e desvio-padrão
s2 = 10 minutos. Teste a hipótese de que
não existe diferença entre as médias. Use
significância 1%.
1ª Etapa: Estabeleça as hipóteses de
interesse
H0: μA = μB
H1: μA ≠ μB
2ª Etapa: Obtenção da estatística de teste
Aplicando a fórmula, temos:
unidade 7134
ESTATÍSTICA E PROBABILIDADES
√62 +102 √36 +100 √0,72 + 2,5 √3,22 1,794450 50
Z = 1 - 2
= 80 - 88
= - 8
= - 8
= -8
= -8
= -4,46√s21 + s2
2n1 n2 40 40
3º Etapa: Obtenção da região de rejeição.
FIGURA 8.9 - Regiões de rejeição da hipótese nula.
O valor crítico de 2,33 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,005 (0,010 dividido por 2) da tabela da distribuição normal padrão.
4ª Etapa: Conclusão
Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33, obtido pela tabela da
distribuição normal padronizada, rejeitamos a hipótese nula. Não há indícios de que o tempo
médio de secagem das tintas seja diferente.
TESTE PARA A COMPARAÇÃO DE DUAS PROPORÇÕES
Quando se deseja testar a hipótese de que as proporções em duas populações são iguais, o
procedimento é análogo ao teste para a comparação de médias. A fórmula é a seguinte:
Fonte: Elaborado pelo autor.
unidade 7135
ESTATÍSTICA E PROBABILIDADES
Z = p1
- p2
√p (1 - p) + p (1 - p) n1 n2
Onde p = x1 e p2 = x2 (proporções amostrais)
p = x1 + x2 (proporção amostral combinada)
Exemplo 7.7
Um especialista acredita que a proporção de trabalhadores com estresse ocupacional no
turno da manhã seja estatisticamente diferente do turno da tarde. Uma amostra de 100
trabalhadores foi estudada, sendo 50 pela manhã e 50 a tarde. No turno da manhã contou-se
10 trabalhadores nessa situação. No turno da tarde contou-se 15. Teste a hipótese de que as
proporções sejam diferentes nos respectivos turnos. Nível de significância: 5%.
1ª Etapa: Estabeleça as hipóteses de interesse
H0: p1 = p2
H1: p1 ≠ p2
2ª Etapa: Obtenção da estatística de teste
Aplicando a fórmula, temos:
p = x1 + x2 = 10 + 15 = 25 = 0,25
p1 = 10 = 0,20
p2 = 15 = 0,30
ˆ ˆ
n1
n1 + n2
n1 + n2 50 + 50
50
50
100
n2
ˆ
ˆ
ˆ
Z = p1
- p2
= √p (1 - p) + p (1 - p) n1 n2
ˆ ˆ
0,20 - 0,30 =
- 0,10
= - 0,10
= - 0,10
= -1,15
√0,25 (1 - 0,25) + 0,25 (1 - 0,25)
√0,25 (0,75) + 0,25 (0,75) √0,00750,0866
50
50
50
50
unidade 7136
ESTATÍSTICA E PROBABILIDADES
3º Etapa: Obtenção da região de rejeição.
FIGURA 8.10 - Regiões de rejeição da hipótese nula.
Fonte: Elaborado pelo autor.
O valor crítico de 1,96 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,025 (0,050 dividido por 2) da tabela da distribuição normal padrão.
4ª Etapa: Conclusão
O Z calculado de - 1,15 encontra-se fora da região crítica. Não rejeitamos a hipótese nula.
Portanto, não há diferença na proporção de trabalhadores com estresse entre os turnos da
manhã e tarde.
APLICAÇÃO PRÁTICA
Os testes de hipótese são extremamente úteis na engenharia, principalmente no delineamento
de experimentos. Em várias situações busca-se a otimização de processos. Espera-se que os
insumos sejam combinados da melhor maneira possível, de forma a obter produtos de qualidade
ao menor custo possível. Nesse contexto, diversos fatores podem determinar o sucesso de um
processo de produção de produtos ou serviços.
Num processo produtivo em que determinada mercadoria é embalada de forma manual por um
trabalhador, diversos fatores (ou seja, diversas variáveis) exercem influência sobre o desempenho
unidade 7137
ESTATÍSTICA E PROBABILIDADES
desse trabalhador, como, por exemplo, a
iluminação, a temperatura, o número de horas
trabalhadas, e talvez até a altura de uma
bancada. Dessa forma, a execução de um
experimento com diversas combinações de
valores que as variáveis possam assumir pode
ser útil para a otimização do processo. Por
exemplo: o desempenho dos trabalhadores é
melhor quando a temperatura de um galpão é
de 22 graus celsius, de 23 ou de 24? Como um
experimento desse tipo depende da utilização
de amostras, torna-se fundamental o uso
de testes de hipóteses para obtenção de
conclusões acerca do processo.
REVISÃO
Nessa unidade aprendemos os
fundamentos dos testes de hipóteses. O
principal objetivo deles é contrapor uma
hipótese de interesse, conhecida como
hipótese nula, a uma hipótese contrária,
conhecida como hipótese alternativa,
em relação a um parâmetro de interesse
(geralmente a média, no caso de variáveis
quantitativas e a proporção, no caso de
variáveis categóricas).
As hipóteses podem ser unilaterais ou
bilaterais. No primeiro caso, a hipótese
nula de igualdade contrapõe-se à hipótese
alternativa, em que o sinal é de menor
ou maior. No caso dos testes bilaterais,
na hipótese alternativa temos o sinal
de diferente. Todos os exemplos dessa
unidade focaram em testes bilaterais.
Para definir o tipo de teste a ser utilizado,
levamos em consideração o tamanho
da amostra e o conhecimento ou não do
desvio-padrão populacional. Quando
desconhecemos o desvio-padrão e a
amostra tem tamanho inferior a 30,
utilizamos o teste t. No caso de conhecer o
desvio-padrão populacional ou a amostra
igual ou superior a 30, utilizamos o teste
Z. O nome do teste ocorre em função
da distribuição da estatística de teste,
que é construída através do conjunto de
possíveis amostras, o que é conhecido
como distribuição amostral.
Os testes podem ser utilizados para
verificar uma afirmação sobre uma
amostra, sobre duas amostras ou sobre
mais de duas amostras. Os dois primeiros
casos foram abordados nessa unidade.
A grande utilidade do teste de hipóteses
para o engenheiro ocorre no delineamento
de experimentos e no controle estatístico
de processos.
unidade 7138
ESTATÍSTICA E PROBABILIDADES
PARA SABER MAIS
LEVINE, David; BERENSON, Mark; STEPHAN,
David. Estatística: teoria e aplicações - usando
o Microsoft Excel em português. 6 ed. LTC, 2011,
812 p.
MOORE, David. A estatística básica e sua prática.
Rio de Janeiro: LTC, 2014.
TRIOLA, Mário. Introdução à Estatística:
Atualização da Tecnologia. 11 ed. LTC, 2013.
VitalBook file.
Para uma fundamentação matemática mais
aprofundada sobre o assunto, consulte a
seguinte obra:
MONTGOMERY, Douglas; RUNGER, George
Estatística aplicada e probabilidade para
engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.
unidade 8140
ANÁLISE DE CORRELAÇÃO E REGRESSÃO
Ao analisar um conjunto de dados, podemos ter interesse no relacionamento
entre duas variáveis quantitativas. Dessa forma, poderíamos traçar o seguinte
questionamento: um aumento no valor da variável X se relaciona a um aumento
na variável Y? Qual seria a magnitude dessa relação? As técnicas de análise de correlação
e análise de regressão podem ser utilizadas para estudos desse tipo.
A relação entre variáveis quantitativas pode ser modelada através de análise de correlação e
regressão. Com a evolução da informática nos últimos 20 anos, essas técnicas têm sido cada
vez mais utilizadas no ambiente empresarial.
Nesta unidade, você aprenderá a desenvolver cálculos para correlação e regressão tanto
passo a passo como através do software Microsoft Excel.
unidade 8141
ESTATÍSTICA E PROBABILIDADES
ANÁLISE DE CORRELAÇÃOQuando temos interesse em investigar o quanto duas variáveis quantitativas estão associadas,
podemos utilizar uma medida conhecida como coeficiente de correlação.
CONCEITO
CONCEITO
O coeficiente de correlação mede o grau de intensidade do relacionamento linear entre duas variáveis
quantitativas.
DIAGRAMA DE DISPERSÃO
Antes de calcular a correlação entre duas variáveis, é interessante representar os dados num
diagrama de dispersão.
Diagrama de dispersão: Consiste na representação gráfica de duas variáveis quantitativas no plano
cartesiano.
A figura 8.1 se refere a uma pesquisa com anúncios de vendas de 58 imóveis. As variáveis são:
ÁREA DO IMÓVEL (em metros quadrados) e VALOR DO IMÓVEL (em R$ mil).
unidade 8142
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.1 - Área do imóvel x valor do Imóvel
-
100
200
300
400
500
600
700
800
0 50 100 150 200 250 300
Valo
r do
imóv
el (R
$ m
il)
Área (em metros quadrados)
Fonte: Elaborado pelo autor
Através do gráfico de dispersão é possível visualizar graficamente alguns aspectos relativos
ao comportamento conjunto das variáveis, como: direção, forma e força da relação.
No que se refere à direção, a figura 8.1 apresenta indícios de que as variáveis (ÁREA e VALOR)
estejam positivamente relacionadas, ou seja, parece que a direção é ascendente. Há situações
em que as variáveis apresentam associação negativa6 como por exemplo o PREÇO e a
QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preço, menor a
quantidade demandada).
Em relação à forma, na figura 8.1 podemos observar que a relação entre as variáveis parece
ser linear. Observe a reta que resume a associação. Existem situações em que duas variáveis
se encontram associadas, porém de forma não linear, como na figura 8.2.
6 - Associação negativa: Duas variáveis apresentam associação negativa quando o crescimento de uma se associa à diminuição da outra, ou o contrário, a queda em uma se associa ao acréscimo da outra.
unidade 8143
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.2 - Relação não linear entre as variáveis X e Y
0
10
20
30
40
50
60
70
80
0 5 10 15 20
Y
X
Fonte: Elaborado pelo autor
Outro aspecto de grande importância ao observar o diagrama de dispersão é a força da
relação. Na figura 8.1, o VALOR DO IMÓVEL se relaciona à ÁREA, mas a intensidade da relação
não parece tão extrema.
A figura 8.3 mostra um diagrama de dispersão onde as variáveis apresentam ausência de
relação.
FIGURA 8.3: Ausência de relação entre as variáveis X e Y
10111112121313141415
0 5 10 15 20
Y
X
Fonte: Elaborado pelo autor
unidade 8144
ESTATÍSTICA E PROBABILIDADES
O grau de intensidade da relação linear entre duas variáveis quantitativas é dado pelo
coeficiente de correlação de Pearson.
COEFICIENTE DE CORRELAÇÃO DE PEARSON
O coeficiente de correlação linear de Pearson consiste na medida do grau de intensidade
da relação linear entre duas variáveis quantitativas, podendo assumir valores entre -1 e 1.
Podemos afirmar que duas variáveis estão positivamente correlacionadas se elas caminham
no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra também
aumenta. Nesse caso, quanto mais próxima de 1, maior a intensidade da associação entre
as variáveis. Quando as variáveis caminham em sentidos opostos, dizemos que elas
estão negativamente correlacionadas. Quanto mais próxima de -1, maior a intensidade da
associação, porém a relação é inversa.
É importante destacar que o fato de duas variáveis estarem associadas não significa,
necessariamente, que exista uma relação de causa e efeito. Por exemplo: geralmente crianças
mais novas apresentam menor peso, entretanto isso não significa que o envelhecimento
causa aumento de peso. É mais provável que a criança aumente o peso pelo fato de aumentar
a altura.
A análise de correlação tem objetivo exploratório servindo como elemento auxiliar na análise
da relação entre variáveis. Dessa forma, em muitas ocasiões o estudo da correlação é utilizado
como um recurso a mais na análise dos dados.
O coeficiente de correlação de Pearson é dado pela fórmula:
Cor ( X, Y ) = r = ∑ ( x - ) ( y - y )sxsy ( n - 1)
O numerador da fórmula se refere ao somatório do produto dos desvios da variável X e da
variável Y em relação às suas respectivas médias. No denominador, encontra-se o produto
dos desvios padrão de cada uma das duas variáveis multiplicado pelo tamanho da amostra
menos uma unidade.
unidade 8145
ESTATÍSTICA E PROBABILIDADES
Exemplo 8.1 (adaptado de HINES et al, 2006)
Um engenheiro químico está estudando o efeito da temperatura de operação do processo
sobre o resultado da produção. O estudo resultou nos seguintes dados:
X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89
Calcule o coeficiente de correlação entre as variáveis.
Solução:
Ao realizar uma análise de correlação, é interessante construir o diagrama de dispersão para
ter uma ideia sobre a associação entre as variáveis:
FIGURA 8.4 - Resultado do processo (em %) em função da temperatura (em °C)
0102030405060708090
100
0 50 100 150 200
Y -R
esul
tado
(%
)
X - Temperatura (º C)
Fonte: HINES et al (2006), pag.369
A figura 8.4 apresenta indícios de que as variáveis estão fortemente associadas. Para
confirmar essa suspeita, podemos calcular o coeficiente de correlação, conforme a tabela 8.1:
unidade 8146
ESTATÍSTICA E PROBABILIDADES
TABELA 8.1 - Dados para o cálculo do coeficiente de correlação entre temperatura (X) e resultado (Y)
X Y100 45 100 - 145 = -45 45 - 67,3 = -22,3 (-45) × (-22,3) = 1003,5110 51 110 - 145 = -35 51 - 67,3 = -16,3 (-35) × (-16,3) = 570,5120 54 120 - 145 = -25 54 - 67,3 = -13,3 (-25) × (-13,3) = 332,5130 61 130 - 145 = -15 61 - 67,3 = -06,3 (-15) × (-6,3) = 94,5140 66 140 - 145 = -05 66 - 67,3 = -01,3 (-5) × (-1,3) = 6,5150 70 150 - 145 = +05 70 - 67,3 = +02,7 (5) × (2,7) = 13,5160 74 160 - 145 = +15 74 - 67,3 = +06,7 (15) × (6,7) = 100,5170 78 170 - 145 = +25 78 - 67,3 = +10,7 (25) × (10,7) = 267,5180 85 180 - 145 = +35 85 - 67,3 = +17,7 (35) × (17,7) = 619,5190 89 190 - 145 = +45 89 - 67,3 = +21,7 (45) × (21,7) = 976,5
Média (X) = 145 Média (Y) = 67,3Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7 3985
(𝑥𝑥𝑖𝑖 − 𝑥𝑥 ) (𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) (𝑥𝑥𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 )
(𝑥𝑥𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) =𝑛𝑛
𝑖𝑖= 1
Fonte: Elaborado pelo autor
Cor ( X, Y ) = r = 3985 = 3985 = + 0,99( 30,3) (14,7) (10 -1) 4008,7
O valor + 0,99 obtido pelo coeficiente de correlação confirma que as variáveis estão fortemente
associadas, conforme indício dado pelo diagrama de dispersão (figura 8.4).
O exemplo 8.2 se refere a uma situação em que as variáveis apresentam correlação negativa.
Exemplo 8.2
O quadro abaixo representa o PREÇO (em R$) e a QUANTIDADE DEMANDADA de uma
determinada mercadoria.
Preço (X) 10 11 12 13 14 15 16 17 18 19Quantidade (Y) 200 171 168 165 170 147 120 130 105 124
Solução:
Antes de calcular o coeficiente de correlação, é interessante construir o diagrama de dispersão
para ter uma ideia da direção e da forma da associação entre as variáveis.
unidade 8147
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.5 - Quantidade x preço
100
120
140
160
180
200
220
8 10 12 14 16 18 20
Y -Q
uant
idad
e
X - Preço
Fonte: Elaborado pelo autor
TABELA 8.2 - Dados para o cálculo do coeficiente de correlação entre preço (X) e quantidade (Y)
Preço (X) Quantidade (Y)10 200 -4,5 50 -22511 171 -3,5 21 -73,512 168 -2,5 18 -4513 165 -1,5 15 -22,514 170 -0,5 20 -1015 147 0,5 -3 -1,516 120 1,5 -30 -4517 130 2,5 -20 -5018 105 3,5 -45 -157,519 124 4,5 -26 -117
Média (X) = 14,5 Média (Y) = 150Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6
-747
(𝑥𝑥𝑖𝑖 − �̅�𝑥) (𝑦𝑦𝑖𝑖 − 𝑦𝑦�) (𝑥𝑥𝑖𝑖 − �̅�𝑥)(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)
�(𝑥𝑥𝑖𝑖 − �̅�𝑥)(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) =𝑛𝑛
𝑖𝑖=1
Fonte: Elaborado pelo autor
Cor ( X, Y ) = r = -747 = -747 = - 0,93( 3,0) (29,6) (10 -1) 799,2
Portanto, as variáveis apresentam forte correlação negativa, conforme indício do diagrama de
dispersão.
Observações importantes sobre o coeficiente de correlação de Pearson:
Para o cálculo do coeficiente de correlação, temos:
unidade 8148
ESTATÍSTICA E PROBABILIDADES
• O valor da correlação independe da
unidade de medida dos dados. Por
exemplo, se tivermos interesse em
medir a correlação entre ALTURA
e PESO de um grupo de pessoas,
tanto faz a ALTURA entrar nos
cálculos em centímetros ou em
metros;
• A correlação não se aplica a mais
de duas variáveis;
• A correlação não faz distinção
sobre qual variável se projeta em
cada eixo do plano cartesiano.
Dessa forma, Cor (X,Y) = Cor (Y,X);
• As variáveis devem ser
quantitativas. O coeficiente de
correlação linear de Pearson não se
aplica a variáveis categóricas;
• A correlação mede o grau de
associação linear. Dessa forma,
se duas variáveis quantitativas se
relacionam de forma quadrática
ou exponencial, o coeficiente de
correlação linear não é indicado,
uma vez que matematicamente tem
a capacidade de captar relações
lineares.
USO DA TECNOLOGIA PARA O CÁLCULO DO COEFICIENTE DE CORRELAÇÃO
O cálculo do coeficiente de correlação no
Excel é dado pela função:
= CORREL (matriz1;matriz2)
Onde os parâmetros (matriz1 e matriz2)
se referem aos dados das duas variáveis.
Observe a figura 8.6.
unidade 8149
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.6 - Coeficiente de correlação no Excel
Fonte: Elaborado pelo autor
REGRESSÃO LINEAR SIMPLES
A regressão linear simples tem como objetivo estimar uma equação que relacione
matematicamente duas variáveis, sendo que uma delas é explicada pela outra. A variável
explicada geralmente é denominada variável resposta ou variável dependente. A variável
explicativa é denominada variável explanatória ou variável independente.
A análise de regressão múltipla tem por objetivo estimar uma equação que relacione
matematicamente uma variável resposta a duas ou mais variáveis explicativas.
A figura 8.7 reapresenta os dados relativos à figura 8.1 onde a variável resposta VALOR se
correlaciona à ÁREA DO IMÓVEL.
unidade 8150
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.7 - Valor do imóvel x área do imóvel
Fonte: Elaborado pelo autor
Observe que os pontos do diagrama não caem exatamente sobre a reta de regressão, mas a
reta é capaz de resumir o padrão geral de comportamento dos dados. Uma das técnicas mais
utilizadas para obtenção dessa reta é conhecida como método dos mínimos quadrados.
CONCEITOMétodo dos mínimos quadrados: É uma técnica estatística utilizada para resumir um conjunto de
variáveis quantitativas numa equação. Ela se baseia na minimização da distância quadrática de cada
ponto em relação à reta.
A equação que representa o modelo de regressão linear simples é:
Y1 = β0 + β1 X1 = ε1
unidade 8151
ESTATÍSTICA E PROBABILIDADES
Onde:
Yi = valor da variável dependente na i-ésima
tentativa, ou observação;
β0 = primeiro parâmetro da equação de
regressão, o qual indica o intercepto
no eixo Y, ou seja, o valor de Y quando
X = 0;
β1= segundo parâmetro da equação de
regressão, chamado coeficiente
angular, que indica a inclinação da reta
de regressão;
εi = o valor do erro, que significa a diferença
entre o valor verdadeiro e o valor
previsto pela equação de regressão (ε é
a letra grega épsilon). Após a estimação
da equação de regressão, o erro passa a
ser denominado resíduo.
Os parâmetros β0 e β1 no modelo de
regressão linear são estimados pelos
valores β0 e β1 que se baseiam nos dados
amostrais. O “chapéu” sobre as letras indica
que foi feita uma estimativa dos parâmetros
do modelo com base em dados obtidos
através de uma amostra.
Dessa forma, a equação de regressão linear
baseada nos dados da amostra que é usada
para estimar um simples valor da variável
dependente, onde o “chapéu” sobre o Y
indica que ele é um valor estimado, é:
Y = β0 + β1X^ ^ ^
A análise de regressão se distingue da
correlação por supor uma relação de
causalidade entre as variáveis resposta e
explanatória. A análise geralmente se baseia
numa referência teórica, que justifique uma
relação matemática de causalidade.
A estimativa dos parâmetros β0 e β1
do modelo se dá a partir das seguintes
fórmulas:
^ ^
β̂1 = ∑ XY - nXY∑ X2 - nX2
β1 = Y - β1X^
Exemplo 8.3
Um professor acredita que a NOTA na
prova de estatística esteja relacionada ao
número de HORAS DE ESTUDO dos alunos.
Para tentar convencer os estudantes dessa
relação, o professor resolve fazer a pesquisa
levantando dados de sete estudantes,
conforme o quadro abaixo.
unidade 8152
ESTATÍSTICA E PROBABILIDADES
QUADRO 8.1 -Dados para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X)
Horas de Nota naestudo (X) prova (Y)
1 20 722 15 623 35 874 26 775 30 906 24 837 18 68
Estudante
Fonte: Elaborado pelo autor
[a] Determine a equação da reta de regressão para os dados da tabela.
[b] Use a eq uação de regressão para estimar a nota de um estudante que tenha dedicado 20
horas de estudo para a prova.
Solução:
[a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalização dos
cálculos:
QUADRO 8.2 - Cálculos para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X)
Horas de Nota naestudo (X) prova (Y)
1 20 72 400 14402 15 62 225 9303 35 87 1225 30454 26 77 676 20025 30 90 900 27006 24 83 576 19927 18 68 324 1224
MÉDIA (X) = 24 MÉDIA(Y) = 77 ΣX2 = 4.326 ΣXY = 13.333
Estudante X2 X.Y
Fonte: Elaborado pelo autor
Na penúltima coluna foram obtidos os valores da variável X ao quadrado. Na última coluna os
valores de X foram multiplicados pelos valores de Y para cada estudante. Em seguida, foram
obtidas as médias de cada variável e, finalmente, o somatório das duas últimas colunas.
Colocando os dados obtidos nas fórmulas, temos:
unidade 8153
ESTATÍSTICA E PROBABILIDADES
β̂1 = ∑ XY - nXY∑ X2 - nX2
= 13.333 - 7 . 24. 77 = 13.333 -12.936 = 397 = 1,354.326 - 7.242 4.326 - 4.032 294
βo = 77 - (1,35) . (24) = 77 - 32,4 = 44,6^
^
^
A equação estimada foi:
Y = 44,6 + 1,35 . X
FIGURA 8.8 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)
Fonte: Elaborado pelo autor
Para calcular o valor estimado da nota (Y) com base no número de horas estudadas (X), basta
inserir o valor de X na equação. Considerando X = 20, temos:
Y = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6
Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha
aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8:
unidade 8154
ESTATÍSTICA E PROBABILIDADES
INTERPRETAÇÃO DO RESULTADO DA REGRESSÃO
Além de permitir a previsão de uma variável resposta em função de uma variável explanatória,
a análise de regressão também mede a variação de Y quando variamos X. A partir da equação
obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na
variável X (número de horas estudadas) aumenta, em média, 1,35 unidades na variável Y
(pontos na prova de estatística).
USO DA TECNOLOGIA PARA A ESTIMAÇÃO DA REGRESSÃO
Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais
utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.
No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel.
Exemplo 8.4
Estime a equação de regressão com os dados do exemplo 8.2 utilizando o Excel.
Solução:
DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK
FIGURA 8.9 - Comandos utilizados no Excel para análise de regressão
Fonte: Elaborado pelo autor
Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória (X – horas de
estudo) e resposta (Y – nota na prova), respectivamente. Em seguida, aperte OK.
unidade 8155
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.10 - Comandos utilizados no Excel para análise de regressão
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Após rodar a regressão, o Excel apresenta três quadros. O primeiro mostra, dentre outras
estatísticas, o valor do R-quadrado. No exemplo em questão, o valor observado é igual a 0,843.
Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da
variação em X.
TABELA 8.3 - Estatísticas para análise de regressão
A tabela 8.4 diz respeito ao teste de significância do modelo, conhecido como teste F, que
produziu uma estatística igual a 26,8, que implica num valor p próximo de zero. Dessa forma,
rejeitamos a hipótese de que o modelo não se ajusta bem aos dados. Portanto, o modelo é
estatisticamente significativo.
Estatística de regressãoR múltiplo 0,918 R-Quadrado 0,843 R-quadrado ajustado 0,811 Erro padrão 4,470 Observações 7
unidade 8156
ESTATÍSTICA E PROBABILIDADES
TABELA 8.4 - Resultados do teste de adequação do modelo de regressão simples (teste F)
ANOVAgl SQ MQ F Valor p
Regressão 1 536,085 536,085 26,8271 0,00353Resíduo 5 99,915 19,983Total 6 636
A outra saída se refere a valores p dos testes dos coeficientes β0 e β1.
As hipóteses para o intercepto são:
H0: β0 = 0
H0: β0 ≠ 0
As hipóteses para a variável explanatória são:
H0: β1 = 0
H0: β1 ≠ 0
Os valores p iguais a zero para o intercepto e para a variável X1 implicam na rejeição da
hipótese de que os valores sejam não significativos. Portanto os coeficientes ( β0 e β1 ) são
significativos com base no teste t para cada um separadamente.
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
TABELA 8.5 - Coeficientes da regressão e estatísticas de interesse
Coeficientes Erro padrão Stat t valor-PInterseção 44,59 6,48 6,88 0,00 Variável X 1 1,35 0,26 5,18 0,00
A equação estimada é:
Y = 44,6 +1,35 . X1
Dessa forma, o modelo se mostra útil tanto para analisar o impacto que a variável explanatória
exerce sobre a variável resposta, quanto para previsão.
ˆ
unidade 8157
ESTATÍSTICA E PROBABILIDADES
A interpretação do coeficiente da variável X1 é: o aumento de uma unidade na variável X (ou
seja, a cada hora a mais de estudo) consiste no aumento de 1,35 unidades na variável Y (1,35
pontos na prova de estatística)
Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equação é 85:
Y = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85ˆ
REGRESSÃO LINEAR MÚLTIPLA
Na regressão linear simples, uma variável resposta pode ser explicada por uma variável
explanatória. Na figura 8.7, o valor do imóvel pode ser previsto com base no seu tamanho
(em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a variável
explanatória X explica 45% da variação na variável Y. No exemplo em questão, outras variáveis
também podem ser utilizadas para explicar melhor a variação de Y (preço do imóvel), como
por exemplo a idade do imóvel, o preço do condomínio, o número de banheiros, etc.
Dessa forma, na regressão múltipla, uma variável resposta se relaciona a duas ou mais
variáveis explanatórias. O objetivo também é predizer os valores de Y com base nas variáveis
explanatórias.
Na maioria das vezes, uma variável resposta se relaciona a mais de uma variável explanatória.
Nessa situação, também podemos utilizar o método dos mínimos quadrados para obter uma
equação que relacione as variáveis. Nesse caso, temos uma regressão múltipla:
Yi = β0 + β1 X1 + β2 X2 + … + βk Xk + εi
Onde:
Yi = variável resposta (variável dependente);
β0 = intercepto (valor assumido por Y quando todas as demais variáveis assumem valor igual
a zero);
β1, β2,..., βk = coeficientes angulares;
k = número de variáveis explanatórias (variáveis independentes).
unidade 8158
ESTATÍSTICA E PROBABILIDADES
A estimação da equação de regressão linear múltipla também se dá através do método dos
mínimos quadrados. O objetivo é obter o hiperplano que melhor se ajuste ao conjunto de
dados através da minimização dos desvios quadráticos.
Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais
utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.
No exemplo 8.5, o preço do imóvel é estimado com base em duas variáveis: ÁREA DO IMÓVEL
e NÚMERO DE QUARTOS.
Exemplo 8.5
Estime a equação de regressão relacionando o VALOR DO IMÓVEL às variáveis: ÁREA do
apartamento e NÚMERO DE QUARTOS.
Solução
DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK
Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória e dependente,
respectivamente, assim como foi feito para a regressão simples. Em seguida, aperte OK.
Após rodar a regressão múltipla, o Excel produz tabelas. Segue a primeira:
TABELA 8.7 - Resultados do teste de adequação do modelo de regressão múltipla (teste F)
Fonte: Elaborado pelo autor
A saída da última coluna se refere aos valores p do teste dos coeficientes da regressão. A
hipótese nula é de que cada coeficiente é igual a zero, individualmente, versus a hipótese
alternativa de que seja diferente de zero, respectivamente.
ANOVAgl SQ MQ F Valor p
Regressão 2 557.278.841.710 278.639.420.855 42,5 0,000Resíduo 55 360.283.037.601 6.550.600.684Total 57 917.561.879.310
unidade 8159
ESTATÍSTICA E PROBABILIDADES
TABELA 8.8 - Coeficientes de regressão e estatísticas de interesse
Coeficientes Erro padrão Stat t valor-PInterseção 86.873 60.689 1,43 0,16Variável X 1 1.335 285 4,68 0,00Variável X 2 67.719 24.091 2,81 0,01
Fonte: Elaborado pelo autor
A equação estimada é:
Y = 86.873 + 1.335X1 + 67.719X2
Na última coluna temos os valores p, que mostram que as variáveis são significativas e o
intercepto não, conforme os testes t para cada coeficiente separadamente. O intercepto no
caso não tem significado prático nesse exemplo.
Dessa forma, o modelo se mostra útil tanto para analisar o impacto que cada uma das variáveis
explanatórias exerce sobre a variável resposta, mantendo constantes as outras variáveis,
quanto para previsão.
A interpretação do coeficiente da variável X1 é: a cada uma unidade de aumento na ÁREA (ou
seja a cada metro quadrado a mais) a variável Y (VALOR) aumenta em R$ 1.335,00, se mantida
constante a variável X2 (NÚMERO DE QUARTOS).
A interpretação do coeficiente da variável X2 é: a cada uma unidade de aumento na variável
X2 (NÚMERO DE QUARTOS), a variável Y (VALOR) aumenta em média R$ 67.719, se mantida
constante a variável X1 (ÁREA).
Para um apartamento que tenha 80 metros quadrados e três quartos, o valor previsto pela
equação é:
Y = 86.873 + 1.335 × 80 + 67.719 × 3=
Y = 86.873 + 106.800 + 203.157 = R$ 396.830
ˆ
ˆ
ˆ
unidade 8160
ESTATÍSTICA E PROBABILIDADES
APLICAÇÃO PRÁTICA
Os exemplos de análise de regressão utilizados
nesta unidade contêm uma variável explicativa,
no caso da regressão simples, ou duas variáveis
explicativas, no caso da regressão múltipla. Tais
situações ilustram a utilização dos modelos
de regressão para situações mais simples. Na
verdade, esses modelos podem ser utilizados
com um número bem maior de variáveis
explicativas.
Por exemplo, para prever o preço de revenda
de um automóvel, o analista de dados pode
utilizar diversas variáveis, como: idade, número
de quilômetros rodados, presença de vidros
elétricos, presença de ar condicionado, consumo
de combustível na estrada, consumo de
combustível na cidade, estado de conservação
dos pneus, estado de conservação da pintura,
etc.
Nesse sentido, os modelos de regressão se
mostram muito úteis para a realização de
previsões. Outro exemplo: imagine o gestor de
uma empresa de varejo de alimentos que tem
que tomar a decisão sobre a quantidade de itens
em estoque. Nesse caso, ele não pode estocar
muito, pois os produtos podem perder validade,
além do custo do espaço utilizado para guardar
as mercadorias. Ao mesmo tempo, estocar uma
quantidade insatisfatória pode implicar na falta
de produtos para a venda. Nesse caso, é de
grande valia a utilização de modelos de previsão
para estimar a quantidade de mercadorias que
serão comercializadas num certo espaço de
tempo.
Um terceiro exemplo do uso de modelos de
regressão se refere à decisão dos bancos
sobre conceder ou não um empréstimo para
determinado candidato. Para isso, o banco
geralmente levanta diversas variáveis para
estimar a probabilidade de o cliente ser ou não
um bom pagador.
REVISÃO
A presente unidade tratou do tema
relação entre duas ou mais variáveis
quantitativas. Foi demonstrado que, para
o estudo de duas variáveis quantitativas
simultaneamente, faz-se interessante o
uso de diagramas de dispersão com o
objetivo de inspecionar visualmente se elas
apresentam associação. Devemos observar,
principalmente, a forma, a intensidade e a
direção da relação entre as variáveis. Além
disso, também é importante o cálculo do
coeficiente de correlação, que fornece um
valor entre 0 e 1, podendo ser negativo no
caso de relacionamento linear inverso entre
as variáveis.
Outra técnica bastante interessante para
o estudo da relação entre duas variáveis é
a regressão simples, muito útil para fazer
previsões. Além da regressão simples, a
regressão múltipla também é bastante
unidade 8161
ESTATÍSTICA E PROBABILIDADES
utilizada, pois na maioria das situações
as variáveis previstas são associadas a
diversas variáveis explanatórias, tanto
quantitativas quanto categóricas.
Para que o modelo de regressão seja útil,
o analista depende do conhecimento da
teoria acerca do assunto e de alguma
experiência prática capaz de auxiliar na
escolha das melhores variáveis candidatas
e explicativas.
A utilização dos modelos de regressão na
engenharia é muito importante, uma vez
que vários experimentos são delineados na
otimização de processos de produção.
PARA SABER MAIS
Para estudar mais sobre os modelos de
regressão, consulte as seguintes obras:
DOANE, David, SEWARD, Lori. Estatística
Aplicada à Administração e à Economia.
ArtMed, 2010. VitalBook file.
FREUND, John, SIMON, Gary. Estatística
Aplicada: Economia, Administração e
Contabilidade. 9 Ed. Porto Alegre: Bookman,
2007.
LEVINE, David; BERENSON, Mark; STEPHAN,
David. Estatística: teoria e aplicações -
usando o Microsoft Excel em português. 6
ed.Rio de Janeiro: LTC, 2011, 812 p.
MONTGOMERY, Douglas, RUNGER, George.
Estatística aplicada e probabilidade para
engenheiros. 3.ed. Rio de Janeiro: LTC,
2009.
MOORE, David. A estatística básica e sua
prática. Rio de Janeiro: LTC, 2014.
TRIOLA, Mário. Introdução à Estatística. 10
ed. Rio de Janeiro: LTC. 2008. 722p.
162
REFERÊNCIAS
BARBETTA, Pedro Alberto, REIS, Marcelo
Menezes, BORNIA, Antônio Cezar.
Estatística: Para Cursos de Engenharia e
Informática. 3 ed. Atlas, 2010. VitalBook file.
BAILAR III, John.C.; MOSTELLER, Frederick.
Medical uses of statistics. 2. ed. Boston:
NEJM Books, 1992.
CARVALHO, Danilo Heraldo; COUTO, Bráulio
Roberto Gonçalves Marinho. Levantamentos
por amostragem ou “pesquisas de survey.
Relatório técnico DCET, Nº 3/2003. 107p
DAVID M. et al. Estatística: teoria e
aplicações usando Microsoft Excel em
português. 3 ed. Rio de Janeiro: LTC, 2000
DOANE, David, SEWARD, Lori. Estatística
Aplicada à Administração e à Economia.
ArtMed, 2010. VitalBook file.
DOWNING, Douglas. Estatística Aplicada.
Trad. Alfedro Alves de Farias: 2ed São Paulo:
Saraiva, 2003
FIELD, Andy. Descobrindo a Estatística
Usando o SPSS. 2 ed. Porto Alegre:
ARTMED, 2009. 688p
FORMULÁRIO GOOGLE DOCS. Disponível em:
<https://docs.google.com/forms>. Acesso
em: 15 abr. 2015
FREUND, John. Estatística Aplicada à Economia.
11 ed. Bookman, 2006. VitalBook file.
GAZZARRRINI, Rafael. Lotus 1-2-3: o software
que ajudou a mudar o mundo. 18 fev. 2013. In:
Site “TecMundo”. Disponível em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus-
1-2-3-o-software-que-ajudou-a-mudar-o-
mundo.htm>. Acesso em: 15 abr. 2015
GRIFFITHS, Dawn. Use a cabeça! Estatística.
Rio de Janeiro: Altabooks, 2009.
HINES, William, MONTGOMERY, Douglas,
GOLDSMAN, Dave, BORROR, Connie.
Probabilidade e Estatística na Engenharia. 4
ed. Rio de Janeiro: LTC, 2006. VitalBook file.
KAZMIER, Leonard. Estatística Aplicada à
Administração e Economia. Bookman, 2007.
LEVINE, David M. et al. Estatística - teoria
e aplicações: usando Microsoft Excel em
português. 6 ed. Rio de Janeiro: LTC, 2012. 804 p
MAGALHÃES, Marcos Nascimento; LIMA,
Antônio Carlos Pedroso. Noções de
Probabilidade e Estatística. 6. ed. São Paulo:
Editora da Universidade de São Paulo, 2007.
MALHOTRA, Naresh K.. Pesquisa de
marketing: uma orientação aplicada. trad.
Lene Belon Ribeiro, Monica Stefani. rev. téc.
Janaína de Moura Engracia Giraldi. Porto
Alegre: Bookman, 2012.
163
McCLAVE, James T.; BENSON, George;
SINCICH, Terry. Estatística para
administração e economia. trad. Fabrício
Pereira Soares e Fernando Sampaio Filho;
rev. téc. Galo Carlos Lopez Noriega. São
Paulo: Pearson Prentice Hall, 2009.
MONTGMOMERY, Douglas C; RUNGER,
George C. Estatística aplicada e probabilidade
para engenheiros. trad. e rev. téc. Verônica
Calado. Rio de Janeiro: LTC, 2009.
MOORE, David. A estatística básica e sua
prática. Rio de Janeiro. LTC, 2014.
NETO, Antônio Peli. Intervalos de confiança,
Intervalos de Predição e Campo de Arbítrio
nas Avaliações de Imóveis Urbanos.
Associação Brasileira dos Engenheiros
Civis - Departamento da Bahia. Bahia, 2010.
Disponível em: <http://goo.gl/6uFFSt>.
Acesso em 16 jun. 2015.
REIDEL, Adilson et al. Utilização de efluente de
frigorífico, tratado com macrófita aquática, no
cultivo de tilápia do Nilo. R. Bras. Eng. Agríc.
Ambiental, Campina Grande, v.9, (Suplemento),
p.181-185, 2005. Disponível em: <http://goo.
gl/TQP0re>. Acesso em: 21 jan. 2015
SILVA, Nilza Nunes. Amostragem
probabilística. 2 ed. São Paulo: Editora da
Universidade de São Paulo, 2001. 120p
SHARP, Norean, DE VEAUX, Richard,
VELLEMAN. Paul. Estatística Aplicada -
Administração, Economia e Negócios. Porto
Alegre: Bookman, 2011.
SOARES, José Francisco; SIQUEIRA,
Armanda Lúcia. Introdução à Estatística
Médica. Belo Horizonte: UFMG, 2002. 300p
STEVENSON, William. Estatística Aplicada
à Administração. ed 2001. São Paulo:
Harbra, 1981.
TRIOLA, Mario Farias. Introdução à Estatística:
tradução de Vera Regina Lima de Farias e
Flores, revisão técnica Ana Maria Lima de
Farias. 10 ed. Rio de Janeiro: LTC, 2008
TRIOLA, Mario F. Introdução à Estatística:
Atualização da Tecnologia, 11 ed. LTC,
03/2013. VitalBook file.
WERKEMA, Maria Cristina Catarino;
AGUIAR, Silvio. Planejamento e análise de
experimentos: Como Identificar as principais
variáveis influentes em um processo. Belo
Horizonte: Fundação Cristiano Ottoni,
Escola de Engenharia da UFMG, 1996.
WALPOLE, Ronald. Probabilidade e
estatística para engenharia e ciências. São
Paulo: Pears, 2008