Nagib Yassin ESTATÍSTICA EXPERIMENTAL ESTATÍSTICA EXPERIMENTAL

Nagib Yassin ESTATÍSTICA EXPERIMENTAL

ESTATÍSTICA EXPERIMENTAL

Professor Nagib Yassin

Rio Verde 2012

Ementa Introdução. Princípios básicos da experimentação. Comparações múltiplas. Experimentos inteiramente casualizados. Experimentos em blocos casualizados. Experimentos em quadrados latinos. Experimentos Fatoriais. Experimentos em parcelas subdivididas. Experimentos em faixas. Reticulados Quadrados. Regressão na análise da variância. Teste de qui-quadrado. Análise de Covariância. Análise de variância multidimensional. Superfícies de resposta. Testes não-paramétricos.

Objetivos

Reconhecer o significado dos métodos estatísticos, aplicando-os em problemas

específicos da área

Conteúdo

Cap. 1 Testes de Hipóteses

Cap. 2 Contrastes

Cap. 3 Introdução à Experimentação

Cap. 4 Delineamento Inteiramente Casualizado

Cap. 5 Procedimentos para Comparações Múltiplas

Cap. 6 Delineamento em Blocos Casualizados

Cap. 7 Delineamento em Quadrado Latino

Cap. 8 Experimentos Fatoriais

Cap. 9 Experimentos em Parcelas Subdivididas

Cap.10 – Regressão

ESTRATÉGIAS DE AVALIAÇÃO

O sistema de avaliação constará de três provas, com pesos iguais. As datas das provas estão apresentadas no planejamento da disciplina em anexo.

O assunto pertinente as 1a, 2

a provas, será divulgado em sala de aula na semana

que a prova ocorrerá.

O estudante que perdeu a 1a ou a 2

a ou a 3

a prova, por qualquer motivo que seja

(viagem de caráter particular, atestado médico, participação em congressos, etc.), poderá fazer a Prova Substitutiva, sendo esta única cujo valor será 100%. Esta prova substitutiva abordará todo o assunto do semestre. Não é necessário apresentar justificativa para fazer a prova substitutiva. A data da prova substitutiva também se encontra no planejamento em anexo. O estudante deve também levar o seu conjunto de tabelas, pois as mesmas são de uso individual. Estas tabelas não devem conter nenhuma informação adicional. A existência de tais informações adicionais implica o uso de cola, estando o estudante sujeito A penalidades. Os alunos que não obtiverem média final para aprovação, poderão realizar a prova final, cujo assunto é toda a matéria lecionada durante o período letivo. Divulgação das Notas de Provas As notas da 1ª e 2ª provas serão divulgadas no máximo, até 3 semanas após a

realização de cada uma delas. Já as provas 3a e substitutiva terão as notas divulgadas

até 3 dias após a realização da prova substitutiva. Revisão de Prova O Professor marcará um período ÚNICO de revisão para cada uma das provas. O estudante deve respeitar este período de revisão, pois não serão abertas exceções para que o estudante faça a revisão de suas provas fora do período de revisão estabelecido.

A média de aproveitamento (MA) será obtida, calculando:

( ) ( )+ += 8 3 NP 3 NT 2(MEP)

Sendo:

(NP) Nota de uma única prova

(NT) Nota referente a um trabalho mensal

(MEP) Nota referente a 2 listas menais de exercícios.

Trabalhos

As notas de NT e de MEP não darão direito ao aluno requerer 2a chamada

A freqüência comporá o sistema de avaliação – (5% a menos para cada falta e/ou

capítulo)

METODOLOGIA

O conteúdo programático será desenvolvido através de aulas expositivas dialogadas,

além da participação efetiva do aluno na construção e resolução de exercícios. Trabalhos

em grupo na classe e extra classe, solucionando problemas práticos ou envolvendo parte

teórica de tópicos do conteúdo programático.

Bibliografia AQUINO, L. H. Técnica experimental com animais. Escola Superior de Agricultura de Lavras, Lavras, MG, 1992. 385p BANZATTO, D.A. e KRONKA, S.N. Experimentação Agrícola. FUNEP, Jaboticabal, 1989. CAMPOS, H.. Estatística Aplicada à Experimentação com Cana-de-açúcar. FEALQ, Piracicaba, l984. FERREIRA, P. V. Estatística Experimental Aplicada à Agronomia. Maceió: EDUFAL, 1991 GOMES, F.P. Curso de Estatística Experimental. 11a ed., Livraria Nobel, São Paulo, 1985. RODRIGUES, M. I., IEMMA, A. F. Planejamento de Experimentos e Otimização de Processos, 1ºed. –Campinas –SP, Casa do Pão Editora, 2005

ÍNDICE C A P Í T U L O 1 9

TESTES DE HIPÓTESES 9

1.1.Testes de hipóteses para média populacional 13

1.2 Testes de hipótese para a razão de duas variâncias 15

13 Testes de hipóteses para a diferença entre médias populacionais 16

1.4. Testes de hipóteses para diferença entre proporções 23

1.5 Teste do qui-quadrado de independência 24

Exercícios 27

34 C A P Í T U L O 2

ESTATÍSTICA EXPERIMENTAL 34

2.1 Introdução 34

2.1.1 Objetivo 34

2.1.2 A necessidade da estatística 34

2.2. Conceitos importantes em experimentação 36

2.2.1 Etapas da pesquisa científica 37

2.3 Escolha dos fatores e seus respectivos níveis 38

2.3.1 Escolha da Unidade Experimental 38

2.3.2 Escolha das Variáveis a Serem Medidas 38

2.3.3 Regras Segundo as quais os Tratamentos são Atribuídos as Unidades Experimentais 39

2.4 Princípios básicos da experimentação 50

2.4.1 Princípio da repetição 40

2.4.2 Princípio da casualização 41

2.4.3 Princípio do controle local 43

2.5 Número de repetições 44

2.6 Bordaduras 44

Exercícios 46

TESTES DE SIGNIFICÂNCIA 52

3.1. Introdução 52

3.2. Contrastes 53

3.2.1. Introdução 53

3.2.2. Definições 53

3.2.3. Medidas de dispersão associadas a contrastes 54

3.2.4. Contrastes Ortogonais 55

3.3. Métodos para obtenção de grupos de contrastes mutuamente ortogonais Obtenção por Meio de Sistema de Equações Lineares 57

Exercícios 59

3.4 Teste F para a análise de variância 64

3.4.1. Regra de decisão 66

3.5 Análise de variância (ANAVA) 68

3.5.1 Quadro da análise de variância do DIC 69

3.6. Teste t de Student 69

3.6.1. Regra de decisão 71

DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) 74

4.1 Introdução 74

4.2 Análise de variância (ANAVA) 75

4.3 Modelo matemático do DIC com efeitos de tratamentos fixos 75

4.4 Suposição associada ao modelo 76

4.5 Hipóteses estatísticas 76

4.6 Partição da soma de quadrados 76

4.7 Quadrados médios 78

4.8 Estatística e região crítica do teste 78

4.9 Quadro da análise de variância (ANAVA) 79

4.10 Detalhe computacional 80

4.11 Estimadoresde mínimos quadrados 84

4.12 Coeficiente de determinação (R2) e de variação (CV). 86

4.13 Checando as violaçãoes das suposições da ANAVA. 87

4.14. Experimentos Inteiramente Casualizados com parcela perdida 88

4.15 Vantagens e desvantagens do DIC. 89

4.16 Resumo 90

Exercícios 91

TESTES DE COMPARAÇÕES MÚLTIPLAS 95

5.1 Introdução 95

5.2. Alguns Procedimentos Para Comparações Múltiplas 97

5.5.2.1.Teste de Tukey 97

5.2.2. Teste de Duncan 98

5.2.3. Teste t de Student 100

5.2.4. Teste de Scheffé 101

5.3. Vantagens e Desvantagens dos Procedimentos Para Comparações Múltiplas 102

Exercícios 103

106 C A P Í T U L O 6

DELINEAMENTO EM BLOCOS CASUALIZADOS (DBC) 106

6.1 Introdução 106

6.2 Vantagens e devantagens de um DBC 107

6.3 Organização do dados no DBC 108

6.4 Modelo matemático do DBC 108

6.5. Suposições do modelo 109

6.6. Hipótese estatística 109

6.8 Quadrados médios 111

6.9 Estatística e região crítica do teste 112

6.11 Detalhes computacionais 113

6.12. O problema da perda de parcela 115

6.13 Análise de variância de medidas repetidas 118

Exercícios 120

126 C A P Í T U L O 7

DELINEAMENTO EM QUADRADO LATINO (DQL) 126

7.1 Introduão 126

7.2 Modelo Matemático. Hipóteses 126

7.3 Objetivo do Controle em 2 Direções 127

7.4 Caracterização do Quadrado Latino 127

7.6. Quadrados médios 129

7.7 Eestatística e região crítica do teste 129

7.9 Detalhes computacionais 130

7.10 Como contornar o problema de pequeno número de graus de liberdade para o resíduo ? 134

7.11 Casualização dos tratamentos 137

7.12. Exemplos em que as unidades experimentais são animais ou pessoas 138

Exercícios 141

144 C A P Í T U L O 8

EXPERIMENTOS FATORAIS 144

8.2. Tipos de efeitos avaliados em um experimento fatorial 144

8.2.1. Efeito simples de um fator 144

8.2.2. Efeito principal de um fator 145

8.5 Efeito de interação entre os dosi fatores 145

8.3. Quadro de tabulação de dados 147

8.4 Modelo matemático de um experimento fatorial 148

8.5. Análise de Variância 149

8.5.1 Interação não-significativa 150

8.5.2 Interação significativa 157

8.6. Vantagens e desvantagens de um experimento fatorial 166

Exercícios 167

C A P Í T U L O 9 172

EXPERIMENTOS EM PARCELAS SUBDIVIDIDAS 172

9.2 Vantagem e desvantagem de um experimento em parcelas subdividas 174

9.3. Análise de variância (ANAVA) 174

9.4 Modelo matemático e suposições 174

9.5 Hpótese estatística 175

9.6 Somas de quadrados 176

9.7 Comparações múltiplas entre mádias de tratamentos 177

Exercícios 187

191 C A P Í T U L O 10

Regressão na análise de variância 191

10.2. Escolha do modelo para equacionar o fenômeno em estudo 191

10.3. Método para obter a equação estimada 192

10.3.1. Modelo linear de 1º grau 192

10.3.2. Modelo linear de 2º grau 194

10.4. Análise de variância da regressão 194

10.4.1. Apenas um único valor observado para cada nível da variável independente 195

10.4.2. Mais de um valor observado para cada nível da variável independente 196

10.5. Coeficiente de determinação (R2) 198

Exercícios 199

Tabelas 205

C A P Í T U L O 1 TESTES DE HIPÓTESES

Na teoria de decisão estatística, os testes de hipóteses assumem uma importância

fundamental, já que estes permitem nos dizer, por exemplo, se duas populações são de

fato iguais ou diferentes, utilizando para isso amostras destas populações. Desta forma, a

tomada de decisão de um gestor, deve estar baseada na análise de dados a partir de um

teste de hipótese.

Então, você pode definir as hipóteses a serem testadas, retirar as amostras das populações a serem estudadas, calcular as estatísticas delas e, por fim, determinar o grau de aceitação de hipóteses baseadas na teoria de decisão, ou seja, se uma

determinada hipótese será validada ou não.

Para você decidir se uma hipótese é verdadeira ou falsa, ou seja, se ela deve ser aceita

ou rejeitada, considerando uma determinada amostra, precisamos seguir uma série de

passos. Os passos são mostrados a seguir.

1) Definir a hipótese de igualdade (H0) e a hipótese alternativa (H1) para tentar rejeitar

H0 (possíveis erros associados à tomada de decisão).

2) Definir o nível de significância (α).

3) Definir a distribuição amostral a ser utilizada.

4) Definir os limites da região de rejeição e aceitação.

5) Calcular a estatística da distribuição escolhida a partir dos valores amostrais obtidos e

tomar a decisão.

Você deve tomar a decisão baseada na seguinte regra: se o valor da estatística da

distribuição calculado estiver na região de rejeição, rejeitar, então, a hipótese nula, senão

a decisão será que a hipótese nula não poderá ser rejeitada ao nível de ignificância

determinada.

Diversos conceitos serão apresentados ao longo do detalhamento dos passos a serem

seguidos na formulação de um teste de hipótese.

Detalhamento dos passos na formulação de um teste de hipótese: 1) Formular as

hipóteses (H0 e H1).

Primeiramente, vamos estabelecer as hipóteses nula e alternativa.

Para exemplificar, se deve considerar um teste de hipótese para uma média. Então, a

hipótese de igualdade é chamada de hipótese de nulidade ou Ho. Suponha que você

queira testar a hipótese de que o tempo médio de ligações é igual a 50 segundos. Então,

esta hipótese será simbolizada da maneira apresentada a seguir:

Ho: µ = 50 (hipótese de nulidade)

Esta hipótese, na maioria dos casos, será de igualdade.

Se você rejeitar esta hipótese, vai aceitar, neste caso, outra hipótese, que chamamos de

hipótese alternativa. Este tipo de hipótese é simbolizada por H1 ou Ha. As hipóteses

alternativas mais comuns são as apresentadas a seguir a partir do nosso exemplo:

H1: µ > 50 (teste unilateral ou unicaudal à direita)

O tempo médio de ligação é superior a 50 segundos

H1: µ < 50 (teste unilateral ou unicaudal à esquerda)

O tempo médio de ligação é inferior a 50 segundos

H1: µ ≠ 50 (teste bilateral ou bicaudal)

O tempo médio de ligação pode ser superior ou inferior a 50 segundos.

Surge uma dúvida. Qual hipótese alternativa será utilizada? A resposta é bem simples. A hipótese alternativa será definida por você, em função do tipo de decisão que deseje

tomar.

Veja o seguinte exemplo: você inspeciona uma amostra de uma grande remessa,

encontrando-se 8% defeituosa. O fornecedor garante que não haverá mais de 6% de

peças defeituosas em cada remessa. O que devemos responder, com auxílio dos testes

de significância, é se a afirmação do fornecedor é verdadeira.

As hipóteses que serão formuladas são:

H0: p = 0,06;

H1: p > 0,06.

É importante ressaltar que o sinal de igual para a hipótese Ho corresponde a um sinal de

menor ou igual (neste exemplo), pois o teste é unilateral à direita (p1 > 0,06). Portanto,

sempre que o teste for unilateral, deve ser feita esta consideração.

2) Definir o nível de significância.

O nível de significância de um teste é dado pela probabilidade de se cometer erro do tipo

I (ocorre quando você rejeita a hipótese H0 e esta hipótese é verdadeira). Com o

valor desta probabilidade fixada, você pode determinar o chamado valor crítico, que

separa a chamada região de rejeição da hipótese Ho da região de aceitação da hipótese

Na Figura abaixo, as áreas escuras correspondem à significância do teste, ou seja, à

probabilidade de se cometer o chamado erro tipo I (rejeitar H0 quando ela é verdadeira).

Esta probabilidade é chamada de α, e geralmente os valores mais utilizados são 0,01 e

0,05. O complementar do nível de significância é chamado de nível de confiança e é dado

por 1 - α.

Unilateral à direita H0: µ = 50 H0: µ > 50

Unilateral à esquerda H0: µ = 50 H0: µ < 50

Bilateral H0: µ = 50 H0: µ # 50

αααα/2 αααα/2

3) Definir a distribuição amostral a ser utilizada.

A estatística a ser utilizada no teste, você definira em função da distribuição amostral a

qual os dados seguem. Se você fizer um teste de hipótese para uma média ou diferença

entre médias, utilize a distribuição de Z ou t de Student. Outro exemplo é se você quiser

comparar a variância de duas populações, então deverá trabalhar com a distribuição F,

ou seja, da razão de duas variâncias. Note que o conhecimento das distribuições

amostrais vistas na Unidade 3 é muito importante.

4) Definir os limites da região de rejeição.

Os limites entre as regiões de rejeição e aceitação da hipótese Ho, você definirá em

função do tipo de hipótese H1, do valor de (nível de significância) e da distribuição

amostral utilizada. Considerando um teste bilateral, você terá a região de aceitação (não-

rejeição)

com uma probabilidade de 1- α e uma região de rejeição com probabilidade α ( α/2 + α/2).

5) Tomar a decisão.

Para tomar a decisão, você deve calcular a estimativa do teste estatístico que será

utilizado para rejeitar ou não a hipótese Ho. A estrutura deste cálculo para a média de

forma generalista é dada por:

Valor obtido da

distribuição

amostral

(tabela)

Valor obtido da

distribuição

amostral

(tabela)

Estatística da distribuição = ( )Estimativa patâmetro

Erro padrão da estimativa

Podemos exemplificar pela distribuição de Z, que será:

( )Calc

Se o valor da estatística estiver na região crítica (de rejeição), rejeitar Ho; caso contrário,

aceitar H0. O esquema abaixo mostra bem a situação de decisão.

1.1.Teste de hipótese para média populacional

Quando você retira uma amostra de uma população e calcula a média desta amostra, é possível

verificar se a afirmação sobre a média populacional é verdadeira. Para tanto, basta verificar se a

estatística do teste estará na região de aceitação ou de rejeição da hipótese Ho. Aqui você tem três

situações distintas:

1ª) se o desvio-padrão da população é conhecido ou a amostra é considerada grande (n >30), a

distribuição amostral a ser utilizada será da Normal ou Z e a estatística-teste que será utilizado:

Estatística do teste Variavilidade das médias

H0 é aceita

H0 é rejeitada H0 é rejeitada

Região crítica Região crítica

Região de rejeição Região de rejeição Região de aceitação

Onde x: média amostral; µ: média populacional; σ: desviopadrão populacional e n:

tamanho da amostra.

2ª) agora, se você não conhecer o desvio-padrão populacional e a amostra for pequena (

), então, a distribuição amostral a ser utilizada será a t de Student, e a estatísticateste

será:

Uma observação importante: quando trabalhamos com amostras grandes, ou seja, n > 30, a distribuição de Z e t de Student apresentam comportamentos próximos e valores da estatística próximos também.

Veja uma situação utilizando o teste de hipótese para uma média usando Z. Registros dos últimos

anos de funcionários de uma determinada empresa atestam que sua média num teste de QI foi 115,

com um desvio-padrão de 20. Para saber se uma nova equipe de funcionários é

típica desta empresa, retirou-se uma amostra aleatória de 50 funcionários rios desta nova equipe,

encontrando-se média de 118. Com uma significância de 5%, teste a hipótese de que esta nova

equipe apresente a mesma característica dos funcionários da empresa, com relação ao QI.

Resolução

H0: µ = 115

H1: µ # 115

Estatística a ser utilizada →→→→ Z X µ

− −= = =

01 1 8 1 1 5 1 0 62 0

Conclusão: como o valor da estatística calculado está na região de aceitação, então

deve-se aceitar H0 como verdadeiro

Exercício 1: um fabricante afirma que seus pneus radiais suportam em média uma

quilometragem com mais de 40.000 km. Para testar essa afirmação, um comprador

selecionou uma amostra de 49 pneus.

Os testes nessa amostra forneceram uma média de 43.000 km. Sabe-se que a

quilometragem de todos os pneus tem desvio-padrão de 6.500 km. Se o comprador testar

essa afirmação ao nível de significância de 5%, qual será sua conclusão?

Veja agora uma situação aplicando o teste t de Student.

O tempo médio gasto para profissionais da área de Ciências Contábeis realizarem um determinado

procedimento tem sido de 50 minutos. Um novo procedimento está sendo implementado. Neste

novo procedimento, retirou-se uma amostra de 12 pessoas, com um tempo

médio de 42 minutos e um desvio-padrão de 11,9 minutos. Teste a hipótese de que a média

populacional no novo procedimento é menor do que 50.

H0: µ = 115

H1: µ < 115

Estatística a ser utilizada →→→→ t

X µt ,

− −= = = −

04 2 5 0 2 5 31 1 9

Conclusão: como o valor da estatística calculado está na região de rejeição, então deve-

se rejeitar H0 como verdadeiro

1.2 Testes de hipóteses para a razão de duas variâncias.

Este teste de hipótese é utilizado para saber se duas variâncias populacionais são

estatisticamente iguais ou se uma é maior do que a outra. Então, utilizando a distribuição

F, poderemos formular o teste de hipótese da razão entre duas variâncias e chegar à

conclusão baseados apenas nas estimativas calculadas a partir das amostras. As

hipóteses H0 e H1 serão:

H : σ =σ

H : σ σ>

2 20 1 2

2 21 2

Como está se utilizando um teste unilateral à direita (questões didáticas), então, no cálculo da estatística de F, teremos a maior variância dividida pela menor variância.

A maior variância amostral encontrada será chamada de S

21 (proveniente de uma

amostra de tamanho n1), e a menor variância amostral será chamada S22 (proveniente de

amostra de tamanho n2).

Vamos supor que tivéssemos duas amostras provenientes de duas populações.

Desejamos saber se as variâncias das populações são estatisticamente iguais ou uma é

maior do que a outra. Considere uma significância de 2,5%. Os resultados amostrais são

apresentados a seguir:

S21= 0,5184 com n1 = 14

S22= 0,2025 com n2 = 21

A estatística será dada por:

Então, a variável de teste do teste F será:

21212222

Como em H0, estou considerando que as variâncias populacionais são iguais, então, na

expressão acima as duas variâncias populacionais vão se cancelar. No nosso exemplo,

teremos:

s ,F ,

,s= = =

0 5 1 8 4 2 5 60 2 0 2 5

O valor tabelado (crítico) da distribuição de F será obtido na tabela da distribuição com

uma significância de 2,5%. Considerando como graus de liberdade iguais a 13 (n1 – 1)

para o numerador (v1) e 20 (n2 – 1) para o denominador (v2), chegaremos ao seguinte

resultado: valor tabelado igual a 2,637.

O valor calculado da estatística foi menor do que o tabelado, então, ele caiu na região de

aceitação de H0. Assim, aceitamos H0 e consideramos que a variância da população 1 é

estatisticamente igual à variância da população 2, ou seja, não ocorre uma diferença

entre elas.

Este teste servirá de base na escolha do próximo teste (diferença entre médias para

amostras independentes), ou seja, escolher o tipo de teste a ser utilizado.

1.3. Testes de hipóteses para a diferença entre médias populacionais

Quando queremos comparar a média de duas populações, retiramos amostras das duas,

e estas amostras podem apresentar tamanhos diferentes. Vamos considerar as situações

de amostras independentes (as populações não apresentam nenhuma relação entre si) e

amostras dependentes (uma população sofre uma intervenção e avalia-se antes e depois

da intervenção para saber se esta resultou em algum efeito).

1ª situação: amostras independentes e grandes (n>30).

2ª situação: amostras independentes e pequenas, mas que apresentam variâncias

populacionais estatisticamente iguais.

populacionais estatisticamente desiguais.

4ª situação: amostras dependentes.

Agora você vai estudar cada uma destas situações. Lembre-se que as considerações

anteriores em relação aos passos para formulação dos testes de hipóteses permanecem

as mesmas.

A grande diferença que você vai ver ocorre só na determinação das hipóteses a serem

testadas. A hipótese H0será:

H0: µ1 – µ1 = d0

Onde: µ1: média da população 1 e µ2: média da população 2.

Já do corresponde a uma diferença qualquer que você deseje testar.

Geralmente, quando queremos saber se as médias das duas populações são

estatisticamente iguais, utilizamos o valor de do igual a zero.

As hipóteses alternativas seguem a mesma linha de raciocínio.

Abaixo temos um quadro que nos auxiliará a visualizar estas considerações.

µ1 – µ2 = d0 µ1 – µ2 < d0

µ1 – µ2 > d0

µ1 – µ2 ≠ d0

É importante ressaltar que, se as hipóteses alternativas forem unilaterais, o sinal da

hipótese Ho será menor ou igual, maior ou igual, dependendo da hipótese alternativa,

apesar de utilizarmos a notação de igual (conforme comentado anteriormente).

Todas as outras considerações em relação aos testes de hipótese permanecem as

mesmas. Vamos, então, procurar entender cada situação para os testes de hipóteses

para diferença entre médias.

1ª situação: amostras independentes e grandes (n>30).

Como estamos trabalhando aqui com amostras grandes, ou quando se conhecem os

desvios-padrão populacionais, devemos trabalhar com a distribuição amostral de Z

(raciocínio semelhante ao utilizado no teste de hipótese para uma média). Portanto, a

estatística do teste será dada por:

( ) ( )X X µ µZ

− − −=

1 2 1 2

2 21 2

X 1: média da amostral 1;

X 2: média da amostral 2;

µ1: média da população 1; µ2: média da população 2;

σ21 : variância da população 1;

σ22 : variância da população 2;

n1: tamanho da amostra 1; n2 tamanho da amostra 2.

OBS: se trabalharmos com amostras grandes poderemos substituir as variâncias populacionais pelas variâncias amostrais. Vamos, então, ver como podemos aplicar o teste de hipótese para a diferença entre

médias nesta situação.

Foram retiradas amostras de aparelhos usados de duas marcas, e os resultados são

apresentados na tabela a seguir. Verifique se as duas marcas têm uma mesma

durabilidade ou se são diferentes, com uma significância de 0,05.

Marcas A B

Média 1.160 1.140

Desvio-padrão 90 80

tamanho amostra 100 100

Reolução

H :µ µ

− ≠

α = 0,05

Estatística a ser utilizada →→→→ Z

( ) ( ) ( ) ( ) ( )X X µ µ . .Z ,

− − − − −= = =

1 2 1 2

2 2 2 21 2

1 1 6 0 1 1 4 0 01 9 6

9 0 8 01 0 0 1 0 0

populacionais estatisticamente iguais.

Como as amostras com que estamos trabalhando são pequenas, e as variâncias

populacionais, desconhecidas, então, você deve trabalhar com a distribuição t de

Student.

Aqui consideraremos que as variâncias populacionais são estatisticamente iguais, pois

esta situação influenciará nos cálculos e, conseqüentemente, no processo decisório. Para

saber se as variâncias podem ser consideradas iguais, deve-se fazer um teste da razão

de duas variâncias (teste F) mostrado anteriormente.

A estatística do teste será dada por:

( ) ( )

X X µ µt

− − −=

1 2 1 2

Aqui aparece um termo novo (Sp). Ele corresponde ao desvio padrão ponderado pelos

graus de liberdade, ou seja, calculamos um novo desvio-padrão, no qual o fator de

ponderação corresponde ao grau de liberdade de cada amostra. Veja a seguir:

( ) ( )p

n s n sS

− + −=

2 21 1 2 2

Para você encontrar o valor tabelado que limita as regiões de aceitação e rejeição na

tabela t de Student (revise na Unidade 3), o número de graus de liberdade (v) será dado

v n n= + −1 22

Vamos agora resolver um exemplo.

Um treinamento na área contábil de um grupo empresarial é ministrado a 12 profissionais

pelo método convencional. Um segundo grupo de dez profissionais recebeu o mesmo

treinamento por um método programado. Os resultados de notas dos dois métodos são

apresentados na tabela a seguir. Determine se há diferença entre os dois métodos

considerando uma significância de 0,01.

Método Convencional Programado

Média 85 81

Desvio-padrão 4 5

OBS: no teste F, não foram encontradas diferenças entre as variâncias populacionais. Resolução

H :µ µ

− ≠

( ) ( ) ( ) ( )A B A B

X X µ µt ,

S ,n n

− − − − −= = =

8 5 8 1 02 0 7

1 1 1 14 4 7 81 2 1 0

V = 22 – 2 = 20 gl

α ,t t ,= =2 0 0 0 52 8 4 5

Exercício 2: duas técnicas de venda são aplicadas em dois grupos de vendedores. A

técnica A foi aplicada em um grupo de 12 vendedores, resultando em um número de

vendas efetivadas em média de 76 e uma variância de 50. Já a técnica B foi aplicada em

um grupo de 15 vendedores, resultando em um número de vendas efetivadas em

média de 68 e uma variância de 75. Considerando as variâncias estatisticamente iguais,

e com uma significância de 0,05, verifique se as médias são estatisticamente iguais.

populacionais estatisticamente desiguais. A diferença desta situação para a anterior é

que você considera que as populações apresentam variâncias estatisticamente

desiguais. Também utilizare mos a estatística do teste a partir da distribuição t de

Student. A estatística do teste será dada por:

( ) ( )A B A BX X µ µt

− − −=

2 21 2

Outra diferença esta no cálculo do número de graus de liberdade, pois nesta situação

utilizaremos uma aproximação que é dada pela expressão a seguir:

n nv gl

− −

22 21 2

1 22 22 2

1 21 1

Se este valor calculado apresentar valores decimais, deve ser feito o arredondamento

para um número inteiro. Vamos a um exemplo.

Para estudar o efeito da certificação ambiental no valor de empresas, consideraram-se

amostras de empresas da mesma área, com e sem certificação ambiental. Obtiveram-se

os seguintes resultados. Após ter sido testado, verificou-se que as populações

apresentam variâncias desiguais. Teste a hipótese de que os dois padrões de empresas

apresentam médias de valor diferentes.

Método Com certificação ambiental Sem certificação ambiental

Média 24 13,3

Desvio-padrão 1,7 2,7

N 8 21

Resolução

H :µ µ

− ≠

( ) ( ) ( ) ( )A B A B

X X µ µ ,t ,

S ,n n

− − − − −= = =

2 4 1 3 3 02 0 7

1 1 1 14 4 7 81 2 1 0

V = 22 – 2 = 20 gl

α ,t t ,= =2 0 0 0 52 8 4 5

4ª situação: amostras dependentes.

Relembrando, amostras dependentes ocorrem quando se faz uma intervenção e se

deseja saber se os resultados antes da intervenção são iguais aos resultados depois da

intervenção.

Um ponto importante nesta situação é que são calculadas primeiramente as diferenças

de antes e depois. Esta diferença é chamada de di. Então, você pode ver que:

di = valor antes - valor depois

Com base nestas diferenças (di) você vai calcular a média (D) e o desvio- padrão destas

diferenças (SD)

==∑1

∑∑

Veja que estas fórmulas são iguais às de cálculo da média e desvio-padrão apresentados

na Unidade 1. Neste caso, no lugar da variável x, são utilizados os valores de di

(diferenças).

Com estes valores, a estatística teste será dada por:

O valor de n corresponde ao número de diferenças calculadas, e o grau de liberdade para

ser olhado na tabela t de Student será dado por n - 1.

Em um estudo, procurou-se investigar a não-eficácia de uma propaganda na percepção

de clientes. O Quadro a seguir dá os resultados de pessoas selecionadas anteriormente.

No nível de 5% de significância, teste a afirmação de que as percepções sensoriais são

inferiores após a propaganda, ou seja, a propaganda não é eficaz. (Os valores se referem

a antes e depois da propaganda; medidas em uma escala de zero a doze.)

Pessoa A B C D f G H I

Antes 6,6 6,5 9,0 10,3 11,3 8,1 6,3 11,6

Depois 6,8 2,4 7,4 8,5 8,1 6,1 3,4 2,0

Resolução

αααα = 0,05 Estatística a ser utilizada →→→→ t

D µ ,t ,

− −= = =

= =0 0 5

2 9 1 1 4 0 2 7 13 0 3 68

1 8 9 5

1.4. Testes de hipóteses para diferença entre proporções

Em diversas situações, o que nos interessa é saber se a proporção de sucessos (evento

de interesse) em duas populações apresenta a mesma proporção ou não. Neste caso, os

dados seguem uma distribuição de Bernoulli (vista na Unidade 2) com média p e

variância pq. Portanto, a expressão da estatística-teste (no caso utilizaremos a

distribuição de Z) será dada por:

( ) ( )( ) ( )( )

ˆ ˆp p p pz

ˆ ˆˆ ˆ p qp q

− − −=

1 2 1 2

2 21 1

Nesta expressão, você tem:

p 1 e p 2correspondem à proporção de sucesso nas amostras 1 e 2, respectivamente.

p1 e p2 correspondem à proporção de sucesso nas populações 1 e 2, respectivamente.

Você deve se lembrar que a proporção de fracasso (q) é dada por um, menos a

proporção de sucesso.

Vejamos, então, como aplicar o teste da diferença de proporções.

Uma questão de teste é considerada boa, se permitir discriminar entre estudantes

preparados e estudantes não preparados. A primeira questão de um teste foi respondida

corretamente por 62, dentre 80 alunos preparados, e por 23, dentre 50 alunos não

preparados. Com um nível de 5% de significância, teste a afirmação de que esta questão

foi respondida corretamente por uma proporção maior de estudantes

preparados.

H :p p

Estatística a ser utilizada →→→→ Z

( ) ( )( ) ( )( )

( ) ( )( )( ) ( )( )

ˆ ˆp p p p , ,z ,

, , , ,ˆ ˆˆ ˆ p qp q

− − − − −= = =

1 2 1 2

2 21 1

0 7 7 5 0 4 6 03 7 3

0 7 7 5 0 2 2 5 0 4 6 0 5 48 0 5 0

α ,Z Z ,= =0 0 51 6 5

1.5. Teste do qui-quadrado de independência

O teste do qui-quadrado de independência está associado a duas variáveis qualitativas,

ou seja, uma análise bidimensional (visto na Unidade 2). Você se lembra que as tabelas

de contingência permitem verificar a relação de dependência entre as duas variáveis

analisadas.

Neste caso, procura-se calcular a freqüência de ocorrência das características dos

eventos a serem estudados. Por exemplo, podemos estudar a relação entre o sexo de

pessoas (masculino e feminino) e o grau de aceitação do governo (ruim, médio e bom).

Então, você vaiobter, por exemplo, o número de pessoas (freqüência) que são do sexo

feminino e que acham o governo bom. Todos os cruzamentos das duas variáveis são

calculados.

Vamos apresentar a você, como exemplo, os possíveis resultados da situação

apresentada anteriormente (dados simulados).

Sexo Função

Ruim Médio Bom Total

Masculono 157 27 74 258

Feminino 206 0 10 276

Total 363 27 84 474

Podemos, então, querer determinar o grau de associação entre essas duas variáveis, ou

seja, se o grau de aceitação do governo depende do sexo ou existe uma relação de

dependência.

As hipóteses a serem testadas são:

H0: variável linha independe da variável coluna

H1: variável linha está associada com a variável coluna

A estatística de qui-quadrado será dada por meio da seguinte expressão:

( )i i

−=∑

Onde o valor k corresponde ao número de classes (freqüências encontradas). Você pode

verificar que f0 corresponde à freqüência observada, ou seja, o valor encontrado na

tabela de contingência.

Já fe corresponde à freqüência esperada caso as variáveis não tenham nenhuma relação

de dependência, ou seja, as duas variáveis sejam independentes. Em função desta

definição, a freqüência esperada (fe) será obtida por:

( )( )e

total linha total colunaf

total geral=

Neste caso, os graus de liberdade (v), para que possamos olhar a tabela de qui-

quadrado, são dados por:

v = (h-1) (k-1) nas tabelas com h linhas e k colunas Então, para cada célula da tabela de

contingências, você vai calcular a diferença entre fe e. fo. Esta diferença é elevada ao

quadrado para evitar que as diferenças positivas e negativas se anulem. A divisão

pela freqüência esperada é feita para obter diferenças em termos relativos.

Para entendermos melhor o teste de qui-quadrado do tipo independência, vamos

trabalhar com a seguinte situação: para testar se determinada droga era capaz de inibir a

absorção de álcool pelo organismo humano, realizou-se um experimento com a

participação de 60 voluntários (homens saudáveis, idade entre 25 e 28 anos). Metade

dos voluntários tomou a droga, e a outra metade não tomou. Todos os voluntários

tomaram duas doses de uísque. Uma hora mais tarde, selecionou-se uma amostra do

sangue de cada sujeito, observando-se os resultados a seguir. Usando 5% de

significância, pode-se concluir que o resultado do teste está associado à ingestão da

droga?

Teste droga Presença de álcool Ausência de álcool

Tomaram 8 32

Não tomaram 16 40

H0: Presença ou ausência de álcool independe de tomar droga

H1: Presença ou ausência de álcool está associada a tomar droga

Teste droga Presença de álcool Ausência de álcool

Tomaram 8 (10) 32 (30) 40

Não tomaram 16 (14) 40 (42) 56

5 0 2 4 1 49 6

Valores entre parênteses (fe)

( ) ( ) ( ) ( ) ( )i i

f fχ ,

− − − − −= = + + + =∑

2 2 2 2 22

8 1 0 3 2 3 0 1 6 1 4 4 0 4 20 9 1 4

1 0 3 0 1 4 4 2

v = (2-1) . (2-1) = 1 gl

α = 0,05 → Qui-quadrado tabelado = 3,8415

Como o valor calculado (0,914) foi menor do que o tabelado, então o calculado caiu

na região de aceitação de H0.

Portanto, não temos indícios para rejeitar a hipótese H0, ou seja, o uso da droga não levou a uma inibição da absorção de álcool.

Exercícios 1. Pretende-se lançar uma moeda 5 vezes e rejeitar a hipótese de que a moeda é não-

tendenciosa, isto é, pretende-se rejeitar Ho: π = 0,50, se em 5 (cinco) jogadas ocorrerem

5 coroas ou 5 caras. Qual é a probabilidade de se cometer erro do tipo I?

2. Você suspeita que um dado é viciado, isto é, você suspeita que a probabilidade de

obter face 6 é maior do que 1/6. Você decide testar a hipótese de que o dado é não-

viciado, jogando-o cinco vezes e rejeitando essa hipótese se ocorrer a face 6 (seis), 4 ou

5 vezes. Qual o nível de significância do teste?

3. Uma urna contém 6 fichas, das quais θ são brancas e 6 - θ são pretas. Para testar a

hipótese de nulidade de que θ = 3, contra a alternativa de que θ ≠ 3, são retiradas 2

(duas) fichas da urna ao acaso e sem reposição. Rejeita-se a hipótese nula se as duas

fichas forem da mesma cor.

(a) Determine P(Erro do Tipo I).

(b) Determine o poder do teste para os diferentes valores de θ.

(c) Considere, agora, que a segunda ficha é retirada após a reposição da primeira.

Calcule, novamente, o nível de significância e os valores do poder do teste.

(d). Compare os dois procedimentos (com e sem reposição da segunda ficha retirada).

Qual a conclusão?

4. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B,

iremos proceder da seguinte forma:

(i) Selecionamos uma amostra aleatória de 100 moradores adultos da ilha e

determinamos a altura média;

(ii) Se a altura média for superior a 176 cm, diremos que os habitantes são descendentes

de B, caso contrário, admitiremos que são descendentes de A.

Os parâmetros das duas civilizações são: A: µA = 175 cm e σA = 10 cm e B: µB = 177 cm

e σB = 10 cm.

Define-se ainda: erro do tipo I como sendo “dizer que os habitantes são descendentes de

B quando, na realidade, são de A” e erro do tipo II “dizer que os habitantes são de A

quando, na realidade, são descendentes de B”.

(a) Qual a probabilidade de erro do tipo I e do tipo II?

(b) Se σA = σB = 5, como ficariam os valores dos erros do tipo I e II?

(c) Qual deve ser a regra de decisão se quisermos fixar a a probabilidade de Erro I em

5%. Qual a probabilidade de erro II neste caso?

(d) Quais as probabilidades de Erro II, se as médias forem: µA = 178 e se µB = 180?

5. Fazendo o teste H0: µ = 1150 (σ = 150) contra H1: µ = 1200 (σ = 200) e com n = 100,

estabeleceuse a seguinte região crítica: RC = [1170, +∞).

(a) Qual a probabilidade α de rejeitar H0 quando verdadeira?

(b) Qual a probabilidade β de Aceitar H0 quando H1 é verdadeira?

6. Numa linha de produção é importante que o tempo gasto numa determinada operação

não varie muito de empregado para empregado. Em operários bem treinados a

variabilidade fica em 100 u2. A empresa colocou 11 novos funcionários para trabalhar na

linha de produção, supostamente bem treinados, e observou os seguintes valores, em

segundos:

125 135 115 120 150 130 125 145 125 140 130

Testar se a tempo despendido por estes funcionários pode ser considerado mais variável

do que os demais funcionários. Utilize 5% de significância.

7. Diversas políticas, em relação às filiais de uma rede de supermercados, estão

associadas ao gasto médio dos clientes em cada compra. Deseja-se comparar estes

parâmetros de duas novas filiais, através de duas amostras de 50 clientes,selecionados

ao acaso, de cada uma das novas filiais. As médias obtidas foram 62 e 71 unidades

monetárias. Supondo que os desvios padrões sejam idênticos e iguais a 20 um, teste a

hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma

significância de 2,5%?

8. Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferência

dos consumidores pelo por um determinado produto. No primeiro ano o produto era

anunciado com freqüência semanal nos veículos de comunicação e no segundo ano com

freqüência mensal. No levantamento foram utilizados duas amostras independentes de

400 consumidores cada. No primeiro ano o percentual de compradores ficou em 33% e

no segundo ano em 29%. Considerando o nível de significância de 5%, teste a hipótese

de que a freqüência do anúncio tem influência na manutenção da fatia de mercado.

9. Para verificar se uma moeda é honesta, com base em 20 lançamentos independentes,

adotamos o seguinte critério: consideramos a moeda não honesta se o resultado for

menor do que 7 ou maior do que 13.

(a) Formule esse problema como um problema de teste de hipóteses.

(b) Quais são os significados dos erros tipo I e II?

(c) Qual é o nível de significância do teste?

10. No ano de 2003 foi feita uma pesquisa em uma estância turística e constatou-se que

apenas 60% dos visitantes estavam satisfeitos com a infraestrutura oferecida. Com o

intuito de aumentar essa proporção a prefeitura fez algumas melhorias na cidade e

depois de um ano, resolveu verificar se as mesmas produziram o efeito desejado. Para

isso entrevistou 50 turistas.

(a) Formule esse problema como um problema de teste de hipóteses.

(b) Quais são os significados dos erros tipo I e tipo II?

(c) Qual é a região crítica associada a um nível de significância de 10%.

(d) Se 37 dos 50 turistas entrevistados estavam satisfeitos com a infraestrutura oferecida,

qual é asua conclusão?

11. A marca Z de um produto é responsável por 50% das vendas desse produto em um

supermercado. Uma campanha promocional foi contratada e os promotores garantem

que a marca Z passará a ser responsável por uma porcentagem maior das vendas. O

dono do supermercado propõe entrevistar alguns clientes após o encerramento da

campanha promocional e perguntar a cada um deles se ele usualmente compra a marca

Z do produto.Sendo p a porcentagem de vendas do produto Z após a campanha (a)

Estabeleça as hipóteses apropriadas.

(b) Quais são os significados dos erros tipo I e tipo II para o problema?

(c) Se entre 18 clientes entrevistados, 12 responderam sim, qual é a sua conclusão com

base no nível descritivo?

(d) Se entre 324 clientes entrevistados, 178 responderam sim, qual é a sua conclusão

com base no nível descritivo?

12. Com o objetivo de testar uma hipótese H0 contra a hipótese alternativa Ha, um

pesquisador fixou as probabilidades de erros de 1ª e 2ª espécies, respectivamente, em

5% e 10%.

Realizado o teste, imaginem-se 2 situações diferentes:

Em A: O pesquisador rejeitou a hipótese de nulidade

Em B: O pesquisador não rejeitou a hipótese de nulidade.

Para cada situação (A e B) assinale a alternativa correta e justifique.

a) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência

é igual a 5%;

b) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência

é igual a 10%;

c) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada

a este erro é de 15%;

d) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada

a este erro é de 10%;

e) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada

a este erro é de 5%.

12. A resistência ao resfriado comum em uma dada indústria, durante o inverno, é de

p=0,60. Foi proposto um tratamento preventivo com a finalidade de aumentar a

resistência ao resfriado para p=0,70. Então:

a) formule as hipóteses.

b) fixando a= 0,05 (ou valor mais próximo) e admitindo ter sido sorteada uma amostra de

tamanho n=20, observou-se que 4 operários ficaram resfriados. Nestas condições, qual é

a conclusão quanto à eficiência do medicamento?

13. Para se estimar a letalidade da doença B, acompanhou-se uma amostra de 30

doentes durante um ano. Após esse período, cinco deles haviam morrido. Testar a

hipótese de que essa letalidade é igual a 20%. Fixe o erro de 1º espécie em um a=10%.

14. Certa comunidade apresentou em um período de vários anos coeficiente de

incidência da doença X de 12 por 10.000 hab.. Em 1999, a incidência foi de 70 casos e a

população estimada foi igual a 50.000 habitantes. Nestas condições, ao nível de

significância de 1% (ou mais próximo) diga se concorda com as autoridades sanitárias

que consideraram a situação dentro do esperado.

15. Desejando-se conhecer o coeficiente de prevalência de determinada doença na

cidade A, selecionou-se uma amostra aleatória de 500 pessoas. Nesta amostra

detectaram-se 20 doentes. Teste a hipótese de que a prevalência é semelhante à

descrita na literatura de 10%. (Fixando a=5%)

16. Uma nova espécie de trigo desenvolvida em laboratórios será testada quanto a sua

produtividade, em comparação com a espécie tradicional. Dados do governo revelam

que a produtividade média de lavouras que se utilizam da espécie tradicional é de 25

ton/ha. A produtividade de uma fazenda é uma variável aleatória normalmente

distribuída. Dezesseis fazendas foram preparadas para a avaliação da nova espécie.

Qual seria o seu parecer sobre a nova espécie se, em seu experimento você

observasse na amostra média de 28 ton/ha e variância de 12( ton / ha)2 .

17. Um novo método de emagrecimento é anunciado como o fim das gordurinhas a mais

que perseguem a parcela mais abonada da sociedade. Preocupado com a seriedade

profissional dos responsáveis pelo uso do método, o conselho de medicina decide

promover um experimento para avaliar a eficácia do tratamento. Trinta e dois voluntários

são divididos em 2 grupos de igual tamanho, recebendo cada grupo um tratamento

diferente. Um deles recebe o novo método e o outro o método tradicional. Anotou-se a

variação de peso de cada indivíduo após o final do tratamento. Os resultados foram:

ind. 1 2 3 4 5 6 7 8 9 10 11 1

13 14 15 16

Novo 5.3 -

trad. 4.2 -

Suponha que tanto a variação do peso com o tratamento novo, quanto a

variação com o tratamento tradicional sejam variáveis aleatórias com

distribuições normais.

(a) Teste a hipótese de que não há diferença entre os dois métodos, a um nível

de 0,01. Suponha que os dois grupos de voluntários sejam independentes (b)

suponha agora que os indivíduos do primeiro grupo são irmãos gêmeos dos

indivíduos do outro grupo(pares de gêmeos, é claro). Para cada par aplicou-se a

um dos gêmeos o tratamento novo e ao outro o tradicional. Teste com base

nessa informação adicional a mesma hipótese do item anterior, ao mesmo nível

de significância.

18. Um novo método de aprendizagem foi testado através do seguinte experimento.

Em uma turma de 30 alunos utilizou-se o método novo e em outra turma de 30 alunas de

outra escola manteve-se o método tradicional. Ao final do curso aplicou-se um mesmo

exame às duas turmas. Os resultados foram:

Turma1-método novo: média=69 desvio padrão=10

Turma2-método antigo: média=60 desvio padrão=9.

Com base nestas informações, teste se há diferença significativa entre os dois

métodos, a um nível de 0,05. Suponha as notas individuais de cada aluno como v.a.

normais de mesma variância e médias possivelmente diferentes.

19. Um novo tratamento anti-corrosivo para chapas de aço foi testado. O experimento

realizado foi o seguinte: 9 chapas diferentes foram selecionadas sendo cada uma

dividida em duas. A uma das metades aplicou-se o tratamento novo e a outra metade

o tratamento antigo. Anotou-se, então, o tempo até o início da corrosão em cada

metade.Os resultados obtidos foram:

chapa 1 2 3 4 5 6 7 8 9

metade/novo 36.2 48.3 35.4 39.3 40.2 37.4 39.3 42.3 36.0

metade/antigo 31.4 39.2 35.0 33.4 41.3 36.8 38.1 43.0 35.0

Suponha que o tempo até a corrosão em cada metade é uma variável com

distribuição normal, e que o tratamento não influencia na variância desta variável, mas

apenas na sua média. Qual dos tratamentos voce recomendaria que fosse utilizado?

20. Um estudo é desenvolvido para investigar o efeito de um certo tratamento para

controlar a temperatura do corpo de porcos criados em laboratório e que possuem

uma deficiência genética que provoca redução na temperatura corpórea dos

porcos. As temperaturas de interesse foram medidas um dia antes e um dia

depois de submeterem os porcos ao tratamento. Os dados obtidos estão

apresentados na tabela abaixo.

animal 1 2 3 4 5 6 7 8 9 10

antes 38.1 38.4 38.3 38.2 38.2 37.9 38.7 38.6 38 38.2

depois 38.9 38.6 38.2 38.2 39.4 38.5 38.3 38.4 38.8 38.7

a) Há evidências de que o tratamento permite o controle da temperatura ?

b) Calcule um intervalo de confiança para a temperatura após a aplicação do

tratamento.

21. Um entomologista está investigando se um inseto é predador de uma variedade

de uma espécie de plantas com folhas rugosas e uma outra com folhas lisas. Ele

acompanha o crescimento de cinco plantas de cada variedade e conta o número

de ovos do inseto em cada uma delas. Infelizmente ele perde uma observação

referente a planta de folha lisa. Para as 9 plantas que sobraram , ele obtem uma

quantidade média de 48,5 para lisa e 37,2 para rugosa. Fazendo os cálculos ele

encontra um valor t=2,65 com 7 graus de liberdade.

Após verificar melhor seus registros ele encontra a observação perdida, cujo valor é 110.

a) qual é agora o número médio de ovos do inseto para a planta lisa? b) como você acha

que ele determinou o valor de t? c) quando ele repete os cálculos fica surpreso de não

encontrar diferença sigificativa entre o número médio de ovos para os dois tipos de

folhas. O que pode ter acontecido?

C A P Í T U L O 2

ESTATÍSTICA EXPERIMENTAL

2.1 Introdução

Numa pesquisa científica o procedimento geral é formular hipóteses e verificá-las

diretamente ou por suas conseqüências.

Para isto é necessário um conjunto de observações e o planejamento de experimentos é

então essencial para indicar o esquema sob o qual as hipóteses possam ser verificadas

com a utilização de métodos de análise estatística que dependem da maneira sob a qual

as observações foram obtidas. Portanto, planejamento de experimentos e análise dos

resultados estão intimamente ligados e devem ser utilizados em uma seqüência nas

pesquisas científicas das diversas áreas do conhecimento. Isto pode ser visto por meio

da seguinte representação gráfica da circularidade do método científico.

2.1.1 Objetivo

Estudo dos experimentos, isto é, seu planejamento, execução, análise dos dados obtidos

e interpretação dos resultados.

2.1.2 A necessidade da estatística

Numa pesquisa científica, o procedimento geral é formular hipóteses e verificá-las

diretamente ou através de suas circunstâncias. Para tanto, é necessário um conjunto de

observações ou dados e o planejamento de experimentos é, então, essencial para indicar

o esquema sob o qual as hipóteses podem ser testadas.

O que nos obriga a utilizar a análise estatística, para testar as hipóteses formuladas é a

presença em todas as observações de efeito de fatores não controlados, que causam as

variações, tais como:

Diferenças genéticas dos animais, diferenças de fertilidade, etc.

Esses efeitos que sempre ocorrem, não podem ser medidos individualmente e tendem a

mascarar o efeito do tratamento em estudo.

O conjunto de efeitos de fatores não controlados é denominado de variação ao acaso ou

variação aleatória.

Visando tornar mínima a variação do acaso, o experimentador deve fazer o planejamento

de tal forma que consiga isolar os efeitos de todos os fatores que podem ser controlados.

Observações

(1) (3)

Formulação de hipóteses Verificação das hipóteses formuladas

Desenvolvimento da teoria

Fica bastante claro neste esquema que técnicas de planejamento devem ser utilizadas

entre as etapas (1) e (2) e os métodos de análise estatística devem ser utilizados na

etapa (3).

Desenvolvendo um pouco mais está idéia podemos dizer que uma pesquisa científica

estatisticamente planejada consiste nas seguintes etapas

1. Enunciado do problema com formulação de hipóteses.

2. Escolha dos fatores (variáveis independentes) que devem ser incluídos no estudo.

3. Escolha da unidade experimental e da unidade de observação.

4. Escolha das variáveis que serão medidas nas unidades de observação.

5. Determinação das regras e procedimentos pelos quais os diferentes tratamentos são

atribuídos às unidades experimentais (ou vice versa).

6. Análise estatística dos resultados.

7. Relatório final contendo conclusões com medidas de precisão das estimativas,

interpretação dos resultados com possível referência a outras pesquisas similares e uma

avaliação dos itens de 1 a 6 (desta pesquisa) com sugestões para possíveis alterações

em pesquisas futuras.

EXEMPLO - Um pesquisador está interessado em estudar o efeito de vários tipos de

ração que diferem pela quantidade de potássio no aumento do peso de determinado tipo

de animal.

Este objetivo pode ser atingido se planejarmos a pesquisa com a finalidade de: comparar

as médias dos aumentos de peso obtidas com cada uma das rações. Neste exemplo, a

variável independente “ração” é um fator e os tipos de rações são os níveis deste fator,

ou tratamentos.

As medidas realizadas nas unidades experimentais após terem sido submetidas aos

tratamentos constituem os valores da variável dependente (ganho de peso).

Um delineamento experimental apropriado e bem conduzido deve ser o mais simples

possível, ter uma alta probabilidade de atingir seu objetivo e evitar erros sistemáticos.

Suas conclusões devem ser as mais amplas possíveis e as respostas obtidas (dados)

devem ser analisados por

procedimentos estatísticos válidos.

Estudos dos experimentos, isto é, seu planejamento, execução, análise dos dados

obtidos e interpretação dos resultados.

Na etapa 5 de uma pesquisa cientifica descrita acima existem três princípios inerentes

em todos os delineamentos experimentais que são essenciais aos objetivos da ciência

estatística:

2.2. Conceitos importantes em experimentação

a. Experimento ou ensaio

É um trabalho previamente planejado, que segue determinados princípios básicos e no

qual se faz a comparação dos efeitos dos tratamentos.

b. Tratamento ou fator

é o método, elemento ou material cujo efeito desejamos medir ou comparar em um

experimento. Exemplos: a) variedades de milho; b) níveis de proteína na ração e c)

diferentes temperaturas de pasteurização do leite.

c. Unidade experimental ou parcela:

É a unidade que vai receber o tratamento e fornecer os dados que deverão refletir seu

efeito. Em qualquer pesquisa é necessário que o pesquisador discuta com o estatístico a

definição adequada do que constituirá a unidade experimental ou parcela. De um modo

geral, a escolha da parcela deve ser orientada de forma a minimizar o erro experimental,

ou seja, as parcelas devem ser o mais uniforme possível, para que, ao serem submetidas

a tratamentos diferentes, seus efeitos sejam detectados. Exemplos: a) uma fileira de

plantas com 3 metros de comprimento no campo; b) um leitão e c) um litro de leite.

d. Variações de Acaso

São variações que ocorrem nos experimentos atribuídos a efeito de fatores não

controlados, conhecidos ou não, que afetam os resultados experimentais.

Ex.:-diferenças genéticas entre os seres vivos;

-pequenas diferenças de fertilidade de solo;

-pequenas variações nas condições ambientais;

-pequenas variações nas doses de adubos, inseticidas, fungicidas, herbicidas, etc

-pequenos erros de pesagem ou de medida de nutrientes, de pesticidas ou do

produto agrícola, etc.;

-ligeiras variações na distribuição de rações

e. Delineamento experimental

É o plano utilizado na experimentação, e implica na forma como os tratamentos são

designados às unidades experimentais e em um amplo entendimento das análises a

serem feitas quando todos os dados estiverem disponíveis.

Como por exemplo temos:

Delineamento inteiramente casualizado ( DIC )

Delineamento em blocos casualizados (DBC)

Delineamento em quadrado latino (DQL)

f. Variável resposta

É a variável mensurada usada para avaliar o efeito de tratamentos.

g. Erro experimental: é o efeito de fatores que atuam de forma aleatória e que não são

passíveis de controle pelo experimentador.

2.2.1 Etapas da Pesquisa Cientıfica:

1. Enunciado do problema com formulação de hipóteses.

2. Escolha dos fatores (variáveis independentes) que devem ser incluídos no estudo.

3. Escolha da unidade experimental e da unidade de observação.

4. Escolha das variáveis que serão medidas nas unidades de observação.

5.Determinação das regras e procedimentos pelos quais os diferentes tratamentos

(combinação de níveis de fatores) são atribuídos às unidades experimentais (ou vice-

versa).

6. Análise estatística dos resultados.

7. Relatório final contendo conclusões com medidas de precisão das estimativas,

interpretação dos resultados com possível referência a outras pesquisas similares e uma

avaliação dos itens de 1 a 6 (desta pesquisa) com sugestões para possíveis alterações

em pesquisas futuras.

Exemplo: Estudar o efeito de 4 Rações e 3 Vitaminas no ganho de pesos de bovinos.

Denominações:

Fatores: são as variáveis independentes. Podem ser Fixos ou Aleatórios. No exemplo,

temos 2 fatores: A (Rações) e B ( Vitaminas)

Níveis:

No exemplo, temos 4 níveis de Rações (A1, A2, A3 e A4) e 3 níveis de variedade de

vitaminas(B1, B2, B3)

Tratamentos: Combinações dos níveis dos fatores

No exemplo, temos 4 x 3 tratamentos: A1B1;A1B2; ... ;A4B3

Tipos de fatores: Fixos ou hierárquicos

Classificação dos fatores: Cruzada ou Hierárquica

2.3 Escolha dos fatores e seus respectivos níveis 2.3.1 Escolha da Unidade Experimental

Em um grande número de situações práticas a unidade experimental é determinada pela

própria natureza do material experimental. Por exemplo, em experimentos com animais,

em geral, a unidade experimental é um animal.

Em outras situações, a escolha da unidade não é assim tão evidente, exigindo do

pesquisador juntamente com o estatístico algum estudo no sentido escolher a unidade

experimental mais adequada. Por exemplo, em experimentos com plantas, a unidade

experimental pode ser as vezes uma planta, um conjunto de plantas ou uma área. A

escolha da unidade experimental, de um modo geral, deve ser orientada no sentido de

minimizar o erro experimental, isto é, as unidades experimentais devem ser o mais

homogêneas possível, para que quando submetidas a dois tratamentos diferentes, seus

efeitos sejam facilmente detectados.

2.3.2 Escolha das Variáveis a Serem Medidas

As medidas realizadas nas unidades experimentais após terem submetidas aos

tratamentos constituem os valores da variável dependente. A variável dependente, em

geral, é pré-determinada pelo pesquisador, isto é, ele sabe qual a variável que ele quer

medir. O que constitui problema, às vezes, ´e a maneira como a variável é medida, pois

disto dependem a precisão das observações, e a distribuição de probabilidade da variável

a qual ´e essencial para a escolha do método de análise estatística. Assim, por exemplo,

se os valores de uma variável são obtidos diretamente por meio de um instrumento de

medida, (réguas, paquímetro, termômetro, etc.) a precisão de nossas observações vai

aumentar se, quando possível, utilizarmos como observação a média de três medidas da

mesma unidade experimental. Com relação à distribuição de probabilidade, em muitas

situações, as observações não são obtidas diretamente, e sim por meio de expressões

matemáticas que as ligam a outros valores obtidos diretamente. Neste caso, a

distribuição de probabilidade das observações vai depender da distribuição de

probabilidade da variável obtida diretamente e da expressão matemática que as

relaciona.

Portanto, as variáveis necessariamente presentes em um experimento são a variável

dependente, medida nas unidades experimentais, e o conjunto de fatores (variáveis

independentes), que determinam as condições sob as quais os valores da variável

dependente são obtidos. Qualquer outra variável que possa influir nos valores da variável

dependente deve ser mantida constante. Suponhamos, por exemplo, que o tempo

necessário para executar um experimento seja de 20 dias e que a temperatura ambiente

tenha influência sobre a variável dependente.

Neste caso, a temperatura ambiente deve ser mantida constante durante a execução do

experimento. Se, por problemas experimentais, for impossível mantermos a temperatura

ambiente constante, então devemos, além da variável dependente, medir a temperatura

correspondente a cada unidade experimental. Variáveis deste tipo são consideradas no

estudo como covariadas e sua informação é utilizada para reduzir o erro experimental.

2.3.3 Regras Segundo as quais os Tratamentos são Atribuídos as Unidades

Experimentais

Nas discussões apresentadas sobre cada um dos itens anteriores, a colaboração da

estatística é bem limitada exigindo-se a essencial colaboração do pesquisador. Porém, o

assunto discutido neste ıtem é o que poderíamos denominar planejamento estatístico de

experimentos. Trata-se de regras que associam as unidades experimentais aos

tratamentos e que praticamente determinam os diferentes planos experimentais.

Lembramos neste ponto que os tratamentos são cada uma das combinações entre os

níveis de todos os fatores envolvidos no experimento.

Para que a metodologia estatística possa ser aplicada aos resultados de um experimento

é necessário, que em alguma fase do experimento o princípio a ser obedecido ´e a

repetição, segundo o qual devemos ter repetições do experimento para que possamos

produzir uma medida de variabilidade necessária aos testes de presença de efeitos de

tratamentos ou `a estimação desses efeitos.

Discutiremos a seguir estes dois princípios.

2.4 Princípios básicos da experimentação

Um delineamento experimental apropriado e bem conduzido deve ser o mais simples

possível, ter uma alta probabilidade de atingir seu objetivo e evitar erros sistemáticos.

Suas conclusões devem ser as mais amplas possíveis e as respostas obtidas (dados)

devem ser analisados por procedimentos estatísticos válidos.

Estudos dos experimentos, isto é, seu planejamento, execução, análise dos dados

obtidos e interpretação dos resultados.

2.4.1 Princípio da repetição

Repetição significa que um tratamento é repetido duas ou mais vezes. Sua função é

fornecer uma estimativa do erro experimental e dar uma medida mais precisa dos efeitos

dos tratamentos. O número de repetições que serão requeridas em um particular

experimento depende da magnitude das diferenças que o pesquisador deseja detectar e

da variabilidade dos dados com que se esta trabalhando. Levando-se em conta estas

duas coisas no começo do experimento, muitos problemas e frustrações serão evitadas.

Em condições de campo temos:

- Sem repetição

Baia 1 Baia 2

- Com repetição

Baia 1 Baia 2 Baia 3 Baia 4 Baia 5

A A A A A

B B B B B

As principais funções da repetição são:

(i) o erro experimental é uma medida da variação que existe entre as observações de

parcelas tratadas semelhantemente. Esta variação, que é conhecida como variação

casual ou variação de acaso, é oriunda de 2 fontes principais: a variabilidade inerente

do material e aquela resultante da falta de uniformidade na condução física do

experimento.

(ii) O erro experimental é indispensável na determinação do erro de estimativa (por

ponto e por intervalo), no dimensionamento de amostra e na construção de testes de

hipóteses.

(iii) Através da repetição é que nos é possível estimar o erro experimental. Num experimento sem

repetição não nos é possível dizer se uma diferença constatada entre tratamentos pode ser

explicada como uma diferença entre tratamentos ou entre parcelas experimentais.

2.4.2 Princípio da casualização

Casualização é a designação dos tratamentos às unidades experimentais, tal que estas

têm a mesma chance (mesma probabilidade) de receber um tratamento. Sua função é

assegurar estimativas não-viesadas das médias dos tratamentos e do erro experimental.

Nesta fase do planejamento de um experimento já sabemos quais fatores serão

estudados e o número de níveis de cada fator que estarão presentes no experimento.

Sabemos ainda qual é a unidade experimental escolhida e a variável dependente.

Podemos imaginar que de um lado temos um conjunto U de unidades experimentais, e

de outro um conjunto T de tratamentos, que podem ser as combinações dos níveis de

todos os fatores envolvidos. Precisamos estabelecer esquemas que associam

subconjuntos de elementos de U a cada elemento de T. Vamos apresentar o esquema

mais simples. Para efeitos de notação vamos supor que o conjunto U tem n elementos, o

conjunto T tem k elementos, e o número de elementos de U submetidos ao tratamento Ti

é ri, com i=1, 2, ..., k, de tal modo que k

r nii 1

O plano completamente aleatorizado é um esquema em que as unidades

experimentais que vão ser submetidas a cada tratamento são escolhidas completamente

ao acaso. Isto significa que cada unidade experimental tem igual probabilidade de

receber qualquer um dos tratamentos. Por exemplo, um pesquisador quer realizar um

experimento para estudar o efeito de um resíduo industrial que é adicionado em rações

de animais. Ele suspeita que este resíduo contém uma substância tóxica, cuja presença

no organismo produz um aumento relativo de alguns órgãos, como o fígado por exemplo.

Após uma entrevista com o pesquisador conseguimos as seguintes informações • O

experimento irá envolver um único fator, ração, com três níveis: t1 - ração normal, sem

resíduo industrial (grupo controle; t2 - ração normal com o resíduo tratado, e t3 - ração

normal com resíduo não tratado.

• Um conjunto de 18 camundongos foi selecionado. Todos, recém nascidos, com o

mesmo peso inicial e homogêneos com relação às características genéticas gerais. Por

isto foi decidido distribuir completamente ao acaso 6 animais para cada tratamento.

• A variável dependente (resposta) é o peso relativo do fígado após 90 dias do início do

experimento.

Uma maneira de se proceder ao sorteio é a seguinte:

• enumera-se as unidades experimentais de 1 a 18.

• coloca-se os tratamentos em seqüência , por exemplo:

T1 T1 T1 T1 T1 T1 , T2 T2 T2 T2 T2 T2 , T3 T3 T3 T3 T3 T3

• sorteia-se uma sequência de 18 números aleatórios. Pode-se obter, por exemplo, a

sequência :3, 1, 11, 15, 18, 16, 4, 5, 9, 12, 8, 7, 17, 14, 2, 6, 13, 10

• Distribuição das unidades experimentais segundo os tratamentos

Tratamentos Repetiçõe

T1 A3 A1 A11 A15 A18 A16

T2 A4 A5 A9 A12 A8 A7

T3 A17 A14 A2 A6 A13 A10

. Em condições de campo, temos:

- Sem casualização (com repetição)

A A A A A

B B B B B

- Com casualização (com repetição)

A B A B B

B A A B A

Se, após a repetição e a casualização, a ração A apresentar maior desempenho,

é de se esperar que esta conclusão seja realmente válida.

2.4.3 Princípio do controle local:

Este princípio de delineamento experimental permite certas restrições na aleatorização

para reduzir o erro experimental. Isto é comum quando o conjunto U de unidades

experimentais for muito heterogêneo (em termos da variável independente), o plano

experimental completamente casualizado torna-se pouco preciso porque o erro

experimental é muito grande. Em algumas situações dispomos de informações segundo

as quais, antes da realização do experimento, é possível agruparmos as unidades

experimentais em subconjunto de k unidades experimentais mais ou menos

homogêneas, sendo k o número de tratamentos envolvidos no experimento. Estes

subconjuntos são denominados blocos. Assim, a maior parte da heterogeneidade interna

do conjunto U é expressa pela heterogeneidade entre os blocos. A distribuição das

unidades experimentais entre os tratamentos obedece a uma restrição imposta pelos

blocos, isto é, as k unidades de cada bloco são distribuídas aleatoriamente entre os

tratamentos. Na análise de um experimento em blocos, além dos fatores de interesse,

deve-se levar em conta o fator controle experimental, blocos, diminuindo desta maneira

o erro experimental. Quanto maior for a heterogeneidade entre blocos, maior é a

eficiência deste plano experimental em relação ao completamente casualizado.

Em condições de campo, temos:

- Sem repetição, sem casualização, sem controle local

Baia 1 Baia 2

- Com repetição, com casualização, com controle local

Bloco 1 Bloco 2 Bloco 3

A B B A B A

Bloco 4 Bloco 5 Bloco 6

A B A B B A

O controle local constitui restrições impostas na casualização para corrigir os efeitos da

variação conhecida ou suspeitada do material experimental. Considerando o controle

local, temos os seguintes tipos de delineamentos:

-Delineamento Inteiramente Casualizado (DIC) - sem controle local;

-Delineamento em Blocos Casualizados (DBC) - controle feito através de blocos

horizontais;

-Delineamento em Quadrado Latino (DQL) - controle feito através de blocos horizontais e

verticais.

A finalidade do controle local é dividir um ambiente heterogêneo em sub-ambientes

homogêneos. Este procedimento torna o experimento mais eficiente porque reduz o erro

experimental.

2.5 Número de repetições

O número de repetições de um experimento depende de uma série de fatores dos quais o

mais importante é o grau de precisão desejado.

Quanto menor a diferença real entre tratamentos que se quer detectar, maior é o número

de repetições necessárias. Há pouco valor em usar 10 repetições para detectar uma

diferença que 4 repetições detectaria; da mesma forma, há pouco valor em se executar

um experimento onde o número de repetições não é suficiente para detectar diferenças

que são importantes.

A heterogeneidade do material experimental é um fator que afeta o número de

repetições. Quanto maior o grau de heterogeneidade do material, maior deve ser o

número de repetições.

Como uma regra geral, aconselha-se usar um número de repetições que proporcione no

mínimo 10 graus de liberrdade para se estimar a variância residual (s2).

2.6 Bordaduras

São áreas que separamos na parcela para evitar a influência dos tratamentos aplicados

nas parcelas vizinhas. Assim, temos a área total e a área útil da parcela. Os dados a

serem usados na análise estatística serão aqueles coletados apenas na área útil da

parcela.

Como exemplo, temos : 10 m Área Total

Área Útil 4 m

Exercícios

1. Um experimento deve conter no mínimo o(s) seguinte(s) princípio(s) básico(s) da

experimentação:

a) repetição

b) casualização

c) controle local

d) repetição e controle local

e) repetição e casualização

f) casualização e controle local

g) nenhuma das respostas anteriores

2. A repetição tem a função de:

a) fornecer uma estimativa do erro experimental

b) validar a estimativa do erro experimental

c) controlar a heterogeneidade das unidades experimentais

d) nenhuma das anteriores

3. A casualização tem a função de:

a) fornecer uma estimativa do erro experimental

b) validar a estimativa do erro experimental

c) controlar a heterogeneidade das unidades experimentais

d) nenhuma das anteriores

4. Um extensionista, desejando comparar 10 rações para ganho de peso em animais,

procedeu da seguinte forma:

- tomou 10 animais de uma propriedade rural. Estes 10 animais visivelmente não eram

homogêneos entre si, porque foram oriundos de diferentes cruzamentos raciais e

apresentavam idades diferentes.

- as rações que o extensionista julgou ser as melhores foram designadas aos melhores

animais, e as rações que o extensionista julgou ser as piores foram designadas aos

piores animais, de tal forma que cada animal recebeu uma única ração.

- ao final de sua pesquisa, o extensionista recomendou a ração que proporcionou maior

ganho de peso nos animais.

Baseado nestas informações, pergunta-se:

a) Quantos e quais foram os tratamentos em teste nesta pesquisa? Justifique sua

resposta.

b) Qual foi a constituição de cada unidade experimental nesta pesquisa? Justifique sua

resposta.

c) Qual(is) foi(ram) o(s) princípio(s) básico(s) da experimentação utilizados nesta

pesquisa? Justifique a sua resposta.

d) É possível estimar o erro experimental nesta pesquisa? Justifique sua resposta.

e) A conclusão dada pelo extensionista ao final da pesquisa, é estatisticamente

aceitável? Justifique a sua resposta.

5. Um bioquímico desejando verificar qual entre 5 enzimas (identificadas como E1, E2,

E3, E4 e E5) produz maiores fragmentos de DNA de células epiteliais de cobaias,

realizou o seguinte ensaio:

- selecionou um conjunto de 15 cobaias (sistematicamente identificadas como 1, 2, 3, 4,

5, 6, 7, 8, 9, 10, 11, 12, 13, 14 e 15) que eram supostamente homogêneas para as

características essenciais;

- de cada uma das 15 cobaias, tomou uma amostra de tecido epitelial de cada um dos

seguintes membros: superior, mediano e inferior. Procedeu posteriormente a uma mistura

das amostras coletadas dos três membros, denominada de amostra composta;

- cada amostra composta foi convenientemente tratada para a extração do DNA. A

amostra obtida contendo apenas o DNA foi denominada amostra genômica. As amostras

genômicas foram identificadas de acordo com o número da cobaia que a originou, ou

seja, a amostra genômica identificada como C1, conteve DNA extraído da cobaia 1; a

amostra genômica identificada como C2, conteve DNA extraído da cobaia 2; e assim por

diante. Ao final obteve-se as amostras genômicas C1, C2, C3, C4, C5, C6, C7, C8, C9,

C10, C11, C12, C13, C14 e C15;

- cada uma das amostras genômicas foi tratada com um tipo de enzima. A distribuição

das enzimas às amostras foi feita da seguinte forma sistemática: E1 foi destinada às

amostras genômicas C1, C2 e C3; E2 foi destinada às amostras genômicas C4, C5 e C6;

E3 foi destinada às amostras genômicas C7, C8 e C9; E4 foi destinada às amostras

genômicas C10, C11 e C12; e E5 foi destinada às amostras genômicas C13, C14 e C15;

- uma amostra de 1 ml de cada substrato químico dos fragmentos de DNA foi colocado

para correr em um gel. O tempo, em minutos, gasto por cada uma das 15 amostras para

percorrer a distância de 25 cm foi registrado para comparar o efeito das enzimas E1, E2,

E3, E4 e E5.

Com base nas informações fornecidas deste ensaio e das explicações fornecidas em sala

de aula, pergunta-se:

a) Quais foram os tratamentos em teste neste experimento? Justifique a sua resposta.

b) Neste experimento os tratamentos surgiram de uma forma aleatória, premeditada ou

sistemática? Justifique a sua resposta.

c) Qual foi a unidade experimental nesta pesquisa? Justifique a sua resposta.

d) O princípio da repetição foi utilizado nesta pesquisa? Justifique a sua resposta. Em

caso afirmativo, explique porque diferentes observações obtidas para um mesmo

tratamento não são iguais. Em caso negativo, faça uma análise crítica quanto à

necessidade do uso de repetições num experimento.

e) O princípio da casualização foi utilizado nesta pesquisa? Justifique a sua resposta.

f) O princípio do controle local foi utilizado nesta pesquisa? Justifique a sua resposta.

Em termos gerais, quando que o princípio do controle local deve ser utilizado em um

experimento?

g) É possível estimar o erro experimental nesta pesquisa? Justifique a sua resposta.

Em caso afirmativo, a estimativa do erro experimental é válida? Justifique a sua resposta.

Em caso negativo, indique o que deveria ser feito de diferente neste ensaio para ser

possível estimar o erro experimental. Justifique a sua resposta.

h) Neste ensaio, qual foi a variável resposta utilizada para comparar os efeitos de

tratamentos? Justifique a sua resposta.

6. Um pesquisador desejava comparar os efeitos que 8 tipos de óleo têm sobre o teor de

gordura total em preparos de maionese. Com esta finalidade, esse pesquisador procedeu

da seguinte forma:

- para a avaliação do teor de gordura total, o pesquisador tinha à sua disposição 8

bioquímicos. Devido à falta de experiência dos bioquímicos, o pesquisador temia que a

medição dos mesmos pudesse interferir na comparação dos tipos de óleo.

Visando controlar esta fonte de variação, o pesquisador decidiu que cada um dos 8

bioquímicos deveria fazer a medição do teor de gordura dos preparos de maionese

produzidos utilizando os 8 tipos de óleo;

- baseado em experimentos anteriores, o pesquisador sabia que, apesar do controle de

qualidade, havia variação entre os lotes de substrato de preparos de maionese.

O substrato de preparo da maionese é o composto que tem todos os ingredientes do

preparo da maionese, exceto o óleo. Como um lote de substrato não seria suficiente para

testar os 8 tipos de óleo em todas as repetições desejadas, o pesquisador decidiu que

prepararia 8 lotes de substrato e dividiria cada lote em 8 partes iguais. Cada uma das 64

partes, assim obtidas, seria denominada de amostra básica;

- foi então realizada uma distribuição ao acaso dos 8 tipos de óleo às amostras básicas,

tendo as seguintes restrições na casualização:

1a) cada tipo de óleo deveria ser aplicado em uma única amostra básica de cada um dos

8 lotes de substrato.

2a) os 8 tipos de preparo de maionese obtidos misturando cada uma das amostras

básicas com cada um dos 8 tipos de óleo, deveriam ser avaliadas por cada um dos 8

bioquímicos;

No local que foi conduzido o experimento, o pesquisador constatou que, após certo

tempo do experimento ter sido instalado, houve uma pequena contaminação por fungo

em algumas unidades experimentais. O pesquisador, usando do seu conhecimento

técnico na área, julgou que a contaminação não comprometeria os resultados obtidos no

experimento.

Baseando-se nestas informações, responda com objetividade e clareza, as seguintes

perguntas:

a Quais foram os tratamentos em teste? Justifique a sua resposta.

b Como você classificaria a fonte de variação contaminação por fungo, observada

nesse experimento? Justifique a sua resposta.

c Qual foi a unidade experimental utilizada nesta pesquisa? Justifique a sua resposta.

d O princípio da repetição foi utilizado nesta pesquisa? Se sua resposta for afirmativa,

responda qual foi o número de repetições utilizado. Se a sua resposta for negativa,

responda se o procedimento do pesquisador está correto.

e O princípio da casualização foi utilizado nesta pesquisa? Justifique a sua resposta.

f O princípio do controle local foi utilizado nesta pesquisa? Se a sua resposta for

afirmativa, explique como este princípio foi utilizado. Se a sua resposta for negativa,

explique por que não houve a necessidade da utilização deste princípio.

g Qual foi a característica utilizada pelo pesquisador para avaliar o efeito de

tratamentos neste experimento. Justifique a sua resposta.

7. Um fabricante de móveis realizou um experimento para verificar qual dentre cinco

marcas de verniz proporciona maior brilho. Com esta finalidade, procedeu da seguinte

forma:

- Em sua fábrica identificou amostras de madeira que estariam disponíveis para a

realização deste experimento. Verificou que possuía cinco tábuas de Jatobá, cinco

tábuas de Cerejeira, cinco tábuas de Mogno, cinco tábuas de Goiabão e cinco tábuas de

Castanheira. Constatou também que as cinco tábuas de cada tipo de madeira eram

homogêneas para as características essenciais e que havia uma grande variedade de

cores entre os cinco tipos de madeira (Jatobá, Cerejeira, Mogno, Goiabão e Castanheira).

Sabe-se que a cor da madeira pode influenciar muito o brilho da mesma quando

envernizada;

- Resolveu então distribuir ao acaso as cinco marcas de verniz às tábuas de

madeira, de tal forma que cada tipo de madeira fosse testada com todas as marcas de

verniz;

- O brilho foi medido por meio de um aparelho que mede a refletância da luz branca

projetado sobre a tábua de madeira envernizada;

Baseado nas informações deste experimento, pergunta-se:

a. Qual foi a unidade experimental utilizada neste experimento? Justifique a sua resposta.

b. Quais foram os tratamentos comparados neste experimento? Justifique a sua resposta.

c. Quais foram os princípios básicos da experimentação utilizados neste experimento?

Justifique a sua resposta.

d. É possível estimar o erro experimental neste experimento? Justifique a sua resposta.

Se a resposta for afirmativa, a estimativa do erro é válida? Justifique. Se a resposta foi

negativa, explique o que deveria ser feito para obter uma estimativa válida para o erro

experimental.

e. O que faz surgir o erro num experimento? É possível eliminar totalmente o efeito do

erro experimental em um experimento? Justifique a sua resposta.

f. O procedimento adotado pelo pesquisador de distribuir as marcas de verniz ao acaso

dentro de cada tipo de madeira foi realmente necessário? Justifique a sua resposta.

8. Um pesquisador de uma indústria de alimentos desejava verificar se seis sabores de

sorvete apresentavam o mesmo o teor de glicose. O pesquisador, baseado em

experimentos anteriores, sabia que duas outras fontes de variação indesejáveis poderiam

influenciar o valor mensurado do teor de glicose: o tipo de recipiente utilizado para

armazenagem do sorvete e o equipamento utilizado para mensuração do teor de glicose.

Para controlar estas duas fontes de variação o pesquisador decidiu que cada sabor

deveria ser avaliado em cada um dos seis equipamentos disponíveis; e armazenado em

cada um dos seis tipos de recipientes disponíveis. Com esta finalidade, o pesquisador

planejou o experimento da seguinte maneira:

- preparar 6 lotes de 100 ml de cada sabor. O total de lotes a serem preparados seria de

36 lotes;

- os lotes de sorvetes deveriam ser distribuídos ao acaso aos recipientes, com a restrição

de que cada tipo de recipiente recebesse todos os 6 sabores uma única vez;

os lotes de sorvetes seriam designados ao acaso aos equipamentos para a análise do

teor de glicose, com a restrição de que cada equipamento avaliasse cada um dos seis

sabores uma única vez.

Baseando-se nestas informações, pergunta-se:

a. Quais foram os tratamentos em teste neste experimento? Justifique a sua resposta.

b. O princípio da repetição foi utilizado neste experimento? Justifique a sua resposta.

c. O princípio do controle local foi utilizado neste experimento? Justifique a sua resposta.

Se a resposta for afirmativa, quantas vezes o mesmo foi utilizado? Se a resposta for

negativa, discuta sobre a necessidade do mesmo ser utilizado neste experimento.

C A P Í T U L O 3

TESTES DE SIGNIFICÂNCIA

3.1. Introdução

Um dos principais objetivos da estatística é a tomada de decisões à respeito da

população com base nas observações de amostras.

AMOSTRAGEM

Inferência

estatística

População Amostra

Ao tomarmos decisões, é conveniente a formulação de Hipóteses relativas às

populações, as quais podem ser ou não verdadeiras.

Exemplo: Um veterinário está interessado em estudar o efeito de 4 tipos de rações que

diferem pela quantidade de potássio no aumento de peso de coelhos.

H0: Não existe diferença entre as rações, ou seja, quaisquer diferenças observadas são

devidas a fatores não controlados

H1: As rações propiciam aumentos de pesos distintos,

H0 é denominada de hipótese de nulidade, a qual assume que não existe efeito dos

tratamentos e H1 é a contra hipótese.

Média populacional

X Média amostral

3.2. Contrastes 3.2.1. Introdução

O estudo de contrastes é muito importante na Estatística Experimental, principalmente

quando o experimento em análise é composto por mais do que dois tratamentos. Com o

uso de contrastes é possível ao pesquisador estabelecer comparações, entre tratamentos

ou grupos de tratamentos, que sejam de interesse.

Este capítulo visa dar fundamentos para estabelecer grupos de contrastes, obter a

estimativa para cada contraste estabelecido, bem com estimar a variabilidade associada

a cada um destes contrastes. Todos os conhecimentos adquiridos neste capítulo serão

utilizados no Capítulo 5 para se realizar testes de hipóteses para o grupo de contrastes

estabelecidos.

3.2.2. Definições

a. Contraste

Considere a seguinte função linear de médias populacionais de tratamentos

C = a1 m1 + a2 m2 + ... + aI mI

C será um contraste entre médias se satisfizer a seguinte condição: i

b. Estimador do Contraste

Na prática, geralmente não se conhece os valores das médias populacionais mi ,mas

suas estimativas. Daí, em Estatística Experimental, não se trabalhar com o contraste C

mas com o seu estimador Cˆ , que também é uma função linear de médias obtidas por

meio de experimentos ou amostras. Assim tem-se que o estimador para o contraste de

médias é dado por:

1 1 2 2 I IC a m a m ... a m= + + +

Exercício

3.1 Num experimento de consórcio na cultura do abacaxi, com 5 repetições, as médias

de produção de frutos de abacaxi (em t/ha), foram as seguintes:

Tratamentos m

1 - Abacaxi (0,90 x 0,30m) monocultivo 53,5 2 - Abacaxi (0,80 x 0,30 m) monocultivo 56,5 3 - Abacaxi (0,80 x 0,30 m) + amendoim 62,0 4 - Abacaxi (0,80 x 0,30 m) + feijão 60,4

Pede-se obter as estimativas dos seguintes contrastes:

C1 = m1 + m2 – m3 – m4

C2 = m1 – m2

C3 = m3 – m4

3.2.3. Medidas de dispersão associadas a contrastes

Considere o estimador do contraste C, dado por:

1 1 2 2 I IC a m a m ... a m= + + +

A variância do estimador do contraste é dada por:

1 1 2 2 I Iˆ V(C) V(a m a m ... a m )= + + +

Admitindo independência entre as médias

1 1 2 2 I IˆV(C) V(a m ) V(a m ) ... V(a m )= + + +

1 2 i Iˆ V(C) a V(m ) a V(m ) ... a V(m )= + + +

2 2 21 2

Sabe-se que: iI

σV(m )

assim,

σ σ σˆV(C) a a ... ar r r

= + + +

2 2 22 2 21 21 2

Admitindo-se homogeneidade de variâncias, ou seja n

σ σ ...σ σ= = =2 2 2 21 2 então,

a a a aˆ V(C) ... σ σr r r r=

= + + + =

∑2 2 2 2

2 21 21

Na prática, geralmente, não se conhece a variância σ2 , mas sua estimativa a qual obtida

por meio de dados experimentais. Esta estimativa é denominada como estimador comum

Então o que normalmente se obtém é o valor do estimador da variância do estimador do

contraste, a qual é obtida por

aˆV C Sr=

= ∑2

Exercício

2.2 Por meio dos dados e dos contrastes fornecidos abaixo, obter as estimativas dos

contrastes e as estimativas das variâncias das estimativas dos contrastes.

m 1=11,2 m 2= 10,5 m 3= 10,0 m 4= 21,0

r r= =1 2 6 r =3 4 r =4 5 c

C1 = m1 + m2 – m3 – m4

C2 = m1 – m2

C3 = m3 – m4

3.2.4. Contrastes Ortogonais

Em algumas situações desejamos testar um grupo de contrastes relacionados com o

experimento em estudo. Alguns tipos de testes indicados para este objetivo, necessitam

que os contrastes, que compõem o grupo a ser testado, sejam ortogonais entre si. A

ortogonalidade entre os contrastes indica independência linear na comparação

estabelecida por um contraste com a comparação estabelecida pelos outros contrastes.

Sejam os estimadores dos contrastes de C1 e C2 dados, respectivamente, por:

1 1 2 2 I IC a m a m ... a m= + + +1

1 1 2 2 I IC b m b m ... b m= + + +2

A covariância entre ˆ ˆC e C1 2 supondo independência entre tratamentos, é obtida

i i Iˆ ˆCOV(C , C ) a b V(m ) a b V(m )... a b V(m )= + +1 2 1 1 1 2 2 2

A variância da média amostral é dada por: iI

σV(m )

, para i = 1, 2, ..., I. Logo,

σ σ σˆ ˆCOV(C , C ) a b a b V ... a br r r

= + + +

2 2 21 2

1 2 1 1 2 21 2

Admitindo que exista homogeneidade de variâncias entre os tratamentos, ou seja

nσ σ ...σ σ= = =

2 2 2 21 2 então:

Ii i i i

a b a b a b a bˆ ˆCOV(C , C ) ... σ σr r r r=

= + + + =

∑2 21 1 2 2

1 211 2

Sabe-se que, se duas variáveis aleatórias são independentes, a covariância entre

elas é igual a zero. Assim, se 1 Cˆ e 2 Cˆ são independentes, a covariância entre eles é

a zero, isto é:

ˆ ˆCOV(C , C ) =1 20

Para que a covariância seja nula, é necessário, portanto que: I

Esta é a condição de ortogonalidade entre dois contrastes para um experimento com

número diferente de repetições para os tratamentos. Para um experimento com o mesmo

número de repetições, satisfazendo as mesmas pressuposições (médias independentes

e homogeneidade de variâncias), a condição de ortogonalidade se resume

Para um experimento com I tratamentos, podem ser formados vários grupos de

contrastes ortogonais, no entanto cada grupo deverá conter no máximo (I-1) contrastes

ortogonais, o que corresponde ao número de graus de liberdade para tratamentos.

Dentro de um grupo de contrastes ortogonais, todos os contrastes tomados dois a dois,

serão também ortogonais.

Exercícios

1. Verificar se os contrastes do Exercício 2.1 formam um grupo de contrastes ortogonais.

2. Verificar se os contrastes do Exercício 2.2 formam um grupo de contrastes ortogonais.

33. Métodos para obtenção de grupos de contrastes mutuamente ortogonais

Obtenção por Meio de Sistema de Equações Lineares

Neste método, deve-se estabelecer, a princípio, um contraste que seja de interesse e, a

partir deste é que os demais são obtidos. Por meio da imposição da condição de

ortogonalidade e da condição para ser um contraste, obtém-se equações lineares, cujas

incógnitas são os coeficientes das médias que compõem o contraste. Como o número de

incógnitas é superior ao número de equações existentes, será sempre necessário atribuir

valores a algumas incógnitas. É desejável que os valores a serem atribuídos, permitam

que os coeficientes sejam números inteiros.

Exercício

1. Foi instalado para avaliar a produção de 4 híbridos cujas características são

apresentadas na tabela a seguir.

Hibrido 1 2 3 4

Porte Alto Alto Alto Baixo Inicio do Florescimento

Precoce

Tardio

Precoce

Índice de acamamento

Médio

ri 3 3 3 3

Suponha que ao estabelecer as comparações dos híbridos com relação a produção, seja

levado em consideração

• o porte;

• o início do florescimento;

• o índice de acamamento.

Obtenha um grupo de contrastes ortogonais que permita testar as comparações segundo

os critérios citados.

Obtenção por Meio de Regras Práticas

Por meio desta metodologia, é possível estabelecer facilmente um grupo de contrastes

ortogonais. A metodologia pode ser resumida nos seguintes passos (BANZATTO e

KRONKA, 1989):

Divide-se o conjunto das médias de todos os tratamentos do experimento em dois

grupos. O primeiro contraste é obtido pela comparação das médias de um grupo contra

as médias do outro grupo. Para isso atribui-se sinais positivos para membros de um

grupo e negativos para membros do outro grupo.

Dentro de cada grupo formado no passo anterior, que possui mais que uma média,

aplica-se o passo 1, subdividindo-os em subgrupos. Repete-se este passo até que se

forme subgrupos com apenas uma média. Ao final, deveremos ter formado (I-1)

comparações.

Para se obter os coeficientes que multiplicam cada média que compõem os contrastes

estabelecidos, deve-se, para cada contraste:

Verificar o número de parcelas experimentais envolvidas no 1º grupo, digamos g1, e o

número de parcelas experimentais envolvidas no 2º grupo, digamos g2. Calcula-se o

mínimo múltiplo comum (m.m.c.) entre g1 e g2.

Dividir o m.m.c. por g1. O resultado será o coeficiente de cada média do 1º grupo

Dividir o m.m.c. por g2. O resultado será o coeficiente de cada média do 2º grupo.

Multiplicar os coeficientes obtidos pelo número de repetições da respectiva média.

Se possível, simplificar os coeficientes obtidos por uma constante. No caso em que o

número de repetições é igual para todos os tratamentos, este passo pode ser eliminado.

Exercícios

1. Num experimento inteiramente casualizado, com 4 repetições, foram comparados os

efeitos de 5 tratamentos em relação ao crescimento de mudas de Pinus oocarpa, 60 dias

após a semeadura. Os tratamentos utilizados e os resultados obtidos foram (BANZATTO

e KRONKA, 1989):

Tratamentos Totais

1 – Solo de cerrado (SC) 21,0

2 – Solo de cerrado + esterco (SC+E) 27,1

3 – Solo de cerrado + esterco + NPK (SC+E+NPK) 26,6

4 – Solo de cerrado + vermiculita (SC+V) 22,1

5 – Solo de cerrado + vermiculita + NPK (SC+V+NPK)

Obtenha um grupo de contrastes ortogonais entre as médias.

2. Suponha agora para o exemplo 1 que os tratamentos 1 e 4 tenham 3 repetições e os

tratamentos 2, 3 e 5 tenham 4 repetições. Obtenha um grupo de contrastes ortogonais

entre médias.

3. Dados

Tratamentos Média Repetições

1 25,0 5

2 18,7 5

3 30,4 5

4 27,5 6

e os contrastes

C1 =m1 – m2

C2 =m1 + m2 - 2 m3

C3 = m1 + m2 + m3 – 3 m4

Admitindo-se que os estimadores das médias sejam independentes e que c

=0,45,

pede-se

ˆ ˆC , C1 2 e C 3

ˆ ˆV(C ),V(C )1 2 e ˆV(C )3

c) as estimativas das covariâncias entre os estimadores dos contrastes, e por meio das

mesmas, dizer quais são os contrastes ortogonais entre si.

4. Supondo independência entre médias, homogeneidade de variâncias entre

tratamentos e admitindo que 1 2 3 m ,m e m têm, respectivamente, 5, 3 e 6 repetições,

verificar se os contrastes dados abaixo são ortogonais.

C1 = m1 – m2

C2 =m1 + m2 -2 m3

5. Considere um experimento com 4 tratamentos e as seguintes informações:

r r r= =1 2 3=4; r =4 3

C1 =m1 + m2 + m3 - 3 m4

C2 = m1 – 2 m2 + m3

Pede-se:

a) Forme um grupo de contrastes ortogonais, a partir dos contrastes C1 e C2, por meio

do método do sistema de equações lineares.

b. Obtenha ( )ˆV C 1

c. Obtenha ( )V C 1

6. Num experimento com 4 tratamentos e 5 repetições, são dados os seguintes

contrastes ortogonais:

C1 = m2 – m4

C2 = − 2m1 + m2 + m4

Determinar um contraste C3 que seja ortogonal a C1 e C2.

7. Com os dados abaixo, obter o contraste C3 ortogonal aos contrastes C1 e C2 .

C1 m1 - m2 r1 = r3 - 4

C2 4m1 + 5m2 - 9m4 r2 =r4 = 5

8. Dado o contraste C1 = 2m1 – m2 – m3, referente a um experimento com 3 tratamentos

(r1 = r2 = r3 = 5), obter um contraste ortogonal C2 em relação a C1.

9. Dado o contraste C1 = 2m1 – m2 – m3, referente a um experimento com 3

tratamentos (r1 = r2 = 4 e r3 = 5), obter um contraste ortogonal C2 em relação a C1

10. Dado o contraste C1 = 9m1 – 4m2 – 5m3, referente a um experimento com 3

tratamentos (r1 = r2 = 4 e r3 = 5), obter um contraste ortogonal C2 em relação a C1.

11. Dados os contrastes C1 = m2 – m4 e Y2 = – 2m1 + m2 + m4, referente a um

experimento com 4 tratamentos (r1 = r2 = r3 = r4 = 5), obter um contraste ortogonal C3 em

relação a C1 e C2.

12. Dados os contrastes C1 = m1 + m2 + m3 – 3m4 e C2 = m1 – 2m2 + m3, referente a um

experimento com 4 tratamentos (r1 = r2 = r3 = 4 e r4 = 3), obter um contraste ortogonal C3

em relação a C1 e C2.

13. Dados os contrastes C1 = m1 – 4m2 + m3 + 2m4 e C2 = m1 – m3, referente a um

experimento com 4 tratamentos (r1 = r3 = 6, r2 = 4 e r4 = 5), obter um contraste ortogonal

C3 em relação a C1 e C2.

14. Para verificar o efeito de três tipos de adoçantes no teor de glicose no sangue, foi

realizada uma pesquisa em que se ministrou cada um destes tipos de adoçantes a um

determinado grupo de cobaias, por certo período de tempo. Ao final deste período, o teor

médio de glicose (i

m ) no sangue foi avaliado para cada grupo, obtendo-se os seguintes

resultados:

Adoçante No de Cobaias i

1-Químico 8 115 30

2-Químico 10 90 30

3- Natural 5 75 30

A partir dos dados fornecidos acima, pede-se:

a).Desejando-se testar o teor médio de glicose do conjunto de cobaias que recebeu

adoçante químico contra o grupo que recebeu adoçante natural, qual seria o contraste

apropriado? Qual o valor da estimativa deste contraste?

b) Suponha que seja de interesse testar a seguinte comparação: C1 = m2 – m3, no

entanto, desejamos testar outros contrastes que sejam ortogonais a C1. Obtenha o (s)

outro (s) contraste (s) ortogonal (is) necessário (s) para completar o grupo de contrastes

ortogonais a C1.

15. Num experimento, 4 novos tipos de herbicida foram comparados para verificar se

são eficazes para combater ervas daninhas e assim manter a produção de milho em

níveis elevados. Um resumo do experimento é dado a seguir

Herbicida Média de produção (kg/ha)

Repetições

1 – Biológico 46 4

2 – Químico à base de nitrogênio e enxofre 31 4

3 – Químico à base de nitrogênio e fósforo 32 4

4 – Químico à base de inativadores enzimáticos 25 4

Suponha que seja de interesse testar o seguinte contraste entre as médias de

tratamentos C1 = 3m1 – m2 – m3 – m4 . Suponha ainda que todos os tratamentos

possuam uma mesma variância e que sua estimativa é igual a 35 (kg/ha)2 . Pergunta-se:

a) Qual a comparação que está sendo feita pelo contraste C1? Qual a estimativa para

este contraste?

b) Por meio da estimativa obtida para o contraste C1 pode-se AFIRMAR que exista um

grupo melhor de herbicidas do que outro? Justifique a sua resposta.

c) Qual a estimativa da variância para a estimativa do contraste C1?

d) Forme um grupo de contrastes ortogonais a partir do contraste C1. Descreva qual

comparação que está sendo feita por cada contraste que você obteve. Baseando-se nos

dados amostrais fornecidos, obtenha também a estimativa para cada um dos contrastes.

16. Considere um experimento, onde foi avaliada a variável produção (kg/parcela) de

quatro tratamentos (adubações), denominados como: T1 = Sulfato de Amônio, T2 =

Sulfato de Amônio + Enxofre, T3 = Nitrocálcio e T4 = Nitrocálcio + Enxofre. Os resultados

obtidos foram:

Tratamentos Média Repetições

1 – Sulfato de Amônio 24,0 4

2 – Sulfato de Amônio + Enxofre 28,0 5

3 – Nitrocálcio 27,0 4

4 – Nitrocálcio + Enxofre 25,0 5

0,75 a) Estabelecer as seguintes comparações de interesse (as comparações solicitadas, não

são necessariamente ortogonais):

i) Sulfato de Amônio versus Nitrocálcio na ausência de Enxofre

ii) Sulfato de Amônio versus Sulfato de Amônio + Enxofre

iii) Nitrocálcio versus Nitrocálcio + Enxofre

b) Sendo dados, com base em outros critérios, os seguintes contrastes:

C1 = m1 – m2

C2 = 4m1 + 5m2 + 4m3 – 13m4

Pede-se:

i) Obter a estimativa do contraste C2.

ii) Obter a estimativa da variância da estimativa do contraste C2.

iii) Obter a variância do contraste C.

iv) Os contrastes C1 e C2 são ortogonais? Justifique a sua resposta.

3.4 Teste F para a análise de variância

O teste F é a razão entre duas variâncias e é usado para determinar se duas estimativas

independentes da variância pode ser assumida como estimativas da mesma variância.

Na análise de variância, o teste F é usado para testar a igualdade de médias, isto é, para

responder a seguinte questão, é razoável supor que as médias dos tratamentos são

amostras provenientes de populações com médias iguais? Considere o seguinte exemplo

de cálculo da estatística F; vamos supor que de uma população normal N (µ, σ2) foram

retiradas, aleatoriamente, 5 (n=5) amostras de tamanho 9 (r=9).

Calcule as médias das 5 amostras e (((( ))))(((( ))))

−−−−====

−−−−

2222y yy yy yy y11112222SSSS iiii 9 19 19 19 1

Estime σ2 por meio da fórmula: 5

, a qual é uma média das

variâncias das amostras e será denominada de variabilidade dentro das amostras

Estime a variância populacional das médias 2y

σ , por meio das médias das 5 amostras:

++−+=

S estime novamente , usando a relação 2y

S ou S2 = 2y

rs , denominada de

variabilidade entre as amostras

Calcule 2D

A estimativa de 2E

S do numerador foi feita com base em n - 1 = 4 graus de liberdade ( n é

o número de amostras) e a estimativa de 2D

S do denominador foi feita com base em n(r –

1) = 5(9 -1) = 40. A repetição deste procedimento amostral muitas vezes gera uma

população de valores de F, os quais quando colocados em um gráfico de distribuição de

freqüência tem o seguinte formato

O valor de F = 2,61 é o valor acima do qual, 5% dos valores de F calculados têm valor

acima dele. Este é o valor para um nível de 5% encontrado na Tabela F para 4 e 40

graus de liberdade (veja Tabela F).

Dado que as estimativas da variância utilizadas estatística F são estimativas da mesma

variância σ2, espera-se que o valor de F seja bem próximo de 1,a menos que um conjunto

de amostras não usual foi retirado.

Para qualquer conjunto de amostras retiradas de n = 5 e r = 9 a probabilidade (ou a

chance) de um valor de F calculado ser maior ou igual a 2,61 é 0,05 (5%) (P[F >2,61]

= 0,05 ).

As hipóteses estatísticas que testamos quando aplicamos o teste F são

A Hipótese H0 estabelece que as duas variâncias populacionais são iguais, o que

equivale a admitir que as amostras foram retiradas da mesma população. A hipótese H1

(contra hipótese, ou hipótese alternativa) estabelece que as variâncias são provenientes

de populações diferentes e, mais ainda, a variância da primeira é maior que a variância

da segunda. Os valores de F são tabelados em função dos graus de liberdade das

estimativas de s2 do numerador (n1) e do denominador (n2) no cálculo da estatística F e

para diferentes valores de níveis de significância (5%, 1%,etc.).

3.4.1. Regra de decisão

Todos os possíveis valores que o teste estatístico pode assumir são pontos no eixo

horizontal do gráfico da distribuição do teste estatístico e é dividido em duas regiões; uma

região constitui o que denominamos de região de rejeição e a outra região constitui o que

denominamos de região de aceitação. Os valores do teste estatístico que formam a

região de rejeição são aqueles valores menos prováveis de ocorrer se a hipótese nula é

verdadeira, enquanto que os valores da região de aceitação são os mais prováveis de

ocorrer se a hipótese nula é verdadeira. A regra de decisão nos diz para rejeitar H0 se o

valor do teste estatístico calculado da amostra é um dos valores que está na região de

rejeição e para não rejeitar H0 se o valor calculado do teste estatístico é um dos valores

que está na região de aceitação. O procedimento usual de teste de hipóteses é baseado

na adoção de um critério ou regra de decisão, de tal modo que α = P(Erro tipo I) não

exceda um valor pré-fixado. Porem, na maioria das vezes, a escolha de α é arbitrária. Um

procedimento alternativo consiste em calcular o “menor nível de significância para o qual

a hipótese H0 é rejeitada, baseado nos resultados amostrais”. Este valor, denominado de

nível descritivo do teste ou nível mínimo de significância do teste, será denotado por valor

de p (ou “p-value”). Todos os programas computacionais modernos calculam este valor.

A representação gráfica a seguir mostra uma ilustração da regra de decisão do teste F,

visto anteriormente.

Região de aceitação Região de rejeição

EXEMPLO: Amostras aleatórias simples e independentes, após dois tipos de esforços, do

nível de glicose no plasma de ratos após uma experiência traumática forneceram os

seguintes resultados:

Esforço 1: 54 99 105 46 70 87 55 58 139 91

Esforço 2: 93 91 93 150 80 104 128 83 88 95 94 97

Estes dados fornecem suficiente evidência para indicar que a variância é maior na

população de ratos submetidos ao esforço 1 do que nos ratos submetidos ao esforço 2.

Quais as suposições necessárias para se aplicar o teste?

Solução:

●As variâncias amostrais são =21

S 852,9333 e =22

S 398, 2424 respectivamente.

●Suposições: Os dados constituem amostras aleatórias independentes retiradas, cada

uma, de uma população com distribuição normal. (Esta é a suposição geral que deve ser

encontrada para que o teste seja válido).

●Hipóteses estatísticas

●Cálculo do Teste Estatístico

1417222

cF , 2424 398,

852,9333===

●Distribuição do Teste Estatístico: quando H0 é verdadeira a estatística F tem distribuição

F com n1 – 1 e n2 – 1 graus de liberdade.

●Regra de Decisão: fazendo α = 5%, o valor crítico de F(9,11,0,05) = 2,896, então, rejeita-se

H0 se FC ≥ 2,896, . A ilustração gráfica desta regra de decisão é mostrada a seguir,

Região de aceitação Região de rejeição

●Decisão estatística: não podemos rejeitar H0, dado que 2,1417<2,896; isto é, o FC

calculado caiu na região de aceitação.

● Conclusão: não podemos concluir que as variâncias dos esforços 1 e 2 são diferentes,

o nível mínimo de significância do teste é p=0,116 .

3.5 Análise de variância (ANAVA)

Embora o teste F possa ser aplicado independentemente, a sua maior aplicação é na

análise de variância dos Delineamentos Experimentais.

Vamos considerar os seguintes dados de Delineamento Inteiramente Casualizado, (DIC).

TRATAMENTOS REPETIÇÕES

1 2 3 4

A B C D

12,4 15,2 14,3 12,6 13,2 16,2 14,8 12,9 12,1 11,3 10,8 11,4 10,9 9,8 9,4 8,3

Dentro de um mesmo tratamento o valor observado nas diferentes repetições não é o

mesmo, pois estes valores estão sujeitos à variação ao acaso

eσ . Quando passamos

de um tratamento para outro, os dados também não são iguais, pois estes estão sujeitos

a uma variação do acaso acrescida de uma variação devida ao efeito do tratamento, i.é,

2e σσ +

2,1417

3.5.1 Quadro da análise de variância do DIC

Considere os dados do exemplo anterior, onde tínhamos 4 tratamentos (k=4) e 4

repetições. A Tabela da Análise de variância fica sendo

Fonte de variação G.L. Soma de Quad. Quadrado Médio teste F

Tratamentos k – 1 ( )2 2t y y1

r k ri 1 .+++ −∑

SQTrat

QMTrat

Resíduo k.r – k ∑=

)( SQ s

Total k.r – 1 ∑=

++−t

Deste quadro notamos que o Quadrado médio do resíduo estima a variação casual (do

resíduo) 2eσ . Enquanto que o quadrado médio dos tratamentos estima a variação casual

(resíduo) acrescida de uma possível variância devido ao efeito dos tratamentos

T2e σσ então

σσ +=

Se não houver efeito dos tratamentos os dois quadrados médios (Quadrado médio dos

tratamentos e quadrado médio do resíduo) estimam a mesma variância, o que implica o

valor de F 1,0, e qualquer diferença que ocorra entre os valores médios dos tratamentos

é meramente casual.

3.6. Teste t de Student. Considere uma outra retirada de amostras repetidas de um

determinado tamanho, por exemplo, r=5 de uma população normal.

Para cada amostra calcule a média y o desvio padrão, s , o erro padrão da média y s e

uma outra estatística

µ−=

Graficamente temos

amostra1 ( )

2y1y21

amostra 2 ............................................................

amostra M ( )

2y1y2M

Organizando estes milhares de valores da estatística t em distribuição de freqüência.

Esta distribuição de freqüência terá a seguinte forma

Existe uma única distribuição t para cada tamanho de amostra. Neste exemplo em que

r=5 (tamanho 5), 2,5 % dos valores de t serão maiores ou iguais do que 2,776 e 2,5%

serão menores do que -2,776. Os valores da estatística t – student são apresentados em

tabelas (ver Tabela da distribuição t ). Por exemplo, para 10 graus de liberdade, o valor

tabelado esperado para t com probabilidade de 0,01 (1%) é 3,169. A distribuição t –

student converge rapidamente para a distribuição normal. Quanto maior

for a amostra maior é aproximação da distribuição t – student com a distribuição normal.

Quando os valores de t são calculados em amostras de tamanho r=60, estes são bem

próximos dos valores da distribuição normal.

3.6.1. Regra de decisão