Curso de Estatística no R - Análise de Dados - UFPE
-
Upload
khangminh22 -
Category
Documents
-
view
0 -
download
0
Transcript of Curso de Estatística no R - Análise de Dados - UFPE
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Curso de Estatística no RAnálise de Dados
Prof. Enivaldo Carvalho da RochaMonitores: Antônio Fernandes e Anderson Henrique
Mestrado Profissional em Políticas Públicas - MPPpDepartamento de Ciência Política (DCP/UFPE)
24 de novembro de 2018
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Sumário
1 Noções do R2 Estatística descritiva
Gráficos3 Testes para média e proporção4 Correlação5 Regressão linear
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Operações AritméticasO R é uma ferramenta para realizar cálculos estatísticos e gráficosde alta qualidade. As operações básicas de soma, subtração,multiplicação e potência podem ser obtidas utilizando os seguintesoperadores: +− ∗/ ∗ ∗ .
Multiplicar –> 18 ∗ 2 [1]36
Primeiro se calcula a multiplicação –> 2 + 3 ∗ 4 [1]14
Calcula-se a operação entre parênteses e depois amultiplicação –> (2 + 3) ∗ 4 [1]20
Primeiro se calcula a potência –> 4 ∗ 32 [1]36
Primeiro resolve o parêntese –> (4 ∗ 3)2 [1]144
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Operador Lógico
Tabela: Verdadeiro ou Falso
Operador Descrição< menor que> maior que<= menor ou igual>= maior ou igual== igual a!= diferente| ou! não
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Exemplos
(4 ∗ 3)2 == 42 ∗ 32TRUETRUE == 1TRUEFALSE == 0TRUEx < −21x21rm(x)xError: object ’x’ not found<- 21
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Vetores
Minúscula e MaiúsculaR faz diferença entre letras maiúsculas e minúsculas, x e X porexemplo. Pode-se atribuir um conjunto de valores a uma variávelusando o comando c( ), neste caso denominaremos essa variável devetor.
vetor < −c(1, 2, 3, 4)vetor1 2 3 4
Posição de um elemento num vetorO número dentro dos cochetes representa a posição do elementocujo valor é apresentado ao realizarmos o comando
vetor[2]2
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Vetores
Valores entre a posição 2 e 4vetor[2:4]2 3 4Valores na posição exatavetor[c(1,3)]1 3
Extração de elementos de um vetorSubtraindo os valores nas posições indicadas entre os parentes docomando c( )
vetor[-c(2,3)]1 4
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Operadores Lógicos com Vetores
1 vetor <- c(100,18,41,21,53)vetor>50TRUE FALSE FALSE TRUE
2 vetor[vetor>50]100 53
3 vetor[vetor>20 vetor<80]41 21 53
multiplicar um vetor por uma constante
4 vetor*3300 123 63 159
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Operações com Vetores
Soma de dois vetoresvetor2 <- c(27,28,29,30,31)vetor + vetor2127 46 70 51 84Soma dos elementos de um vetorsum(vetor)233Soma acumulada dos elementos de um vetorcumsum(vetor)100 118 159 180 233
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Matriz
Criando um vetor coluna:> matrix(1:6)12345
6
Cria uma matriz com valores de 1 a 6 em 2 linhas> matrix(1:6,nrow=2)1 3 52 4 6
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Cria um vetor x com valores entre 3 e 8:> x<-3:8> x3 4 5 6 7 8
Transforma o vetor x em uma matriz com dimensão 3x2, 3 linhas e2 colunas:> matrix(x,3,2)3 64 75 8
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Matriz x 3x2:> matrix(x,ncol=2)3 64 75 8
Cria uma matriz x 2x3 organizada por coluna:> matrix(x,ncol=3)3 5 74 6 8
Cria uma matriz x 2x3 organizada por linha> matrix(x,ncol=3,byrow=TRUE)3 4 56 7 8
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Exemplo de uma Matriz de dados
O vetor abaixo contém os dados sobre investimento em pesquisa edesenvolvimento pelos setores público e privado em porcentagemdo PIB, usando o comando c() vamos criar o vetor denominadodados com as seguintes variáveis: poulação em milhões dehabitantes, pib em trilhões de dolares, PD privado, PD público etotal
dados <- c(126,4.9,2.4,0.6,3.0,50, 3.6,2.1,0.7,2.8,325,18.6,1.6,0.8,2.4,205,2.05,0.59,0.65,1.24)> dados126,4.9,2.4,0.6,3.0,50, 3.6,2.1,0.7,2.8,325,18.6,1.6,0.8,2.4,205,2.05,0.59,0.65,1.24
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Exemplo: Vetor de nomes - regiao> região.dados <- matrix(dados,nrow=4,byrow=TRUE)> região.dados126 4.90 2.40 0.60 3.0050 3.60 2.10 0.70 2.80325 18.60 1.60 0.80 2.40205 2.05 0.59 0.65 1.24
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Nomes> dimnames(região.dados)NULL> dim(região.dados)4 5> região <- c("Japão", "Corea", "Estados Unidos", "Brasil")> região"Japão", "Corea", "Estados Unidos","Brasil
Variáveis> Variaveis <- c("Pop","Pib","PDpri”, ”PDpub”, ”TotalPD”)> Variaveis"Pop", "Pib", "PDpri”, ”PDpub”, ”TotalPD
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
> dimnames(região.dados) <- list(região,NULL)> região.dadosJapão 126 4.90 2.40 0.60 3.00Corea 50 3.60 2.10 0.70 2.80Estados Unidos 325 18.60 1.60 0.80 2.40Brasil 205 2.05 0.59 0.65 1.24
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
> dimnames(região.dados)<-list(NULL,Variaveis)> região.dadosPop Pib PDpriPDpubTotalPD126 4.90 2.40 0.60 3.0050 3.60 2.10 0.70 2.80325 18.60 1.60 0.80 2.40205 2.05 0.59 0.65 1.24
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
> dimnames(região.dados) <- list(região,Variaveis)> região.dadosPop Pib PDpriPDpubTotalPDJapão 126 4.90 2.40 0.60 3.00Corea 50 3.60 2.10 0.70 2.80Estados Unidos 325 18.60 1.60 0.80 2.40Brasil 205 2.05 0.59 0.65 1.24
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
nomes das linhas e colunasdimnames(região.dados)[1]"JapãoCoreaEstados UnidosBrasil"[2]"PopPibPD_priPD_pubTotal_PD
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Noções Básicas do R
Acessando elementos na matriz
região.dados[1,2]4.9região.dados[2,1:5]Pop Pib PD_pri PD_pub Total_PD50.0 3.6 2.1 0.7 2.8região.dados[2,]Pop Pib PD_pri PD_pub Total_PD50.0 3.6 2.1 0.7 2.8região.dados["Brasil","PD_pri"]0.59região.dados["Corea","PD_pri"]2.1
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Importar e exportar
Lendo CSV
variavel=read.csv("dados.csv", header=T, dec=",")
Exemplo:h <- read.csv("homi_4.csv", sep=";", dec=",",header=TRUE)head(h)
class(h)"data.frame"
RO PA PE SP BrasilJan 1 25 49 261 1059 3334Feb 1 24 54 301 1068 3342Mar 1 30 49 269 1120 3533Apr 1 22 61 247 1040 3224May 1 29 40 247 1028 3184Jun 1 30 53 275 998 3195
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Importar e exportar
Escrevendo CSV
Write CSV in Rwrite.csv(MyData, file = "MyData.csv")
Exemplo:write.csv(h,file = "h.csv")
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Importar e exportar
Lendo TXT
variavel=read.table("mydata.txt", header=T, dec=",")
Exemplo:t <- read.table("homi_4.txt", sep=";", dec=",",header=TRUE)head(t)
class(t)"data.frame"
RO PA PE SP BrasilJan 1 25 49 261 1059 3334Feb 1 24 54 301 1068 3342Mar 1 30 49 269 1120 3533Apr 1 22 61 247 1040 3224May 1 29 40 247 1028 3184Jun 1 30 53 275 998 3195
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Importar e exportar
Escrevendo TXT
Write TXT in Rwrite.table(MyData, file = "MyData.csv")
Exemplo:write.table(t,file = "t.txt")
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Exemplo:
Número de Homicídios
O arquivo homi_4.csv contém os dados mensais do número dehomicídios dos estados de Rondônia, Pará, Pernambuco, SãoPaulo e Brasil, de janeiro de 1996 a dezembro de 2016. Apósajustar um modelo autorregressivo integrado de médiasmóveis ARIMA para série temporal de cada estado do Brasil,com base nos registros dos homicídios passados, as previsõesdos homicídios nessas regiões foram obtidas considerando umhorizonte de previsão de 4 anos, ou 48 meses. Isto é dejaneiro de 2017 a dezembro de 2020.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
A matriz das séries temporais
Read homi_4 setwd(" /Curso de Estatistica no R")h <- read.csv("homi_4.csv", sep=";", dec=",",header=TRUE)head(h)class(h)"data.frame"transformar o dataframe na classe ts (série temporal)
h <- ts(homi_4, start=c(1996,1), end=c(2016,12), frequency=12)class(h)"mts" "ts" "matrix"
>head(h[,3:5])
PE SP BrasilJan 1 261 1059 3334Feb 1 301 1068 3342Mar 1 269 1120 3533Apr 1 247 1040 3224May 1 247 1028 3184Jun 1 275 998 3195
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Extraíndo as séries
Extraíndo as séries da matriz
ro <- h[,1]pa <- h[,2]pe <- h[,3]sp <- h[,4]br <- h[,5]
Estimando os modelos
ro_ <- auto.arima(ro)pa_ <- auto.arima(pa)pe_ <- auto.arima(pe)sp_ <- auto.arima(sp)br_ <- auto.arima(br)
Calculando as previsões até 2020
ro_arima <- forecast(ro_, level=c(80, 95, 99), h=48)pa_arima <- forecast(pa_, level=c(80, 95, 99), h=48)pe_arima <- forecast(pe_, level=c(80, 95, 99), h=48)sp_arima <- forecast(sp_, level=c(80, 95, 99), h=48)br_arima <- forecast(br_, level=c(80, 95, 99), h=48)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Gráficos das previsões - Comandos
Plot ARIMA Modelspar(mfrow=c(2,2))
plot(forecast(ro_arima),main = "Rondônia",type = "l",lwd = 2.5,ylim=c(0,700), shadecols="oldstyle")
plot(forecast(pa_arima),main = "Pará",type = "l",lwd = 2.5,ylim=c(0,700), shadecols="oldstyle")
plot(forecast(pe_arima),main = "Pernambuco",type = "l",lwd = 2.5,ylim=c(0,700), shadecols="oldstyle")
plot(forecast(sp_arima),main = "São Paulo",type = "l",lwd = 2.5, ylim=c(0,700), shadecols="oldstyle")
par(mfrow=c(1,1))plot(forecast(br_arima),main = "Brasil", shadecols="oldstyle")
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Gráficos das previsões - Estados
Rondônia
5 10 15 20 25
010
020
030
040
050
060
070
0
Pará
5 10 15 20 25
010
020
030
040
050
060
070
0
Pernambuco
5 10 15 20 25
010
020
030
040
050
060
070
0
São Paulo
5 10 15 20 25
010
020
030
040
050
060
070
0
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Gráficos das previsões - Brasil
Brasil
5 10 15 20 25
3000
3500
4000
4500
5000
5500
6000
6500
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Extraíndo as previsões
rom <- as.matrix(summary(ro_arima ))pam <- as.matrix(summary(pa_arima ))pem <- as.matrix(summary(pe_arima ))spm <- as.matrix(summary(sp_arima ))brm <- as.matrix(summary(br_arima ))
Montando a matriz dos estados e Brasil
previsão <- cbind(rom[,1],pam [,1],pem [,1],spm [,1],brm [,1])
identificação das colunas
estado <- c("ro","pa ","pe ","sp ","br ")
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Homicídios no Brasil
Data frame das previsões
nomes <- rownames(previsão)dimnames(previsão) <- list(nomes, estado)pre_homi_4 <- as.data.frame(previsão)write.csv(pre_homi_4,file = "pre_homi_4.csv")head(pre_homi_4)
ro pa pe sp brJan 22 54.80717 372.4143 435.6678 397.8348 5677.726Feb 22 57.12986 369.1166 421.0979 353.0196 5146.784Mar 22 55.76695 374.0775 448.3554 384.0494 5455.604Apr 22 56.11193 368.6771 432.4629 380.6745 5284.609May 22 57.99066 375.0971 424.8627 345.8581 5061.442Jun 22 55.04819 367.5340 413.6192 330.8261 4858.719
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Estatística Descritivabanco de dados: Bussab e Morettinlendo o arquivo milsa.csvmilsa <- read.csv("milsa.csv", sep=";",dec=",",header=TRUE)head(milsa)class(milsa)
Extraindo as variáveis do dataframeVariáveiscivil <- milsaestcivedu <- milsaeducacaofilho <- milsafilhosano <- milsaanosal <- milsasalarioorigem <- milsaorigem
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Estatística DescritivaVariáveis QualitativasTabelastable(origem)table(origem,civil)table(origem,civil,edu)
Tabelas de proporçãoprop.table(table(edu))
Varáveis QualitativasResumo das estatísticassummary(sal)summary(sal[civil=="casado"])summary(sal[civil=="solteiro"])summary(origem)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Média e Variância
Médiamean(filho)mean(filho,na.rm=TRUE)
Variânciavar|(filho)var(filho, na.rm=TRUE)
Desvio Padrãosd(filho)sd(filho, na.rm=TRUE)ou a raíz quadrada da variânciasqrt(var(filho, na.rm=TRUE))
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Mediana
Médianamedian(filho)median(filho, na.rm = "TRUE")sort(filho)
Exemplosalsort(sal)length(sal)mean(sal)median(sal)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Distribuição da variável saláriopar(mfrow=c(1,2))hist(sal)boxplot(sal)
Histogram of sal
sal
Fre
quen
cy
5 10 15 20
02
46
8
510
1520
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Resumo dos comandos utilizados
read.csv meanhead varclass sdsum mediancumsum tapplylength barplotsummary plottable histprop.table(table()) boxplotcorr pie
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Média
sum(vetor)/length(vetor)46.6
O comando mean( )Cálculo da média usando o comando direto
mean(vetor)[1] 46.6
DefiniçãoSe as observações numa amostra de tamanho n são x1, x2, ..., xn,então a média aritmética é:
x = x1+x2+...+xnn =
∑ni=1 xin
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Mediana dos Elementos de um Vetor
O comando sortOrdenando os elementos do vetor
svetor <- sort(vetor)svetor18 21 41 53 100svetor[5/2+1]41
Definição da MedianaSeja x(1),x(2),...,x(n) denotar uma amostra em ordem crescente,então a mediana será:x = x n+1
2, se n é impar
x =x n2
+x( n2 +1)2 , se n é par
median(vetor)41
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Separatrizes
PercentilRepresenta o elemento que divide a amostra e ordena empercentis, por exemplo: o percentil 50 é igual a mediana.
QuantilO comando quantile apresenta o valor que divide os dados empercentis 25, 50 e 75.
quantile(vetor, probs=0.5)5041quantile(vetor, probs=c(0.25,0.75))25 7521 53diff(quantile(vetor,probs=c(0.25,0.75)))75
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
O Comando Summary
O comando summary fornece as estatísticas mínimo, q1, mediana, média, q3 e o máximo de uma variávelquantitativa.
Exemplo: Considere X o peso do cérebro de uma amostra de 19 animais e Y a sua massa corporal emgramas.
X = c(1176, 273, 151, 123, 110, 289, 165, 119, 95, 32, 700, 166, 118, 115, 41, 28, 5.2, 2.6, 0.5)Y = c(78000, 60000, 16000, 37000, 11000, 780000, 230000, 72000, 25000, 4500, 272000, 35000,50000, 50000, 22000, 60000, 2000, 23, 19)
summary(X)Min. 1st Qu. Median Mean 3rd Qu. Max.0.5 36.5 118.0 195.2 165.5 1176.0
summary(Y)Min. 1st Qu. Median Mean 3rd Qu. Max.19 13500 37000 94976 66000 780000
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Medidas de Variabilidade
RangeÉ a medida de variação mais simples, range amostral, definidocomo a diferença entre a maior e a menor das observações naamostra
r = max(xi)−min(xi)
Intervalo interquartílicoDefinido como a diferença entre o 3o quartil e o primeiro quartil
IQR = q3− q1
Exemplo: Considere a amostra (1, 5, 5, 5, 7, 7, 9)n <- c(1,5,5,5,7,7,9)r <- 9− 1IQR <- quantile(n, probs = 0.75)− quantile(n, probs = 0.25)ouIQR <- diff(quantile(n,probs=c(0.25,0.75)))
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Variância e Desvio Padrão
VariânciaSe as observações numa amostra de tamanho n são x1, x2, ..., xn,então a variância amostral é:
s2 =∑n
i=1(xi−x)2n−1
e o desvio padrão amostral é a raiz quadrada positiva de s2
Exemplo: Considere a amostra (1, 5, 5, 5, 7, 7, 9)n <- c(1,5,5,5,7,7,9)var(n) [1] 6.285714 sqrt(var(n)) [1] 2.507133 mean(n)
...1.....2.....3.....4.....5.....6.....7.....8.....9...
.................|....-2.5....5.6....+2.5....|.........
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
O coeficiente de variação é uma medida adimenssional muito útilpara avaliação de amostras de diferentes dimensões e tamanhos.
CV1 = s1X1
Exemplo: Considere a amostra do peso do cérebro (X) e a massa corporal (Y) dos 19 animais, e as notas dosalunos da disciplina análise de dados do mppp 2017.2 (nota).
> notas <- read.csv("notas.csv", sep=";", dec=",",header=TRUE) > nota <- notasnotas
s1 <- sqrt(var(X))> s2 <- sqrt(var(Y))> s3 <- sqrt(var(nota))> m1 <- mean(X)> m2 <- mean(Y)> m3 <- mean(nota)> CVx < −s1/m1> CVy < −s2/m2> CVnota < −s3/m3> CVx1.461587> CVy1.908605> CVnota0.305887
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Distribuição de Frequêncianotas <- read.csv("notas.csv", sep=";", dec=",",header=TRUE)
Ordenação das Notas
sort(notas$notas)1.52.52.52.53.03.03.03.03.53.53.53.53.54.04.04.04.04.04.04.54.54.54.54.5 4.5 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 6.06.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.57.0 7.0 7.0 7.0 7.0 7.0 7.5 7.5 7.5 7.5 7.5 7.5 7.5 7.5 7.5 7.5 8.0 8.0 8.0 8.0 8.0 8.0 8.58.5 8.5 9.0 9.0 9.5 10.0 10.0 10.0
Tabela: Distribuição de Frequências das Notas naDisciplina Análise de Dados: MPPP - 2017.2
Classes Frequência Porcentagem[1,2) 1 1%[2,3) 3 3%[4,5) 12 12%[5,6) 20 20%[6,7) 24 24%[7,8) 16 16%[8,9) 9 9%[9,10) 6 6%Total 100 100%
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Histograma
hist(notas$notas, main="Histograma da variável Notas",prob=T, xlab="Notas", ylab="Densidade")
Histograma da variável Notas
Notas
Den
sida
de
2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
BoxPlotO boxplot representa um excelente método para detectar outlier presentes na distribuição da variável, ofato de usar a mediana como uma medida de centralidade permite que a distribuição fique livre dainfluência de pontos extremos.
Mediana
Intervalo Interquartílico - IQR
1º Quartil
3º Quartil
Outlier
Máximo
Mínimo
Onde: Mínimo = Q1 - 1,5*IQR e Máximo = Q3 + 1,5*IQR
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
BoxPlot - Exemplos
Exemplo 1 - Considere as notas da disciplina análise de dados e verifique se tem algum outlier presente nadistribuição.
boxplot(notas$notas, main = "Notas - Análise de Dados",ylab="Notas", col=("green"))
510
1520
Boxplot de salários
Sal
ário
s
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Dados: Bussabm <- read.csv("milsa.csv", sep=";", dec=",",header=TRUE)
O R possui uma enorme capacidade para gerar diversos tipos degráficos de alta qualidade totalmente configuráveis, desde cores etipos de linhas, até legendas e textos adicionais.
Opções :// xlim: (inicio,fim) dupla contendo os limites do eixo X.ylim: (inicio,fim) dupla contendo os limites do eixo Y.xlab: rótulo para o eixo X.ylab: rótulo para o eixo Y.main: título principal do gráfico.col: cor de preenchimento do gráfico, podendo ser um vetor. Alista das cores disponíveis pode ser obtida através do comandocolors().
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Gráfico de barra
barplot(table(mestciv), col = c(”blue”, ”red”), ylim = c(0, 25), space = .8,width = c(.2, .2),main =”Númerodefilhosporestadocivil”, xlab = ”EstadoCivil”, ylab = ”NúmerodeFilhos”)
casado solteiro
Número de filhos por estado civil
Estado Civil
Núm
ero
de F
ilhos
05
1015
2025
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Histograma
Notas na disciplina análise de dadosComando :hist(dados, opções)opções:prob: T plota a densidade.F plota a freqüência absoluta.breaks: vetor contendo os pontos de definição das larguras das barra do histograma.
notas <- read.csv("notas.csv", sep=";", dec=",",header=TRUE)head(notas)hist(notas$notas, main="Histograma da variável Notas", prob=T, xlab="Notas", ylab="Densidade",col=c("orange"), ylim=c(0,0.3), col.main="darkgray")
Histograma da variável Notas
Notas
Den
sida
de
2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha BoxPlot
Boxplot - Dados BussabComando :boxplot(dados, opções)opções:outline: T plota os outliers.
boxplot(m$salario, xlab="Boxplot de Salários", ylab="Salários", col="green")boxplot(m$salario . m$educacao, xlab="Boxplot de salários", ylab="Salários", col=c("yellow","orange","red"))
510
1520
Boxplot de salários
Sal
ário
s
1o Grau 2o Grau Superior
510
1520
Boxplot de salários
Sal
ário
s
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIMEnivaldo Rocha Gráficos de sériestemporais
Datasusrequire(graphics)setwd(" /Curso de Estatistica no R/Dados da Saúde")tx <- read.csv("txca4.csv”, sep = ”; ”, dec = ”, ”, header = TRUE)ca <- ts(tx, frequency = 1, start = c(1980, 1))class(ca)plot(ca)
0.05
0.10
0.15
0.20
mam
a
0.4
0.5
0.6
0.7
0.8
0.9
1.0
pele
46
810
1214
pros
tata
0.10
0.15
0.20
0.25
0.30
0.35
0.40
1980 1985 1990 1995 2000 2005 2010 2015
linfo
ma
Time
ca
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Tipos de câncerpar(mfrow=c(2,2))plot(ca[,1], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Mama",col="pink")plot(ca[,2], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Pele",col="green")plot(ca[,3], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Próstata",col="red")plot(ca[,4], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Linfoma", col="blue")
Mortalidade no Brasil por Câncer de Mama
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 2015
0.05
0.10
0.15
0.20
Mortalidade no Brasil por Câncer de Pele
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 20150.
40.
50.
60.
70.
80.
91.
0
Mortalidade no Brasil por Câncer de Próstata
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 2015
46
810
1214
Mortalidade no Brasil por Linfoma
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 2015
0.10
0.15
0.20
0.25
0.30
0.35
0.40
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Tipos de câncerpar(mfrow=c(2,2))plot(ca[,1], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Mama",col="pink",ylim=c(0,15))plot(ca[,2], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Pele",col="green",ylim=c(0,15))plot(ca[,3], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Próstata",col="red",ylim=c(0,15))plot(ca[,4], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Linfoma", col="blue",ylim=c(0,15))
Mortalidade no Brasil por Câncer de Mama
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 2015
05
1015
Mortalidade no Brasil por Câncer de Pele
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 20150
510
15
Mortalidade no Brasil por Câncer de Próstata
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 2015
05
1015
Mortalidade no Brasil por Linfoma
Time
Taxa
de
mor
talid
ade
(por
100
000)
1980 1985 1990 1995 2000 2005 2010 2015
05
1015
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Gráfico de dispersão
Gráfico de Dispersão - Dados Bussab e MorettinComando:plot(dados1, dados2, opções)opções:pch: Escolhe o tipo de caractere.lwd: Espessura do caractere a ser plotado
plot(m$Ano, m$salario, pch=2, lwd=5, main="Salário versus Idade", xlab="Idade (anos)", ylab="Salários”)
0 5 10 15 20 25 30 35
2025
3035
4045
Salário versus Idade
Idade (anos)
Sal
ário
s
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIMEnivaldo Rocha Histograma e CurvasTeóricas
Uniformehist(x,probability=TRUE,main="Uniforme[0,1]",ylab="Densidade",col="yellow")curve(dunif(x,0,1),add=T)Binomialn <- 10 hspace.2cm p <- 0.25 hspace,2cm x <- rbinom(100,n,p)hist(x,probability=TRUE,ylab="Densidade",col="pink",main="Binomial", ym=c(0,0.30))xvalores <- 0:npoints(xvalores,dbinom(xvalores,n,p),type="h",lwd=3)points(xvalores,dbinom(xvalores,n,p),type="p", lwd=3)Normalx <- rnorm(100)hist(x,probability=TRUE,col="lightblue",main="Normal(0,1)",ylab="Densidade",ylim=c(0,0.5),xlim=c(-3,3))curve(dnorm(x),add=T)Exponencial x <- rexp(100,1/2500)hist(x,probability=TRUE,col="lightgreen",main="Exponencial com média=2500",ylab="Densidade")curve(dexp(x,1/2500),add=T)
Uniforme[0,1]
x
Den
sida
de
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
Binomial
x
Den
sida
de
0 1 2 3 4 5 6
0.00
0.05
0.10
0.15
0.20
0.25
Normal(0,1)
x
Den
sida
de
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
Exponencial com média=2500
x
Den
sida
de
0 5000 10000 15000
0.00
000
0.00
005
0.00
010
0.00
015
0.00
020
0.00
025
0.00
030
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
install.packages("datasets")head(iris)head(swiss)pairs(swiss)
Fertility
0 20 40 60 80 0 10 30 50 15 20 25
4050
6070
8090
020
4060
80
Agriculture
Examination
510
2030
010
2030
4050
Education
Catholic
020
4060
8010
0
40 60 80
1520
25
5 15 25 35 0 20 60 100
Infant.Mortality
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Dados iris e swiss
Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa6 5.4 3.9 1.7 0.4 setosa
begintable[]Fertility Agriculture Examination Education Catholic Infant.Mortality
Courtelary 80.2 17.0 15 12 9.96 22.2Delemont 83.1 45.1 6 9 84.84 22.2Franches-Mnt 92.5 39.7 5 5 93.40 20.2Moutier 85.8 36.5 12 7 33.77 20.3Neuveville 76.9 43.5 17 15 5.16 20.6Porrentruy 76.1 35.3 9 7 90.57 26.6
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
Matrizes de Gráficospanel.hist <- function(x, ...){usr <- par("usr"); on.exit(par(usr))par(usr = c(usr[1:2], 0, 1.5) )h <- hist(x, plot = FALSE)breaks <- h$breaks; nB <- length(breaks)y <- h$counts; y <- y/max(y)rect(breaks[-nB], 0, breaks[-1], y, col = "cyan", ...)}pairs(swiss, diag.panel = panel.hist)
Fertility
0 20 40 60 80 0 10 30 50 15 20 25
4050
6070
8090
020
4060
80 Agriculture
Examination
510
2030
010
2030
4050
Education
Catholic0
2040
6080
100
40 60 80
1520
25
5 15 25 35 0 20 60 100
Infant.Mortality
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
panel.cor <- function(x, y, digits = 2, prefix = , cex.cor, ...)usr <- par("usr"); on.exit(par(usr))par(usr = c(0, 1, 0, 1))r <- abs(cor(x, y))txt <- format(c(r, 0.123456789), digits = digits)[1]txt <- paste0(prefix, txt)if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)text(0.5, 0.5, txt, cex = cex.cor * r)panel.cor <- function(x, y, digits = 2, prefix = , cex.cor, ...)pairs(swiss, diag.panel = panel.hist, upper.panel = panel.cor)
Fertility
0 20 40 60 80
0.35 0.65
0 10 30 50
0.66 0.46
15 20 25
4050
6070
8090
0.42
020
4060
80 Agriculture
0.69 0.64 0.40 0.061
Examination
0.70 0.57
510
2030
0.11
010
2030
4050
Education
0.15 0.099
Catholic
020
4060
8010
0
0.18
40 60 80
1520
25
5 15 25 35 0 20 60 100
Infant.Mortality
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
pairs(swiss, diag.panel = panel.hist, upper.panel = panel.cor,lower.panel = panel.smooth)
Fertility
0 20 40 60 80
0.35 0.65
0 10 30 50
0.66 0.46
15 20 25
4050
6070
8090
0.42
020
4060
80 Agriculture
0.69 0.64 0.40 0.061
Examination
0.70 0.57
510
2030
0.11
010
2030
4050
Education
0.15 0.099
Catholic
020
4060
8010
0
0.18
40 60 80
1520
25
5 15 25 35 0 20 60 100
Infant.Mortality
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
Matrizes de Gráficospanel.lm <- function (x, y, col = par("col"), bg = NA, pch = par("pch"),cex = 1, col.line="red")points(x, y, pch = pch, col = col, bg = bg, cex = cex)ok <- is.finite(x) is.finite(y)if (any(ok))abline(lm(y[ok] x[ok]), col = col.line)pairs(swiss, diag.panel = panel.hist, upper.panel = panel.cor,lower.panel = panel.lm)
Fertility
0 20 40 60 80
0.35 0.65
0 10 30 50
0.66 0.46
15 20 25
4050
6070
8090
0.42
020
4060
80 Agriculture
0.69 0.64 0.40 0.061
Examination
0.70 0.57
510
2030
0.11
010
2030
4050
Education
0.15 0.099
Catholic
020
4060
8010
0
0.18
40 60 80
1520
25
5 15 25 35 0 20 60 100
Infant.Mortality
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Suavizamento
Carregando o Pacote GGallyrequire(GGally)library(GGally)ggpairs(iris, lower = list(continuous = "smooth"))
Corr:
−0.118
Corr:
0.872
Corr:
−0.428
Corr:
0.818
Corr:
−0.366
Corr:
0.963
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Sepal.Length
Sepal.W
idthP
etal.LengthP
etal.Width
Species
5 6 7 8 2.0 2.5 3.0 3.5 4.0 4.5 2 4 6 0.0 0.5 1.0 1.5 2.0 2.5 setosa versicolorvirginica
0.0
0.1
0.2
0.3
0.4
2.0
2.5
3.0
3.5
4.0
4.5
2
4
6
0.0
0.5
1.0
1.5
2.0
2.5
0.02.55.07.5
0.02.55.07.5
0.02.55.07.5
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
Carregando o Pacote GGallyggpairs(iris, columns = 1:4, ggplot2::aes(colour=Species))
Cor : −0.118
setosa: 0.743
versicolor: 0.526
virginica: 0.457
Cor : 0.872
setosa: 0.267
versicolor: 0.754
virginica: 0.864
Cor : −0.428
setosa: 0.178
versicolor: 0.561
virginica: 0.401
Cor : 0.818
setosa: 0.278
versicolor: 0.546
virginica: 0.281
Cor : −0.366
setosa: 0.233
versicolor: 0.664
virginica: 0.538
Cor : 0.963
setosa: 0.332
versicolor: 0.787
virginica: 0.322
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length
Sepal.W
idthP
etal.LengthP
etal.Width
5 6 7 8 2.0 2.5 3.0 3.5 4.0 4.5 2 4 6 0.0 0.5 1.0 1.5 2.0 2.5
0.0
0.4
0.8
1.2
2.0
2.5
3.0
3.5
4.0
4.5
2
4
6
0.0
0.5
1.0
1.5
2.0
2.5
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
Carregando o Pacote GGallycar::spm( Sepal.Length + Sepal.Width + Petal.Length|Species, data = iris, by.group=TRUE)
setosa
versicolor
virginica
Sepal.Length
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
2.0
2.5
3.0
3.5
4.0 Sepal.Width
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 1 2 3 4 5 6 7
12
34
56
7
Petal.Length
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
Carregando o Pacote GGallylattice::splom(iris)
Scatter Plot Matrix
Sepal.Length
7
87 8
5
6
5 6
Sepal.Width3.5
4.0
4.53.5 4.0 4.5
2.0
2.5
3.0
2.0 2.5 3.0
Petal.Length4
5
6
74 5 6 7
1
2
3
4
1 2 3 4
Petal.Width1.5
2.0
2.51.5 2.0 2.5
0.0
0.5
1.0
0.0 0.5 1.0
Speciesversicolor
virginica
vers
icol
or
virg
inic
a
setosa
versicolor
seto
sa
vers
icol
or
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de gráficos
ggcorr(swiss, label=T)
0.4 −0.6 −0.7 0.5 0.4
−0.7 −0.6 0.4 −0.1
0.7 −0.6 −0.1
−0.2 −0.1
0.2
Fertility
Agriculture
Examination
Education
Catholic
Infant.Mortality
−1.0
−0.5
0.0
0.5
1.0
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Matrizes de correlações
library(corrplot)primeiro fazemos a matriz de correlaçãoM <- cor(swiss)corrplot(M, method = "circle")
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
Fer
tility
Agr
icul
ture
Exa
min
atio
n
Edu
catio
n
Cat
holic
Infa
nt.M
orta
lity
Fertility
Agriculture
Examination
Education
Catholic
Infant.Mortality
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIMEnivaldo Rocha Agrupamento pelacorrelção
Agrupando pela Correlaçãocorrplot(M, order = "hclust", addrect = 3, tl.pos="d")
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
Examination
Education
Infant.Mortality
Agriculture
Fertility
Catholic
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Exemplo 2: Tamanho do Cérebro e Peso dos Animais
Lendo o arquivo dos animais
cerebro <- read.csv("cerebro.csv", sep=";", dec=",",header=TRUE)head(cerebro)cerebro$especiecerebro$animalcerebro$cerebrocerebro$peso
>head{cerebro}especie animal cerebro peso relacao1 primata Humano 1176 78000 1,51%2 primata Chipanzé 273 60000 0,46%> cerebro$especieprimata primata primata primata primata carnivorus carnivorus carnivorus carnivoruscarnivorus antiodátilos antiodátilos antiodátilos antiodátilos antiodátilos marsupiais logomorfos roedoresroedores
Levels: antiodátilos carnivorus logomorfos marsupiais primata roedores
>ce_pe <- cerebro$cerebro/cerebro$pesoclass(cerebro)class(cerebro$especie)class(cerebro$animal)class(cerebro$cerebro)class(cerebro$peso)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Exemplo 2: Cérebro e Peso do Animal
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Cérebro
boxplot(cerebro$cerebro, main="Cérebro dos Animais",ylab="Peso", col=("yellow"))
020
040
060
080
010
0012
00
Cérebros dos Animais
Pes
o
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Peso
boxplot(cerebro$peso, main="Peso dos Animais", ylab="Peso",col=("orange"))
0e+
002e
+05
4e+
056e
+05
8e+
05
Peso dos Animais
Pes
o
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Tamanho do Cérebro e Peso do Animal
plot(cerebro$cerebro,cerebro$peso,main=paste("Peso do Cérebroversus Peso do animal"),ylab="Cérebro",xlab="Peso")
0 200 400 600 800 1000 1200
0e+
002e
+05
4e+
056e
+05
8e+
05
Peso do Cérebo versus Peso do animal
Peso
Cér
ebro
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Tamanho do Cérebro e Peso do Animal
cepe <- data.frame(cerebro$animal,100*ce_pe)cepe
Animal Cérebro Peso Relação(gr) (gr) (%)
Beija-flor 1 7 14,29%Rato 2,6 23 11,30%Camundongo 0,5 19 2,63%Humano 1176 78000 1,51%Macaco 110 11000 1,00%babuíno 151 16000 0,94%Vaca 5600 720000 0,78%Gato 32 4500 0,71%Cudo 166 35000 0,47%Chipanzé 273 60000 0,46%Cão 95 25000 0,38%Mandril 123 37000 0,33%Coelho 5,2 2000 0,26%Girafa 700 272000 0,26%Muflão 118 50000 0,24%Cabra 115 50000 0,23%Queixada 41 22000 0,19%Guepardo 119 72000 0,17%Elefante 5000 5000000 0,10%Leão 165 230000 0,07%Urso 289 780000 0,04%
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha Exemplo
Usando o Fator
boxplot(cerebro$cerebro . cerebro$especie, main="Cérebro dos Animais por Espécie", ylab="Peso",col=("yellow"))boxplot(cerebro$peso . cerebro$especie, main="Peso dos Animais por Espécie", ylab="Peso", col=("orange"))
antiodátilos carnivorus logomorfos marsupiais primata roedores
020
040
060
080
010
0012
00
Cérebros dos Animais por Espécie
Peso
antiodátilos carnivorus logomorfos marsupiais primata roedores
0e+0
02e
+05
4e+0
56e
+05
8e+0
5
Peso dos Animais por Espécie
Peso
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Dados utilizados da tabela 2.1 de Bussab e Morettin (2003).
dados <- read.csv("milsa.csv", sep=";", dec=",", header=TRUE)head(dados)Funcionário estciv educacao Filhos Salario Ano Mês origem1 1 solteiro 1o Grau 0 4.00 26 3 interior2 2 casado 1o Grau 1 4.56 32 10 capital
table(dados$origem)capital interior outro11 12 13table(dados$origem,dados$estciv)casado solteirocapital 7 4interior 8 4outro 5 8table(dados$origem,dados$estciv,dados$educa) , , = 1o Graucasado solteirocapital 2 2interior 1 2outro 2 3, , = 2o Graucasado solteirocapital 4 1interior 6 1outro 2 4, , = Superiorcasado solteirocapital 1 1interior 1 1outro 1 1
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Tabela de proporções
prop.table(table(dados$educacao))1o Grau 2o Grau Superior0.3333333 0.5000000 0.1666667prop.table(table(dados$estciv, dados$origem))capital interior outrocasado 0.1944444 0.2222222 0.1388889solteiro 0.1111111 0.1111111 0.2222222prop.table(table(dados$origem,dados$estciv,dados$educa)), , = 1o Graucasado solteirocapital 0.05555556 0.05555556interior 0.02777778 0.05555556outro 0.05555556 0.08333333, , = 2o Graucasado solteirocapital 0.11111111 0.02777778interior 0.16666667 0.02777778outro 0.05555556 0.11111111, , = Superiorcasado solteirocapital 0.02777778 0.02777778interior 0.02777778 0.02777778outro 0.02777778 0.02777778
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Summary
Variável quantitativasummary(dados$Salario)Min. 1st Qu. Median Mean 3rd Qu. Max.4.00 7.55 10.15 11.13 14.10 23.30summary(dados$Salario[dados$estciv=="solteiro"])Min. 1st Qu. Median Mean 3rd Qu. Max.4.000 7.275 9.050 9.881 11.700 18.800summary(dados$Salario[dados$estciv=="casado"])Min. 1st Qu. Median Mean 3rd Qu. Max.4.600 8.775 11.950 12.135 15.025 23.300
Variável categóricasummary(dados$origem)capital interior outro11 12 13
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
O Dilema do PrisioneiroConsidere H0 a hipótese nula e Ha a hipótese a alternativa, o objetivo é decidir se rejeita ou aceita H0.Hipóteses:
1 H0: O réu é culpado2 Ha : O réu é inocente
Decisão RealidadeInocente Culpado
julgamento Rejeita H0 Correto Erro IAceita H0 Erro II Correto
Controle de erro: Colocar um criminoso em liberdade
1 H0: O réu é inocente2 Ha : O réu é culpado
Decisão RealidadeInocente Culpado
julgamento Rejeita H0 Erro I CorretoAceita H0 Correto Erro II
Controle de erro: Colocar um inocente na prisão
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Testes para a média populacionalt.test()Realiza o teste t-Student para uma ou duas amostras.sintaxe: t.test(amostra1, amostra2, opções)
Opções:1 alternative: string indicando a hipótese alternativa desejada.
Valores possíveis: "two-sided", "less"ou "greater".2 mu: valor indicando o verdadeiro valor da média populacional para
o caso de uma amostra,ou a diferença entre as médias para o caso de duas amostras.
3 paired: TRUE – realiza o teste t pareado.FALSE – realiza o teste t não pareado.
4 var.equal:TRUE – indica que a variância populacional é a igual nasduas amostras.FALSE – indica que a variância populacional de cada amostra édiferente.
5 conf.level: coeficiente de confiança do intervalo.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Considere a seguinte amostra:amostra1 = c(14.9,13.4,14.5,13.5,15.0,13.9,14.9,16.4,14.6,15.4)
TestarH0 : µ = 15H1 : µ 6= 15
t.test(amostra1,mu=15)
One Sample t-testdata: amostra1t = -1.2252, df = 9, p-value = 0.2516alternative hypothesis: true mean is not equal to 1595 percent confidence interval:14.00375 15.29625sample estimates:mean of x14.65
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Considere as seguintes amostras:amostra1 = c(16.6,13.4,14.6,15.1,12.9,15.2,14.0,16.6,15.4,13.0)amostra2 = c(15.8,17.9,18.2,20.2,18.1,17.8,18.3,18.6,17.0,18.4)
TestarH0 : µ1 = µ2H1 : µ1 6= µ2
Two Sample t-test
data: amostra1 and amostra2t = -6.0257, df = 18, p-value = 1.069e-05alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:-4.518003 -2.181997sample estimates:mean of x mean of y14.68 18.03
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Considere as seguintes amostras pareadas:antes = c(16.6,13.4,14.6,15.1,12.9,15.2,14.0,16.6,15.4,13.0)depois = c(15.8,17.9,18.2,20.2,18.1,17.8,18.3,18.6,17.0,18.4)
TestarH0 : µantes = µdepoisH1 : µantes 6= µdepois
Paired t-test
data: antes and depoist = -5.3231, df = 9, p-value = 0.000479alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:-4.773642 -1.926358sample estimates:mean of the differences-3.35
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste para proporção
prop.test()Realiza o teste de proporções para uma ou duas amostras.sintaxe: prop.test(x, n, p, opções)
Parâmetrosx: Vetor contendo o número de sucessos em cada amostra.n: Vetor contendo o número de realizações de cada amostra.p: Vetor contendo as probabilidades de sucesso de cada amostra.
Opções:alternative: string indicando a hipótese alternativa desejada.Valores possíveis: "two-sided", "less"ou "greater".conf.level: coeficiente de confiança do intervalo.correct: TRUE – indica que a correção de continuidade de Yatesserá aplicada.FALSE – indica que a correção de continuidade não será aplicada.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste para uma proporção populacional
TestarH0 : P = P0H1 : P 6= P0
prop.test(104,200,0.6,correct=F)
1-sample proportions test without continuity correctiondata: 104 out of 200, null probability 0.6X-squared = 5.3333, df = 1, p-value = 0.02092alternative hypothesis: true p is not equal to 0.695 percent confidence interval:0.4510379 0.5882083sample estimates:p0.52
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste para comparação de duas proporções
TestarH0 : P1 = P2H1 : P1 6= P2
prop.test(c(104,50),c(200,95),correct=F)
2-sample test for equality of proportions without continuitycorrection
data: c(104, 50) out of c(200, 95)X-squared = 0.010297, df = 1, p-value = 0.9192alternative hypothesis: two.sided95 percent confidence interval:-0.1282799 0.1156483sample estimates:prop 1 prop 20.5200000 0.5263158
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste de Médias - Banco Iris
Ronald Fisher em seu artigo de 1936O conjunto de dados consiste em 50 amostras de cada uma dastrês espécies de Iris ( Iris setosa , Iris virginica e Iris versicolor ).Quatro características foram medidas a partir de cada amostra: ocomprimento e a largura das sépalas e pétalas , em centímetros.Com base na combinação dessas quatro características, Fisherdesenvolveu um modelo discriminante linear para distinguir asespécies umas das outras.
titledatasets::iriscomp_sepala <- iris$Sepal.Lengthcomp_petala <- iris$Petal.Lengthlarg_sepala <- iris$Sepal.Widthlarg_petala <- iris$Petal.Width
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste de Médias - Banco Iris
Teste t.test
t.test(comp_sepala, mu=5.6)t.test(comp_sepala, mu=5.7)t.test(comp_sepala, mu=5.8)t.test(comp_petala, mu=3)t.test(larg_sepala, mu=3)
Cria o Fator - as.factor
tipo <- as.factor(iris$Species)is.factor(tipo)
boxplot(comp_sepala tipo)boxplot(larg_sepala tipo)
Cálculo das Médias dos Comprimentos e Larguras das Sepalas - mean
mean(comp_sepala[tipo=="setosa"])mean(comp_sepala[tipo=="versicolor"])mean(comp_sepala[tipo=="virginica"])mean(larg_sepala[tipo=="setosa"])mean(larg_sepala[tipo=="versicolor"])mean(larg_sepala[tipo=="virginica"])
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste de Médias - Banco Iris
Cálculo das Variâncias dos Comprimentos e Larguras das Sepalas - var
var(comp_sepala[tipo=="setosa"])var(comp_sepala[tipo=="versicolor"])var(comp_sepala[tipo=="virginica"])var(larg_sepala[tipo=="setosa"])var(larg_sepala[tipo=="versicolor"])var(larg_sepala[tipo=="virginica"])
Testa a Igualdade de Variâncias para Duas Amostras - var.test
var.test(comp_sepala[tipo=="setosa"],comp_sepala[tipo=="versicolor"])var.test(comp_sepala[tipo=="setosa"],comp_sepala[tipo=="virginica"])var.test(comp_sepala[tipo=="virginica"],comp_sepala[tipo=="versicolor"])var.test(larg_sepala[tipo=="setosa"],larg_sepala[tipo=="versicolor"])var.test(larg_sepala[tipo=="setosa"],larg_sepala[tipo=="virginica"])var.test(larg_sepala[tipo=="virginica"],larg_sepala[tipo=="versicolor"])
Testa a Igualdade de Medias para Duas Amostras - t.test (variâncias desiguais)
t.test(comp_sepala[tipo=="setosa"],comp_sepala[tipo=="versicolor"],var.equal=FALSE)t.test(comp_sepala[tipo=="setosa"],comp_sepala[tipo=="virginica"],var.equal=FALSE)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste de Médias - Banco Iris
Testa a Igualdade de Médias para Duas Amostras - t.test (variâncias iguais)
t.test(comp_sepala[tipo=="virginica"],comp_sepala[tipo=="versicolor"],var.equal=TRUE)t.test(larg_sepala[tipo=="setosa"],larg_sepala[tipo=="versicolor"],var.equal=TRUE)t.test(larg_sepala[tipo=="setosa"],larg_sepala[tipo=="virginica"],var.equal=TRUE)t.test(larg_sepala[tipo=="virginica"],larg_sepala[tipo=="versicolor"],var.equal=TRUE)
Variável Tipos de Flores Iris Teste de Variâncias Teste de Médiassetosa versicolor virginica Decisão Decisão
comp_sepala X X rejeita rejeitaX X rejeita rejeita
X X aceita rejeitalarg_sepala X X aceita rejeita
X X aceita rejeitaX X aceita rejeita
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste da Proporção - Pernambuco Eleições 2018
Testa a Igualdade da proporção para Duas Amostras - prop.test
Considere uma amostra da votação para governador no estado de pernambuco em 2018. O objetivo é testar aporcentagem de votos obitidos entre os dois candidatos mais votados nesses municípios.
0,000
10,000
20,000
30,000
40,000
50,000
60,000
70,000
Eleição para Governador em Pernambuco - 2018
%VOTOS_ARMANDO %VOTOS_PAULO
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo:Considere a amostra do tempo de serviço, em anos, de 10funcionários de uma companhia de seguros e o número de clientesque cada um conquistou. Será que existe uma relação entre avariável número de clientes e o tempo de serviço do corretor?
X 2 3 4 5 4 6 7 8 8 10Y 48 50 56 52 43 60 62 58 64 72
2 4 6 8 10
4550
5560
6570
X
Y
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Tipos de correlação
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo: dados anscombeans <- read.csv("anscombe.csv", sep=";", dec=",",header=TRUE)head(ans)x <- ansXabca <- ansYab <- ansYbc <- ansYcxd <- ansXd
cor(x,a)0.8164205cor(x,b)0.8162867cor(x,c)0.8162867cor(xd,d)0.8165214
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
O coeficiente de correlação (r): Mede o grau da relação linearentre os pares de valores (x,y).
r =∑n
i=1(xi−x)(yi−y)√∑ni=1(xi−x)2
√∑ni=1(yi−y)2
Comandos R:
mean(X) 5.7mean(Y) 56.5var(X) 6.455556var(Y) 73.16667summary(X)Min. 1st Qu. Median Mean 3rd Qu. Max. 2.00 4.00 5.50 5.70 7.75 10.00summary(Y)Min. 1st Qu. Median Mean 3rd Qu. Max. 43.0 50.5 57.0 56.5 61.5 72.0cor(X,Y) 0.8767952
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Diagrama de dispersão
plot(X , Y ,main = ”CientesdeumaCompanhiadeSeguros”, xlab = ”Tempodeserviço(X)”, ylab =”Númerodeclientes(Y )”)
2 4 6 8 10
4550
5560
6570
Número de Segurados de uma Companhia de Seguros
Tempo de serviço
Núm
ero
de c
lient
es
Propriedades da correlação
1 O valor de r é limitado entre -1 e 1.2 r(x, y) = r(y, x)3 r não mede causalidade.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Teste de hipótese para correlação ρ
Ho : ρ = 0H1 : ρ 6= 0
Estatística do teste: t = r√1−r2n−2
cor.test(x, y,alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"),exact = NULL, conf.level = 0.95, continuity = FALSE, . . . )
cor.test(X,Y)Pearson’s product-moment correlationdata: X and Yt = 5.5989, df = 5, p-value = 0.00251alternative hypothesis: true correlation is not equal to 095 percent confidence interval:0.5841215 0.9896355sample estimates:cor0.928676
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo: Box, Hunter and Hunter. Statistics for experiments. News York, 1978.
O diagrama de dispersão abaixo apresenta a população (Y) da cidade de Oldenburg, na Alemanha, e o número decegonhas (X) no final de cada ano, durante o período de sete anos entre 1930 e 1936.
140 160 180 200 220 240
3040
5060
7080
População de Oldenburg e o número de cegonhas − 1930 a 1936
Número de cegonhas
Pop
uaçã
o ci
vil (
por
1000
)
Observando o gráfico acima, podemos ser induzido a concluir que o aumento no número de cegonhas causa umcrescimento na população da cidade de Oldenburg. Neste caso, a correlação entre Y e X ocorre devido a umterceiro fator, W. Tanto Y como X cresce sobre o período de 7-anos, o fator comum W é o tempo.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
cegonha <- read.csv("cegonha.csv", sep=";",dec=",",header=TRUE)cegonhaano cegonha população1930 130 301931 140 35
ano <- cegonha$anoX <- cegonha$cegonhaY <- cegonha$populaçãoplot(X,Y, main="População de Oldenburg e o número de cegonhas- 1930 a 1936", xlab="Número de cegonhas", ylab="Populaçãocivil (por 1000)")cor(ano,cega)0.9845357
Exercício:a Obtenha os gráficos (ano,X) e (ano,Y)b Calcule r(ano,X), r(X,ano), r(ano,Y) e r(Y,ano)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Modelo de Regressão
Regressão Linear Simplesy = β0 + β1x + ε
Resposta = Parte explicada pelos dados + Resíduos
Onde,y -> Variável dependentex -> Variável independenteε− > Erroβ0− > Constanteβ1− > Coeficiente
Obs: neste modelo assumimos que y tem uma relação linear com x.Exemplo: Considere os dados de prestigio e educação , John Fox,
2017.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Modelo de Regressão
Observação
Ajustado
Resíduo ou erro+
Resíduo ou erro
-
Reta ajustada por mínimos quadrados
Scatterplot Anos de Educação e Prestígio
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Modelo de Regressão
pres <- read.csv("prestigio.csv", sep=";", dec=",",header=TRUE)head(pres)
profissao tipo renda educacao prestigioAccountant prof 62 86 82
Pilot prof 72 76 83Architect prof 75 92 90Author prof 55 90 76
Chemist prof 64 86 90Minister prof 21 84 87
lm.pres <- lm(pres$prestigio ∼ pres$educacao)summary(lm.pres)
Call:lm(formula = pres$prestigio ∼ pres$educacao)
Residuals:Min 1Q Median 3Q Max
-29.384 -11.834 -0.484 9.222 41.460
Coeficents:Estimate Std. Error t value value
(Intercept) 0.284000 5.09306 0.056 0.956pres$educacao 0.90200 0.08455 10.668 1.17e-13Residual standard error: 16.69 on 43 degrees of freedom, Multiple R-squared: 0.7258, Adjusted R-squared: 0.7194
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Modelo de Regressão
Obtendo a reta ajustadaplot(pres$educacao,pres$prestigio)abline(lm(pres$prestigio ∼ pres$educacao))identify(pres$educacao,pres$prestigio, labels=pres$profissao)
20 40 60 80 100
020
4060
8010
0
pres$educacao
pres
$pre
stig
io
architect
cook
Correlação 0.8519156
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Suposições sobre os erros:
1 Os erros tem média zero.2 Os erros são não correlacionados.ρ(εi , εj ) = 0, para i 6= j
3 Os erros são não correlacionado com a variável dependente.ρ(εi , y) = 0
Obs: y é uma variável aletória porém x não é uma variável aleatória.
Mínimos Quadrados
Determina os coeficentes (β0, β1)osquaisminimizamasomadoserrosaoquadrado.Ouseja,
min∑n
i=1ε2i = min
∑ni=1
(yi − β0 − β1x)2
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
O Método de mínimos quadrados irá garantir que após estimar os coeficiente teremos apenas uma reta passandoentre os dados.
20 40 60 80 100
020
4060
8010
0
Educação
Pre
stíg
io
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Equações Normais ∂∑n
i=1ε2i
∂β0= 0
∂
∑ni=1
ε2i∂β1
= 0
Estimadores de β0eβ1
β1 =
∑ni=1
(yi−y)(xi−x)∑ni=1
(xi−x)2
e β0 = y − β1 x
Onde x é a média das observações e y é a média das respostas
Equação final após a estimação dos coeficientes via MQ
y = β0 + β1x
Observe que a equação não tem mais a componente do erro..
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo: Considere os dados de prestigio e educação
lm.pres <- lm(formula = pres$prestigio ∼ pres$educacao)
Coeficents:Estimate Std. Error t value value
(Intercept) 0.284000 5.09306 0.056 0.956pres$educacao 0.90200 0.08455 10.668 1.17e-13Residual standard error: 16.69 on 43 degrees of freedom, Multiple R-squared: 0.7258, Adjusted R-squared: 0.7194
Equação de predição ou previsão
y(prestigio) = 0.284 + 0.902 ∗ x(anos de estudo)
Significa que para uma unidade de x equivale a um acréscimo 0.902 na resposta y. Ou seja, para cada ano deestudo a mais o indíviduo tem um acrescimento de aproximadamente 1% no seu prestigio.
Resíduos
ε = y − y
Propriedades∑ni=1
εi = 0∑ni=1
xi εi = 0
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Valores ajustados e resíduos, y
y_est <- fitted.values(lm.pres)res <- residuals(lm.pres)
plot(res,est)identify(res, est,labels=pres$profissao)
−30 −20 −10 0 10 20 30 40
2040
6080
Resíduos
Val
ores
aju
stad
os
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Pontos ExtremosObservações que assumem valores extremos comparado com asdemais são denominados "outliers".
0 2000 4000 6000 8000
0e+
001e
+06
2e+
063e
+06
4e+
065e
+06
6e+
06
c2$cerebro
c2$p
eso
0 200 400 600 800 1000 1200
050
000
1000
0015
0000
2000
0025
0000
c5$cerebro
c5$p
eso
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Critérios de AjustamentoR2representaaproporçãodavariaçãoexplicadapelomodeloderegressãocomrelaçãoavariaçãototal, denominadoCoeficentededeterminação.
R2 =∑n
i=1(yi−y)2∑ni=1(yi−y)2
Obs: R2 esta definido no intervalo [0,1]
Erro Padrão da RegressãoSp =
√1
n−2
∑ni=1
ε2i
Regressão e Correlaçãoβ = r SySx
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo:Considere um conjunto de dados hipotéticos de 19 empresas que tem registrado os seus gastos com propaganda(em dólares) os valores das médias das vendas mensais (em dólares) de cada empresa.
1 Estimar β0 e β1.2 Montar a equação da regressão e interpretar os βs.3 Fazer um scaterplot dos gastos versus vendas4 Calcular y considera um gasto com propaganda de 4 dolares, x = 4.5 Calcule o coeficiente de determinação, o coeficiente de correlação e o erro da regressão.6 Testar se os coeficientes da regressão são nulos.7 Extrair os resíduos e os valores ajustados.8 Fazer um gráfico dos gastos versus resíduos.9 Fazer um histograma dos resíduos.10 Fazer um scaterplot dos resíduos versus normal.
Residuals:Min 1Q Median 3Q Max
-34.931 -16.983 -4.301 17.384 35.804
Coeficents:Estimate Std. Error t value value
(Intercept) 2.727 21.954 0.056 0.956gastos 101.049 10.102 10.003 1.54e-08Residual standard error: 21.87 on 17 degrees of freedom Multiple R-squared: 0.8548, Adjusted R-squared: 0.8462F-statistic: 100.1 on 1 and 17 DF, p-value: 1.541e-08
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Analisando o output do R.
β0 = 2.727 e β1 = 101.049y = 2.727 + 101.049x
1.5 2.0 2.5 3.0
100
150
200
250
300
Vendas e Gastos com Propaganda)
Gastos (em dolares)
Ven
das
(em
dol
ares
)
y = 2.727 + 101.049 ∗ 4 = 406.923 Ou seja, se aumentar 4 dólares no gastos com propaganda terá umretorno de 406 dólares nas vendas.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
.aju <- fitted.values(fit)res <- residuals(fit)
1.5 2.0 2.5 3.0
−30
−20
−10
010
2030
Gastos
Res
íduo
s
Normal(0,1)
res
Den
sida
de
−40 −20 0 20 40
0.00
00.
005
0.01
00.
015
0.02
0
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
.
150 200 250 300
−40
−20
020
40
Fitted values
Res
idua
ls
Residuals vs Fitted
5
11
14
−2 −1 0 1 2
−1
01
2
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
514
11
150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location
51411
0.00 0.05 0.10 0.15 0.20 0.25
−2
−1
01
2
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance 0.5
0.5
Residuals vs Leverage
514
15
Análise de resíduos para modelo de regressão linear
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Script para Análise de Regressão Linear. setwd(" /Curso de Estatistica no R")v <- read.csv("vendas.csv", sep=";", dec=",",header=TRUE)head(vendas)vendas <- v$vendasgastos <- v$gastosplot(gastos, vendas)cor(gastos, vendas)plot(gastos, vendas, xlab="Gastos (em milhares de dolares)",ylab="Vendas (em milhares de dolares)",main="Vendas e Gastos com Propaganda")fit <- lm(vendas ∼ gastos)summary(fit)aju <- fitted.values(fit)res <- residuals(fit)m <- mean(vendas)a <- (aju-m).2b <- (vendas-m).2R2 <- sum(a)/sum(b)R2plot(gastos, res, ylab="Resíduos", xlab="Gastos")hist(res,probability=TRUE,col="orange",main="Normal(0,1)",ylab="Densidade")r <- res.2Sp <- sqrt(sum(r)/(19-2))Sppar(mfrow=c(2,2))plot(fit)mtext("Análise de resíduos para modelo de regressão linear",outer=TRUE, line=-2, cex=1.4)layout(1)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo: Taxa de internações devido a pneumonia por faixa de idade - DataSus
h <- read.csv("hospital.csv", sep=";", dec=",",header=TRUE)h
idade faixa taxaMenor 1 ano 1 364.581 a 4 anos 2 126.025 a 9 anos 3 27.19
10 a 19 anos 4 9.6820 a 29 anos 5 8.5230 a 39 anos 6 10.6840 a 49 anos 7 15.2850 a 59 anos 8 26.3060 a 69 anos 9 50.34
70 anos e mais 10 166.65
plot(h$faixa,h$taxa, main="Taxa de internação hospitalar(SUS) devido a pneumonia", xlab="Faixa deidade",ylab="Número de internações por 10.000 habitantes")fit <- lm(h$taxa ∼ h$faixa)abline(fit)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
2 4 6 8 10
050
100
150
200
250
300
350
Taxa de internação hospitalar(SUS) devido a pneumonia
Faixa de idade
Núm
ero
de in
tern
açõe
s po
r 10
.000
hab
itant
es
20 40 60 80 100 120 140
−10
00
100
200
Fitted values
Res
idua
ls
Residuals vs Fitted
1
10
4
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.
0−
0.5
0.0
0.5
1.0
1.5
2.0
2.5
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
1
10
4
20 40 60 80 100 120 140
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location
1
10
4
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35
−1
01
2
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance
0.5
1
Residuals vs Leverage
1
10
3
Análise de resíduos para modelo de internação linear
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo: Taxa de mortalidade devido a neoplasias malignasModelo de regressão linear para gerar previsões em séries temporais.
n <- read.csv("neoplasia.csv", sep=";", dec=",",header=TRUE)ano <- n$Anoneo <- n$neoplasias_malignasinstall.packages("forecast")neo_ts <- ts(neo, start=c(1998,1), end=c(2012,1), frequency=1)fit <- tslm(neo_ts ∼ trend)summary(fit)
Call:tslm(formula = neo_ts . trend)
Residuals:Min 1Q Median 3Q Max
-2.3849 -1.6397 -0.7218 1.6010 3.0999
Coeficents:Estimate Std. Error t value value
(Intercept) 16.2163 1.0492 15.456 9.54e-10 ***ano 0.5690 0.1154 4.931 0.000275Residual standard error: 16.69 on 43 degrees of freedom, Multiple R-squared: 0.7258, Adjusted R-squared: 0.7194
Obs: A taxa de mortalidade de devido a neoplasias malignas aumenta em 0.569 a cada ano.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Equação do modeloyt = β0 + β1t + εt
y = βo + β1tneoplasia = 16.2163 + 0.5690Ano
O Modelo de Previsãof <-forecast(fit, h=5,level=c(80,95))plot(f, ylab="Taxa por 10.000 habitantes", main="Taxa de internações devido a neoplasias malignas",xlab="Ano")lines(fitted(f), col="blue")
Taxa de internações devido a neoplasias malignas
Ano
Taxa
por
10.
000
habi
tant
es
2000 2005 2010 2015
1520
2530
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Inferência da RegressãoE(β0) = β0, onde β0 é um estimador não viesado de β0
V (β0) =σ2ε
∑ni=1
x2i
n∑n
i=1(xi−x)2
E(β1) = β1, onde β1 é um estimador não viesado de β1
V (β1) = σ2ε∑ni=1
(xi−x)2
β0 tem distribuição N(β0, V (β0))β1 tem distribuição N(β1, V (β1))
Intervaldo de confiançaUm intervalo de confiança para β com 100(1− α)% será:
(β ± tα2
ˆSE(β))
Onde, ˆSE(β) =√
ˆV (β) confint(fit)
2.5% 97.5%(Intercept) -9.9871443 10.555143
edu 0.7314745 1.072517
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Análise de Variância
Fonte Soma de Quadrados GL Quadrados Médios EstatísticaRegressão SSR =
∑ni=1
(yi − y)2 1 SSRM = SSR1
Resíduos SSE =∑n
i=1ε2 n-2 SE =
∑ni=1
ε2
n−2 F = SSRMSE
Total TSS =∑n
i=1(yi − y)2 n-1
Exemplo: Regressão do prestígiosummary(fit)anova(fit)Analysis of Variance Table
Response: preFonte Soma de Quadrados Gl Quadrados médios F p-valor
educacao 31707 1 31707 113.8 1.17e-13***residuals 11981 43 279Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo:Considere os dados de internamentos por neoplásias malígnas do DataSus.
1 Estimar β0 e β1.2 Montar a equação da regressão e interpretar os βs.3 Fazer um scaterplot dos gastos versus vendas4 Calcular y considera um gasto com propaganda de 4 dolares, x = 4.5 Calcule o coeficiente de determinação, o coeficiente de correlação e o erro da regressão.6 Testar os βs.7 Extrair os residuos e os valores ajustados.8 Fazer um gráfico dos gastos versus resíduos.9 Fazer um histograma dos resíduos.10 Fazer um scaterplot dos resíduos versus normal.11 Obter o os intervalos de confiança de 80 e 90 porcento para os coeficientes do modelo.12 Análisar a tabela da ANOVA.13 Conclusões
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Regressão MultiplaA formula geral do modelo de regressão multipla com k variáveis independentes é dada por:
yi = β0 + β1x1,i + β2x2,i + ... + βk xk,i + εi
Onde:1 yi a variável a ser predita2 x1,i , ..., xk,i são as k variáveis preditoras3 β1, ..., βk são os coeficientes que medem o efeito marginal de
cada preditor4 εi os erros associados
Presupostos básicos sobre os erros εi1 Os erros tem média zero2 Os εi e εj são não correlacionados para todo i 6= j3 Os εi são não correlacionados com os xj,i4 Os εi tem distribuição normal5 A var(εi) é constante
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo - Carteira de crédito bancáriaO arquivo credito.csv contém uma amostra de 500 clientes de umbanco australiano com as seguintes variáveis:
Escore de crédito do clientePoupançaRendaFTE - tempo de dedicação na empresaSolteiroTempo que reside no domicílioTempo de permanência no emprego
Obs: Onde a variável escore é apresentada numa escala entre 0 e100
O objetivo é predizer o valor do escore bancário utilizando diversasoutras variáveis, caso tipo de cross-sectional data.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Lendo os dados
credito <- read.csv("credito.csv", sep=";", dec=",",header=TRUE)head(credito)
escore poupa renda fte solteiro reside tempo39.39981 0.012 111.168 TRUE FALSE 27 851.79090 0.654 56.400 TRUE FALSE 29 33
Define a função panel.hist
panel.hist <- function(x, ...)usr <- par("usr"); on.exit(par(usr))par(usr = c(usr[1:2], 0, 1.5) )h <- hist(x, plot = FALSE)breaks <- hbreaks; nB < −length(breaks)y <- hcounts; y < −y/max(y)rect(breaks[-nB], 0, breaks[-1], y, col = "cyan", ...)
Comando para fazer o painel de histogramas das variáveis, onde teremos na diagonal do painel os respectivoshistogramas e fora da diagonal os scaterplots das variáveis
pairs(credito, diag.panel = panel.hist)
Obs:Este painel contém variáveis categóricas as quais devem ser retiradas, pois não faz sentido construirhistograma de categorias.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Modificando o dataframe
escore <- credito$escorepoupa <- credito$pouparenda <- credito$rendafte <- credito$ftesolteiro <- credito$solteiroreside <- credito$residetempo <- credito$tempoc <- cbind(escore,poupa,renda,reside,tempo)head(c)
escore poupa renda reside tempo39.39881 0.012 111.168 27 851.79090 0.654 56.400 29 33
Nomes das colunas
col <- c("escore","poupa","renda","reside","tempo")dimnames(c) <- list(NULL,col)c <- as.data.frame(c,rownames=NULL)head(c)
Novo painel
pairs(c, diag.panel = panel.hist)
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
escore
0 10 20 30 40 50 0 50 150 250
2040
6080
100
010
2030
4050 poupa
renda
5010
015
020
025
0
050
100
150
200
250
300
reside
20 40 60 80 100 50 100 200 0 20 40 60 80
020
4060
8010
0tempo
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Aplicando o log as variáveis independentes
poupa_log <- log(poupa + 1)renda_log <- log(renda + 1)reside_log <- log(reside + 1)tempo_log <- log(tempo + 1)clog <- cbind(escore,poupa_log,renda_log,reside_log,tempo_log)clog <- as.data.frame(clog,rownames=NULL)pairs(clog, diag.panel = panel.hist)
escore
0 1 2 3 4 0 1 2 3 4 5
2040
6080
100
01
23
4
poupa_log
renda_log
3.5
4.0
4.5
5.0
5.5
01
23
45 reside_log
20 40 60 80 100 3.5 4.0 4.5 5.0 5.5 0 1 2 3 4
01
23
4tempo_log
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Estimação do modelo - Consiste em encontrarmos valores dos coeficientes os quais minimizam a soma dequadrados dos erros
Método dos mínimos quadrados - MQ∑ni=1
ε2 =∑n
i=1(yi − β0 − β1x1, ...., βk,i xk,i )2
Os preditores da variável resposta y podem ser obtido através da seguinte expressão:
y = β0 + β1x1+, ....,+βk,i xk,i
Obs: a equação acima não contém o termo dos erros
Estimação dos erros
εi = yi − yi = yi − β0 − β1x1−, ....,−βk,i xk,i
Coeficiente de determinação: Variação explicada pelo modelo estimadoVariação total
R2 =
∑ni=1
(yi−y)2∑ni=1
(yi−y)2
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Estimando o modelo: comando lm(y ∼ x)aju <- lm(formula = escore ∼ poupa_log + renda_log + reside_log + tempo_log)summary(aju)
Residuals:Min 1Q Median 3Q Max
-26.133 -6.966 -1.125 5.379 37.446
Coefficients:Estimate Std.Error t value Pr(>|t|)
Intercept -0.2186 5.2309 -0.042 0.96668poupa_log 10.3526 0.6124 16.904 2e-16***renda_log 5.0521 1.2579 4.016 8.83e-05***reside_log 2.6666 0.4345 6.137 1.72e-09***tempo_log 1.3138 0.4094 3.209 0.00142**Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.16 on 495 degrees of freedomMultiple R-squared: 0.4701, Adjusted R-squared: 0.4658F-statistic: 109.8 on 4 and 495 DF, p-value: < 2.2e-16
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Valores Preditos(y) versus Valores reais(y)Se as variáveis independentes explicam bem a variação existente navariável dependente, espera-se que os valores ajustados de yestejam muito próximo dos valores observados dos escores dos 500clientes da carteira de crédito.
20 40 60 80 100
2030
4050
6070
escore
pred
ito
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Análises dos ResíduosApós o ajustamento espera-se que a distribuição dos resíduos sejasimétrica e aproximadamente normal com média zero e variânciaum. O seja, o seu modelo foi capaz de extrair toda informaçãocontida na amostra e o que restou foi apenas um mero resíduodesprezível, caso contrário teremos que revrmos o conjunto devariáveis independentes, ou a formulação matemática do modelo.
−20
−10
010
2030
Histogram of residuo
residuo
Fre
quen
cy
−30 −10 0 10 20 30 40
020
4060
8010
0
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Gráficos dos Resíduos versus cada variável independente
escore_fit <- fitted.values(aju) plot(escore_fit,escore) residuo <- residuals(aju) par(mfrow=c(2,2))plot(poupa_log,residuo) plot(renda_log,residuo) plot(reside_log,residuo) plot(tempo_log,residuo) boxplot(residuo)hist(residuo)
0 1 2 3 4
−20
−10
010
2030
poupa_log
resi
duo
3.5 4.0 4.5 5.0 5.5
−20
−10
010
2030
renda_log
resi
duo
0 1 2 3 4 5
−20
−10
010
2030
reside_log
resi
duo
0 1 2 3 4
−20
−10
010
2030
tempo_log
resi
duo
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Comando plot(aju): painel de gráficos dos elementos contidos no objeto aju após o ajustamento
par(mfrow=c(2,2))plot(aju)mtext("Análise de resíduos para modelo de regressão não linear",outer=TRUE, line=-2, cex=1.4)layout(1)
20 30 40 50 60 70
−20
020
40
Fitted values
Res
idua
ls
Residuals vs Fitted
111 231
105
−3 −2 −1 0 1 2 3
−2
−1
01
23
4
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
111231
105
20 30 40 50 60 70
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location
111 231
105
0.00 0.01 0.02 0.03 0.04 0.05 0.06
−2
02
4
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance
Residuals vs Leverage
37
231
186
Análise de resíduos para modelo de regressão não linear
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
R2aju Ajustado
O R2 não representa uma boa medida quando estamos analisando o modelo com respeito a predição, pois tende aconvergir para 1 quando aumentamos o números de variáveis independentes. O R2 ajustado, corrigido, impõe umapenalidade a medida que incluímos novas variáveis no modelo, representado assim um bom critério para seleção devariáveis a serem incluídas no modelo
R2aju = 1− (1− R2) n−1
n−k−1
AIC - Critério de Informação de Akaike
AIC = nlog( SSEn + 2(k + 2))
n representa o número de observaçõesk o número de variáveis independentes
SSE =∑n
i=1ε2
BIC - Critério de Informação de Bayseano de Scharz
BIC = nlog( SSEn ) + (k + 2) log(n)
O BIC difere do AIC apenas pelo termo da penalidade do critério, o qual é multiplicado por 2 e o outro porlog(n) respectivamente.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exemplo: considere os dados da carteira de crédito de um banco australiano, obter os estimadores das seguinteregressões:
1 y = β0 + β1poupa_log + β2renda_log + β3reside_log + β4tempo_log2 y = β0 + β1poupa_log + β2renda_log + β3reside_log3 y = β0 + β1poupa_log + β2reside_log + β3tempo_log4 y = β0 + β1poupa_log + β2reside_log5 y = β0 + β1poupa_log + β2renda_log + β3tempo_log6 y = β0 + β1poupa_log + β2tempo_log7 y = β0 + β1poupa_log + β2renda_log8 y = β0 + β1poupa_log9 y = β0 + β1renda_log + β2reside_log + β3tempo_log10 y = β0 + β1renda_log + β2reside_log11 y = β0 + β1renda_log + β2tempo_log12 y = β0 + β1reside_log + β2tempo_log13 y = β0 + β1reside_log14 y = β0 + β1renda_log15 y = β0 + β1tempo_log16 y = β0
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Seleção do Melhor Modelo
Modelo k 2(k+2) (k+2)log(n) R2 ajustado AIC BIC1 4 12 37,3 0,46 2325,8 2351,12 3 10 31,1 0,45 2334,1 2355,13 3 10 31,1 0,45 2339,8 2360,94 2 8 24,9 0,44 2349,2 2366,15 3 10 31,1 0,43 2360,4 2381,56 2 8 24,9 0,41 2373,4 2390,37 2 8 24,9 0,40 2377,7 2394,68 1 6 18,6 0,39 2392,1 2404,79 3 10 31,1 0,16 2551,6 2572,710 2 8 24,9 0,15 2553,8 2570,711 2 8 24,9 0,10 2586,7 2603,512 2 8 24,9 0,09 2591,4 2608,213 1 6 18,6 0,08 2594,6 2607,214 1 6 18,6 0,08 2595,3 2607,915 1 6 18,6 0,10 2584,7 2597,316 0 0 0,00 0,00 2641,3 2662,4
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exercício - I
Acessando elementos na matrizConsidere a matriz região.dados, use os comandos R abaixo eidentifique os elementos
região.dados[1,]região.dados[1,]região.dados[1,]região.dados[1,]região.dados[,1]região.dados[,2]região.dados[,3]região.dados[,4]região.dados[,5]
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exercício - II
1 Considere x=12 e y-23. Use o R e obtenha:
a x + y ,√x e √y
b 3(x + y), x3 ,y2 e xy
c z = x2 + y2 e√z
d (x + y)2
2 Considere dois vetores vet1=(8,10,7,3,2,15,20) e vet2=(1,1,1,1,1,1,1). Calcule:
a A soma dos dois vetoresb A soma acumulada de vet1 e vet2c O vetor vet3 = vet1− vet3d A média e mediana de vet1, vet2 e vet3e Os o sumário de vet1, vet2 e vet3f Os percentis, 20, 25, 50, 70 e 75 de vet1, vet2 e vet3g As variâncias de vet1, vet2 e vet3 para n e n-1.
3 Considere o vetor vet4 = vet1− vet1(1) − vet1(6) − vet1(7). Calcule a média, mediana, quartil1,quartil3, o intervalo interquartilico e a variância de vet4. Compare com os resultados de vet1.
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exercício - III
Os dados abaixo representam as temperaturas (em graus F)dos anéis de combustível de espaçonaves que foramsubmetidos a testes de temperatura.
(84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72,73, 70, 57, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79,75, 76, 58, 31)a Calcule a média e mediana das temperaturasb Encontre os quartisc Encontre os percentis 5 e 9d Retire da amostra o menor valor e recalcule os itens
anteriorese Comente os resultados obtidos
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exercício - IV
2 Uma amostra de seis resistores fornece as seguintesresistência em ohms:x1 = 45, x2 = 38, x3 = 47, x4 = 41, x5 = 35, x6 = 43.
a Calcule a média e medianab Encontre os quartisc Encontre os percentis 5 e 9d Retire da amostra o menor valor e recalcule os itens anteriores.Comente os resultados obtidos.
e Se as temperaturas fossem 450, 380, 470, 410, 350 e 430 como vcpoderia comparar essas duas amostras?
f Construa um boxplot
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exercício - V
1 A amostra abaixo representa o grau de concentração deoxigênio na fabricação de circuitos integrados. Essaconcentração avalia o nível de contaminação no siliconedesses circuitos.(3.15, 2.68, 4.31, 2.09, 3.82, 2.94, 3.47, 3.39, 2.81, 3.61).
a Calcule a variância e o desvio padrão amostral usando oscomandos R.
b Calcule a variância e o desvio padrão usando a definição.c Subtraia 35 de cada elemento da amostra e calcule s2 e s, comparecom os resultados anteriores.
d Construa um boxplot
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Exercícios VI - Correlação
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Apêndice I
Tabela: Funções matemáticas do RFunção Descriçãosqrt() raiz quadradaabs() valor absolutosin() cos() tan() funções trigonométricasasin() acos() atan() funções trigonométricas inversassinh() cosh() tanh() funções hiperbólicasasinh() acosh() atanh() funções hiperbólicas inversasexp() log() exponencial e logaritmo naturallog10() log2() logaritmo na base 10 e na base 2gamma() funções Gamma de Eulerfactorial fatorial (n!)choose() número de combinaçõescombn() todos conjuntos gerados pela combinação de certo número de elementos
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Obrigado!!!
Homicídios Banco Bussab Comandos Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Teste de Hipótese Bancos Iris Correlação Regressão Linear Simples Regressão Multipla Critérios de Seleção Exercícios Apêndice FIM
Enivaldo Rocha
Brian S. Everitt and Torsten Hothorn, (2014). AHandbook of Statistical Analyses Using R, Third Edition.Chapman Hall Book.Bussab, W. de O. e Morettin, P. A. (2003). EstatísticaBásica, 5a ed. São Paulo: Editora Saraiva.George E. P. Box, Stuart Hunter, William G. Hunter,(2005). Statistics for Experimenters Design, Innovation,and Discovery. Second Edition. John WileySons Inc. Publication.John Fox, (2016).Applied Regression Analysis andGeneralized Linear Models, Third Edition. SAGE.John Fox, (2017). Interface for R Using the RCommander. SAGE.Rob J Hynndman, George Athanasopoulos, (2014).Forecasting Principles and Pratice. Texts.The R Project for Statistical Computing (2006).www.r-project.org.