Métodos estat´ısticos de screening em classificaç˜ao supervisionada

169
UNIVERSIDADE DE LISBOA FACULDADE DE CI ˆ ENCIAS DEPARTAMENTO DE ESTAT ´ ISTICA E INVESTIGAC ¸ ˜ AO OPERACIONAL etodos estat´ ısticos de screening emclassifica¸c˜ ao supervisionada Sandra Cristina de Faria Ramos Doutoramento em Estat´ ıstica e Investiga¸ c˜aoOperacional (Especialidade em Probabilidade e Estat´ ıstica) 2010

Transcript of Métodos estat´ısticos de screening em classificaç˜ao supervisionada

UNIVERSIDADE DE LISBOA

FACULDADE DE CIENCIASDEPARTAMENTO DE ESTATISTICA E INVESTIGACAO

OPERACIONAL

Metodos estatısticos de screening

em classificacao supervisionada

Sandra Cristina de Faria Ramos

Doutoramento em Estatıstica e Investigacao Operacional(Especialidade em Probabilidade e Estatıstica)

2010

2

UNIVERSIDADE DE LISBOA

FACULDADE DE CIENCIASDEPARTAMENTO DE ESTATISTICA E INVESTIGACAO

OPERACIONAL

Metodos estatısticos de screening

em classificacao supervisionada

Sandra Cristina de Faria Ramos

Doutoramento em Estatıstica e Investigacao Operacional(Especialidade em Probabilidade e Estatıstica)

Tese orientada pelas Professoras DoutorasMaria Antonia Amaral Turkman

Marılia Cristina de Sousa Antunes

2010

4

Resumo

Nesta tese apresentam-se as contribuicoes resultantes de um trabalho de inves-tigacao sobre metodos bayesianos de screening em classificacao supervisionadanum cenario bivariado, ou seja, metodos que permitem atribuir a um novoindivıduo uma categoria de entre um conjunto de categorias mutuamente ex-clusivas, com base na observacao de vectores de caracterısticas bidimensionaisnesse indivıduo.

Iniciam-se os trabalhos com a formulacao do problema de screening doponto de vista preditivo bayesiano e mostra-se como se pode construir, deacordo com a formulacao proposta, uma regiao de especificacao quando seadmite um modelo gaussiano bivariado para o vector de caracterısticas condi-cional a categoria. Seguidamente introduzem-se alteracoes no modelo ini-cial de forma a remover restricoes no que respeita a pressupostos distribu-cionais. Nesta generalizacao consideram-se duas abordagens. A primeira usametodos do nucleo multivariados para estimar a distribuicao preditiva de umaobservacao futura condicional as varias categorias da variavel resposta. A se-gunda usa os actuais metodos bayesianos nao parametricos para estimar essadistribuicao preditiva.

E proposta uma regra de classificacao baseada em multiplos pares devariaveis, que resulta da combinacao da classificacao e de quantidades predi-tivas a posteriori resultantes da aplicacao do metodo a cada par de variaveis.Para ultrapassar os problemas de calculo encontrados, sao introduzidos e pro-gramados diversos algoritmos que envolvem metodos de integracao numericae de simulacao estocastica.

O classificador bayesiano que se apresenta generaliza os metodos de classi-ficacao classicos, pois permite a obtencao de fronteiras parametricas flexıveis,

i

ii Resumo

sem necessidade de fixar previamente a sua forma e possibilita o calculo deum conjunto de quantidades preditivas de interesse.

Sao apresentados e discutidos resultados da ilustracao da metodologia pro-posta quando aplicada a conjuntos de dados reais correspondentes a nıveis deexpressao genetica e a conjuntos de dados simulados.

Os programas desenvolvidos para implementar a metodologia propostaforam construıdos em ambiente R e permitem obter a regiao de especificacaode forma automatica.

Palavras-chave: screening optimo, classificacao supervisionada, metodo-logias bayesianas, analise nao parametrica, microarray, metodos MCMC.

Abstract

In this thesis we present the main contributions of a research project onBayesian optimal screening methods in supervised classification consideringa bivariate scenario, ie, methods that allow assigning a new individual to onecategory among a set of mutually exclusive categories, based on observationof two-dimensional vectors of characteristics of the individual.

The work begins with the formulation of the problem of screening from theBayesian predictive point of view. It is shown how the optimal specificationregion can be built under the assumption of a bivariate Gaussian model for thevectors of characteristics. Next, changes are introduced in the initial model inorder to remove restrictions concerning the distributional assumptions. First,multivariate kernel methods were used to estimate the predictive distributionof a future observation, conditional on the categories of the response vari-able. Second, nonparametric Bayesian methods were applied to estimate thispredictive distribution.

A classification rule based on multiple pairs of variables is proposed. Thisrule is a combination of the classification and some predictive probabilitiesthat result from applying the method to each considered pair of variables. Toovercome the computational problems encountered, several algorithms thatinvolve numerical integration methods and stochastic simulation were intro-duced and programmed.

The presented Bayesian classifier generalizes the classical methods of clas-sification, since it allows flexible parametric boundaries, without the need ofchoosing its shape a priori, at the same time that the calculation of a set ofpredictive quantities of interest is made possible.

iii

iv Abstract

The proposed methodology was applied to real data for illustration, withthe results being discussed and conclusions drawn.

The programs developed to implement the proposed methodology werebuilt in the environment R and allow to obtain the specification region auto-matically.

Keywords: optimal screening methods, supervisioned classification, Ba-yesian methodologies, nonparametric analysis, microarray, MCMC methods.

Agradecimentos

A Professora Doutora Maria Antonia Turkman e a Professora Doutora MarıliaAntunes, minhas orientadoras, os meus sinceros agradecimentos pela orientacaocientıfica, o incentivo, a amizade e pela grande paciencia que sempre de-mostraram no decurso deste trabalho. Agradeco-lhes ainda a cuidada revisaodesta tese.

Ao Professor Doutor Feridun Turkman, agradeco a atencao que prestou aomeu trabalho, o interesse que demostrou no meu percurso e leitura do artigopublicado sobre este assunto.

Ao Professor Doutor Alejandro Jara da Pontificia Universidad Catolicado Chile, agradeco a proveitosa troca de impressoes acerca da metodolo-gia bayesiana nao parametrica e pelas ferramentas computacionais disponi-bilizadas.

Ao ISEP, em particular ao Departamento de Matematica, agradeco todoo apoio institucional.

A Fundacao para a Ciencia e a Tecnologia, agradeco o apoio financeiro con-cedido em parte atraves do Centro de Estatıstica e Aplicacoes da Universidadede Lisboa (bolsa de doutoramento SFRH/BD/45112 e projectos FCT/PTD-C/MAT/64353 e FCT/ POCI/2010).

E porque os ultimos sao sempre os primeiros, um agradecimento muitoespecial a minha famılia, em particular ao Carlos e ao meu filho Rodrigo pormuitas e boas razoes!

v

vi

Conteudo

Nota Introdutoria 1

1 Conceitos Fundamentais 7

1.1 Sobre o problema de Screening . . . . . . . . . . . . . . . . . . 7

1.1.1 Screening optimo . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Aproximacoes computacionais . . . . . . . . . . . . . . . . . . . 14

1.2.1 Integracao numerica . . . . . . . . . . . . . . . . . . . . 14

1.2.2 Metodo de Monte Carlo ordinario . . . . . . . . . . . . 23

1.2.3 Metodos de Monte Carlo via Cadeias de Markov: algo-ritmo de Metropolis-Hastings . . . . . . . . . . . . . . . 24

2 Screening em Classificacao Supervisionada 29

2.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2 Probabilidade preditiva: P (T = t|D) . . . . . . . . . . . . . . . 32

2.3 Abordagem parametrica . . . . . . . . . . . . . . . . . . . . . . 33

2.4 Abordagem nao parametrica classica . . . . . . . . . . . . . . . 35

2.4.1 Estimadores do nucleo . . . . . . . . . . . . . . . . . . . 35

2.4.2 Estudo teorico dos estimadores do nucleo . . . . . . . . 38

2.5 Abordagem nao parametrica bayesiana . . . . . . . . . . . . . . 43

vii

viii Conteudo

2.5.1 Distribuicoes a priori arvores de Polya univariadas . . . 45

2.5.2 Distribuicoes arvores de Polya finitas multivariadas . . . 54

2.5.3 Aspectos computacionais associados com as inferenciasa posteriori . . . . . . . . . . . . . . . . . . . . . . . . . 57

3 Regra de classificacao e estimacao do erro 61

3.1 Regra de classificacao . . . . . . . . . . . . . . . . . . . . . . . 62

3.2 Estimacao da taxa de erro . . . . . . . . . . . . . . . . . . . . . 63

3.2.1 Estimacao por resubstituicao . . . . . . . . . . . . . . . 64

3.2.2 Estimacao por validacao cruzada . . . . . . . . . . . . . 65

3.2.3 Estimacao por bootstrap . . . . . . . . . . . . . . . . . . 67

3.3 Estimacao da taxa de erro para varios pares de variaveis . . . . 69

3.4 Problema multi-classe . . . . . . . . . . . . . . . . . . . . . . . 71

4 Aspectos computacionais 73

4.1 Construcao da regiao de especificacao optima . . . . . . . . . . 74

4.1.1 Obtencao de valores de P [T = 1| (x1, x2) ;D] . . . . . . 76

4.1.2 Ajuste da fronteira de classificacao . . . . . . . . . . . . 79

4.1.3 Aproximacao das caracterısticas operacionais . . . . . . 80

4.1.4 Seleccao do valor optimo de k . . . . . . . . . . . . . . . 91

5 Aplicacoes 95

5.1 Dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.2 Abordagem parametrica . . . . . . . . . . . . . . . . . . . . . . 98

5.2.1 Aplicacao aos dados reais . . . . . . . . . . . . . . . . . 98

5.2.2 Estudo de simulacao . . . . . . . . . . . . . . . . . . . . 105

5.3 Abordagem nao parametrica classica . . . . . . . . . . . . . . . 110

5.3.1 Aplicacao aos dados reais . . . . . . . . . . . . . . . . . 110

5.4 Abordagem nao parametrica bayesiana . . . . . . . . . . . . . . 114

5.4.1 Aplicacao aos dados reais . . . . . . . . . . . . . . . . . 116

Conteudo ix

5.5 Estudo de simulacao comparativo . . . . . . . . . . . . . . . . . 122

6 Discussao e Conclusoes 127

A Material Suplementar para o Capıtulo 3 131

A.1 Estimacao bootstrap da variancia e vies de um estimador . . . . 131

B Material Suplementar para o Capıtulo 5 133

B.1 Estimativas bayesiana das caracterısticas operacionais obtidasvia simulacao estocastica . . . . . . . . . . . . . . . . . . . . . . 133

B.2 Monitorizacao da convergencia das cadeias de Markov . . . . . 133

Referencias 141

x

Lista de Figuras

2.1 Curvas de nıvel das funcoes nucleo individuais. . . . . . . . . . 36

2.2 Estimativa da densidade bivariada pelo metodo do nucleo. . . . 36

2.3 Matrizes largura de banda: sem restricoes e diagonal. . . . . . . 42

2.4 Ilustracao de uma distribuicao arvore de Polya com 3 nıveispara uma particao em arvore binaria do espaco Ω = (0, 1]. Aparte inferior exibe o calculo dos valores de E [P (Wi ∈ B010|G)]e de E [P (Wi ≤ 0.375|G)]. . . . . . . . . . . . . . . . . . . . . . 48

2.5 Ilustracao de uma distribuicao a posteriori arvore de Polya com3 nıveis para uma particao em arvore binaria do espaco Ω =(0, 1]. A parte inferior ilustra os calculos para obter o valor deE [P (Wi ∈ B010|G) |w1, . . . , wn]. . . . . . . . . . . . . . . . . . . 50

2.6 50 realizacoes da distribuicao preditiva a posteriori de PT (Π0,1,j2, c) centrada na distribuicao normal padrao, para j=10 e c =5, 100, 1000 e 10000. Em todos os casos representa-se G0 =E(G) (linha solida preta). . . . . . . . . . . . . . . . . . . . . . 52

2.7 Exemplo da construcao de uma sucessao de particao de umquadrado unitario. O quadrado e inicialmente dividido emquadrantes (linha solida forte) que representam os conjuntosque constituem π1. No nıvel 2 cada um destes conjuntos edividido em quatro conjuntos, resultando os 16 conjuntos queformam π2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

xi

xii Lista de Figuras

5.1 Resultados correspondestes a abordagem parametrica: (a) es-timativas da probabilidade preditiva P (T = 1|x;D), x ∈ G(PP); (b) regiao optima e diagrama de dispersao correspondentea um par de genes seleccionado em cada estudo. As classesestao representadas atraves pontos (C1) e cruzes (C0). Regraquadratica - linha a cheio; regra linear - linha a tracejado. . . . 100

5.2 Diagrama em caixa das estimativas das taxas de erro de classi-ficacao por metodo de classificacao e para cada estudo. . . . . . 106

5.3 Contornos das densidades consideradas no estudo de simulacao.Linhas a tracejado - populacao correspondente a classe C1, lin-has a cheios - populacao populacao correspondente a classe C0. 107

5.4 Estimativas das CO, com e sem informacao a priori sobre aprevalencia, por numero de simulacao. α - linha cinzenta, ǫ- linha verde, δ - linha vermelha, γ - linha a tracejado preta,sensibilidade - linha azul, especilicidade - linha a cheio preta. . 108

5.5 Resultados correspondentes a ANPC: (a) contornos das esti-mativas das densidades preditivas de X|T = t, t = 0, 1 ediagrama de dispersao para o par de genes seleccionado emcada estudo. As classes estao representadas usando pontos(C1) e cruzes (C0); (b) estimativas da probabilidade preditivaP (T = 1|x;D), x ∈ G (PP) para cada estudo; (c) regioesoptimas (x ∈ G : P (T = 1|x;D) ≥ kopt) e regra de decisaoquadratica (linha a cheio) para cada estudo. . . . . . . . . . . . 115

5.6 Tracos e graficos das densidade marginais dos parametros domodelo para a classe 1 no estudo II . . . . . . . . . . . . . . . . 117

5.7 Resultados correspondentes a ANPB: (a) contornos das estima-tivas bayesianas nao parametricas das densidades preditivas deX|T = t, t = 0, 1 e diagrama de dispersao para o par de genesseleccionado em cada estudo. As classes estao representadasusando pontos (C1) e cruzes (C0); (b) estimativas da probabil-idade preditiva P (T = 1|x;D), x ∈ G (PP) para cada estudo;(c) regioes optimas (x ∈ G : P (T = 1|x;D) ≥ kopt) e regrade decisao quadratica (linha a cheio) para cada estudo. . . . . . 119

5.8 Estimativas do nucleo para as funcoes densidade das CO e in-tervalos HPD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Lista de Figuras xiii

5.9 Contornos das densidades consideradas no estudo de simulacao.Linhas a tracejado - populacao correspondente a classe C1, lin-has a cheios - populacao populacao correspondente a classe C0. 123

5.10 Regioes de especificacao optimas por abordagem ((a) - abor-dagem parametrica, (b) - abordagem nao parametrica classicae (c) - abordagem nao parametrica bayesiana), para os difer-entes cenarios considerados e para amostras de dimensao 100para cada classe. As classes estao representadas usando pontos(C1) e cruzes (C0); . . . . . . . . . . . . . . . . . . . . . . . . . 124

5.11 Regioes de especificacao optimas por abordagem ((a) - abor-dagem parametrica, (b) - abordagem nao parametrica classicae (c) - abordagem nao parametrica bayesiana), para os difer-entes cenarios considerados e para amostras de dimensao 30para cada classe. As classes estao representadas usando pontos(C1) e cruzes (C0); . . . . . . . . . . . . . . . . . . . . . . . . . 125

B.1 Tracos e graficos das densidade marginais dos parametros domodelo para a classe 0 no estudo II . . . . . . . . . . . . . . . . 135

B.2 Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 1 do estudo I . . . . . . . . . . 136

B.3 Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 0 do estudo I . . . . . . . . . . 137

B.4 Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 1 do estudo III . . . . . . . . . 138

B.5 Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 0 do estudo III . . . . . . . . . 139

xiv

Lista de Tabelas

4.1 Identificacao do tipo de regiao . . . . . . . . . . . . . . . . . . . 79

5.1 Frequencias observadas de Yi > Yj para as duas classes. . . . . 97

5.2 Pares de genes com capacidade discriminativa dos grupos. . . . 97

5.3 CO da regiao de classificacao optima definida por uma regra dedecisao quadratica. . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.4 CO da regiao de classificacao optima definida por uma regra dedecisao linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.5 Media e desvio padrao das estimativas da taxa de erro. . . . . . 104

5.6 Estimativas das CO para a regiao optima definida por umaregra de decisao quadratica. . . . . . . . . . . . . . . . . . . . . 109

5.7 Estimativa da taxa de erro e desvio padrao baseadas em 200simulacoes de Monte Carlo. . . . . . . . . . . . . . . . . . . . . 111

5.8 Estimativas BCV de matrizes largura de banda, HBCV. . . . . 112

5.9 CO da regiao de classificacao optima definida por uma regra dedecisao quadratica. . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.10 Estimativas das CO. . . . . . . . . . . . . . . . . . . . . . . . . 120

B.1 CO da regiao de classificacao optima definida por uma regra dedecisao quadratica (abordagem parametrica). . . . . . . . . . . 134

xv

xvi Lista de Tabelas

B.2 CO da regiao de classificacao optima definida por uma regra dedecisao linear (abordagem parametrica). . . . . . . . . . . . . . 134

B.3 CO da regiao de classificacao optima definida por uma regra dedecisao quadratica (abordagem nao parametrica classica). . . . 134

Nota Introdutoria

As tecnologias actuais estao a proporcionar a producao de grande volume dedados, a maioria com um numero de variaveis muito elevado e que ultrapassalargamente o numero de unidades experimentais. Em particular, aplicacoesem genetica lidam frequentemente com microarrays de milhares de genes quesao observados em apenas algumas dezenas de indivıduos. O problema daclassificacao baseada em dados desta natureza tem merecido um interesse cres-cente parte da comunidade cientıfica. Os avancos verificados na area da com-putacao tambem tem contribuıdo para o desenvolvimento desta area. Citandoalguns trabalhos tem-se, Geman et al. (2004); Tibshirani et al. (2003); Dudoite Fridlyand (2003) e Golub et al. (1999).

E pratica corrente, em problemas desta natureza, utilizar tecnicas de pros-peccao de dados (data mining) e de aprendizagem automatica (machine lear-ning) tais como redes neuronais, maquinas de suporte vectorial, arvores declassificacao, entre outros, as quais sao, geralmente, apresentadas como me-todos nao parametricos de elevada precisao classificatoria. No entanto, estaabordagem apresenta lacunas em termos de interpretabilidade, ja que se ba-seia num numero elevado de variaveis. De facto, com muitas variaveis naoe possıvel obter uma fronteira de decisao com interpretacao simples. Alemdisso, estas tecnicas exigem tarefas de optimizacao, que implicam frequente-mente a intervencao do utilizador e da sua perıcia na escolha dos criterios deoptimizacao.

As ferramentas estatısticas habituais de classificacao, nomeadamente aRegressao Logıstica (RL), Analise Discriminante Linear (ADL) e a AnaliseDiscriminante Quadratica (ADQ), sao geralmente uma alternativa adequa-da. Contrariamente aos classificadores nao parametricos acima referidos, estes

1

2 Nota introdutoria

metodos nao exigem tarefas de optimizacao que requeiram a intervencao doutilizador, nem necessitam de grande poder computacional sem o qual os clas-sificadores nao parametricos referidos seriam impraticaveis. No entanto, aaplicacao destes metodos estatısticos exige, em geral, uma reducao do espacopreditor, uma vez que, como ja referido anteriormente, os dados em espacos degrande dimensao envolvem um numero de variaveis que e com frequencia larga-mente excedido pelo numero de observacoes por variavel. Nesta perspectiva,existem varias tecnicas que podem ser usadas, umas baseadas em metodologiasde projeccoes optimizadas em espacos de dimensao inferior (e.g., Analise emComponentes Principais – ACP) e outras assentando em metodologias de se-leccao de variaveis preditoras, isto e, variaveis com capacidade discriminativadas classes.

A respeito da seleccao de variaveis preditoras, varios metodos tem sido pro-postos, veja-se, por exemplo, Bo e Jonassen (2002), Guyen e Elisseeff (2003),Geman et al. (2004) e Larry e Kathryn (2009). Destes, destaca-se o trabalhode Geman et al. (2004) no ambito da classificacao de dados de nıveis de ex-pressao genetica, onde e sugerido um novo conceito para a seleccao variaveis,que se baseia num score associado a cada par de variaveis do conjunto de da-dos. Da aplicacao deste metodo resulta uma famılia constituıda pelos paresde variaveis com o melhor desempenho na discriminacao das classes. Na clas-sificacao de elementos futuros, Geman et al. (2004) usam como fronteira declassificacao a bissectriz dos quadrantes ımpares, regra que decorre natural-mente das caracterısticas do score usado na seleccao dos pares de variaveis.

Apesar da abordagem proposta em Geman et al. (2004), para a classi-ficacao baseada em dados sobre espacos de elevada dimensao, nao apresentar alacuna de interpretabilidade, uma vez que envolve poucas variaveis e regras declassificacao simples, apresenta fundamentalmente duas limitacoes. Primeiro,a fronteira de classificacao e fixa e inflexıvel. Segundo, essa abordagem naotoma em consideracao a possibilidade de as variaveis que formam o par seremdependentes.

A ideia de assentar a construcao de um classificador em pares de variaveise util devido a sua simplicidade e interpretabilidade, justificando-se portantoa procura de novas ferramentas que possibilitem a obtencao de fronteiras semas limitacoes apontadas. Nesse sentido, propoe-se neste trabalho um metodode screening optimo para classificacao supervisionada baseado em pares devariaveis, segundo uma abordagem bayesiana. Apesar de existirem variosmetodos de classificacao, ja referidos atras, cujas fronteiras tem outras formas,fixadas a priori, o metodo proposto nao exige que a forma da fronteira seja

Nota introdutoria 3

definida previamente, adaptando-se a cada situacao especıfica.

A metodologia bayesiana foi aqui considerada, nao so por permitir a in-corporacao de informacao a priori, como tambem por possibilitar a obtencaode um conjunto de quantidades a posteriori, frequentemente designadas de ca-racterısticas operacionais, indicadoras da qualidade preditiva e discriminativado metodo de classificacao proposto. Isto e possıvel uma vez que, ao contrariodos metodos de classificacao classicos, onde habitualmente sao consideradosmodelos estatısticos para o vector de variaveis condicional ao grupo (na ADL,por exemplo) ou para a variavel grupo condicional ao vector de caracterısticas(por exemplo, na RL), no metodo proposto considera-se uma situacao maisgeral atraves da especificacao de um modelo probabilıstico para o par formadopelo vector das variaveis preditoras e a variavel indicadora do grupo. Nestanova modelacao, admite-se que o modelo probabilıstico conjunto para o paracima referido e especificado atraves de famılias de probabilidade para o vectorde caracterısticas condicional ao grupo e para a variavel grupo.

O procedimento proposto assenta na obtencao de uma regiao de especi-ficacao optima definida com base num vector bidimensional, de caracterısticasobservadas no indivıduo, e para o qual se admite numa primeira abordagemuma distribuicao normal bivariada. Tentando generalizar a aplicacao praticadeste novo metodo, duas abordagens alternativas sao propostas com vistaa relaxar o pressuposto de normalidade. Isto e feito usando, por um ladometodos nao parametricos de estimacao de densidades e, por outro lado, osmais recentes metodos bayesianos nao parametricos aplicados ao problema daestimacao de densidades.

Alem desta nota introdutoria, esta tese e composta por mais cinco capıtu-los, estruturados da forma seguinte:

Capıtulo 1: Neste capıtulo sao apresentados os conceitos fundamentaisutilizados ao longo do texto. Nao se pretende de modo algum uma descricaocompleta ou exaustiva de todos os conceitos, mas apenas referir aqueles quedizem respeito a areas de interesse para esta tese. Tem-se ainda como obje-ctivo fornecer um conjunto de referencias actualizadas que abranjam a teo-ria necessaria para desenvolver a metodologia proposta. A primeira seccao(Seccao 1.1) descreve o metodo de screening optimo proposto por Turkmane Amaral Turkman (1989) e que constitui o ponto de partida para o desen-volvimento das contribuicoes propostas no ambito deste trabalho. Os metodoscomputacionais – de integracao numerica e de simulacao estocastica – que seafiguram indispensaveis para ultrapassar problemas de calculo sao sucinta-mente descritos na Seccao 1.2.

4 Nota introdutoria

Capıtulo 2: Este capıtulo debruca-se sobre o modelo estatıstico propostopara o problema de classificacao binaria baseado em pares de variaveis. Aabordagem parametrica desse modelo constitui o ambito da Seccao 2.3 e eobtida atraves da especificacao de um modelo gaussiano bivariado para o ve-ctor de caracterısticas condicional ao grupo. Na Seccao 2.4 o pressuposto denormalidade e relaxado atraves do uso de metodos do nucleo multivariadosde estimacao de densidades, de forma a possibilitar a aplicacao generalizadado novo classificador. Esta modificacao conduz a denominada abordagemnao parametrica classica da metodologia proposta. Na Seccao 2.5 contempla-se a possibilidade de flexibilizar o classificador proposto, no que respeita apressupostos distribucionais, com a introducao de modelos bayesianos naoparametricos aplicados ao problema de estimacao de densidades. Nesta gene-ralizacao o tracado das inferencias a posteriori de interesse e computacional-mente exigente tornando-se necessario o uso de metodos de simulacao de MonteCarlo via Cadeias de Markov.

Capıtulo 3: Neste capıtulo descreve-se a regra proposta para a classi-ficacao baseada em multiplos pares de variaveis. Esta regra e resultado deuma combinacao entre as classificacoes obtidas com cada par de variaveis equantidades preditivas de interesse. As tecnicas de avaliacao do desempenhoda metodologia proposta sao tambem sucintamente descritas neste capıtulo.

Capıtulo 4: Os aspectos computacionais associados a implementacaocomputacional de forma automatica do classificador proposto, constituem oambito do Capıtulo 4. E desenvolvido um procedimento para aproximar aregiao de especificacao optima, uma vez que nao se encontrou uma solucaoanalıtica para a sua determinacao. Nas subseccoes seguintes sao desenvolvidosvarios algoritmos para aproximar as quantidades preditivas de interesse associ-adas com a regiao optima e, na ultima subseccao, da-se atencao a estimacao dolimiar que permite a completa aproximacao da regiao de especificacao optima.

Capıtulo 5: Este capıtulo e inteiramente dedicado a ilustracoes das dife-rentes abordagens propostas, com aplicacoes a conjuntos de dados reais cor-respondentes a nıveis de expressao genetica e a conjuntos de dados simulados.E avaliada por simulacao a importancia, no desempenho do classificador pro-posto, da introducao de informacao a priori sobre a prevalencia de sucessos napopulacao. Nesse mesmo capıtulo sao ainda apresentadas comparacoes comresultados obtidos atraves de metodos de classificacao binaria classicos. Naultima seccao, apresenta-se um pequeno estudo de simulacao para avaliar ocomportamento das varias abordagens propostas quando ilustradas em cena-rios onde as classes nao sao razoavelmente separaveis por fronteiras parame-

Nota introdutoria 5

tricas simples e em cenarios onde os conjuntos de dados nao sao normais.

Capıtulo 6: Este capıtulo encerra a tese com um resumo das contribuicoesmais relevantes do trabalho desenvolvido. E ainda realizada uma analise crıticados resultados obtidos e discutidas algumas possibilidades de trabalho futuro.

6

Capıtulo 1Conceitos Fundamentais

Este capıtulo apresenta uma revisao sobre as ideias e os instrumentos funda-mentais que constituıram, grosso modo, a base da investigacao desenvolvidaneste trabalho. Esta revisao foca, essencialmente, dois aspectos: os aspectosteoricos do problema de screening segundo uma abordagem bayesiana e osaspectos computacionais associados a resolucao de integrais e a obtencao deoutras quantidades a posteriori necessarias para implementar as metodologiaspropostas. Na Seccao 1.1, o problema estatıstico de screening e formalizado,sendo as aproximacoes computacionais apresentadas na Seccao 1.2.

1.1 Sobre o problema de Screening

Considere-se uma populacao de indivıduos para os quais e possıvel realizarobservacoes sobre um conjunto de variaveis, sendo uma dessas variaveis (ouvector de variaveis), Y , de particular interesse. Suponha-se que se pretendeidentificar membros da populacao para os quais Y pertence a um domınioespecıfico CY , sendo um indivıduo que satisfaca esta condicao rotulado comosucesso. A proporcao de indivıduos classificados como sucesso na populacao eaqui representada por γp = P (Y ∈ CY ). Se Y for facil de medir, este problemanao se reveste de qualquer dificuldade. No entanto, em varias situacoes Y ede difıcil obtencao directa (invasiva, dispendiosa, etc), devendo ser avaliadaapenas quando o indivıduo tem grande probabilidade de ser classificado comosucesso. A avaliacao indirecta desta probabilidade pode ser feita recorrendo atecnicas de seleccao que se baseiam na observacao de um vector de d (d ≥ 1)

7

8 Capıtulo 1. Conceitos Fundamentais

variaveis, X = (X1, X2, · · · , Xd), correlacionado com Y e de facil obtencao,de modo a que da sua facil determinacao seja possıvel triar os indivıduos quepossuem uma alta probabilidade de serem sucesso, reduzindo-se desse modo onumero daqueles cujo valor de Y devera ser, entao, obtido.

Estas tecnicas tem como objectivo o da especificacao de uma regiao CX

de Rd optima em determinado sentido, de tal forma que o indivıduo e retido(seleccionado) apenas se o seu vector caracterıstico x pertencer a CX. Oproblema estatıstico consiste em obter CX de tal modo que a proporcao desucessos dentro da populacao seleccionada atinja um valor prefixado δp supe-rior a γp, isto e, de tal modo que P (Y ∈ CY |X ∈ CX) = δp > γp. A proporcaode indivıduos seleccionada e aqui designada por αp = P (X ∈ CX).

A metodologia acima exposta e designada de screening e tem recebido umaconsideravel atencao nos ultimos anos. Existe uma literatura vasta sobre esteproblema que explora o metodo em diversos contextos.

Um dos trabalhos pioneiros foi realizado por Taylor e Russel (1939) comaplicacoes a Psicologia. Sao ainda de salientar os estudos de Morrison (1985)e Eddy (1980) que tratam o problema do screening sob um ponto de vistamedico. De importancia relevante sao tambem os artigos de Owen et al.(1981) e Wong et al. (1985) que apresentam o problema num contexto fre-quencista. Boys e Dunsmore (1986, 1987) fazem, pela primeira vez, a su-gestao de tratar esse problema numa perspectiva bayesiana, incorporando,assim, informacao a priori existente e ultrapassando as dificuldades inerentesa metodologia classica no que diz respeito a construcao das regioes de especi-ficacao. Dessa maneira, apresentam a metodologia para a situacao em quetanto Y como X sao normalmente distribuıdas e para o caso em que Y e umavariavel dicotomica. Turkman e Amaral Turkman (1989) sugerem uma novaabordagem bayesiana do problema, onde a construcao da regiao de especi-ficacao obedece a um criterio de optimalidade. Amaral Turkman e Turkman(1997) apresentam uma aplicacao desse metodo ao problema da contaminacaode agua. Esses metodos nao sao considerados para variaveis dependentes dotempo, contudo existem algumas extensoes para dados de series temporais,nomeadamente, para modelos auto-regressivos, veja-se, por exemplo, os tra-balhos de Amaral Turkman e Turkman (1990) e Antunes et al. (2003). Veja-setambem os trabalhos de Monteiro et al. (2007) e Costa et al. (2009) sobreaplicacoes da metodologia screening a series temporais discretas.

Na esteira da investigacao, a abordagem seguida no presente trabalho,e cuja descricao apresentar-se-a em seguida, corresponde a desenvolvida emTurkman e Amaral Turkman (1989), a qual generaliza a abordagem preditiva

1.1. Sobre o problema de Screening 9

advogada por Boys e Dunsmore (1986).

1.1.1 Screening optimo

Seja p (y,x|θ) a funcao densidade de probabilidade conjunta de (Y,X) ondeθ e um vector de parametros desconhecidos. Admita-se que se dispoe dedados sobre n indivıduos da populacao, D = (y1,x1) , (y2,x2) · · · , (yn,xn),na forma de uma amostra aleatoria de um modelo para (Y,X) e que h (θ)representa a distribuicao a prioiri para θ; seja h (θ|D) a distribuicao a pos-teriori para θ; assim a probabilidade preditiva de um indivıduo futuro serclassificado como sucesso e

γ = P (Y ∈ CY |D) =

ΘP (Y ∈ CY |θ)h (θ|D) dθ. (1.1)

O criterio de triagem estabelecido em Boys e Dunsmore (1987) seleccionauma regiao CX com uma forma pre-definida, de tal modo que a probabilidadepreditiva de um futuro indivıduo ser sucesso, uma vez retido, aumente de γpara um valor especificado δ, onde

δ = P (Y ∈ CY |X ∈ CX;D) =

∫Θ P (Y ∈ CY ,X ∈ CX|θ)h (θ|D) dθ∫

Θ P (X ∈ CX|θ)h (θ|D) dθ. (1.2)

Outras probabilidades preditivas que interessa ter em consideracao para aanalise do problema sao

(1) a probabilidade preditiva de um indivıduo futuro ser seleccionado peloprocedimento de screening,

α = P (X ∈ CX|D) =

ΘP (X ∈ CX|θ)h(θ|D)dθ, (1.3)

(2) a probabilidade preditiva de um indivıduo futuro nao seleccionado peloprocedimento screening ser sucesso,

ǫ = P (Y ∈ CY |X /∈ CX,D)

=

∫Θ P (Y ∈ CY ,X /∈ CX|θ)h(θ|D)dθ∫

Θ P (X /∈ CX|θ)h(θ|D)dθ, (1.4)

10 Capıtulo 1. Conceitos Fundamentais

(3) a probabilidade preditiva de um futuro indivıduo, que e sucesso, serretido pelo procedimento de screening (designada tambem de sensibili-dade),

β = P (X ∈ CX|Y ∈ CY ;D)

=

∫Θ P (Y ∈ CY ,X ∈ CX|θ)h(θ|D)dθ∫

Θ P (Y ∈ CY |θ)h(θ|D)dθ, e (1.5)

(4) a probabilidade preditiva de um futuro indivıduo que nao e sucesso naoser retido pelo procedimento de screening (designada tambem de especi-ficidade),

η = P (X /∈ CX|Y /∈ CY ;D)

=

∫Θ P (Y /∈ CY ,X /∈ CX|θ)h(θ|D)dθ∫

Θ P (Y /∈ CY |θ)h(θ|D)dθ. (1.6)

Note-se a seguinte relacao entre algumas das probabilidades preditivas,

ǫ = P (Y ∈ CY |X /∈ Cx,D) (1.7)

=P (Y ∈ CY |D)P (X /∈ CX|Y ∈ CY ,D)

P (X /∈ CX|D)

=

P (Y ∈ CY |D)

[1 −

P (Y ∈ CY |X ∈ CX,D)P (X ∈ CX|D)P (Y ∈ CY |D)

]

1 − P (X ∈ CX|D)

=γ − δα

1 − α.

Definicao 1 Caracterısticas operacionaisAs probabilidades preditivas γ, δ, α, ǫ, β e η sao designadas de caracterısticasoperacionais do problema de screening.

Boys e Dunsmore (1986) restringem a regiao de especificacao, no caso emque X e univariado, a intervalos da forma [κ, ω] ou (−∞, κ], [ω, +∞) e,no caso em que X e multivariado, a regioes da forma x ∈ Rd : a′x ≥ ωou x ∈ Rd : x′ax ≥ ω, reduzindo-se o problema ao da determinacao dosparametros que definem a regiao, de tal modo a que a probabilidade definidaem (1.2) atinja o valor prefixado δ. No caso de haver solucoes multiplas, umapossıvel solucao e escolher, de entre as solucoes possıveis, aquela que minimizaa probabilidade ǫ definida em (1.4).

1.1. Sobre o problema de Screening 11

Existem essencialmente duas dificuldades associadas a este metodo talcomo esta formulado: a primeira e a necessidade de restringir a forma da regiaode especificacao CX; a segunda dificuldade esta associada a especificacao dovalor δ. A fixacao deste valor pode ser pouco realista, nao so porque esse valorpode nao ser atingıvel, isto e, pode nao haver solucao para (1.2), como tambema solucao obtida pode conduzir a valores indesejaveis para a probabilidade ǫ.

No sentido de ultrapassar essas dificuldades Turkman e Amaral Turkman(1989) deduziram um criterio de triagem optimo, assente na maximizacao deP (Y ∈ CY |X ∈ CX;D), restringida a classe das regioes CX com probabilidadepreditiva de triagem, α, fixa. A regiao optima, C∗

X, e entao a que obedece adefinicao:

Definicao 2 Regiao de especificacao optima (Turkman e Amaral Turk-man, 1989)C∗

X e a regiao de especificacao optima de dimensao α se

P (X ∈ C∗X|D) = α

eP (Y ∈ CY |X ∈ C∗

X,D) = supBX

P (Y ∈ CY |X ∈ BX,D) ,

onde o supremo e tomado em relacao as regioes de especificacao BX ⊂ Rd:

P (X ∈ BX|D) = α.

Por outras palavras, a regiao de especificacao C∗X e optima se, entre todas

as regioes de especificacao que seleccionam o mesmo numero de indivıduos,100α% dos indivıduos, esta e a que retem uma maior proporcao de sucessos.

Existem outras formas de definir optimalidade. Por exemplo, C∗X e uma

regiao de especificacao optima se minimizar a probabilidade de erro definidaem (1.4). Contudo, as definicoes possıveis, apresentadas no lema seguinte,conduzem a mesma regiao de especificacao.

Lema 1 (Turkman e Amaral Turkman, 1989)A regiao de especificacao de dimensao α definida pelos seguintes criterios eidentica.

(1)P (X ∈ C∗

X|Y ∈ CY ,D) = supBX

P (X ∈ Bx|Y ∈ CY ,D) ,

12 Capıtulo 1. Conceitos Fundamentais

(2) ouP (Y ∈ CY |X /∈ C∗

X,D) = infBX

P (Y ∈ CY |X /∈ BX,D) ,

(3) ouP (Y ∈ CY |X ∈ C∗

X,D) = supBX

P (Y ∈ CY |X ∈ BX,D) ,

(4) ouP (X /∈ C∗

X|Y ∈ CY ,D) = infBX

P (X /∈ BX|Y ∈ CY ,D) ,

onde o supremo e o infımo sao tomados em relacao as regioes de especificacaoBX ⊂ Rd tais que P (X ∈ BX|D) = α

A regiao de especificacao optima que obedece a Definicao 2 e, entao, dadapelo seguinte lema cuja demostracao pode encontrar-se em Turkman e AmaralTurkman (1989).

Lema 2 (Turkman e Amaral Turkman, 1989)Sejam p (x|Y ∈ CY ,D) e p (x|D), a funcao densidade preditiva de X dadoY ∈ CY e a funcao densidade preditiva marginal de X, respectivamente. Aregiao de especificacao optima de dimensao α e dada por

C∗X =

x ∈ R

d :p (x|Y ∈ CY ,D)

p (x|D)≥ k

(1.8)

ou equivalentemente

C∗X =

x ∈ R

d :P (Y ∈ CY |x,D)

P (Y ∈ CY |D)≥ k

(1.9)

onde k e tal que

P (X ∈ C∗X|D) = α.

Estes resultados asseguram que, para uma dada dimensao α, se obtem a ma-ximizacao de P (Y ∈ CY |X ∈ C∗

X,D), faltando apenas escolher qual o valora fixar para a probabilidade α. Uma escolha natural e tomar α = γ =P (Y ∈ CY |D), uma vez que se deseja que o criterio de triagem retenha apenasos indivıduos futuros considerados sucesso, embora outras escolhas possam serconsideradas consoante o problema em causa.

De acordo com um estudo teorico, o mesmo tipo de solucao tambem eobtida quando se considera o problema de screening sob o ponto de vista da

1.1. Sobre o problema de Screening 13

decisao estatıstica, sendo o objectivo, neste caso, obter a regiao de especificacaoque minimiza o valor esperado preditivo da funcao perda preditiva dado por

∆ (CX) =

Y ∈CY

X/∈CX

k1 (y,x) p (y|x,D) p (x|D) dxdy

+

Y /∈CY

X∈CX

k2 (y,x) p (y|x,D) p (x|D) dxdy. (1.10)

k1 (y,x) e k2 (y,x) sao, respectivamente, a perda do indivıduo nao seleccionadopelo procedimento screening (X /∈ CX) ser sucesso (Y ∈ CY ) e a perda doindivıduo seleccionado pelo procedimento (X ∈ CX) ser insucesso (Y /∈ CY ),p (y|x,D) e a funcao densidade preditiva de Y condicional a X = x e p (x|D)e a funcao densidade preditiva marginal de X.

De acordo com a teoria da decisao estatıstica, conhecidas as perdas k1 (y,x)e k2 (y,x), a regiao de especificacao optima C∗

X e aquela que minimiza o valoresperado preditivo da funcao perda preditiva ∆ (CX). Assim, e possıvel enun-ciar o seguinte lema, cuja demostracao se pode encontrar em Turkman e Ama-ral Turkman (1989).

Lema 3 (Turkman e Amaral Turkman, 1989)A regiao de especificacao C∗

X definida por

C∗X =

x ∈ R

d :

∫Y /∈CY

k2 (y,x) p (y|x,D) dy∫Y ∈CY

k1 (y,x) p (y|x,D) dy≤ 1

(1.11)

minimiza o valor esperado preditivo da funcao perda preditiva ∆ (CX) definidaem (1.10). Em particular se k1 (y,x) = k1 e k2 (y,x) = k2, entao

C∗X =

x ∈ R

d : P (Y ∈ CY |x,D) ≥k2

k1 + k2

. (1.12)

Observe-se que a regiao de especificacao optima definida em (1.12) e equi-valente a regiao de especificacao optima definida em (1.9) com

k =k2

(k1 + k2)P (Y ∈ CY |D).

Nos problemas de screening descritos ate agora supoe-se o conhecimentoda variavel Y para os elementos da amostra. No entanto, no momento daseleccao apenas a dicotomia em Y , determinada pela regiao CY , e importante.

14 Capıtulo 1. Conceitos Fundamentais

Efectivamente, em muitas situacoes praticas nao e possıvel observar o valorde Y , registando-se apenas o facto de o indivıduo ser ou nao ser um sucesso.A variavel Y e entao uma variavel latente e a dicotomia e representada poruma variavel T binaria em que T = 1 se Y ∈ CY e T = 0 se Y /∈ CY . Nestescasos consideram-se famılias de probabilidade para (T,X) da forma p(t,x| θ)com parametros denotados por θ∈ Θ.

O vector de caracterısticas X e utilizado no processo de seleccao com oobjectivo de reter os elementos que sao sucesso, isto e, para os quais T =1. De acordo com a metodologia de screening exposta, sao seleccionados osindivıduos cujo vector caracterıstico X pertence a C∗

X, onde

C∗X = x ∈ R

d : P (T = 1|x;D) ≥ k. (1.13)

Esta formulacao engloba o paradigma do diagnostico1 para o caso de duascategorias, quando a atribuicao das categorias e feita de acordo com as chancesrelativas. Neste caso k = 1/2.

E importante notar que a operacao de integracao desempenha um papelfundamental na implementacao do procedimento descrito. Contudo, so emcasos muito particulares e possıvel obter expressoes analıticas para os inte-grais envolvidos. Para ultrapassar esses problemas, varias estrategias podemser consideradas, nomeadamente, aproximacoes fundamentadas em resultadosassintoticos, metodos de integracao numerica, metodos de Monte Carlo simplese metodos de Monte Carlo via Cadeias de Markov (MCMC).

Na seccao seguinte far-se-a uma revisao breve dos metodos de aproximacaocomputacionais utilizados para implementar a metodologia proposta.

1.2 Aproximacoes computacionais

1.2.1 Integracao numerica

Metodos de integracao numerica sao usados obter uma aproximacao do integralde uma funcao quando nao se conhece uma sua primitiva ou quando e con-hecida apenas num numero finito de ponto do seu domınio. E, pois, natural queestes metodos desempenhem um papel importante em estatıstica bayesiana,

1O metodo estatıstico do diagnostico tem por objectivo determinar qual a categoria i, deentre de um conjunto exaustivo de categorias mutuamente exclusivas, a que um elementopertence, com base num vector caracterıstico desse elemento.

1.2. Aproximacoes computacionais 15

onde o calculo de quantidades de interesse (muitas das quais requerendo inte-gracao) e problematico, nao existindo na maioria dos casos solucao analıtica.Ha diversos metodos para esse proposito e duas boas referencias para a suautilizacao sao Davis e Rabinowitz (1984) e Press et al. (1993). Referenciassobre metodos numericos de integracao, com enfase em aplicacoes estatısticas,sao Evans e Swartz (1995) e Flournoy e Tsutakawa (1991).

Numa perspectiva analıtica, serao revistos, brevemente, os dois metodosde integracao numerica usados neste trabalho para aproximar os integrais cujasolucao analıtica nao foi possıvel obter.

Assim, suponha-se que se pretende calcular integrais definidos da forma

If =

∫ b

af (x) dx (1.14)

em que f ∈ C [a, b] e uma funcao para a qual nao se conhece uma primitiva,ou e conhecida somente num numero finito de pontos. Note-se que f e ditade Cn [a, b] , n ≥ 1 se a sua n−esima derivada for uma funcao contınua nointervalo [a, b].

A chave para a solucao deste problema consiste, essencialmente, em apro-ximar a funcao f por outra funcao cujo integral seja facil de calcular. Esseobjectivo e conseguido recorrendo, por exemplo, a polinomios interpoladoresde f . Sejam x0 = a < x1 < · · · < xn = b, n+ 1 pontos distintos de [a, b] e sejapn ∈ Pn o polinomio interpolador de f nos pontos. Sera razoavel esperar que

Inf = Ipn =

∫ b

apn (x) dx. (1.15)

seja, sob certas condicoes, um valor aproximado de If . Aqui e no resto dotexto Pk designa o conjunto de polinomios de grau inferior ou igual a k.

Se f ∈ Cn+1 [a, b], entao f (x) = pn (x) + en (x), onde en (x) e o erro deinterpolacao, definido por

en (x) = (x− x0) (x− x1) . . . (x− xn)f (n+1) (ξ (x))

(n+ 1)!, ξ (x) ∈]a, b[,

sendo If dado por

∫ b

af (x) dx =

∫ b

apn (x) dx+

∫ b

aen (x) dx. (1.16)

16 Capıtulo 1. Conceitos Fundamentais

Ao desprezar-se o termo Enf =

∫ b

aen (x) dx, obtem-se a aproximacao

∫ b

af (x) dx ≈

∫ b

apn (x) dx. (1.17)

O termo Enf e o erro cometido ao fazer a aproximacao apresentada em(1.17) e e, frequentemente, designado por erro de integracao.

De (1.16) o erro de integracao pode representar-se por

Enf = If − Ipn = I (f − pn) , (1.18)

em que a ultima passagem e justificada pela linearidade do operador de inte-gracao.

Note-se que

(i) Enf depende da maior ou menor aproximacao do polinomio pn a f ;

(ii) sendo f ∈ Pn, f coincide com o seu polinomio interpolador pn ∈ Pn e,portanto, Ipn = If .

Utilizando a formula de Lagrange do polinomio interpolador, obtem-se

∫ b

apn (x) dx =

∫ b

a

n∑

j=0

lj (x) f (xj)

dx

=

n∑

j=0

(∫ b

alj (x) dx

)f (xj)

=

n∑

j=0

wjf (xj) . (1.19)

Substituindo em (1.16) obtem-se a aproximacao

∫ b

af (x) dx ≈

n∑

j=0

wjf (xj) . (1.20)

A soma do lado direito e designada por formula de Quadratura interpo-latoria polinomial. Os coeficientes wj sao denominados pesos de integracao ou

1.2. Aproximacoes computacionais 17

pesos de quadratura; os pontos xj sao denominados os nos de integracao ounos de quadratura. Consoante o valor de n e a localizacao dos nos no intervalo[a, b], obtem-se diferentes regras de integracao.

Ver-se-a em seguida (1) as formulas de Newton-Cotes fechadas, em parti-cular a Regra do trapezio em que os polinomios interpoladores sao definidosem nos igualmente espacados e (2) as formulas de integracao de Gauss em queos polinomios interpoladores sao definidos em nos cuidadosamente escolhidos,e que nao sao igualmente espacados.

Formulas de Newton-Cotes fechadas - a regra do trapezio

As formulas de Newton-Cotes fechadas sao obtidas a partir de (1.20), con-siderando os pontos x0, x1, . . . , xn, igualmente espacados em [a, b], comx0 = a e xn = b, ou seja

xk = a+ kh; h =b− a

n; k = 0, 1, . . . , n. (1.21)

Da famılia das formulas de Newton-Cotes fechadas merecem destaque aregra do trapezio e a regra de Simpson, certamente as mais conhecidas. Far-se-a de seguida uma breve referencia a formula do trapezio, usada na aproximacaode alguns integrais necessarios para desenvolver e implementar as metodologiaspropostas.

A formula do trapezio e obtida pela aproximacao de If por Ip1, onde p1

e o polinomio interpolador de f nos pontos x0 = a e x2 = b. Neste caso,

f (x) = p1 (x) + (x− x0) (x− x1)f

′′

(ξ (x))

2!, com ξ (x) ∈]a, b[,

com p1 (x) = l0 (x) f (x0) + l1 (x) f (x1) .

Portanto,

∫ b

af (x) dx =

∫ b

ap1 (x) dx+

∫ b

a(x− x0) (x− x1)

f′′

(ξ (x))

2!dx. (1.22)

Desprezando em (1.22) o termo, que representa o erro de integracao, resultaa seguinte aproximacao para If

∫ b

af (x) dx ≈

∫ b

ap1 (x) dx = w0f (x0) + w1f (x1) .

18 Capıtulo 1. Conceitos Fundamentais

Determinando os coeficiente w0, w1 de acordo com (1.19), obtem-se aseguinte formula, conhecida por regra do trapezio

∫ b

af (x) dx ≈

b− a

2[f (x0) + f (x2)] . (1.23)

Como ja foi referido, o erro de integracao e dado pelo integral do erro deinterpolacao. Ou seja, supondo f ∈ C2 [a, b],

E1f =

∫ b

af (x) dx−

∫ b

ap1 (x) dx

=

∫ b

a(x− x0) (x− x1)

f′′

(ξ (x))

2!dx,

com ξ (x) ∈]a, b[.

Aplicando o Teorema do valor medio para integrais obtem-se a seguinteformula para o erro de integracao da regra do Trapezio (Davis e Rabinowitz,1984)

E1f = −(b− a)3

12f

′′

(ξ) com ξ ∈]a, b[. (1.24)

Note-se que os erros das formulas de Newton-Cotes sao proporcionais apotencias de b−a. Assim, se esta quantidade nao for suficientemente pequena,estas formulas deixam de ter utilidade. Neste cenario deve-se dividir o intervalo[a, b] em subintervalos e aplicar a cada um dos integrais assim obtidos uma dasformula de Newton-Cotes, obtendo-se desta forma as formulas Newton-Cotescompostas.

A regra do trapezio composta com M subintervalos, para obter o valoraproximado do integral If , e

If ≈hM

2

f0 + fM + 2

M−1∑

j=1

fj

, (1.25)

onde xj = a+ jhM , j = 0, 1, . . . ,M, hM =b− a

Me fj = f(xj).

O erro de integracao da formula anterior e dada por

EM1 f = −

(b− a)

12h2

Mf′′

(ξ) com ξ ∈]a, b[. (1.26)

1.2. Aproximacoes computacionais 19

Formulas de integracao de Gauss

Nas Formulas de Newton-Cotes fechadas, dados os nos x0, x1, . . . , xn (pontosequidistantes em [a, b]), os pesos de integracao w0, w1, . . . wn sao determinadosde forma a que todos os polinomios de grau ≤ n sejam integrados exactamente,isto e,

Ip = Inp, ∀p ∈ Pn.

Vai agora, considerar-se o problema de escolher os nos x0, x1, . . . , xn deforma a que a formula de quadratura interpolatoria polinomial integre exac-tamente os polinomios de maior grau m ≥ n possıvel, isto e,

Ip = Inp, ∀p ∈ Pm.

Os nos e os pesos de quadratura, num total de 2n + 2 incognitas, devemsatisfazer o sistema de equacoes lineares

Ixj = Inxj , j = 0, 1, · · · ,m.

No estudo da quadratura de Gauss vai-se considerar com mais generalidadeo integral

If =

∫ b

aw (x) f (x) dx, (1.27)

onde w e uma funcao de peso. A escolha de w e feita de forma a que a restantefuncao integranda f resulte o mais suave possıvel ou de forma a salientarsingularidades existentes na funcao integranda original. Este processo e, porvezes, necessario para que a funcao f seja satisfatoriamente aproximada porum polinomio.

Definicao 3 Formula de Quadratura Gaussiana (Davis e Rabinowitz,1984)A formula de quadratura interpolatoria polinomial

Gnf = Inp =n∑

j=0

wjf (xj) (1.28)

com n + 1 nos de quadratura distintos e chamada formula de quadratura deGauss se integrar exactamente todos os polinomios de grau menor ou igual a2n+ 1, isto e

Ip = Inp, ∀p ∈ P2n+1. (1.29)

20 Capıtulo 1. Conceitos Fundamentais

Para cada n ∈ N existe uma unica formula de quadratura de Gauss. Osseus nos de quadratura sao os zeros do polinomio de grau n+1 pertencentes asequencia de polinomios ortogonais pk

∞k=0 com respeito ao produto interno

〈f, g〉 = I (fg) =

∫ b

af (x) g (x) dx, ∀f, g ∈ C ([a, b])

isto e, (pi, pk) = 0, i 6= k.

Os polinomios pk sao definidos recursivamente atraves de

pj+1 (x) = (x− aj) pj (x) − b2jpj−1 (x) , j = 1, 2, . . . (1.30)

p1 (x) = x− a0, p0 (x) = 1, (1.31)

com coeficientes

ak =〈pj , xpj〉

〈pj , pj〉, j = 0, 1, . . . (1.32)

e

b2k =〈pj , pj〉

〈pj−1, pj−1〉, j = 1, 2, . . . . (1.33)

Note-se que 〈p0, p0〉 = 1.

Os pesos de quadratura sao determinados pelas formulas

wj = Ilj , j = 0, 1, . . . , n, (1.34)

em que l0, l1, · · · , ln representam os polinomios de Lagrange definidos em nosde integracao.

A Formula de Gauss-Legendre e a formula de quadratura gaussiana maisfrequentemente usada, sendo mesmo referida em alguma bibliografia de analisenumerica como Formula de Quadratura de Gauss. Pode ser utilizada quandow (x) = 1 e [a, b] = [−1, 1],

If =

∫ 1

−1f (x) dx ≈ Inf =

n∑

j=0

wjf (xj) , (1.35)

onde xj , j = 0, 1, . . . , n sao os zeros do polinomio de Legendre Pn+1 :

Pn+1 (xj) = 0; j = 0, 1, . . . , n, (1.36)

1.2. Aproximacoes computacionais 21

para −1 < x0 < x1 < · · · < xn < 1, e os pesos sao dados por

wj = −2

(n+ 2)P ′n+1(xj)Pn+2(xj)

, j = 0, 1, . . . , n. (1.37)

O erro de integracao e

Enf =22n+3 [(n+ 1)!]4

(2n+ 3) [(2n+ 2)!]3f (2n+3) (ξ (x)) , f ∈ C2n+2 ([−1, 1]) , ξ (x) ∈]a, b[.

(1.38)

A proposicao seguinte, cuja demostracao pode encontrar-se em Davis eRabinowitz (1984), mostra que ao admitir-se na formula de Gauss-Legendreque os limites de integracao a e b tem, respectivamente, os valores −1 e 1, naose esta a impor uma restricao.

Proposicao 1 (Davis e Rabinowitz, 1984)Seja In (f ; [−1, 1]) =

∑nj=0wjf (xj) uma formula de quadratura para obter um

valor aproximado do integral I (f ; [−1, 1]) =∫ 1−1 f (x) dx. Entao, a formula

de quadratura In (f ; [a, b]) =∑n

j=0w∗jf(x∗j

)onde

w∗j =

b− a

2wj e x∗j = a+

b− a

2(xj + 1) ,

permite obter o valor aproximado do integral I (f ; [a, b]) =∫ ba f (x) dx.

Apesar das propriedades optimas das formulas de quadratura gaussiana,estas nao sao, por si so, universalmente utilizadas na pratica. A principalrazao deve-se a dificuldade de se obter com antecedencia o numero necessariode pontos para se atingir um determinado nıvel de precisao. Em alguns casos,um estudo da funcao a ser integrada torna possıvel a utilizacao dos limitesanalıticos do erro da regra de quadratura. No entanto, e mais comum estimar oerro empiricamente, utilizando duas regras de quadratura de ordens diferentes.

Em geral, as formulas de Gauss nao permitem a reutilizacao dos nos daquadratura anterior, uma vez que estes nao sao comuns para qualquer par depolinomios. Com efeito, e facil constatar que o processo de determinacao daestimativa do erro e um problema computacional extremamente dispendioso.Como solucao para esse problema foram propostas diferentes tecnicas de ex-tensao da quadratura de Gauss. Kronrod (1965) propos as formulas de Gauss-Kronrod, obtidas adicionando n + 1 pontos aos n pontos de uma quadratura

22 Capıtulo 1. Conceitos Fundamentais

gaussiana, de forma a que a regra resultante seja da ordem 3n + 1. Esteraciocınio materializa-se na definicao seguinte:

Definicao 4 Quadratura de Gauss-Kronrod (Kronrod, 1965)Seja Gn =

∑nj=1wjf (xj) uma formula de quadratura gaussiana de n pontos.

A regra de quadratura de Gauss-Kronrod associada

K2n+1 =2n+1∑

j=1

wjf (xj) , (1.39)

possui as seguintes propriedades

xjnj=1 ⊂ xj

2n+1j=1 e K2n+1p = Ip ∀p ∈ P3n+1. (1.40)

Este procedimento permite obter estimativas de ordem superior reuti-lizando valores de avaliacoes de f usados numa formula de Gauss de ordemmais baixa. A diferenca entre a regra de quadratura de Gauss e a corres-pondente extensao de Kronrod e frequentemente usada como uma estimativado erro de aproximacao. Existem varios metodos para calcular os nos e ospesos da quadratura de Gauss-Kronrod e, uma referencia possıvel para esseproposito, e Gautschi (1987).

Um exemplo bem conhecido corresponde a combinacao de uma regra dequadratura gaussiana de 7 pontos com uma regra de Kronrod de 15 pontos.Como os pontos de Gauss sao incorporados no pontos de Kronrod, um totalde 15 avaliacoes de f permitem obter estimativas do valor do integral e doerro. Os nos e pesos, deste exemplo e de outros, sao fornecidos em tabelasfacilmente acessıveis.

Estes metodos de integracao numerica encontram-se implementados emdiferentes linguagens de programacao; veja-se por exemplo, Kahaner (1991)para uma revisao breve sobre essas rotinas, onde ainda se tem a possibilidadede encontrar um conjunto de rotinas sobre outros metodos de quadratura.

Integrais de funcoes de varias variaveis sao geralmente aproximados esten-dendo-se os metodos apresentados e outros para dimensoes mais alta. Veja-se,por exemplo, Piessens et al. (1983) e Davis e Rabinowitz (1984). A abordagemmais frequentemente usada trata os integrais multiplos como uma sequenciaencaixada de integrais uni-dimensionais e usa uma quadratura uni-dimensionalpara cada argumento.

Em cenarios em que domınio de integracao e um conjunto de pequena di-

1.2. Aproximacoes computacionais 23

mensao, os metodos de integracao numerica fornecem, em muitas situacoes,boas aproximacoes. No entanto, em cenarios multidimensionais, e frequente-mente necessario recorrer a metodos alternativos de integracao como, por ex-emplo, os Metodos de Monte Carlo.

1.2.2 Metodo de Monte Carlo ordinario

O metodo de Monte Carlo e uma tecnica de simulacao estocastica, sendo umaalternativa adequada aos metodos numericos usados para resolver integrais ne-cessarios para realizar inferencias bayesianas. A existencia deste metodo deve-se ao versatil Matematico John von Neumann, estando a sua genese marcadapela publicacao do trabalho de Metropolis e Ulam em 1949 (Metropolis eUlam, 1949).

No entanto, so com o advento dos computadores digitais e que este metodofoi amplamente difundido. Descreve-se em seguida a ideia geral subjacenteao metodo de Monte Carlo na versao ordinaria, cujo objectivo e o calculoaproximado de integrais simples e multiplos.

Considere-se, sem perda de generalidade, que se pretende aproximar ointegral ∫

Θf (θ)h (θ|x) dθ = E [f (θ) |x] (1.41)

em que h (θ |x) e uma funcao densidade de probabilidade a posteriori comΘ ∈ Rp.

O metodo de Monte Carlo ordinario consiste na aproximacao do integral(1.41) pela media empırica

E [f (θ) |x] =1

m

m∑

i=1

f(θi)

(1.42)

onde a sequencia(θ1, θ2 , · · · , θm

)e uma realizacao de uma amostra aleatoria

gerada a a partir da densidade a posteriori h (θ |x). Neste caso, a Lei dosGrande Numeros garante que a media empırica converge quase certamentepara E [f (θ) |x], caso esta quantidade exista. A precisao desta aproximacaopode ser medida pelo erro padrao estimado de Monte Carlo dado por

1√m(m− 1)

m∑

i=1

[f(θi)−

1

m

m∑

i=1

f(θi)]2

1/2

. (1.43)

24 Capıtulo 1. Conceitos Fundamentais

Note-se que o nıvel de precisao destas aproximacoes e controlavel, uma vezque, teoricamente, a dimensao da amostra simulada pode ser aumentada atese obter a precisao desejada. Deste modo, os resultados da aplicacao destesmetodos poderao ser vistos como quase exactos.

A aplicacao da tecnica de Monte Carlo apresentada necessita que se si-mulem realizacoes independentes a partir de distribuicoes de probabilidade.Assim, se se conseguir simular amostras da distribuicao a posteriori h (θ |x) aaplicacao do Metodo de Monte Carlo para aproximar integrais do tipo (1.41)e um problema simples. Quando nao e possıvel faze-lo directamente ha umgrande numero de alternativas, nomeadamente, metodos de amostragem poraceitacao-rejeicao e metodos de amostragem via funcoes de importancia, entreoutros.

A utilizacao directa deste metodos nao e, contudo, trivial ja que os proble-mas tıpicos de inferencia bayesiana envolvem, em geral, distribuicoes a pos-teriori de natureza multivariada revestidas de grande complexidade. Nestecenario, torna-se necessario recorrer a metodos mais abrangentes, dos quais setem destacado os metodos de simulacao probabilıstica conhecidos por metodosde Monte Carlo via Cadeias de Markov (MCMC)2. A subseccao que se seguerefere brevemente um popular algoritmo inserido nos metodos MCMC e usadoneste trabalho.

1.2.3 Metodos de Monte Carlo via Cadeias de Markov: algo-

ritmo de Metropolis-Hastings

Os metodos de Monte Carlo via Cadeias de Markov pertencem a famılia dosmetodos iterativos baseados em simulacao probabilıstica. Substituem a ge-racao de realizacoes independentes de θ de acordo com uma determinadadensidade por uma sucessao de realizacoes, possivelmente correlaccionadas egeradas a partir de uma cadeia de Markov homogenea com espaco de estadosΘ que sao subconjuntos de Rp ou ate espacos mais gerais, e cuja distribuicaoestacionaria seja h (θ |x).

A aplicacao destes metodos depende, assim, da construcao de cadeias deMarkov com determinadas distribuicoes de equilıbrio. Varias solucoes tem sidoapresentadas para esse proposito, sendo o algoritmo de Metropolis-Hastingsuma das solucoes mais populares. A origem deste algoritmo remonta ao anode 1953. Foi inicialmente proposto por Metropolis (Metropolis et al., 1953),

2Markov Chain Monte Carlo Methods, na literatura em ingles.

1.2. Aproximacoes computacionais 25

que o aplicou para resolver problemas da Fısica e, mais tarde, generalizado porHastings (1970). No domınio da Estatıstica Bayesiana este algoritmo so tevevisibilidade clara com a publicacao dos trabalhos de Smith e Roberts (1993);Chib e Greenberg (1995).

O algoritmo de Metropolis-Hastings utiliza uma funcao densidade auxiliarq(.|θi), usualmente, chamada funcao densidade proponente, de tal forma que,

quando o processo de Markov esta no estado θi, o candidato para o estadoseguinte, θ∗, e gerado a partir dessa funcao densidade. Considera-se entao onovo estado θ∗ gerado de q

(.|θi)

e calcula-se a probabilidade

r(θi,θ∗

)=

min

(1,h (θ∗|x) q

(θi|θ∗

)

h(θi|x

)q(θ∗|θi

)), se h

(θi|x

)q(θ∗|θi

)> 0

1, se h(θi|x

)q(θ∗|θi

)= 0.

De acordo com este algoritmo, o vector θ∗ e aceite como novo estadoda cadeia no instante i + 1 com probabilidade r

(θi,θ∗

)ou e rejeitado com

probabilidade 1 − r(θi,θ∗

). Nessa ultima situacao, a cadeia permanece no

estado θi. Em suma, θi+1 = θ∗ com probabilidade r(θi,θ∗

)ou θi+1 = θi

com probabilidade 1 − r(θi,θ∗

).

E importante notar que a funcao densidade de interesse h (.|x) apenas econsiderada, na definicao do algoritmo, atraves da razao h (θ∗|x) /h

(θi|x

).

Assim, na aplicacao do algoritmo de Metropolis-Hastings, apenas se exigeque h (.|x) seja conhecida a menos de uma constante de proporcionalidadeque se anula no quociente formado para calcular a probabilidade de aceitacaor(θi,θ∗

)em cada iteracao do algoritmo. Isto e fundamental em problemas de

inferencia bayesiana onde as distribuicoes a posteriori sao conhecidas a menosde uma constante de proporcionalidade.

O Algoritmo 1, descreve, em termos praticos, o algoritmo geral de Metro-polis-Hastings.

O problema que se coloca, agora, e o de como escolher a funcao den-sidade proponente, estando o bom desempenho deste algoritmo fortementerelacionado com essa escolha. Note-se que esta funcao deve ser escolhida deforma a garantir um percurso adequado dos valores gerados dentro do espacoparametrico e a evitar que estes valores sejam muito correlacionados (Chib eGreenberg (1995)).

Diferentes escolhas de q(.|θi)

conduzem a diferentes algoritmos. Por e-

26 Capıtulo 1. Conceitos Fundamentais

Entrada: valores iniciais θ0, funcao densidade proponente q(.|θi)

ecomprimento da sequencia a gerar, m.

Saıda: sequencia de valores gerados θi, i = 1, . . . ,m.

1 inıcio2 para i = 1, . . . ,m− 1 faca

3 gerar um candidato θ∗ a partir de q(θ|θi);

4 calcular a probabilidade r(θi,θ∗

)de acordo com a expressao

(1.44);5 gerar um numero pseudo-aleatorio u a partir de U(0, 1);

6 se u ≤ r(θi,θ∗) entao

7 θi+1 = θ∗;8 senao

9 θi+1 = θi;10 fim

11 fim

12 fim

Algoritmo 1: Algoritmo de Metropolis-Hastings

xemplo, quando q(θ|θi) = q(θ), isto e, q(θ|θi) nao depende do estado actualda cadeia, o algoritmo e designado de cadeia independente; quando q(θ|θi)depende da distancia entre θ e θi, isto e, q(θ|θi) = q(θ − θi), obtem-se oalgoritmo denominado de passeio aleatorio de Metropolis e quando q(θ|θi) esimetrica (q(θ|θi) = q(θi|θ)) tem-se o algoritmo originalmente proposto porMetropolis et al. (1953).

O algoritmo Gibbs proposto por Geman e Geman (1984) e tornado popu-lar entre os Estatısticos bayesianos apos a publicacao do trabalho de Gelfande Smith (1990), e tambem um caso especial de um algoritmo de Metropolis-Hastings, onde a transicao entre estados e feita atraves de distribuicoes condi-cionais completas. Este algoritmo tem particular interesse em situacoes emque a distribuicao que se pretende simular e multivariada e de natureza bas-tante complexa. E baseado num resultado estabelecido em Besag (1974) se-gundo o qual se a distribuicao h (θ|x) for positiva em Θ1 × Θ2 × · · · × Θp,sendo Θj suporte da distribuicao marginal de θj para j = 1, . . . , p, entao ela eunivocamente determinada pelo conjunto das suas distribuicoes condicionaiscompletas h (θj |θ−j ,x) , j = 1, . . . , p, onde θ−j representa o vector θ sem acomponente θj . Este algoritmo tem a particularidade de ter uma probabili-dade de rejeicao nula.

1.2. Aproximacoes computacionais 27

A introducao de metodos de simulacao de distribuicoes complexas e de di-mensao elevada em Estatıstica Bayesiana permitiu a resolucao de um grandenumero de problemas complexos. Contudo devem ser usados com cautela,como qualquer procedimento numerico. Uma questao muito pertinente e colo-cada neste momento: em que medida a amostra resultante do procedimentode simulacao e verdadeiramente representativa da distribuicao estacionaria daCadeia de Markov?

Embora existam resultados teoricos associados a avaliacao da convergenciade Cadeias de Markov, aplicaveis a situacoes relativamente simples, a con-vergencia de Cadeias de Markov irredutıveis e, frequentemente, avaliada combase em procedimentos empıricos. Entre as varias solucoes propostas salienta-se, por exemplo, as seguintes:

• Monitorizacao de medidas sumarias a posteriori para os parametros deinteresse (Gelfand e Smith, 1990).

• Metodo de Gelman e Rubin (Gelman e Rubin, 1992 a,b), que consideravarias cadeias com valores iniciais sobredispersos e compara a variabili-dade dentro das cadeias e entre as cadeias (ANOVA).

• Metodo de Geweke (Geweke, 1992), que usa uma longa cadeia e testa aigualdade de medias entre uma seccao inicial (10%) e outra final (25%)da cadeia.

• Metodo de Raftery e Lewis (Raftery e Lewis, 1992), que recomendavalores para o perıodo de aquecimento, espacamento e tamanho da cadeiapara que, com uma dada probabilidade, seja possıvel aproximar quantisseleccionados com uma determinada precisao.

• Metodo de Heidelberger e Welch (Heidelberger e Welch, 1983) baseadoem testes de estacionaridade de series temporais. Recomenda um tama-nho para o perıodo de aquecimento e avalia se a parte que passa o testede estacionaridade e suficiente para aproximar a media a posteriori comuma determinada precisao.

Um elevado numero de metodos de analise de convergencia de cadeiasde Markov (os referidos e muitos outros) encontram-se implementados nasbibliotecas CODA3 (Best et al., 1997) e BOA4 (Smith, 2007) que funcionam

3Convergence Diagnostic and output Analysis software.4Bayesian Output Analysis software.

28 Capıtulo 1. Conceitos Fundamentais

no ambiente R. Neste trabalho optou-se pelo pacote CODA monitorizar aconvergencia de cadeias de Markov e pelo software BOA para construir regioesde credibilidade ς com densidade a posteriori maxima (abreviadamente, regiaoHPD) para quantidades de interesse.

Capıtulo 2Screening em Classificacao

Supervisionada

Na Seccao 1.1 do Capıtulo 1, fez-se uma descricao das ideias e dos instrumen-tos teoricos fundamentais ao problema do Screening optimo. Este capıtuloe dedicado ao desenvolvimento de uma metodologia bayesiana, baseada nometodo do Screening optimo para o problema de classificacao supervisionadacom duas classes. Sera abordado o caso em que o vector de caracterısticas Xe bidimensional (d = 2).

A metodologia proposta e inicialmente descrita na Seccao 2.3, segundoum modelo normal bivariado para X dada a classe. Existem, no entanto,situacoes em que o pressuposto de normalidade e inadequado, conduzindoa sua aplicacao, nesses casos, a analises viciadas. Exactamente por causadesta limitacao, foram consideradas duas abordagens alternativas a abordagemparametrica que dotaram o metodo proposto de uma maior flexibilidade: naSeccao 2.4, descreve-se a primeira solucao alternativa a modelacao parametricade X dada a classe, onde o pressuposto de normalidade e relaxado recorrendoa metodos do nucleo de estimacao de densidades1; na segunda solucao naoparametrica, apresentada na Seccao 2.5, a flexibilidade da modelacao e obtidaatraves de metodos bayesianos nao-parametricos, recorrendo nomeadamente adistribuicoes a priori misturas finitas de arvores de Polya multivariadas paraa distribuicao de X em cada classe, que e considerada desconhecida.2.

1Kernel density estimation, na literatura em ingles.2Multivariate mixture of finite Polya tree priors, na literatura em ingles.

29

30 Capıtulo 2. Screening em Classificacao Supervisionada

2.1 O modelo

Seja T uma variavel aleatoria binaria que discrimina os elementos de umapopulacao em dois grupos rotulados como grupo dos sucessos (T = 1), queinteressa submeter a exame detalhado, e o grupo dos insucessos (T = 0).X = (X1, X2) representa o vector bidimensional de caracterısticas, relacionadocom T .

Atendendo ao que foi exposto na Seccao 1.1, pretende-se especificar umaregiao C∗

X tal que o elemento sera ou nao retido consoante o seu vector deespecificacao pertenca ou nao a C∗

X e de modo a que a probabilidade de umelemento retido ser sucesso, δ, seja optimizada.

Para o efeito, dispoe-se de informacao sobre n indivıduos da populacaopara os quais se conhece a verdadeira classificacao

D = (xi, ti) , 1 ≤ i ≤ n = (x1i, x2i, ti) , 1 ≤ i ≤ n ,

na forma de uma amostra aleatoria de um modelo para (X, T ), cuja dis-tribuicao amostral conjunta e especificada por uma distribuicao Bernoulli (θ),θ ∈ (0, 1) para T , e por distribuicoes condicionais para X dado T = t comvector de parametros denotado por θt, t = 0, 1. Esta decomposicao do mode-lo conjunto para (X, T ) (f (x, t) = f (x|t)P (T = t)) implica a verosimilhancaglobal

L (θ,θ0,θ1|D) = θn1 (1 − θ)n0∏

t=0,1

i:ti=t

i∈1,...,n

f (xi|ti = t; θt) , (2.1)

onde nt e o numero de elementos da amostra pertencente ao grupo T = t ef(x|t) denota a funcao densidade de probabilidade de X|T = t, a qual dependede um vector de parametros θt, t = 0, 1.

Por conveniencia matematica, admite-se que, a priori , os parametros θ, θ0

e θ1 sao independentemente distribuıdos segundo as densidades h (θ), h (θ0)e h (θ1), pelo que a sua distribuicao conjunta a priori e

h (θ,θ0,θ1) = h (θ)h (θ0)h (θ1) . (2.2)

Importa, no entanto, notar que a suposicao de independencia entre os pa-rametros do modelo e uma simplificacao que em princıpio e razoavel. Do ponto

2.1. O modelo 31

de vista tecnico, e possıvel adicionar uma estrutura de dependencia entre essesparametros. Por exemplo, num contexto em que as medias dos dois gruposestao relacionadas de alguma forma, pode considerar-se uma distribuicao apriori para o vector das medias (por exemplo, uma distribuicao normal bi-variada). A eliciacao adequada da estrutura de dependencia pode, porem, naoser uma questao facil.

Na suposicao de independencia, a distribuicao a posteriori conjunta e des-crita pela seguinte expressao

h (θ,θ0,θ1|D) ∝

θ

n1 (1 − θ)n0∏

t=0,1

i:ti=t

i∈1,...,n

f (xi|ti = t; θt)

× h (θ)h (θ0)h (θ1)

= [h (θ) θn1 (1 − θ)n0 ]

h (θ0)

i:ti=0

i∈1,...,n

f (xi|ti = 0;θ0)

×

h (θ1)

i:ti=1

i∈1,...,n

f (xi|ti = 1;θ1)

, (2.3)

que representa o produto das distribuicoes

h (θ|D) = h (θ) θn1 (1 − θ)n0 e

h (θt|D) = h (θt)∏

i:ti=t

i∈1,...,n

f (xi|ti = t; θt) para t = 0, 1.

Os elementos informativos apresentados permitem obter as probabilidadespreditivas necessarias para a formalizacao adequada do problema de Screeningoptimo. Recorde-se que, de acordo com o criterio de triagem optimo estabele-cido em Turkman e Amaral Turkman (1989), e para o caso particular d = 2,C∗

X de dimensao α e

C∗X =

x ∈ R

2 :P (T = 1|D) p (x|T = 1;D)∑

t=0,1 P (T = t|D) p (x|T = t;D)≥ k

(2.4)

32 Capıtulo 2. Screening em Classificacao Supervisionada

onde, para cada t = 0, 1,

P (T = t|D) =

∫ 1

0θt (1 − θ)1−t h (θ|D) dθ e (2.5)

p (x|T = t;D) =

∫f (x|T = t; θt)h (θt|D) dθt. (2.6)

O desenvolvimento de expressoes para as quantidades preditivas de inter-esse para a completa especificacao do problema de Screening sera apresentadoem seguida. Inicia-se o processo de desenvolvimento com a obtencao das ex-pressoes para as probabilidades preditivas de T = t , t = 0, 1.

2.2 Probabilidade preditiva: P (T = t|D)

Considere-se a distribuicao a posteriori apresentada em (2.3). Admitindo paraθ a distribuicao a priori conjugada natural

θ ∼ Beta (a, b) ,

onde a > 0 e b > 0 sao hiperparametros a especificar, resulta que

h (θ|D) =Γ (n+ a+ b)

Γ (n1 + a) Γ (n0 + b)θn1+a−1 (1 − θ)n0+b−1 , (2.7)

onde Γ (A) =

∫ 1

0θA−1e−θdθ, A > 0 representa a funcao gama. Note-se que

a funcao densidade apresentada em (2.7) integra a famılia de distribuicoesBeta (a+ n0, b+ n1).

Consequentemente, a probabilidade preditiva de um indivıduo futuro vira ser sucesso e

γ = P (T = 1|D) =

∫ 1

Γ (n+ a+ b)

Γ (n1 + a) Γ (n0 + b)θn1+a−1 (1 − θ)n0+b−1 dθ

=n1 + a

n+ a+ b(2.8)

A probabilidade preditiva de um indivıduo futuro vir a ser um insucesso e

P (T = 0|D) = 1 − P (T = 1|D) =n0 + b

n+ a+ b. (2.9)

2.3. Abordagem parametrica 33

Tal como referido anteriormente, na caracterizacao da distribuicao predi-tiva de uma observacao futura no grupo T = t, p(x|T = t), t = 0, 1, saopropostas tres abordagens: uma em contexto parametrico e duas em contextosemi-parametrico. Descrever-se-ao em seguida, essas tres situacoes.

2.3 Abordagem parametrica.

Distribuicao preditiva de X|T = t

Considerar-se-a que o vector de caracterısticas X, em cada grupo, e modeladopor uma distribuicao normal bivariada, com vector de medias µt ∈ R2 e matrizde precisao Λt (matriz 2 × 2 simetrica definida positiva),

X|T = t; µt;Λt ∼ N2

(µt,Λt = Σ−1

t

), t = 0, 1. (2.10)

Com efeito, o modelo estatıstico apresenta a seguinte verosimilhanca global

L (θ,θ0,θ1|D) ∝ θn1 (1 − θ)n0∏

t=0,1

|Λt|nt/2 exp

−nt

2[(µt − xt)

Λt

× (µt − xt) +1

nt

i:ti=t

i∈1,...,n

x′

iΛtxi − x′

tΛtxt], (2.11)

onde θt = (µt,Λt), µt = (µ1t, µ2t)′, Λt =

[λ11

t λ12t

λ12t λ22

t

], xi = (x1i, x2i)

′ e

xt = 1/nt

i:ti=t

i∈1,...,n

xi, t = 0, 1.

Admitindo-se para cada θt uma distribuicao a priori conjugada naturalNormal-Wishart bivariada tal que

(µt,Λt) ∼ NW2 (µ0t, ct, αt,βt) ⇔

µt|Λt ∼ N2 (µ0t, ctΛt)

Λt ∼ Wi2 (αt,βt) ,(2.12)

onde µ0t ∈ R2, ct ≥ 0, αt > 1/2 e βt e uma matriz simetrica e nao singular(hiperparametros a especificar), tem-se que a distribuicao a posteriori de cada

34 Capıtulo 2. Screening em Classificacao Supervisionada

θt e definida por

(µt,Λt) |D ∼ NW2

(µnt

, ct + nt, αt +1

2nt,βnt

), (2.13)

o que e equivalente a

µt|Λt;D ∼ NW2

(µnt

, (ct + nt)Λt

),

Λt|D ∼ Wi2(αt + 1

2nt,βnt

),

(2.14)

onde

βnt= βt +

1

2St +

1

2(nt + ct)

−1 ntct(µ0t

− xt

) (µ0t

− xt

)′

eµnt

= (ct + nt)−1 (ctµ0t

+ ntxt

).

Consequentemente, a distribuicao preditiva de uma observacao futura Xno grupo T = t, representada por p(x|T = t;D), e dada por (Aitchison eDunsmore, 1975, pp. 28 - 29)

X|T = t;D ∼ St2(µnt

,∆t, glt), (2.15)

onde glt = 2αnt e ∆t = (ct + nt + 1)−1 (ct + nt)αnt β −1nt

, com αnt = αt +12 (nt − 1).

A notacao X|T = t;D ∼ St2(µnt

,∆t, glt)

indica que X|T = t;D segueuma distribuicao t-Student bivariada com parametros µnt

∈ R2, ∆t que e umamatriz 2× 2 simetrica definida positiva e glt > 0, que representa o numero degraus de liberdade.

O uso da distribuicao normal para modelar X|T = t constitui a abor-dagem mais usual num problema de screening. A popularidade desta abor-dagem esta concerteza ligada a relativa facilidade com que sao obtidas as ex-pressoes analıticas para as densidades preditivas necessarias para a adequadaformulacao do problema de screening. Porem, em muitas situacoes praticasnao e razoavel esperar que a famılia de distribuicoes proposta ou conjecturada,aqui a famılia normal, descreva apropriadamente o processo que gera as obser-vacoes, levando a especificacao nao adequada a analises viciadas. Sendo assim,justifica-se a necessidade de relaxar o pressuposto parametrico, de forma a evi-tar que a metodologia proposta fique restringida aos poucos casos em que ospressupostos distribucionais sejam adequados.

2.4. Abordagem nao parametrica classica 35

Nas seccoes seguintes, sao descritas duas solucoes nao-parametricas: umaem contexto classico e outra em contexto bayesiano, propostas com o objectivode suprir a lacuna referida acima. Note-se que o termo nao-parametrico naotem, aqui, o significado dos modelos desenvolvidos no ambito destas aborda-gens nao terem parametros, mas tratarem-se de modelos com distribuicao debase livre, ou seja, a distribuicao de X|T = t nao ser previamente especificada.

2.4 Abordagem nao-parametrica classica.

Distribuicao preditiva de X|T = t

Os metodos nao-parametricos classicos de estimacao de densidade ocupamum papel fulcral na estrutura alternativa ao paradigma parametrico. Estesmetodos nao admitem nenhuma forma funcional para a distribuicao da popu-lacao em estudo. Essa forma e determinada a partir dos dados, admitindo-se,quando muito, hipoteses muito gerais (unimodalidade, continuidade, etc ...).

Na estimacao nao-parametrica de densidade no contexto classico merecemdestaque o estimador do histograma (pela sua simplicidade) e os estimadoresde kernel ou do nucleo, muito provavelmente os mais usuais. Estes ultimosforam adoptados para estimar a distribuicao preditiva de uma observacao fu-tura no grupo T = t, configurando a denominada estrutura nao-parametricaclassica alternativa a abordagem parametrica introduzida na seccao anterior.

Em seguida, far-se-a uma breve descricao dos metodos do nucleo usadospara abordar o problema da estimacao de p (x|T = t;D). Para uma analisedetalhada destes metodos veja-se, por exemplo, Hardle et al. (2004), Wand eJones (1995) e Silverman (1985).

2.4.1 Estimadores do nucleo

Para alem de boas razoes para serem estudados, tais como a simplicidade deconstrucao e de interpretacao e de garantir estimativas de densidade proprias,os estimadores de densidade do nucleo sao conceptualmente faceis de visu-alizar. Este estimadores podem, genericamente, ser vistos como uma soma defuncoes (funcoes nucleo), com a massa peso 1/n e associadas a cada um dos npontos amostrais. Para fins ilustrativos, considere-se uma amostra com ape-nas 5 observacoes de (X1, X2), (7, 3), (2, 4), (4, 4), (5, 2), (5.5, 6.5). A Figura2.1 ilustra as curvas de nıvel das funcoes nucleo de massa 1/5, associadas comcada ponto amostral.

36 Capıtulo 2. Screening em Classificacao Supervisionada

Figura 2.1: Curvas de nıvel das funcoes nucleo individuais.

Adicionando estas funcoes nucleo obtem-se uma estimativa da densidadebivariada pelo metodo do nucleo. A curvas de nıvel da densidade estimadarepresentam-se na figura seguinte.

Figura 2.2: Estimativa da densidade bivariada pelo metodo do nucleo.

O estimador de densidade no nucleo e entao o que obedece a definicao:

Definicao 5 Estimador de densidade pelo metodo do nucleo (Wand eJones, 1995)Considere-se uma amostra aleatoria X1,X2, . . . ,Xn de uma populacao com

2.4. Abordagem nao parametrica classica 37

funcao densidade de probabilidade p desconhecida. O estimador de densidadedo nucleo pode definir-se como

pH (x) = n−1n∑

i=1

KH (x − Xi) (2.16)

onde x = (x1, x2, . . . , xd)′

, Xi = (X1i, X2i, . . . , Xdi)′

com i = 1, 2, . . . , n eKH (x) = |H|−1/2K

(H−1/2 x

).

A funcao K(.) e a chamada funcao nucleo ou apenas nucleo e a matrizH, que e simetrica definida positiva, costuma tomar a designacao de matrizlargura de banda3.

Como ja foi referido, nesta abordagem admite-se que a distribuicao su-bjacente a X|T = t e desconhecida, sendo, como consequencia, a densidadepreditiva de uma observacao futura no grupo T = t, p (x|T = t;D) tambemdesconhecida. Os estimadores do nucleo, acima definidos, permitem obteruma aproximacao desta densidade podendo, com base na amostra aleatoria(Xi, Ti) ; 1 ≤ i ≤ n, definir-se o seu estimador como

pHt(x|T = t;D) = n−1

t

i:Ti=t

i∈1,...,n

KHt(x − Xi) , (2.17)

onde Ht representa a matriz largura de banda correspondente ao grupo T = t.

Note-se que os estimadores nao-parametricos de densidade sao funcoes pque deverao apresentar propriedades analogas as da funcao densidade de pro-babilidade. Devera, entao, exigir-se que p verifique, para d = 2:

1. pH(x) ≥ 0 ∀x,

2.

R2

pH(x) dx = 1.

E facil de ver que o estimador definido em (2.16) verifica as propriedadesanteriores se o nucleo considerado for uma funcao densidade de probabilidade.Define-se entao,

Definicao 6 Funcao NucleoUma funcao nucleo ou simplesmente nucleo e uma funcao K(.), real, naonegativa, contınua e limitada em Rd que verifica

∫K(u) du = 1.

3Bandwidth matrix, na literatura em ingles

38 Capıtulo 2. Screening em Classificacao Supervisionada

Apesar de diferentes escolhas do nucleo conduzirem a estimadores com ca-racterısticas diferentes de p, essa escolha nao e crucial para o bom desempenhodo estimador. No entanto, e razoavel escolher uma funcao nucleo que auxiliena eficiencia computacional.

Usualmente, mas nao sempre, K e uma funcao densidade de probabilidadeunimodal simetrica. As funcoes nucleo habitualmente usadas sao: normalpadrao, uniforme, triangular, Epanechnikov, biweight, triweight. Estas funcoesnucleo encontram-se acessıveis em ambiente R (R Development Core Team,2006), onde ainda se tem a possibilidade de usar os nucleos cosine e optcosine.

2.4.2 Estudo teorico dos estimadores do nucleo

Nao se ira entrar em pormenor no estudo teorico dos estimadores do nucleo,que se pode encontrar em Devroye e Gyorfil (1985) e Silverman (1985), en-tre outros autores. Far-se-a apenas uma breve referencia as medidas maisusadas na avaliacao da qualidade destes estimadores e apresentam-se algunsresultados sobre estimacao da matriz H.

O unico factor que tem influencia no desempenho do estimador de den-sidade do nucleo e na forma da estimativa resultante e a escolha da matrizlargura de banda. Assim, uma questao muito natural se poe neste momento:Como e que se escolhe a matriz H mais apropriada? Implıcito nesta questaoesta o criterio que e usado na avaliacao do desempenho do estimador. Umamedida habitual e o erro quadratico medio ou MSE (MSE = Mean SquaredError),

MSE [pH (x)] = E

[pH (x) − p(x)]2

= E

[pH (x) − E (pH (x))]2

+ [E (pH (x)) − p (x)]2

= Var (pH (x)) + [Vies (pH (x))]2 , (2.18)

onde

E (pH (x)) = E [KH (x −X)] =

R2

KH (x − u) p (u) du e (2.19)

Var (pH (x)) = n−1E[KH (x −X)]2 − [E (pH (x))]2

= n−1

R2

[KH (x − u)]2 p (u) du − [E (pH (x))]2 . (2.20)

2.4. Abordagem nao parametrica classica 39

Observe-se como a expressao (2.18) mostra bem o “conflito” vies/variancia.O vies pode ser reduzido com o custo do aumento da variancia. Em contra-partida, nao e possıvel reduzir a variancia sem com isso aumentar o vies.

Definindo-se o MSE sobre todo o suporte tem-se o erro quadratico mediointegrado (MISE = Mean Integrated Squared Error),

MISE [pH] = E

[∫

R2

(pH (x) − p(x))2 dx

]

=

R2

[Var (pH (x)) + [Vies (pH (x))]2

]dx. (2.21)

Embora existam outras medidas globais de qualidade destes estimadores,que ate podem ser mais adequadas (por exemplo, o erro absoluto medio inte-grado, MIAE [pH] = E

[∫R2 |pH (x) − p(x)| dx

]), o MISE e as suas variantes

sao, certamente, as medidas globais cuja forma e a mais tratavel, ocupandolugar fulcral no processo de avaliacao da qualidade do estimador de densidadepelo metodo do nucleo (Silverman, 1985). Assim, na seleccao de H, e sensatominimizar o MISE, isto e,

HMISE = arg minH∈H

MISE [pH], (2.22)

onde H e o espaco das matrizes simetricas definidas positivas de dimensao2 × 2.

Sabe-se que a matriz HMISE apresenta forma fechada apenas em situacoesmuito excepcionais, sendo necessario recorrer a uma aproximacao assintotica,que e obtida considerando os termos ate 2a ordem do desenvolvimento em seriede Taylor do MISE e conhecida como erro quadratico medio integrado assin-totico (AMISE = Asymptotic Mean Integrated Squared Error). Pode mostrar-se, (veja-se, por exemplo , Wand e Jones (1995, Capıtulo 4)) sob condicoes aespecificar, que

MISE [pH] = AMISE [pH] +O(n−1|H|−1/2 + tr2H

), (2.23)

onde

AMISE [pH] = n−1|H|−1/2R(K) +1

4µ2(K)2

(vech′ H

)Ψ (vech H) , (2.24)

em que R (K) =∫

R2 K(x)2 dx para alguma funcao K, cujo quadrado e in-tegravel; µ2(K)I2 =

∫R2 x x′K(x) dx com µ2(K) < ∞ e I2 e a matriz iden-

40 Capıtulo 2. Screening em Classificacao Supervisionada

tidade de dimensao 2 × 2; e vech H e o operador que transforma a matriz Hnum vector da forma seguite,

vech H = vech

[h2

1 h12

h12 h22

]=

h21

h12

h22

.

Ψ e uma matriz 3 × 3 dada por

Ψ =

R2

vech[2D2p(x) − dg

(D2p(x)

)]vech′

[2D2p(x) − dg

(D2p(x)

)]dx,

onde D2p(x) e a matriz Hessiana de p e dg(A) e uma matriz cuja diago-nal principal e a diagonal principal de A e os restantes elementos sao zero.As condicoes suficientes para que os desenvolvimentos em serie de Taylor,definidos em (2.23) e (2.24) sejam validos sao: todos os elementos de D2p(x)sao integraveis, todos os elementos da matriz H → 0 e n|H|−1/2 → ∞ quandon→ 0.

Note-se que cada parcela de (2.24) corresponde ao valor assintotico daVar (pH) integrada e do (Vies (pH))2 integrado, respectivamente. Veja-se tam-bem como tal expressao mostra bem o “conflito” vies/variancia: a matrizlargura de banda H directamente relacionada com o vies integrado ao qua-drado, 1

4µ2(K)2(vech′ H

)Ψ (vech H), mas inversamente relacionada com a

variancia integrada, n−1|H|−1/2R(K).

Introduzindo mais alguma notacao e possıvel apresentar uma expressaoexplıcita para a matriz Ψ em termos dos seus elementos individuais. Seja,entao, r = (r1, r2) onde r1 e r2 sao numeros inteiros nao negativos. Sendo|r| = r1 + r2, entao a derivada parcial de ordem r de p pode ser escrita como

p(r) (x) =∂|r|

∂r1x1∂

r2x2

p (x)

e o funcional das derivadas da densidade p integradas e

ψr =

R2

p(r) (x) p (x) dx.

Note-se que, se X possui densidade p entao E[p(r) (X)

]= ψr. Observe-

se tambem que∫

R2 p(r) (x) p(s) (x) dx = (−1)|r|

∫R2 p

(r+s) (x) p (x) dx, o que

2.4. Abordagem nao parametrica classica 41

implica

Ψ =

ψ40 2ψ31 ψ22

2ψ31 4ψ22 2ψ13

ψ22 2ψ13 ψ04

(2.25)

A combinacao das expressoes (2.24) e (2.25) produz uma aproximacaotratavel, AMISE, para MISE. Ha um vasto numero de tecnicas sofisticadas deseleccao de H que fazem uso da tratabilidade do AMISE e tentam estimar

HAMISE = arg minH∈H

AMISE [pH] (2.26)

em vez de HMISE. E obvio que o EQMIA e um funcional da densidade pdesconhecida, via Ψ, e portanto de utilidade nao imediata. No entanto, epossıvel contornar este aspecto atraves de aproximacoes para Ψ baseadas nosdados disponıveis. Estas aproximacoes de Ψ, Ψ, conduzem a estimativas deAMISE, representadas por AMISE, que podem ser minimizadas para produziruma estimativa para H,

H = arg minH∈H

AMISE. (2.27)

Observe-se que este processo e simplificado se se restringir a escolha deH a famılia de matrizes diagonais definidas positivas, uma vez que, nestescasos H pode ser expressavel em forma fechada (veja-se, por exemplo, Wande Jones, 1994). No entanto, esta longe de ser evidente que a simplificacaoobtida atraves da utilizacao de uma matriz H diagonal justifique a perda daflexibilidade que esta restricao implica. A utilizacao de matrizes H diagonaisimplica que, na estimacao da densidade de interesse se fique restrito ao uso denucleos que sao orientados paralelamente aos eixos coordenados.

Para uma exemplificacao, apresenta-se na Figura 2.3 curvas de nıvel denucleos obtidos com uma matriz H diagonal (a direita) e com uma matriz Hsem restricoes (a esquerda). Atente-se que o aumento da flexibilidade devidoao uso de matrizes nao restritas, implica que o problema da estimacao de Hse torne computacionalmente intensivo e que ja nao tenha solucao analıtica.

Do longo leque de tecnicas de seleccao de H descritos na literatura, podereferir-se as tecnicas baseadas em metodos de validacao cruzada, em metodosbootstrap e em metodos plug-in. Destas, far-se-a em seguida uma breve re-ferencia as tecnicas baseadas em metodos de validacao cruzada enviesada, porterem sido usadas neste trabalho. Para uma leitura detalhada sobre tecnicas

42 Capıtulo 2. Screening em Classificacao Supervisionada

Matriz sem restrições

x1

x2

0 2 4 6 8 10

02

46

810

Matriz diagonal

x1

x2

0 2 4 6 8 10

02

46

810

Figura 2.3: Matrizes largura de banda: sem restricoes e diagonal.

de seleccao da matriz H numa perspectiva multivariada, pode consultar-seWand e Jones (1994); Sian et al. (1994); Duong e Hazelton (2003, 2005a,b) ereferencias aı contidas.

Metodo de validacao cruzada enviesada

Na estimacao da matriz H, ha a necessidade de estimar ψr. Tendo em contaque ψr = E [pr (X)], um estimador muito natural para ψr e

ψr (D) = n−1n∑

i=1

p(r)M (Xi)

= n−2n∑

i=1

n∑

j=1

K(r)M (Xi − Xj) ,

onde M e uma matriz largura de banda piloto (frequentemente diferente deH). O metodo de validacao cruzada enviesada (BCV = Biased Cross Valida-

tion), considera M = H e usa n estimadores ligeiramente diferentes de p(r)H (.)

(Wand e Jones, 1994). Existem duas versoes duas versoes do metodo BCVque dependem do estimador de ψr (Sian et al., 1994). Pode usar-se

ψr (H) = n−2n∑

i=1

n∑

j=1j 6=i

K(r)2H (Xi − Xj)

2.5. Abordagem nao parametrica bayesiana 43

ou

ψr (H) = n−1 (n− 1)−1n∑

i=1

n∑

j=1j 6=i

K(r)H (Xi − Xj) .

Os estimadores de Ψ e de Ψ sao obtidos a partir de Ψ substituindo ψr ouψr em ψr. A partir destes estimadores obtem-se, respectivamente,

BCV1 (H) = n−1|H|−1/2R(K) +1

4µ2(K)2

(vech′ H

)Ψ (vech H)

BCV2 (H) = n−1|H|−1/2R(K) +1

4µ2(K)2

(vech′ H

)Ψ (vech H) .

Os estimadores HBCV1e HBCV2

sao obtidos atraves da minimizacao docriterio BCV correspondente.

Finalmente, algumas observacoes relativas a implementacao computacionaldos metodos de estimacao do nucleo no contexto bivariado. Existe uma biblio-teca de funcoes na linguagem R (ks - Kernel density estimation for bivariatedata) disponıveis no sıtio http://CRAN.R-project.org/ (Duong, 2007) quepermitem obter estimativas do nucleo para diferentes tecnicas de seleccao damatriz largura de banda.

2.5 Abordagem nao parametrica bayesiana.

Distribuicao preditiva de X|T = t

A solucao obtida por aplicacao de metodos classicos de estimacao da densi-dade (metodo do nucleo) para o problema da violacao do pressuposto dis-tribucional da abordagem parametrica, costuma ser bastante satisfatoria. Noentanto, os metodos bayesianos nao parametricos (BNP = Bayesian Nonpara-metric) apresentam boas razoes para tambem serem aqui estudados, nao sopor serem teoricamente coerentes e permitirem a incorporacao de informacaoa priori, mas tambem por possibilitarem a estimacao de intervalos bayesianos(regioes de credibilidade) para funcionais da densidade desconhecida, ja queestes metodos permitem obter varias realizacoes da densidade de interesse.Note-se que, as caracterısticas operacionais introduzidas no Capıtulo 1, sao

44 Capıtulo 2. Screening em Classificacao Supervisionada

exemplos de funcionais da densidade para os quais interessa construir interva-los de credibilidade.

A metodologia bayesiana nao parametrica constitui um ramo da Estatısticabayesiana relativamente recente. Os primeiros avancos foram feitos nas deca-das de 60 e 70 do seculo XX, e dizem respeito apenas as primeiras formulacoesmatematicas. So no inıcio da decada de 90, com o advento dos metodos desimulacao, em particular dos Metodos de Monte Carlo via Cadeias de Markov,e que foram realizados progressos substanciais nessa area.

Actualmente, ha um grande interesse na abordagem bayesiana nao para-metrica, sobre a qual decorre uma actividade de investigacao bastante intensa.Para uma revisao actualizada, veja-se, por exemplo, Muller e Quintana (2004)e Hanson et al. (2005) e os varios trabalhos referidos nesta seccao.

A viabilidade da aplicacao de metodos nao-parametricos bayesianos emproblemas de inferencia estatıstica, nomeadamente em problemas de estimacaoda densidade, regressao, analise de sobrevivencia, series temporais e validacaode modelos foi ja demonstrada em varios trabalhos (De Iorio et al., 2009;Dunson, 2009; Yang et al., 2008). Aqui, sera abordado apenas o problema daestimacao de densidades num contexto multivariado.

Recorde-se que o problema da modelacao estatıstica nao-parametrica temcomo objectivo estimar uma distribuicao G proveniente de uma famılia dedistribuicoes, com base numa amostra aleatoria X1,X2, . . . ,Xn, de uma po-pulacao cuja distribuicao e G. A abordagem bayesiana para este problemarequer que G seja vista como um parametro desconhecido e considera umadistribuicao a priori para esse parametro. Este raciocınio requer a introducaodo conceito de medidas de probabilidade aleatorias (RPM = Random Proba-bility Measures). Estas medidas sao genericamente definidas como medidas deprobabilidade sobre uma coleccao de funcoes de distribuicao.

Ha varias RPM descritas na literatura, nomeadamente, processos de Diri-chlet (DP = Dirichlet processes), uma das RPM mais investigadas e usadasno quadro bayesiano nao-parametrico (Ferguson, 1973; Antoniak, 1974), pro-cessos tail-free (Ferguson, 1973; Fabius, 1964), arvores de Polya (PT = Polyatrees), que sao uma generalizacao dos DP (Lavine, 1994, 1992; Hanson, 2006),entre outras. Destas, far-se-a adiante, uma descricao sobre as RPM arvoresde Polya, por terem sido usadas neste trabalho como solucao para o problemada violacao do pressuposto distribucional apresentado na Subseccao 2.3.

Esta solucao consiste em admitir que a amostra aleatoria (Xi, Ti) ; 1 ≤ i ≤n, onde Xi e um vector bidimensional de caracterısticas e Ti e uma variavel

2.5. Abordagem nao parametrica bayesiana 45

binaria que discrimina os indivıduos da populacao em dois grupos (admitevalores 0 ou 1), e modelada da seguinte forma,

Xi|Ti = t;Gtiid∼ Gt

Gt|ct,mt,Ct ∼ PTJ2

(ct, ρ,Π

mt,Ct)

(mt,Ct) ∼ p (mt,Ct) , ct ∼ p (ct) , (2.28)

em que Gt e a medida de probabilidade responsavel pela geracao de Xi|Ti =t, i = 1, . . . , n e PTJ

2

(ct, ρ,Π

mt,Ct)

e uma RPM mistura de arvores de Polyabivariada com J nıveis e com parametros Πmt,Ct , ct e ρ, t = 0, 1. Πmt,Ct

representa um conjunto de particoes de R2, indexadas por mt e Ct e ct e ρrepresentam uma famılia de vectores nao-negativos que controlam a variabili-dade do processo em estudo. p (mt,Ct) e p (ct) representam as distribuicoes apriori para (mt,Ct) e para ct, respectivamente. Em seguida, usam-se metodosMCMC para obter realizacoes de Gt|(x1, . . . ,xn|Ti = t), ct,mt,Ct, que vaopermitir aproximar a distribuicao p (x|T = t;D), t = 0, 1.

2.5.1 Distribuicoes a priori arvores de Polya univariadas

O conceito de distribuicao arvore de Polya (PT = Polya tree) foi introduzidopor Ferguson (1974) e mais tarde Lavine (1992, 1994) desenvolveu e catalogoumuita da teoria que ainda ainda hoje governa estas distribuicoes. Apesar damaioria da teoria desenvolvida neste area se inserir no contexto univariado,ja existem alguns trabalhos que abordam as distribuicoes PT na perspectivamultivariada, podendo referir-se, por exemplo, os trabalhos de Paddock (1999),Paddock et al. (2003) e Hanson (2006). A abordagem que se descreve emseguida segue de perto os trabalhos de Lavine (1992, 1994) e Hanson (2006).

As distribuicoes PT permitem a modelacao de densidades contınuas atravesde um particionamento em arvore do espaco de resultados, Ω. Generica-mente, estas distribuicoes sao definidas atraves da atribuicao de probabilidadesaleatorias aos conjuntos de uma sequencia encaixada de particoes de Ω.

A seguinte definicao e uma ligeira alteracao da apresentada em Lavine(1992). Seja Ej = ǫ = ǫ1 . . . ǫj : ǫk ∈ 0, 1, j = 1, 2, . . . . Admita-se queE∗ =

⋃∞j=1E

j . Seja (Ω,B) um espaco mensuravel, e para cada j = 1, 2, . . . ,sejam Bǫǫ∈Ej particoes binarias de Ω tais que Ω = B0 ∪B1, B0 ∩B1 = ∅ epara cada ǫ = ǫ1 . . . ǫj ∈ E∗, Bǫ = Bǫ0 ∪Bǫ1 e Bǫ0 ∩Bǫ1 = ∅.

46 Capıtulo 2. Screening em Classificacao Supervisionada

Definicao 7 Distribuicao arvore de Polya univariada (Lavine, 1992)Seja Π = Bǫǫ∈Ej , j = 1, 2, . . . uma sequencia de particoes binarias eA = αǫ : ǫ ∈ E∗ uma coleccao de numeros nao negativos. A RPM Gsobre (Ω,B)4 e uma distribuicao a priori arvore de Polya com parametros(Π,A), e representa-se como G|Π,A ∼ PT (Π,A), se existir uma coleccaoY = Y ∪ Yǫ : ǫ ∈ E∗ de vectores aleatorios, de forma a que se verifique oseguinte:

(i) Y e constituıda por vectores aleatorios independentes;

(ii) Y = (Y0, Y1) ∼ Dirichlet(α0, α1) e para todo ǫ ∈ E∗, Yǫ = (Yǫ0, Yǫ1) ∼Dirichlet (αǫ0, αǫ1);

(iii) para j = 1, 2, . . . , e para todo ǫ ∈ E∗

G(Bǫ1...ǫj

)=

j∏

k=1

Yǫ1...ǫk.

Note-se que o ponto (ii) da definicao anterior poderia escrever-se, de formaequivalente, Y0 ∼ Beta(α0, α1), Y1 ∼ Beta(α1, α0) e para todo ǫ ∈ E∗, Yǫ0 ∼Beta(αǫ0, αǫ1) e Yǫ1 ∼ Beta(αǫ1, αǫ0).

As variaveis que constituem Y possuem uma interpretacao simples: Y0 eY1 = 1 − Y0 representam, respectivamente, as probabilidades de uma obser-vacao pertencer a B0 e a B1, e Yǫ0 e Yǫ1 = 1 − Yǫ0 sao, respectivamente, asprobabilidades condicionais de uma observacao pertencer a Bǫ0 e a Bǫ1 dadoque pertence a Bǫ.

Dado que (Y0, Y1) ∼ Dirichlet(α0, α1) e (Yǫ0, Yǫ1) ∼ Dirichlet (αǫ0, αǫ1)nao e difıcil obter expressoes para os momentos das probabilidades aleatoriasassociadas com os conjuntos das particoes. Por exemplo, a media e a varianciasao dadas por,

E[G(Bǫ1...ǫj

)]= E

[j∏

k=1

Yǫ1...ǫk

]

=αǫ1

α0 + α1×

j∏

k=2

αǫ1...ǫk

αǫ1...ǫk−10 + αǫ1...ǫk−11(2.29)

4B e uma σ−algebra de Borel de conjuntos de Ω

2.5. Abordagem nao parametrica bayesiana 47

e

V ar[G(Bǫ1...ǫj

)]= V ar

[j∏

k=1

Yǫ1...ǫk

]=

αǫ1 (α0 + α1 − αǫ1)

(α0 + α1)2 (α0 + α1 + 1)

×

j∏

k=2

αǫ1...ǫk

(αǫ1...ǫk−10 + αǫ1...ǫk−11 − αǫ1...ǫk

)(αǫ1...ǫk−10 + αǫ1...ǫk−11

)2 (αǫ1...ǫk−10 + αǫ1...ǫk−11 + 1

) . (2.30)

Admita-se que, para qualquer conjunto mensuravel B, a medida de pro-babilidade G0 e definida como sendo G0 (B) = E [G (B)]. A expressao (2.29)permite definir G0 para quaisquer elementos de Bǫǫ∈Ej . Note-se que sendo

W1, . . . ,Wn|Gi.i.d∼ G onde G|Π,A ∼ PT (Π,A), G0 representa a distribuicao

de cada Wi, ja que P (Wi ∈ B) = E [P (Wi ∈ B|G)] = E [G (B)] = G0(B).

Para ilustracao, apresenta-se na Figura 2.4 uma arvore de Polya com tresnıveis. Sem quebra de generalidade, admite-se que Ω = (0, 1]. No primeironıvel, Ω e dividido em dois intervalos: B0 = (0, 0.5] e B1 = (0.5, 1], e Y0

e Y1 = 1 − Y0 representam a probabilidade de uma observacao pertencera B0 e B1, respectivamente. Os intervalos do nıvel 2 sao B00 = (0, 0.25],B01 = (0.25, 0.50], B10 = (0.5, 0.75] e B11 = (0.75, 1], e Y00, Y01, Y10 e Y11

representam, respectivamente, as probabilidades de uma observacao pertencera cada um destes intervalos dado que pertence ao correspondente conjuntoprogenitor. O terceiro nıvel e constituıdo pelos intervalos B000 = (0, 0.125],B001 = (0.125, 0.250], B010 = (0.250, 0.375], B011 = (0.375, 0.5], B100 =(0.5, 0.625], B101 = (0.625, 0.750], B110 = (0.750, 0.875] e B111 = (0.875, 1],e Y000, Y001, Y010, Y011, Y100, Y101, Y110 e Y100 sao as probabilidades de umaobservacao se encontrar num destes oito intervalos dado que esta pertence aointervalo progenitor correspondente. A Figura 2.4 exibe tambem o calculo dovalor de G0 (B010) = E [P (Wi ∈ B010|G)] e de E [P (Wi ≤ 0.375|G)] .

As distribuicoes PT gozam do importante e conhecido resultado da con-jugacao (ver Lavine, 1992).

Teorema 1Seja W1, . . . ,Wn|G

iid∼ G com G|Π,A ∼ PT (Π,A). Entao

G|W1, . . . ,Wn,Π,A ∼ PT (Π,A|W) = PT (Π,A∗) ,

onde A∗ = α∗ǫ = αǫ + nǫ : ǫ ∈ E∗ e nǫ#Wi ∈ Bǫ.

48 Capıtulo 2. Screening em Classificacao Supervisionada

B0 =(0, .5]

B00 =(0, .25]

B000 =(0, .125]

B001 =(.125, .25]

Y000 Y001

B01 =(.25, .5]

B010 =(.25, .375]

B011 =(.375, .5]

Y010 Y011

Y00 Y01

B1 =(.5, 1]

B10 =(.5, .75]

B100 =(.5, .625]

B101 =(.625, .75]

Y100 Y101

B11 =(.75, 1]

B110 =(.75, .875]

B111 =(.875, 1]

Y110 Y111

Y10 Y11

Y0 Y1

(Y0, Y1) ∼ Dirichlet (α0, α1)

Yǫ = (Yǫ0, Yǫ1) ∼ Dirichlet (αǫ0, αǫ1) , ǫ = ǫ1 . . . ǫj−1, j = 2, 3

G (B010) = G(B010 ∩B01 ∩B0)

= G(B010|B01, B0)G(B010|B01)G(B01) = Y010Y01Y0

P (Wi ∈ B010) = E [P (Wi ∈ B010|G)] = E [G (B010)]

=α0

α0 + α1

α01

α00 + α01

α010

α010 + α011

P (Wi ≤ 0.375) = E [P (Wi ∈ B000|G)] + E [P (Wi ∈ B001|G)]

+ E [P (Wi ∈ B010|G)]

= E [G (B000)] + E [G (B001)] +E [G (B010)]

Figura 2.4: Ilustracao de uma distribuicao arvore de Polya com 3 nıveis parauma particao em arvore binaria do espaco Ω = (0, 1]. A parte inferior exibe ocalculo dos valores de E [P (Wi ∈ B010|G)] e de E [P (Wi ≤ 0.375|G)].

2.5. Abordagem nao parametrica bayesiana 49

Como consequencia do teorema anterior, a medida de probabilidade a pos-teriori, G|W1 = w1, . . . ,Wn = wn,Π,A, avaliada em Bǫ1...ǫj

e

P(Wn+1 ∈ Bǫ1...ǫj

|w1, . . . , wn

)= E

[P(Wn+1 ∈ Bǫ1...ǫj

|G;w1, . . . , wn

)]

= E[G(Bǫ1...ǫj

)|w1, . . . , wn

]

= E

[j∏

k=1

Yǫ1...ǫk|w1, . . . , wn

]

=αǫ1 + nǫ1

α0 + α1 + n0 + n1

×

j∏

k=2

αǫ1...ǫk+ nǫ1...ǫk

αǫ1...ǫk−10 + αǫ1...ǫk−11 + nǫ1...ǫk−1

.

A Figura 2.5 ilustra distribuicao arvore de Polya apresentada na Figura2.4 actualizada. Na parte inferior da figura exibe-se o calculo do valor deE [P (Wi ∈ B010|G) |w1, . . . , wn].

Lavine (1992) mostrou que e possıvel obter a densidade preditiva comrespeito a uma medida denominada por λ para uma observacao W |G ∼ G,onde G|Π,A ∼ PT (Π,A).

Teorema 2 (Teorema 2, Lavine, 1992)Para w ∈ Ω, seja ǫ1, ǫ2, . . . uma sequencia finita tal que w ∈ Bǫ1...ǫj

para todoj = 1, 2, . . . . Entao,

pλ (w|Π,A) = limj→∞

P(W ∈ Bǫ1...ǫj

)

λ(Bǫ1...ǫj

)

= limj→∞

∏jk=1

αǫ1...ǫk

αǫ1...ǫk−10+αǫ1...ǫk−11

λ (Bǫ1...ǫk)

,

onde a primeira igualdade e valida para quase todo w.

Este teorema mostra que quando λ representa a medida de Lebesgue, adistribuicao a priori PT com uma escolha adequada dos parametros pode serusada para para estimar a densidade.

Na pratica, a eliciacao da famılia αǫ : ǫ ∈ E∗ e da particao Π nao e, emgeral, um problema simples. Lavine (1992) propos uma construcao canonicada distribuicao a priori PT onde sugere que se centre a PT em torno de uma

50 Capıtulo 2. Screening em Classificacao Supervisionada

B0 =(0, .5]

B00 =(0, .25]

B000 =(0, .125]

B001 =(.125, .25]

Y000 Y001

B01 =(.25, .5]

B010 =(.25, .375]

B011 =(.375, .5]

Y010 Y011

Y00 Y01

B1 =(.5, 1]

B10 =(.5, .75]

B100 =(.5, .625]

B101 =(.625, .75]

Y100 Y101

B11 =(.75, 1]

B110 =(.75, .875]

B111 =(.875, 1]

Y110 Y111

Y10 Y11

Y0 Y1

(Y0, Y1)|w1, . . . , wn ∼ Dirichlet (α0 + n0, α1 + n1) ,

Yǫ|w1, . . . , wn ∼ Dirichlet (αǫ0 + nǫ0, αǫ1 + nǫ1) , ǫ = ǫ1 . . . ǫj−1, j = 2, 3

P (Wi ∈ B010|w1, . . . , wn) = E [P (Wi ∈ B010|G) |w1, . . . , wn]

= E [G (B010) |w1, . . . , wn]

=α0 + n0

α0 + α1 + n0 + n1

×α01 + n01

α00 + α01 + n00 + n01

×α010 + n010

α010 + α011 + n010 + n011

Figura 2.5: Ilustracao de uma distribuicao a posteriori arvore de Polya com 3nıveis para uma particao em arvore binaria do espaco Ω = (0, 1]. A parte infe-rior ilustra os calculos para obter o valor de E [P (Wi ∈ B010|G) |w1, . . . , wn].

2.5. Abordagem nao parametrica bayesiana 51

distribuicao G0 para Ω = R, com funcao distribuicao G0 (.). Nesta constru-cao, considera-se que os limites dos conjuntos que constituem cada nıvel j daparticao Π, coincidem com os quantis G−1

0

(k/2j

), k = 0, 1, . . . , 2j e considera-

se α0 = α1 e αǫ0 = αǫ1 , ǫ ∈ E∗. Admitindo-se que ej(k) = ǫ1 . . . ǫj ∈Ej e a representacao na base 2 de comprimento j do numero k − 1; porexemplo e5(1) = 00000 e e4(6) = 0101, os conjuntos Bǫ1...ǫj

= Bej(k) podem

ser definidos como sendo os intervalos(G−1

0

((k − 1) /2j

), G−1

0

(k/2j

)]para

k = 1, . . . , 2j − 1 e(G−1

0

((2j − 1

)/2j), G−1

0 (1))

e, assim

E[G(Bǫ1...ǫj

)]= E

[j∏

k=1

Yǫ1...ǫj

]=

j∏

k=1

E[Yǫ1...ǫj

]= 2−j = G0

(Bǫ1...ǫj

).

Uma vez centrada a PT em torno da medida de probabilidade G0, a famıliaA = αǫ : ǫ ∈ E∗ determina o quanto G se pode desviar de G0. Alem disso, oselementos da famılia A podem ser usados para representar as crencas a priorique possam existir. Por exemplo, considere-se que, para cada i, o lancamentode uma moeda determina se Wi pertence a B1 ou a B2. Se existir uma forteevidencia de que a moeda nao e viciada, entao os valores de α1 e α2 devem serelevados, fazendo com que W2 ∈ Bj seja aproximadamente independente doacontecimento W1 ∈ Bi, para i, j ∈ 1, 2. No entanto, se se acreditar que amoeda e viciada, mas nao se souber qual e o lado da moeda que e favorecido,deve-se considerar valores pequenos para α1 e α2. A escolha α1 = α2 = 1conduz a P (W2 ∈ Bj |W1 ∈ Bj) = 2/3, j ∈ 1, 2.

Em geral, as condicoes que fazem com que G seja contınua requerem queos parametros αǫ aumentem rapidamente, isto e, requerem que a variancia sejareduzida rapidamente a medida que se vai descendo na arvore. De acordo comFerguson (1974), se αǫ = 1 entao G e contınua com probabilidade um, e paraαǫ1...ǫj

= j2, G e absolutamente contınua com probabilidade um. Paddock(1999) sugeriu o uso de αǫ1...ǫj

= cj2 com c > 0. Berger e Guglieni (2001)consideraram esta famılia e outras da forma αǫ1...ǫj

= cρ(j), em particular,ρ(j) = j2, j3, 2j , 4j , 8j ; a escolha ρ(j) = 8j satisfaz o teorema da consistencia(Barron et al., 1999). Em geral, desde de que

∑∞j=1 ρ(j)

−1 < ∞ qualquerfamılia ρ(j) garante que G seja absolutamente contınua.

Hanson e Johnson (2002) consideraram diferentes valores de c (parametrode precisao) e concluıram que a famılia αǫ1...ǫj

= cj2 tem capacidade para ca-pturar caracterısticas interessantes das distribuicoes em estudo. Estes autoresmostraram que quando c→ 0 a distribuicao a posteriori e praticamente orien-tada pelos dados e quando c→ ∞ essa distribuicao tende para G0(.) (veja-se

52 Capıtulo 2. Screening em Classificacao Supervisionada

Figura 2.6).

c=5

w

dens

idad

e

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

c=100

w

dens

idad

e

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

c=1000

w

dens

idad

e

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

c=10000

w

dens

idad

e

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Figura 2.6: 50 realizacoes da distribuicao preditiva a posteriori de PT (Π0,1,j2, c) centrada na distribuicao normal padrao, para j=10 e c = 5, 100, 1000 e10000. Em todos os casos representa-se G0 = E(G) (linha solida preta).

Arvores de Polya parcialmente especificadas

A primeira vista pode parecer impossıvel realizar inferencias com os modelosPT acima descritos, devido a necessidade de actualizar um numero infinito deparametros. Apesar de Lavine (1992) mostrar que isto nao e necessariamenteassim, os calculos e os programas computacionais podem ser muito simplifica-dos se a distribuicao PT for actualizada apenas ate a um nıvel pre-especificadoJ . Esta simplificacao da origem as distribuicoes denominadas de arvores dePolya finitas (FPT = finite polya tree) ou PT parcialmente especificadas. As

2.5. Abordagem nao parametrica bayesiana 53

FPT sao construıdas de forma identica as distribuicoes PT acima descritas atea um nıvel J pre-especificado e sao comummente representadas por

W1, . . . ,Wn|Giid∼ G, G |Π,A ∼ PTJ (Π,A) .

Varios autores tem sugerido regras para a escolha do nıvel J . Geralmenteestas regras sao funcao da dimensao da amostra, uma vez que e razoavelpermitir que J aumente com o aumento da dimensao da amostra. Por exemplo,nao parece ser razoavel considerar 1024 conjuntos (J = 10) para uma amostrade dimensao 25. Hanson e Johnson (2002) sugerem que J ≈ log2(n). Hanson(2006) sugere J ≈ log2(n/N), onde N e o numero tıpico de observacoes quepertencem a cada conjunto da particao do nıvel J .

Hanson e Johnson (2002) admitem que G tem distribuicao G0 nos conjun-tos do nıvel J , ou seja, para qualquer conjunto A ⊂ Bǫ1...ǫJ

, G (A|Bǫ1...ǫJ) =

G0 (A|Bǫ1...ǫJ). Este pressuposto garante que a FPT admite uma densidade

com respeito a medida de Lebesgue, cuja versao marginal, no contexto multi-variado, e apresentada em (2.34).

Misturas de arvores de Polya

A dependencia da particao5 e a maior desvantagem das distribuicoes PT(Lavine, 1992). Note-se que este problema nao e exclusivo dos modelos PT- qualquer metodo estatıstico baseado na particao de Ω pode ser afectadopor este problema. Barron et al. (1999) observaram que a densidade pre-ditiva a posteriori apresenta, em geral, descontinuidades que resultam destadependencia. Alem disso, a aplicacao pratica das distribuicoes a priori PTrequer a eliciacao da distribuicao G0. Depois de especificar a famılia de dis-tribuicoes para G0, por exemplo a famılia normal, e necessario escolher umunico membro dessa famılia. Este procedimento de eliciacao nao e, em regra,uma problema trivial.

Algumas solucoes para estes problemas tem sido propostas. Paddock etal. (2003) e Paddock (1999) mostram que aleatorizando as particoes πjJ

j=0,o efeito do particionamento pode ser suavizado. Hanson (2006) e Hansone Johnson (2002) sugerem que os parametros da distribuicao G0, θ, sejamaleatorios e consideram distribuicoes a priori para esses parametros. Esteprocedimento suaviza as descontinuidades nas fronteiras dos subconjuntos de

5Esta dependencia surge quando a particao especificada para o modelo influencia forte-mente os resultados das inferencias.

54 Capıtulo 2. Screening em Classificacao Supervisionada

particionamento originando, assim, densidades preditivas a posteriori maissuaves. O modelo resultante e designado de mistura de arvores de Polya(MPT = Mixtures of Polya tree) e e, frequentemente, representado por

W1, . . . ,Wn|Giid∼ G G|Πθ,A ∼ PT

(Πθ,A

), θ ∼ p(θ),

onde p(θ) representa a distribuicao a priori para θ. Tambem pode considerar-se que o parametro da famılia A e aleatorio e eliciar uma distribuicao a prioripara esse parametro. No entanto, na pratica e habitual considerar-se c = 1.

2.5.2 Distribuicoes arvores de Polya finitas multivariadas

Paddock et al. (2003), Paddock (1999) e Hanson (2006) generalizaram as dis-tribuicoes PT univariadas para o contexto multivariado. Paddock (1999) de-senvolveu as distribuicoes MPT aleatorizadas. Esta abordagem requer a es-colha de um parametro de suavizacao (para alem do parametro c da famıliaA) e de uma distribuicao G0. Note-se que diferentes valores do parametrode suavizacao originam resultados bastantes diferentes. Por outro lado, Han-son (2006) desenvolveu as distribuicao misturas finitas de arvores de Polyad-dimensionais de localizacao-escala (MMFPT = multivariate mixtures of fi-nite Polya tree).

Os modelos MMFPT nao necessitam da especificacao do parametro desuavizacao como acontece nas distribuicoes PT aleatorizadas. Por esse motivo,neste trabalho optou-se pelas distribuicoes MMFPT. A teoria apresentada emseguida e uma ligeira alteracao da apresentada em Hanson (2006).

Tal como para as distribuicoes a priori FPT unidimensionais, as dis-tribuicoes arvores de Polya finitas multivariadas (MFPT = multivariate finitePolya tree) com J nıveis sao caracterizadas por uma sucessao de particoesencaixadas de Rd e por uma coleccao de probabilidades condicionadas que es-tabelecem a ligacao entre nıveis adjacentes da arvore. Denote-se a sequenciade particoes por π1, . . . , πJ onde, para 1 ≤ j < J , πj+1 representa um refina-mento da particao πj e cada conjunto de πj e a reuniao de 2d conjuntos deπj+1. Por exemplo, em R2 o plano e inicialmente dividido em 4 conjuntos porπ1 e, em seguida, cada um destes conjuntos e dividido em outros 4 conjuntos,resultando os 16 conjuntos que constituem π2, e assim por diante (veja-se aFigura 2.7).

Na generalizacao das distribuicoes PT univariadas para o contexto mul-tivariado, Hanson (2006) destaca o caso onde a distribuicao G0 (que repre-

2.5. Abordagem nao parametrica bayesiana 55

B0;0

B1;0

B0;1

B1;1

B00;00 B00;01

B01;00 B01;01

B00;10 B00;11

B01;10 B01;11

B10;00 B10;01

B11;00 B11;01

B10;10 B10;11

B11;10 B11;11

00

1

0.5W2

10.5

W1

Figura 2.7: Exemplo da construcao de uma sucessao de particao de umquadrado unitario. O quadrado e inicialmente dividido em quadrantes (linhasolida forte) que representam os conjuntos que constituem π1. No nıvel 2cada um destes conjuntos e dividido em quatro conjuntos, resultando os 16conjuntos que formam π2.

senta o valor esperado a priori de G) e a distribuicao normal multivariadaNd (m,C). Existem, contudo, metodos similares que usam outras famıliassimetricas de localizacao-escala. Neste contexto, a definicao dos conjuntosda particao do espaco de resultados em termos da funcao distribuicao deG0, aqui representada por Gθ(.), e um problema de difıcil solucao. Hanson(2006) sugere uma maneira de resolver este problema, para a qual os conjun-tos que constituem a particao no nıvel j, πj , para j = 1, . . . , J , denotadospor Bǫ11...ǫ1j ;...;ǫd1...ǫdj

= Bej(k1);...;ej(kd), ǫsj ∈ E = 0, 1 e s = 1, . . . , d, saoinicialmente definidos atraves de produtos cartesianos entre os conjuntos queconstituem a particao no correspondente nıvel no cenario univariado, ou seja,

Bej(k1);ej(k2);...;ej(kd) = Bej(k1) ×Bej(k2) × · · · ×Bej(kd) (2.31)

56 Capıtulo 2. Screening em Classificacao Supervisionada

para ks = 1, 2, . . . , 2j e s = 1, 2, . . . , d. Tal como anteriormente, Bej(k) =(Q−1

0

((k − 1) /2j

), Q−1

0

(k/2j

)]e Bej(2j) =

(Q−1

0

((2j − 1

)/2j), Q−1

0 (1)).

Aqui Q0(.) representa a funcao de distribuicao da distribuicao normal padraounivariada. Em seguida, aplica uma transformacao localizacao-escala a cadaum desses conjuntos. Admitindo-se, para uma notacao breve, que ej(k) =ej(k1); . . . ; ej(kd), onde k = (k1, . . . , kd), os conjuntos resultantes e que con-

stituem as particoes πj indexadas por θ = (m,C), πj

θ, sao

Bθej(k) =

m + C1/2y : y ∈ Bej(k)

.

Observe-se que P(W ∈ Bθ

ej(k)

)= 2−dj .

Tal como referido anteriormente, para alem das particoes πj

θJ

j=1, a dis-tribuicao a priori PTF e definida atraves de uma coleccao de probabilidadesaleatorias condicionais associadas com os conjuntos da particao. Considere-se uma observacao W = (W1, . . . ,Wd)

′ onde W|G ∼ G. Se no nıvel j, W

estiver contida no conjunto Bθej(k), entao W pertence a um dos 2d conjun-

tos descendentes que formam πj+1

θe que particionam Bθ

ej(k). Representem-

se os conjuntos progenitores por Bθej−1(k), onde Bθ

e0(1);...;e0(1) ≡ Rd. Seja

Yej(k1)ǫ1j ;...;ej(kd)ǫdja probabilidade da observacao W pertencer a Bθ

ej(k1,...,kd)

dado que pertence a Bθej−1(k1,...,kd) e represente-se o vector d−dimensional

que contem as probabilidades condicionais associadas com Bθej−1(k1,...,kd) por

Yej−1(k) = (Yej−1(k1)ǫ1j ;...;ej−1(kd)ǫdj: ǫsj ∈ 0, 1, s = 1, . . . , d). A definicao

seguinte generaliza a Definicao 7 para distribuicoes aleatorias em Rd.

Definicao 8 Distribuicao arvore de Polya finita multivariada (Han-son, 2006)Seja ρ(.) uma funcao positiva e c > 0. Considere-se a sucessao de particoes

Πθ = πj

θJ

j=1. A distribuicao aleatoria G sobre(Rd,B

)e uma distribuicao

a priori arvore de Polya finita multivariada com parametros(c, ρ,Πθ

), e

representa-se por G|θ ∼ PTJd

(c, ρ,Πθ

), se existirem vectores aleatorios Y =

Yej(k1);...;ej(kd) : ks = 1, . . . , 2j−1; s = 1, . . . , d; j = 1, . . . , J de forma a quese verifique o seguinte:

1. os vectores de Y sao mutuamente independentes;

2. Yej(k) ∼ Dirichlet (cρ (j)12d);

2.5. Abordagem nao parametrica bayesiana 57

3. para todo Bθǫ11...ǫ1j ;...;ǫd1...ǫdj

∈ πj

θ

G[Bθ

ǫ11...ǫ1j ;...;ǫd1...ǫdj

]=

j∏

k=1

Yǫ11...ǫ1k;...;ǫd1...ǫdk.

onde 1j representa um vector com j elementos com valor 1.

Note-se que na definicao anterior se considerou que os elementos do con-junto A, referido no quadro univariado, pertencem a famılia αej(k) = cρ (j)12d .

Tambem aqui, na realizacao das actualizacoes a posteriori pode recorrer-sea propriedade conjugacao. Assim, seja W1:s a matriz dos primeiros s vectoresde dados W1:s = (W1, . . . ,Ws). Seja nθ(ej (k) ;W1:s) o numero de vectores

Wi de W1:s contidos no conjunto Bθej(k) e seja nθ(Yej(k)|W1:n) o vector com

as contagens associadas com o vector Yej(k). Analogamente ao Teorema 1, nocenario multivariado tem-se que

Yej(k)|θ;W1:n ∼ Dirichlet(cρ (j)12d + nθ(Yej(k)|W1:n)

). (2.32)

Na subseccao seguinte sao apresentadas estrategias computacionais associ-adas com a aplicacao de distribuicoes a priori PT na estimacao da densidade.

2.5.3 Aspectos computacionais associados com as inferencias

a posteriori

Considere-se a construcao proposta em Hanson (2006), onde a distribuicaoa priori PT e centrada em torno da distribuicao N(m,C), com funcao dis-tribuicao e densidade representadas por Gθ(.) e gθ(.), respectivamente (θ =

(m,C)). Relembra-se que, sendo ρ(.) uma funcao positiva, c > 0 e Πθ = πθj :

j = 1, . . . , J, o modelo pode representar-se, na forma resumo, como

W1, . . . ,Wn|Giid∼ G,

G|c,m,C ∼ PTJd

(c, ρ,Πm,C,

),

(m,C) ∼ p(m,C), c ∼ p(c).

58 Capıtulo 2. Screening em Classificacao Supervisionada

Para este modelo, a densidade preditiva de uma nova observacao w dadosos dados w1:n e (m,C, c) e

p(w|w1:i,θ, c) = gθ(w)

×J∏

j=1

2dcρ(j) + 2dnθ(j,kθ(j,wi);w1:i)

2dcρ(j) + nθ(j − 1,kθ(j − 1,wi);w1:i)(2.33)

e a densidade marginal conjunta e dada por

p (w1:n|θ, c) =n∏

i=1

p(wi|w1:i−1,θ, c)

=

[n∏

i=1

gθ(wi)

]

×

n∏

i=2

J∏

j=1

2dcρ(j) + 2dnθ(j,kθ(j,wi);w1:i−1)

2dcρ(j) + nθ(j − 1,kθ(j − 1,wi);w1:i−1)

def=

[n∏

i=1

gθ(wi)

]qθ(J,w1:n|θ, c), (2.34)

em que para uma observacao w ∈ Rd, o vector kθ (j,w) = (k1, . . . , kd) =(Int(2jG0 (x1) + 1), . . . , Int(2jG0 (xd) + 1)

)contem o ındice do conjunto de

nıvel j ao qual pertence w, onde x = (x1, . . . , xd) = C−1/2(w − m) e Int(y)representa a parte inteira de y. nθ(j,kθ(j,w);w1:i) representa o numero deelementos de w1:i que pertencem ao mesmo conjunto do nıvel j que contem

w, nomeadamente nθ(j,kθ(j,w);w1:i) =∑i

l=1 I(wl ∈ Bθej(kθ(j,w))), onde I(.)

representa a funcao indicatriz. A derivacao dos resultados apresentados em(2.33) e (2.34) e analoga a derivacao da densidade preditiva proposta paradistribuicoes PT univariadas (ver Teorema 2.31, Lavine, 1992).

A marginalizacao da distribuicao PT permite obter facilmente uma esti-mativa de E [G(.)|W1:n]. No entanto, a realizacao de inferencias sobre fun-cionais arbitrarios h(G)|W1:n so e possıvel se se amostrarem realizacoes deG|W1:n. Hanson e Johnson (2002) mostraram que amostragem de G|W1:n

pode realizar-se considerando um metodo de composicao baseado na amos-tragem, via algoritmo de Metropilis-Hastings, da densidade condicional de

2.5. Abordagem nao parametrica bayesiana 59

θ|W = w, p(θ|W = w), que e proporcional a

qθ(J,w1:n|θ, c)

[n∏

i=1

gθ(wi)

]p(θ). (2.35)

Note-se que se Gθ(.) for limitada, entao a distribuicao a posteriori apre-sentada em (2.35) e limitada, ja que e facil de mostrar qθ(J,w1:n|θ, c) ≤ 2ndJ

(Hanson e Johnson, 2002).

Por fim, algumas observacoes relativas aos aspectos computacionais asso-ciados com a obtencao de inferencias a posteriori baseadas em distribuicoes apriori MMFPT. Da exposicao feita no paragrafo anterior, ressalta claramenteque a par da flexibilidade dos metodos bayesianos nao parametricos, que pos-sibilitam a incorporacao de incerteza ao nıvel das funcoes de distribuicao,existe uma grande complexidade computacional na obtencao das inferenciasa posteriori. Apesar de alguns avancos teoricos aplicaveis em situacoes muitosimples, a aplicacao dos metodos bayesianos nao-parametricos na resolucao deproblemas de inferencia estatıstica muito se deve aos avancos feitos na area dasimulaca, particularmente nos metodos de Monte Carlo baseados em Cadeiasde Markov (MCMC); veja-se, e.g., Dey et al. (1998) e referencias aı contidas.A introducao dos metodos MCMC comeca com o trabalho de doutoramento deEscobar em 1988 sobre processos de Dirichlet, publicado em Escobar (1994) edesde essa altura muito se tem investigado e escrito sobre o assunto. Parao problema da estimacao de densidades baseado em distribuicoes a prioriMMFPT veja-se, por exemplo, Yang et al. (2008), Hanson (2006), Hansone Johnson (2002). No Capıtulo 4 ter-se-a oportunidade de ver o procedimentoseguido na implementacao computacional do modelo apresentado em (2.28).

60

Capıtulo 3Regra de Classificacao e

Estimacao da Taxa de Erro

No Capıtulo 2 propos-se uma metodologia para a classificacao binaria baseadaem pares de variaveis. Este capıtulo tem por objectivo o desenvolvimentotecnico necessario para a implementacao dessa metodologia. E proposta umaregra de classificacao pensada para contemplar problemas onde ha varios paresde variaveis disponıveis para desenhar o classificador. Efectivamente, muitassao as situacoes praticas em que tal e a norma, como por exemplo nos proble-mas dedicados ao estudo de dados resultantes da tecnologia dos microarraysde DNA ou de oligonucleotidos.

Esta tecnologia produz informacao em que o numero de variaveis (genes)excede largamente o numero de observacoes (e.g., indivıduos), o que dificultaa utilizacao das ferramentas estatısticas habituais de classificacao. No intuitode ultrapassar essa dificuldade, diversos autores tem sugerido procedimen-tos de reducao do espaco preditor. Estes procedimentos sao, frequentemente,baseados em metodologias de projeccoes optimizadas em espacos de dimensaoinferior 1 ou em metodologias de seleccao de genes preditivos, isto e genes comexpressao diferenciada nas diferentes classes.

A respeito da seleccao de genes preditivos, e de referir o interessante tra-balho de Geman et al. (2004) onde e proposto um score para seleccionar os

1Aqui, as novas variaveis sao habitualmente designadas de componentes. Estas sao, namaior parte dos casos, combinacoes lineares das variaveis originais que explicam nalgumsentido a estrutura dos dados.

61

62 Capıtulo 3. Regra de classificacao e estimacao do erro

melhores pares de genes2 com capacidades discriminativas dos grupos. Estesautores demonstraram ainda a viabilidade do uso desses pares de genes emproblemas de classificacao supervisionada de dados de microarrays.

Foram essencialmente estes resultados que motivaram a apresentacao deuma regra de classificacao baseada em multiplos pares de variaveis.

Sem entrar em grandes detalhes, vai-se ainda apresentar neste capıtuloalguns resultados da teoria dos metodos usados na avaliacao do desempenhode regras de classificacao.

3.1 Regra de classificacao

Do procedimento de seleccao dos pares de variaveis com capacidades discri-minativas das categorias (mutuamente exclusivas e exaustivas) resulta uma

famılia P =Xj = (Xj

1 , Xj2), j = 1, . . . ,m

de m pares distintos. Em geral

m e relativamente pequeno, isto e existem poucos pares de variaveis na matrizde dados com boas capacidades discriminativas das classes. A famılia P serausada como entrada do classificador proposto.

Suponha-se entao que se tem dois grupos rotulados por 0 e 1 e que sepretende classificar um novo indivıduo/objecto num dos grupos. Considere-seque para efeito se dispoe de observacoes dos m pares de P sobre n indivıduos,

xj

i = (xji1, x

ji2), i = 1, . . . , n; j = 1, . . . ,m

.

Com base no j−esimo par de P, o novo indivıduo com vector de observacoes

xjF = (xj

F1, xjF2), e classificado em Cj = 1 se o vector xj

F pertencer a Cj,kj

opt

X .

Caso contrario classifica-se em Cj = 0. Aqui Cj,kj

opt

X representa a regiao deespecificacao optima construıda com base no j−esimo par, para o valor optimode k, kj

opt. A definicao de kopt e os aspectos computacionais associados com este

valor sao estudados no Capıtulo 5. Seja δj

kjopt

a probabilidade preditiva de um

indivıduo futuro ser sucesso dado que o correspondente vector xjF pertence a

regiao Cj,kj

opt

X . As classificacoes baseadas em cada um dos m pares de variaveis,Cj , j = 1, ...,m, sao combinadas de forma a produzir a classificacao final do

2Top score pairs, na designacao dos autores.

3.2. Estimacao da taxa de erro 63

indivıduo, que e expressavel por

C = I[0.5,1]

C1δ1

k1opt

+ C2δ2k2

opt

+ · · · + Cmδmkm

opt

δ1k1

opt

+ δ2k2

opt

+ · · · + δmkm

opt

, (3.1)

onde IA(.) denota a funcao indicatriz do conjunto A e δj

kjopt

representam os

pesos atribuıdos a classificacao Cj em cada j. Mais concretamente, esta ex-pressao classifica o novo indivıduo como sucesso se a media ponderada dasm classificacoes for superior ou igual a 0.5 e classifica-o como insucesso casocontrario.

E obvio que sao possıveis outras formulacoes para a regra de classificacao.Por exemplo, uma regra simples e, provavelmente a mais usada na pratica,classifica o novo indivıduo no grupo mais frequentemente atribuıdo durante asclassificacoes realizadas com cada um dos m pares de variaveis. No entanto,nas situacoes em que m e um numero par pode haver dificuldade ou impos-sibilidade de fazer a classificacao com esta formulacao, ja que podem surgirempates no numero de atribuicoes, baseadas nas m classificacoes individuais,a cada grupo. A formulacao aqui proposta nao sofre desse problema, umavez que, mesmo em situacao de empate, as quantidades δj

kjopt

(nao obtenıveis

na maioria dos metodos de classificacao disponıveis) fazem com que nao hajaindefinicao quanto a classificacao final.

Sublinhe-se que a formula (3.1), assim como a maioria das outras regrasbaseadas em pares de variaveis, e adequada para situacoes em que os m paresda famılia P sao independentes. Apesar de na pratica existirem situacoes emque esta hipotese possa nao ser muito plausıvel, como, e.g., nos problemas comdados resultantes da tecnologia dos microrrays, onde frequentemente existeuma correlacao complexa entre os nıveis de expressao dos genes, sugere-se queos pares de variaveis que constituem a famılia P sejam seleccionados de formaa que seja evitada a colinearidade, fazendo deste modo com que o vies, devidoa redundancia de informacao, na formula (3.1), seja entao minimizado.

3.2 Estimacao da taxa de erro

Seja ry : X → 0, 1 uma regra para classificar elementos futuros, construıdaa partir de um conjunto de dados y. Qual e a taxa de erro ou probabilidadedos erros de ma classificacao dessa regra? Esta e uma questao que se levanta e

64 Capıtulo 3. Regra de classificacao e estimacao do erro

que necessita de ser resolvida para que se possa avaliar o desempenho da regrary na classificacao de novos elementos. E a volta dela que se tem centrado otrabalho de varios investigadores e dentro de diversos contextos, veja-se, porexemplo os trabalhos Breiman et al. (1984), Fukunaga e Hayes (1989) e Efrone Tibshirani (1997). O conteudo que se apresentara a seguir constitui um curtoresumo dos aspectos fundamentais associados a esta questao.

Pode definir-se taxa de erro de uma regra de classificacao como sendo aproporcao de elementos da populacao que seriam incorrectamente classifica-dos na aplicacao generalizada da regra ry a todos esses elementos. O valordesta taxa, Err, corresponde a probabilidade de classificar incorrectamenteum elemento futuro seleccionado aleatoriamente da populacao. Esta proba-bilidade pode ser obtida com base na aplicacao da regra de classificacao aoselementos de uma amostra de teste retirada de uma populacao com a mesmadistribuicao da amostra usada na construcao do classificador (amostra expe-rimental). Note-se que aqui, a amostra de teste devera ser o complementarda amostra experimental. Obviamente, na pratica a obtencao do valor exactode Err nao e um procedimento realista, havendo a necessidade de estimar estaprobabilidade. Nesse processo devera ter-se cuidado para nao se efectuar umcalculo viciado, isto e, que conduza a estimativas demasiado optimistas oudemasiado pessimistas.

3.2.1 Estimacao por resubstituicao

A taxa de erro aparente ou taxa de erro de resubstituicao corresponde a pro-porcao de elementos mal classificados resultante da aplicacao da regra de clas-sificacao a amostra usada para a construir. E pois, uma medida tendenciosae optimista da taxa de erro, ja que qualquer classificador e construıdo comvista a minimizar o erro obtido com a amostra experimental. Apesar das suaslimitacoes, este e um metodo util para se saber a partida se um classificadore apropriado para um conjunto de dados: se nao for eficiente a classificar apropria amostra experimental, entao muito dificilmente sera capaz de classi-ficar conjuntos de dados futuros.

Considere-se a amostra y = (y1,y2, . . . ,yn) que consiste em n observacoesyi = (xi, ti), onde xi representa o vector de variaveis d−dimensional e ti e averdadeira classificacao do elemento i. Com base em y e construıda a regrade classificacao ry e pretende-se estimar a taxa de erro desta regra quandoesta e usada para classificar elementos futuros com base nos correspondentes

3.2. Estimacao da taxa de erro 65

vectores de variaveis. A taxa de erro aparente e

err =1

n

n∑

i=1

Q [ti, ry (xi)] (3.2)

onde Q [t, r(.)] =

0 se r(.) = t1 se r(.) 6= t

indica a discrepancia entre o valor esti-

mado pelo classificador e a verdadeira classe t, t = 0, 1.

As taxas de erro aparentes sao, com ja foi referido, estimativas enviesadasdas probabilidades dos erros de ma classificacao. Quando a dimensao daamostra e suficientemente grande para permitir a divisao da amostra emamostra experimental e amostra de teste, este enviesamento pode ser reduzidoconstruindo a regra de classificacao com a amostra experiemntal e estimando ataxa de erro com a amostra de teste. Este procedimento, usualmente denomi-nado de treino-e-teste ou holdout, e o mais simples e o mais amplamente usadona avaliacao do desempenho de uma regra na classificacao de novos elementos.

Em situacoes onde a dimensao da amostra nao permite esta divisao, osmetodos validacao cruzada3 e bootstrap sao considerados preferıveis, ja quea particao da amostra em dois subconjuntos conduziria a uma amostra ex-perimental de dimensao reduzida, obtendo-se, muito provavelmente, regras declassificacao pouco eficientes.

3.2.2 Estimacao por validacao cruzada

No metodo validacao cruzada os elementos da amostra sao divididos em Ksubconjuntos disjuntos, y[1],y[2], . . . ,y[K], contendo, tanto quanto possıvel, omesmo numero de elementos (Breiman et al., 1984). Para k = 1, 2, . . . ,Kconstroi-se a regra de classificacao ry[−k]

utilizando todos os elementos daamostra excepto os do subconjunto y[k] e usa-se este conjunto para estimar ataxa de erro da regra de classificacao. Admitindo-se que Ck contem os ındicesdas observacoes pertencentes ao subconjunto y[k], k = 1, . . . ,K, a estimativaobtida por validacao cruzada para a taxa de erro da regra de classificacao edada por

Errvck

=1

n

K∑

k=1

i∈Ck

Q[ti, ry[−k]

(xi)]. (3.3)

Uma questao muito natural que se coloca e qual o valor de K, ou seja,

3Do Ingles cross-validation.

66 Capıtulo 3. Regra de classificacao e estimacao do erro

em quantos subconjuntos se deve dividir a amostra inicial. Embora nao seconhecam resultados teoricos para esta questao, escolhas tıpicas para K saoK = 5 ou K = 10, uma vez que constituem, frequentemente, um bom com-

promisso entre a variancia e o vies do estimador Errvck

(Breiman et al., 1984).

O caso em que K = n e conhecido como metodo leave-one-out (Lachen-bruch e Mickey, 1968). Neste caso particular cada elemento e sequencialmenteretirado da amostra para ser classificado a custa de uma regra desenhada comtodos os restantes elementos, sendo a estimativa da taxa de erro da regra rydada por

Errvc1

=1

n

n∑

i=1

Q[ti, ry[−i]

(xi)]

(3.4)

onde y[−i] representa a amostra experimental sem a i−esima observacao.

Dos metodos apresentados, este e o que apresenta menos enviesamento naestimacao da taxa de erro, mas pode ter grande variancia ja que as n amostrasexperimentais serao muito semelhantes (Friedman et al., 2000). Alem disso, ocusto computacional e tambem consideravel. Efectivamente, a construcao dosn classificadores bem como o seu teste pode implicar um volume de processa-mento incomportavel para amostras de dimensoes razoaveis.

Note-se que a variancia e o vies de um estimador sao geralmente estimadosatraves da metodologia bootstrap. Esta metodologia foi introduzida em 1979por Efron, como tecnica nao parametrica que procura substituir complicadasou duvidosas analises estatısticas teoricas por metodos de computacao inten-siva. A ideia basica do bootstrap e a seguinte: dada uma amostra aleatoriaX = (X1, . . . , Xn), de uma populacao com funcao distribuicao F , seja Tn umestimador de θ(F ), parametro desconhecido e funcao de F . A ideia e consid-erar um estimador aproximado pelo mesmo funcional da amostra bootstrapX∗ = (X∗

1 , X∗2 , . . . , X

∗n), em que X∗

1 , X∗2 , . . . , X

∗n sao variaveis reamostradas

de X de acordo com a funcao distribuicao empırica F (x) = #i : Xi ≤x, 1 ≤ x ≤ n/n. Isto significa que X e tratada como uma populacaocom funcao distribuicao F (x) da qual se extrai uma amostra de dimensaon, x∗ = (x∗1, x

∗2, . . . , x

∗n). Observe-se que esta extraccao e feita com reposicao.

Designe-se por T ∗n a versao bootstrap do estimador Tn. O comportamento

da versao bootstrap devera simular o comportamento de Tn, portanto a dis-tribuicao de T ∗

n , obtida a partir dos dados, e usada para aproximar a dis-tribuicao de amostragem, desconhecida, de Tn.

O estimador bootstrap do vies de Tn, Vies∗, e definido (Efron e Tibshirani,

3.2. Estimacao da taxa de erro 67

1993), comoVies∗ = E[T ∗

n |X] − θ(F ), (3.5)

sendo θ(F ) um estimador do parametro θ, definido atraves de uma estatısticafuncional. O estimador bootstrap do desvio padrao de Tn, σ(Tn) = σ(Tn, F ), e

σ∗ = σ(T ∗n , F ). (3.6)

No Apendice A apresenta-se um algoritmo que devolve estimativas para(3.5) e (3.6).

3.2.3 Estimacao por bootstrap

Apesar da metodologia bootstrap ser frequentemente utilizada para estimarcaracterısticas de interesse como vies, variancia, quantis ou a distribuicaode amostragem de um estimador, pode ainda ser usada na obtencao de es-timadores alternativos, como por exemplo, estimadores para a taxa de erroassociada com uma regra de classificacao. E uma tecnica especialmente in-dicada para situacoes em que a dimensao da amostra e pequena, tratando-sesem duvida de uma metodologia indispensavel para quem ambiciona bons es-timadores para a taxa de erro de um classificador, ja que e conhecida por origi-nar estimadores que combinam uma pequena variancia com um vies moderado(Efron e Tibshirani, 1993) na presenca de amostras de pequena dimensao.

Nesta subseccao descreve-se a ideia geral subjacente aos estimadores boot-

strap atraves da consideracao das variantes Err(1)

, .632 e .632+. As abor-dagens apresentadas seguem de perto os trabalhos de Efron (1983); Efron eTibshirani (1993, 1997).

Seja y∗ = (y∗1,y

∗2, . . . ,y

∗n) uma amostra bootstrap de dimensao n construıda

a partir da amostra experimental inicial (y1,y2, . . . ,yn). Considerem-se, paraefeito da estimacao da taxa de erro, B amostras bootstrap, y∗1,y∗2, . . . ,y∗B.Seja N b

i o numero de vezes que a observacao yi e incluıda na b−esima amostrabootstrap e defina-se

Ibi =

1 se N b

i = 00 se N b

i > 0, b = 1, 2, . . . , B.

Defina-se tambem Qbi = Q

[ti, ry∗b (xi)

]. O estimador bootstrap leave-one-

68 Capıtulo 3. Regra de classificacao e estimacao do erro

out da taxa de erro e definida por

Err(1)

=1

n

n∑

i=1

Ei onde Ei =∑

b

IbiQ

bi/∑

b

Ibi . (3.7)

Observe-se que esta versao estima a taxa de erro no ponto i apenas apartir das regras de classificacao desenhadas com as amostras bootstrap quenao contem esse ponto, o que permite solucionar o problema das estimativasirrealisticamente boas, tıpicas das situacoes em que as amostras experimentale teste contem elementos em comum. No entanto, este estimador sofre de umsobre-enviesamento, ou seja, e demasiado pessimista.

Importa notar que aqui um estimador diz-se sobre-enviesado ou pessimistase a estimativa do seu vies e positiva e sub-enviesado ou optimista caso con-trario.

O estimador .632,

Err(.632)

= 0.368 · err + 0.632 · Err(1), (3.8)

foi proposto por Efron (1983) com o objectivo de corrigir o sobre-vies de Err(1)

atraves da combinacao linear entre este estimador e o estimador err, que e,como ja referido sub-enviesado. A escolha das constantes 0.368 (= e−1) e0.632 e baseada no facto das amostras bootstrap conterem aproximadamente0.632n elementos da amostra inicial. Observe-se que a probabilidade da i −esima observacao pertencer a b − esima amostra bootstrap e dada por 1 −(1 − 1/n)n ≈ 1 − e−1 = 0.632.

Efron (1983) mostrou atraves de um estudo de simulacao, que o estimador

Err(.632)

apresenta melhor desempenho que todos os outros competidores. Noentanto, este estudo nao incluiu regras altamente sobre-ajustadas como, porexemplo, o metodo dos k−vizinhos mais proximos4 onde err e geralmente

igual a 0. Nestes casos, e natural esperar que o estimador Err(.632)

exiba umsub-enviesamento acentuado.

Para colmatar esta lacuna, Efron e Tibshirani (1997) sugerem o estimador

Err(.632+)

, que se baseia na ideia de atribuir maior peso ao estimador Err(1)

em situacoes onde a quantidade de sobre-ajuste, avaliada por Err(1)

− err, e

4Este metodo atribui ao novo elemento a classe mais representada nos k vizinhos daamostra experimental mais proximos.

3.3. Estimacao da taxa de erro para varios pares de variaveis 69

elevada.

Para um correcto dimensionamento da quantidade de sobre-ajustamento,defina-se γ1 como sendo a taxa de erro (taxa de nao-informacao) que seriaaplicavel se t e x fossem independentes. Se p1 representar a proporcao desucessos observada na amostra, e se q1 representar a proporcao de elementosque a regra ry classifica como sucesso, a estimativa de γ1 e expressavel por

γ1 = p1(1 − q1) + (1 − p1)q1. (3.9)

A taxa relativa de sobre-ajustamento e definida como sendo a quantidade

R =Err

(1)− err

γ1 − err, (3.10)

que assume valores entre 0 (quando nao existe sobre-ajustamento Err(1)

= err),e 1, para um sobre-ajustamento igual a γ1 − err.

O uso na expressao (3.8) de pesos que sao funcoes de R permite a obtencao

de um estimador que garante um compromisso menos tendencioso entre Err(1)

e err,

Err(.632+)

= (1 − w) · err + w · Err(1)

com w =.632

1 − .368R. (3.11)

Observe-se que, como os pesos w tomam valores entre 0.632 (R = 0) e 1

(R = 1), Err(.632+)

varia de Err(.632)

ate Err(1)

.

3.3 Estimacao da taxa de erro na presenca de mul-

tiplos pares de varaveis

Na estimacao das taxas de erro das regras de classificacao construıdas noambito deste trabalho usam-se dois dos metodos acima apresentados: o metodo

de treino-e-teste e o metodo Err(.632+)

. O primeiro e usado para as regrasconstruıdas a partir de dados resultantes de simulacoes, ja e possıvel simularamostras experimental e teste com uma tao grande dimensao quanto se queira,e o segundo para as regras desenhadas a partir dos conjuntos de dados reaisestudados, ja que aqui as dimensoes das amostras nao sao suficientemente

70 Capıtulo 3. Regra de classificacao e estimacao do erro

grandes para permitir a sua divisao em amostra de treino e amostra de teste.

Note-se que, neste trabalho, ha a necessidade de estimar taxas de erroassociadas a regras de classificacao desenhadas a custa de multiplos pares devariaveis (veja-se a formula (3.1)). Neste cenario, a amostra experimentaly = (y1,y2, . . . ,yn) consiste em n observacoes yi = (xi, ti) em que xi =(x1

i ,x2i , . . . ,x

mi

)representa a observacao dos m pares de variaveis correspon-

dente ao elemento i, onde xji =

(xj

i1, xji2

), j = 1, 2, . . . ,m e ti representa a

verdadeira classificacao do elemento i.

Para a aplicacao do metodo de treino-e-teste na estimacao da taxa de errode regras de classificacao construıdas a custa de multiplos pares de variaveis,considere-se uma amostra de teste de dimensao l, representada por y⋆ =(y⋆

1,y⋆2, . . . ,y

⋆l ), proveniente de uma populacao com a mesma distribuicao da

amostra experimental e com a mesma estrutura. Depois de construıdas as jregras de classificacao a partir de cada um dos pares de variaveis que con-stituem amostra experimental y = (y1,y2, . . . ,yn) estima-se a taxa de erro daregra apresentada em (3.1) na classificacao de novos elementos com base naamostra de teste y⋆.

No caso do estimador Err(.632+)

ha, como referido, a necessidade de con-struir, para cada elemento da amostra de treino, B amostras bootstrap. A con-strucao destas amostras na presenca de regras desenhadas a partir de multiplospares de variaveis preditoras nao acrescenta dificuldade ao que ja foi apresen-tado na Subseccao 3.2.3. De facto, ao considerar-se que as observacoes daamostra de treino y = (y1,y2, . . . ,yn) possuem a estrutura yi = (xi, ti) emque xi =

(x1

i ,x2i , . . . ,x

mi

)representam os j pares de variaveis e ti a classi-

ficacao verdadeira do elemento i, a obtencao das amostras bootstrap e realizadade forma analoga ao caso em que so existe um vector de variaveis preditoras.

A estimacao da taxa de erro por este metodo origina um problema com-putacional extremamente moroso, uma vez que para cada elemento i da amos-tra de teste sao geradas B amostras bootstrap e construıdas regras de clas-sificacao a partir de cada amostra que nao contenha essa observacao. Emseguida, testa-se cada uma dessas regra com a observacao i. Note-se que,se for usado o valor habitual para B, B = 50, e considerando uma amostra

de dimensao 30, a avaliacao da taxa de erro pelo metodo Err(.632+)

requer aconstrucao e teste de 25 × 50 × 0.632 = 790 classificadores (0.632 representao valor aproximado da probabilidade da b−esima amostra bootstrap conter aobservacao i). Esta complexidade e obviamente aumentada na presenca deregras de classificacao construıdas com base em j pares de variaveis (veja-se

3.4. Problema multi-classe 71

por exemplo, a formula (3.1)) ja que nestes casos a regra final e, em geral,construıda a custa de j classificadores.

3.4 Problema multi-classe

As metodologias ate aqui propostas sao direccionadas para o problema de clas-sificacao binario (2 classes). No entanto, na pratica, existem situacoes em queo problema possui varias classes. O problema para mais do que duas classespode ser visto como uma extensao dos conceitos apresentados anteriormente:continua-se a pretender classificar novos elementos num de varios grupos (dis-juntos e mutuamente exclusivos) com base na observacao de um vector devariaveis (ou na observacao de varios vectores de variaveis).

Suponha-se que agora se dispoe de M grupos. A aplicacao do procedi-mento de screening para o problema multi-classe implicaria a reformulacaodo princıpio em que assentou a construcao deste procedimento - o lema deNeyman-Person. Como esta reformulacao encontra-se fora do ambito destetrabalho, faz-se referencia em seguida a uma das mais intuitivas opcoes al-ternativas para resolver o problema multiclasses: o metodo um-contra-todos(one-against-all). Este metodo consiste basicamente em aplicar a metodologiaproposta para duas classes, considerando como classe 0 uma das M classes ecomo classe 1 todas as restantes. Em M passos pode-se classificar os novos ele-mentos. Para uma ilustracao, considere-se os grupos C1, C2 e C3. Considera-seC1 como sendo a classe 0 e C2∪C3 como a classe 1. A seguir, estima-se a regrade classificacao, classificam-se os novos elementos e, finalmente, registam-se osque foram classificados na classe 0. No proximo passo, considera-se C2 comosendo a classe 0 e C1 ∪ C3 como sendo a classe 1, constroi-se, em seguida, oclassificador, classificam-se os novos elementos e registam-se, os elementos clas-sificados na classe 0. Analogamente para C3. Este metodo permite classificarde uma forma eficaz (pelo menos tao eficaz quanto os casos de duas classes)novos elementos. A desvantagem deste metodo e obviamente a morosidadecomputacional. Ha outro aspecto: se uma classe, Ci, estiver fracamente rep-resentada em termos de numero de observacoes, o facto do numero total deelementos das restantes classes ser muito maior, fara com que o novo elementotenda a ser classificado em C1 ∪ . . . Ci−1 ∪ Ci+1 ∪ · · · ∪ CM .

72

Capıtulo 4Aspectos Computacionais

Exceptuando casos extremamente simples, as analises estatısticas bayesianascom ındole aplicada dependem de um conjunto de aproximacoes computa-cionais. Efectivamente, muitos sao os problemas desse tipo onde o calculo porvia analıtica de certas quantidades de interesse e frequentemente problematicoou mesmo impossıvel. Os modelos bayesianos nao parametricos apresentadosna Subseccao 2.5 sao exemplos de situacoes em que tal e a norma.

Este capıtulo descreve aspectos computacionais para a implementacao dametodologia proposta atraves da apresentacao dos procedimentos e algoritmosdesenvolvidos.

O trabalho computacional necessario neste trabalho foi, essencialmente,desenvolvido com a linguagem de programacao R (um dialecto do S) . Trata-se de uma linguagem de programacao em codigo aberto e um ambiente dedesenvolvimento integrado para calculos estatısticos e producao de graficos. OR e constituıdo por um modulo base e varias bibliotecas opcionais disponıveisno sıtio http://cran.r-project.org/. Uma possıvel desvantagem do R emrelacao e outras linguagens de programacao e a velocidade de execucao, o quedadas as capacidades dos computadores actuais nao e um problema para amaioria dos programas. Nos casos em que essa diferenca e significativa, esempre possıvel desenvolver a maior parte do programa em R suplementadopor um modulo chamado a partir do R e desenvolvido noutra linguagem.Neste trabalho, sempre que houve necessidade de reduzir o tempo de execucaorecorreu-se ao FORTRAN, uma vez que esta linguagem permite a criacao deprogramas que primam pela velocidade de execucao.

73

74 Capıtulo 4. Aspectos computacionais

4.1 Construcao da regiao de especificacao optima

Segundo o criterio de triagem optimo estabelecido em Turkman e AmaralTurkman (1989) (veja-se a Subseccao 1.1.1) a regiao de especificacao optimaCX de dimensao α e, para o caso particular d = 2, dada por

C∗X =

x ∈ R

2 : P (T = 1|x;D) ≥ k

(4.1)

ou, de forma equivalente,

C∗X =

x ∈ R

2 :P (T = 1|D) p (x|T = 1;D)∑

t=0,1 P (T = t|D) p (x|T = t;D)≥ k

, (4.2)

onde k e tal que P (X ∈ C∗X|D) = α. Para simplificacao da notacao, daqui em

diante a regiao de especificacao optima sera representada por CX.

E facil de ver que a especificacao da regiao CX equivale a impor a condicao

g(x) =p (x|T = 1;D)

p (x|T = 0;D)≥ k1 onde k1 =

k(1 − γ)

(1 − k)γ. (4.3)

Na abordagem parametrica da metodologia proposta, a densidade preditivap (x|T = t;D), t = 0, 1 e dada por

Γ(

12 (glt + 2)

)

Γ(

12glt

)(gltπ)

|∆t|1/2

[1 +

1

glt

(x − µnt

)′∆t

(x − µnt

)]−(glt+2)/2

, (4.4)

a qual representa a funcao densidade de probabilidade de um vector aleatoriocom distribuicao t−Student bivariada. Para se encontrar uma expressao ana-lıtica para a regiao CX ha necessidade de resolver a inequacao g(x) ≥ k1.Contudo nao foi possıvel encontrar uma expressao analiticamente tratavel,como facilmente se reconhece, para o quociente das densidades referidas em(4.3), e portanto vai recorrer-se a uma aproximacao.

Tambem no quadro das abordagens nao parametricas consideradas – aclassica e a bayesiana – surge a mesma dificuldade. No contexto nao parame-trico bayesiano esta constatacao e obvia, uma vez que a distribuicao preditivade uma observacao futura no grupo T = t tambem nao e expressavel em formafechada. Este aspecto e, no entanto, contornavel para efeitos da determinacaoda regiao optima pela obtencao de uma amostra simulada da densidade pre-ditiva p (x|T = t;D) via metodos MCMC.

4.1. Construcao da regiao de especificacao optima 75

Relativamente a abordagem nao parametrica classica, sugeriu-se na Seccao2.4 o seguinte estimador para a densidade p (x|T = t;D)

p (x;Ht|T = t;D) = n−1t

nt∑

j=1

KHt

(x − Xt

j

). (4.5)

Esta expressao evidencia claramente que tambem aqui o quociente em (4.3)nao e representado por via de uma expressao analıtica em forma fechada,mesmo considerando as funcoes nucleo com as expressoes mais trataveis, oque impossibilita a obtencao de expressoes para a fronteira de CX.

Um modo adequado para contornar este problema passa pela obtencao doslimites da regiao de especificacao de forma aproximada. Os passos do procedi-mento proposto, uma adaptacao do procedimento apresentado em Antunes etal. (2003), sao os seguintes:

(1) Constroi-se uma grelha suficientemente fina G =(x1, x2) ∈ R2

de

forma a queP [(X1, X2) ∈ G|D] ≈ 1.

(2) Para cada ponto (x1, x2) ∈ G calcula-se (ou estima-se, nos casos dasabordagens nao parametricas ) a probabilidade

P [T = 1| (x1, x2) ,D] =P (T = 1|D) p (x1, x2|T = 1,D)∑

i=0,1 P (T = i|D) p (x1, x2|T = i,D).

(3) Para varios valores de k (γ ≤ k < 1), definem-se os conjuntos CX,k in-dexados por k,

CX,k = (x1, x2) ∈ G : P [T = 1| (x1, x2) ,D] ≥ k .

(4) Ajusta-se uma funcao “suave” lk para limitar cada um dos conjuntosanteriores, de forma a aproximar a regiao optima CX,k por

(x1, x2) : x1 ∈ R, x2 ∈ Ilk(x1),

onde Ilk(x1) e um intervalo da forma ]−∞, lk(x1)] ou [lk(x1),∞[, depen-dendo da forma da regiao de especificacao.

(5) Calculam-se os valores das caracterısticas operacionais para as diferentesregioes aproximadas CX,k.

76 Capıtulo 4. Aspectos computacionais

(6) Selecciona-se o valor optimo de k de acordo com um criterio estabelecidodo qual resulta a regiao de especificacao optima, CX ≡ CX,kopt

.

4.1.1 Obtencao de valores de P [T = 1| (x1, x2) ;D]

O modo de calcular (ou estimar) o valor da probabilidade apresentada noponto (2) do procedimento anterior em cada ponto da grelha G depende,como e obvio, do tipo de abordagem seguida. Na abordagem parametrica,como se conhecem as expressoes analıticas para P (T = t|D) e p (x|T = t;D),t = 0, 1, o calculo da dessa probabilidade preditiva nos diferentes pontos de Ge um problema trivial.

Em relacao a abordagem nao parametrica classica, a utilizacao da ex-pressao (4.5) permite obter valores de P [T = 1| (x1, x2) ;D] para os diferentespontos da grelha. Deve-se, no entanto, chamar a atencao para o facto de nestaabordagem ser necessario estimar a matriz largura de banda Ht. Aqui serausada a tecnica de seleccao de Ht descrita Subseccao 2.4.2.

No que respeita ao cenario nao parametrico bayesiano, a obtencao de va-lores da probabilidade P [T = 1| (x1, x2) ;D] nao e um problema simples, de-vido naturalmente a complexidade inerente a obtencao de amostras de valoresda densidade preditiva de uma observacao futura no grupo T = t. Dadaa dificuldade deste problema, descrever-se-a em seguida a metodologia com-putacional seguida na simulacao, via algoritmo de Metropolis-Hastings, dadensidade p (x|T = t;D) , t = 0, 1.

Viu-se anteriormente que, dada a amostra aleatoria (Xi, Ti) ; 1 ≤ i ≤ n,o modelo hierarquico construıdo para estimar p (x|T = t;D) e

Xi|Ti = t;Gtiid∼ Gt

Gt|ct,mt,Ct ∼ PTJ2

(ct, ρ,Π

mt,Ct)

(mt,Ct) ∼ p (mt,Ct) , ct ∼ p (ct) ,

em que Gt e a medida de probabilidade responsavel pela geracao de Xi =(X1i, X2i)|Ti = t, i = 1, . . . , n e PTJ

2

(ct, ρ,Π

mt,Ct)

e uma RPM misturade arvores de Polya bivariada com J nıveis e com parametros Πmt,Ct , ct eρ, t = 0, 1. Πmt,Ct representa um conjunto de particoes de R2, indexadaspor mt e Ct e ct e ρ representam uma famılia de vectores nao-negativos.p (mt,Ct) e p (ct) representam as distribuicoes a priori para (mt,Ct) e paract, respectivamente.

4.1. Construcao da regiao de especificacao optima 77

Por simplicidade de notacao represente-se nesta subseccao Xi|Ti = t porXi e o numero de elementos da amostra para os quais Ti = t por m, t = 0, 1e suprima-se o ındice indicador do grupo t.

Admitindo que o valor esperado a priori de G e representado pela dis-tribuicao normal bivariada com vector de medias m e matriz de covarianciaC, a densidade condicional de m,C|X = x onde x = (x1, . . . ,xn)

, xi ∈R2, i = 1, 2, . . . ,m e proporcional a

qm,C(J,x1:m|m,C, c)

[m∏

i=1

φm,C(xi)

]p(m,C), (4.6)

onde φm,C(.) representa a funcao densidade de probabilidade de um vectoraleatorio com distribuicao normal bivariada de parametros m e C.

E comum usar-se distribuicoes a priori nao-informativas para(m,C−1

),

nomeadamente, a distribuicao de Jeffreys p (m,C) = |C|−(d+1)/2 (p (m,C) =|C|−3/2 para d = 2). Neste quadro nao-informativo, a expressao (4.6) possuia forma

p (m,C|x) ∝ qm,C(J,x1:m|m,C, c)

× |C|−(m+3)/2 exp−0.5 m tr

(C−1Sx

)− 0.5 m (x − m)

× C−1 (x − m), (4.7)

onde x = m−1∑m

i=1 xi, Sx = m−1∑m

i=1

(xi − x) (xi − x)

e tr (A) repre-

senta o traco da matriz A.

O uso da expressao anterior permite obter do metodo MCMC via algo-ritmo de Metropolis-Hastings amostras de valores da densidade preditiva deuma observacao futura em cada grupo. O procedimento computacional im-plementado para esse proposito e o descrito em seguida. Considere-se que acadeia se encontra no estado (m,C, c).

(1) Gera-se um candidato m∗ a partir da distribuicao N2 (m,C/m). O novocandidato sera aceite com probabilidade

min

1,

[m∏

i=1

qm,C(J,x1:m|m∗,C, c)

qm,C(J,x1:m|m,C, c)

](4.8)

78 Capıtulo 4. Aspectos computacionais

×exp

[−0.5m (x − m∗)

C−1 (x − m∗)]

exp[−0.5m (x − m)

C−1 (x − m)]

.

Por simplicidade de notacao admite-se que o valor actual da media erepresentado por m.

(2) Gera-se a matriz C∗−1 a partir de Wi2(gl,C−1/gl

)que sera aceite com

probabilidade

min

1,

[m∏

i=1

qm,C(J,x1:m|m,C∗, c)

qm,C(J,x1:m|m,C, c)

]

×exp

−0.5tr

(C−1∗

(∑mi=1 (xi − m) (xi − m)

)+ glC∗C−1

)

exp−0.5tr

(C−1

(∑mi=1 (xi − m) (xi − m)

)+ glCC∗−1

)

.

onde A ∼ Wi2 (v,V) significa que a matriz A tem uma funcao densi-

dade Wishart bivariada, p (A) ∝ |A|(v−2−1)/2e−12tr(V−1A). Geralmente

a escolha gl = m conduz a bons resultados. Mais uma vez para sim-plificar notacao, considera-se que valor actual de matriz de precisao erepresentado por C−1

(3) Considerando uma distribuicao a priori para o parametro de precisao c,a habitual distribuicao Gama, c ∼ Γ (ac, bc), gera-se um candidato c∗ dep (c) que sera aceite com probabilidade

min

1,

p (c∗)

p (c)

j=1,...,J ;s∈Sj

Dirichlet (Yj,s|c∗ρ (j)12d)

Dirichlet (Yj,s|cρ (j)12d)

.

onde Dirichlet (.|c) representa a funcao de probabilidade de uma dis-tribuicao Dirichlet com parametro c = (c1, c2, . . . , c2d)′. O valor actualdo parametro de precisao e representado por c.

No procedimento acima descrito admitiu-se a distribuicao a priori nao in-formativa usual p (m,C) ∝ |C|−3/2 para (m,C), que e resultado da aplicacaoda regra de Jeffreys e da independencia a priori admitida entre m e C. O usoalternativo de distribuicoes a priori informativas, por exemplo, m ∼ N (a,A)

e C−1 ∼ Wi2

(s, (sS)−1

)(independentes), nao suscita dificuldades acrescidas,

sendo que neste caso as probabilidades de aceitacao sao ligeiras modificacoesdas probabilidades apresentadas nos passos (1) e (2) (veja-se Hanson (2006,

4.1. Construcao da regiao de especificacao optima 79

Seccao 3.4)). Tal como foi referido anteriormente nao e difıcil de ver queqm,C(J,x1:m|m,C, c) ≤ 22nJ o que implica que a distribuicao a posteriori sejapropria, desde que o modelo parametrico considerado seja limitado.

Note-se que a implementacao do procedimento anterior requer alguma fa-miliaridade com tecnicas de simulacao estocastica. Hoje em dia, a maioriado software estatıstico/matematico e linguagens de programacao ja dispoe debons geradores de numeros pseudo-aleatorios de acordo com uma determinadadistribuicao. As distribuicoes Normal multivariada, Wishart e Dirichlet saoexemplos de distribuicoes que estao disponıveis mas, quando isso nao acontece,podem encontrar-se descricoes sobre tecnicas fundamentais para obter valoressimulados de quantidades aleatorias com estas distribuicoes em Ripley (1987)e em Gamerman (1996), entre outros.

4.1.2 Ajuste da fronteira de classificacao

Depois da definicao dos conjuntos CX,k, que sao constituıdos pelos pontos dagrelha, (x1, x2) ∈ G, para os quais P (T = 1| (x1, x2) ;D) ≥ k, interessa, parao desfecho do processo de aproximacao da regiao de especificacao, determinarexpressoes analıticas para as fronteiras que limitam cada um desses conjun-tos. Com este objectivo, delineou-se um procedimento, exequıvel de formaautomatica, que se descreve sucintamente de seguida. Primeiro, identifica-se otipo de regiao. Por conveniencia computacional, admite-se que a regiao optimaCX,k e aproximada por

(x1, x2) : x1 ∈ R, x2 ∈ Ilk(x1), (4.9)

onde Ilk(x1) e um intervalo da forma ] −∞, lk(x1)] ou [lk(x1),∞[. O processode identificacao do tipo de regiao e baseado no estudo dos centroides ct =(ct1, c

t2

)de cada classe t, t = 0, 1. A Tabela 4.1 mostra como e realizada

a identificacao. A seguir, seleccionam-se os pontos limite de cada um dos

Tabela 4.1: Identificacao do tipo de regiao

Cenario Tipo de regiao

c12 < c02 (x1, x2) : x1 ∈ R, x2 ∈] −∞, lk(x1)]

c12 > c02 (x1, x2) : x1 ∈ R, x2 ∈ [lk(x1),∞[

conjuntos CX,k. Com base nestes pontos ajusta-se a funcao lk pelo metododos Mınimos Quadrados nao lineares. Este metodo necessita de um processode minimizacao para estimar os parametros das expressoes analıticas para as

80 Capıtulo 4. Aspectos computacionais

fronteiras de classificacao. Para este fim, existem varios procedimentos que sepodem utilizar (veja-se, por exemplo, Dennis e Schnabel (1983)). Aqui opta-sepelo metodo Newton.

Obviamente que as que funcoes lk(.) tambem dependem da forma da regiaode especificacao, podendo ser, por exemplo, polinomios em x1 ou splines poli-nomiais em x1, com um numero reduzido de nos. No programa computacionalescrito para executar, de forma automatica, a metodologia proposta neste tra-balho e possıvel usar polinomios de 1o ou 2o grau para aproximar as fronteirasde classificacao. E importante notar que o programa implementado pode seralterado de forma a permitir o ajuste de qualquer funcao parametrica adequadalk(.), sem se introduzirem grandes alteracoes. O algoritmo do procedimentoimplementado e o seguinte:

Entrada: Pontos (x1, x2) ∈ G que formam a regiao CX e tipo defronteira (linear ou quadratica).

Saıda: Coeficientes da funcao lk(x1).1 inıcio2 Identificacao do tipo de regiao;3 Identificacao dos pontos fronteira;4 Ajuste da funcao lk(x1) pelo metodo dos Mınimos Quadrados

nao linear;

5 fim

Algoritmo 2: Procedimento para ajustar a fronteira de classificacao.

4.1.3 Aproximacao das caracterısticas operacionais

Recorde-se que as caracterısticas operacionais (CO) (veja-se Subseccao 1.1.1)sao um conjunto de probabilidades preditivas necessarias para formalizacaoadequada do problema de triagem. A seguir, mostra-se como foram obti-dos/aproximados os valores destas probabilidades para as tres abordagenspropostas.

A estimativa da probabilidade preditiva de um indivıduo futuro ser clas-sificado como sucesso γ = P (T = 1|D), e obtida de acordo com a expressao(2.8). As restantes CO: α, δ, ǫ, β e η terao que ser calculadas numericamente.

Sem perda de generalidade admita-se que a regiao de especificacao procu-rada tem a forma (x1, x2) : x1 ∈ R, x2 ∈] −∞, lk(x1)]. Como consequencia,

4.1. Construcao da regiao de especificacao optima 81

a probabilidade preditiva de um indivıduo futuro ser seleccionado pelo pro-cedimento de triagem e

α = P (X ∈ CX|D) ≈ P (X ∈ CX|D)

=

∫ ∞

−∞

∫ lk(x1)

−∞p (x1, x2|D) dx2dx1

∫ b

a

∫ lk(x1)

cp (x1, x2|D) dx2dx1

= γ

∫ b

a

∫ lk(x1)

cp (x1, x2|T = 1;D) dx2dx1

+ (1 − γ)

∫ b

a

∫ lk(x1)

cp (x1, x2|T = 0;D) dx2dx1

≈ γI1 + (1 − γ) I0 = α, (4.10)

onde a e b correspondem, respectivamente as abcissas de menor e maior valordos pontos da grelha G e c e a ordenada de menor valor dos pontos da grelha.

Note-se que a expressao anterior mostra que a estimativa de α dependedo valor de γ e do valor dos integrais It, t = 0, 1. O modo de calculo destesintegrais depende, como e obvio, da abordagem considerada. Mais adiantemostra-se, para os tres cenarios propostos, como foram aproximados estesintegrais.

A probabilidade preditiva de um indivıduo futuro ser um sucesso quandoe retido por triagem e

δ = P (T = 1|X ∈ CX;D) ≈P (X ∈ CX|T = 1;D)P (T = 1|D)

P (X ∈ CX|D)

α

∫ b

a

∫ lk(x1)

cp (x1, x2|T = 1;D) dx2dx1 =

γ

αI1 = δ. (4.11)

A estimativa de δ e aqui expressa a partir das estimativas de α e γ e do valor dointegral I1. A probabilidade preditiva de um indivıduo futuro ser um sucessoquando nao e retido por triagem e

ǫ = P (T = 1|X /∈ CX;D) ≈P (T = 1|D)P (X /∈ CX|T = 1;D)

P (X /∈ CX|D)

=γ − δα

1 − α= ǫ. (4.12)

82 Capıtulo 4. Aspectos computacionais

Assim, de acordo com a expressao (4.12), o valor aproximado de ǫ e obtido apartir do valor da estimativa das CO γ, α e δ.

A probabilidade preditiva de um indivıduo futuro, que e sucesso, ser retidopelo procedimento de triagem e

β = P (X ∈ CX|T = 1;D) ≈P (X ∈ CX|D)P (T = 1|X ∈ CX;D)

P (T = 1|D)

=αδ

γ= β. (4.13)

Aqui, a estimativa de β pode ser obtida a partir das estimativas obtidas paraγ, δ e α.

Finalmente, a probabilidade preditiva de um indivıduo futuro, que nao esucesso, nao ser retido pelo procedimento de triagem e estimada a partir dede α, ǫ e γ:

η = P(X /∈ CX|T = 0;D

)≈

P(X /∈ Cx|D

)P (T = 0|X /∈ CX;D)

P (T = 0|D)

=(1 − α) (1 − ǫ)

1 − γ= η. (4.14)

Das expressoes acima apresentadas, pode concluir-se que os valores α, δ, ǫ,β e η das CO sao estimados a partir de γ e dos valores dos integrais It, t = 0, 1.O valor de γ, tal como referido anteriormente, e obtido a partir da expressao(2.8). Contudo, o calculo por via analıtica das quantidades It, t = 0, 1 nao epossıvel, uma vez que nas abordagens parametrica e nao parametrica classicap (x1, x2|T = t;D) sao funcoes para as quais nao se conhece uma primitiva eno cenario nao parametrico bayesiano p (x1, x2|T = t;D) e conhecida somentenum numero finito de pontos. Sendo assim, justifica-se a necessidade de recor-rer de metodos numericos para aproximar os integrais It, t = 0, 1.

Uma solucao obvia e a integracao numerica. Estes metodos tem grandeprobabilidade de fornecerem aqui resultados fiaveis ja que as funcoes inte-grandras, p (x1, x2|T = t;D), nao sao estruturas parametricas muito complexas(abordagens parametrica e nao parametrica classica). Apesar de se acreditarno sucesso dos metodos de integracao numerica, sempre que possıvel foi im-plementado um metodo alternativo assente em simulacao estocastica de formaa comparar os seus resultados com os obtidos atraves da integracao numerica.

4.1. Construcao da regiao de especificacao optima 83

A seguir, ilustra-se, para cada abordagem proposta, como foram aproxi-mados estes integrais.

Abordagem parametrica

Nesta abordagem, as caracterısticas da funcao integranda dos integrais It, t =0, 1 (veja-se a expressao (4.4)) permitiram a aplicacao de dois metodos nume-ricos para aproximar estes integrais: um metodo de quadratura gaussiana eum metodo de integracao baseado em simulacao estocastica.

O metodo de integracao numerica usado foi a formula de quadratura deGauss-Kronrod descrita na Subseccao 1.2.1. Uma vez que esta formula e denatureza unidimensional e os integrais em analise sao bidimensionais, aquiIt, t = 0, 1 sao vistos como uma sequencia encaixada de dois integrais unidi-mensionais, isto e

It =

∫ b

a

∫ lk(x1)

cp (x1, x2|T = t;D) dx2dx1

=

∫ b

aIt (x1) dx1. (4.15)

A quadratura unidimensional e entao aplicada, sucessivamente, a cada e-lemento da sequencia apresenta em (4.15). Na aproximacao dos intregraisIt, t = 0, 1 usou-se a funcao INTEGRATE da linguagem R que implementa aformula de quadratura de Gauss-Kronrod (7/15 pontos). O Algoritmo 3 de-volve o valor aproximado de It, de acordo com o procedimento de integracaoacima exposto. A seguir, apresenta-se uma alternativa ao uso da integracao

Entrada: Valores a, b e c; funcao lk (.) e funcao integrandap (.|T = t;D)

Saıda: Valor aproximado de It, t = 0, 1.1 inıcio

2 Obter It (x1) =

∫ lk(x1)

cp (x1, x2|T = t;D) dx2, para cada x1 ∈ G;

3 Obter It ≈

∫ b

aIt (x1) dx1;

4 fim

Algoritmo 3: Procedimento para aproximar It usando a quadraturade Gauss-Kronrod.

84 Capıtulo 4. Aspectos computacionais

numerica na aproximacao os integrais It, t = 0, 1. Trata-se de um metodobaseado em simulacao estocastica e e aqui aplicavel tendo em conta a seguintepropriedade da famılia t-Student:

Proposicao 2Considere-se que X = (X1, . . . , Xp) ∼ Stp (µ,λ, gl) com parametros µ, λ e gl(µ ∈ Rp e o parametro de precisao; λ, frequentemente chamada de matriz deprecisao, e uma matriz p × p simetrica definida positiva; gl > 0 representa onumero de graus de liberdade). Se X = (X1,X2) constituir uma particao deX e as correspondentes particoes de µ e λ forem dadas por

µ =

[µ1

µ2

], λ =

[λ11 λ12

λ21 λ22

],

entao a distribuicao condicional de X1 dado X2 = x2 e ainda uma distribuicaot-Student multivariada, de dimensao p1, com gl+p2 graus de liberdade, e comvector de medias e matriz de precisao dados, repectivamente, por

µ1 − λ−111 λ12 (x2 − µ2) e

λ11

[gl + p2

gl + (x2 − µ2)′ (

λ22 − λ21λ−111 λ12

)(x2 − µ2)

].

Recorde-se que (ver Seccao 2.3), de acordo com a abordagem parametrica,a distribuicao preditiva de uma observacao futura no grupo T = t e

(X1, X2) |T = t;D ∼ St2(µnt

,∆t, glt),

onde

µnt=

[µ1

nt

µ2nt

]e ∆t =

[∆11

t ∆12t

∆21t ∆22

t

].

Usando o resultado apresentado na proposicao anterior, os integrais It

podem ser escritos na forma

It =

∫ ∞

−∞p (x1|T = t;D)

∫ lk(x1)

−∞p (x2|X1 = x1;T = t;D) dx2dx1

=

∫ ∞

−∞FX2|X1=x1;T=t;D [lk (x1)] p (x1|T = t;D) dx1

= EFX2|X1=x1;T=t;D [lk (X1)]

, (4.16)

4.1. Construcao da regiao de especificacao optima 85

onde a distribuicao preditiva marginal de X1|T = t e definida por

X1|T = t;D ∼ St(µ1

nt,∆11

t , glt)

(4.17)

e a distribuicao preditiva condicional de X2|X1 = x1;T = t e

X2|X1 = x1;T = t;D ∼ St(µ

X2|X1=x1

t ,∆X2|X1=x1

t , glt + 1), (4.18)

em que

µX2|X1=x1

t = µ2nt

− ∆22t

−1∆21

t

(x1 − µ1

nt

)e (4.19)

∆X2|X1=x1

t = ∆22t (glt + 1)

[glt +

(x1 − µ1

nt

)′

×(∆11

t − ∆12t ∆22

t−1

∆21t

) (x1 − µ1

nt

)]−1. (4.20)

Se se obtiver, para cada T = t, uma amostra pseudo-aleatoria da dis-tribuicao p (x1|T = t;D), representada por (x1

1, x21, . . . , x

l1), o metodo de Monte

Carlo ordinario, retratado na Subeccao 1.2.2, aproxima o integral It pela mediaempırica

EFX2|X1=x1;T=t;D [lk (X1)]

=

1

l

l∑

i=1

FX2|X1=x1;T=t;D

[lk(xi

1

)]. (4.21)

Para obter a estimativa de Monte Carlo dos integrais It, t = 0, 1 podeusar-se o Algoritmo 4.

Abordagem nao parametrica classica

Os dois metodos numericos usados para aproximar os integrais It da abor-dagem parametrica sao tambem aplicaveis na abordagem nao parametricaclassica. Como se viu na Seccao 2.4, no quadro nao parametrico classicop (x|T = t;D), com x = (x1, x2)

, e aproximada por

p (x|T = t;D) ≈ p (x;Ht|T = t;D) = n−1t

j:Tj=t

j∈1,...,n

KHt(x − Xj)

= n−1t

j:Tj=t

j∈1,...,n

|Ht|−1/2K

[H

−1/2t (x − Xj)

]. (4.22)

86 Capıtulo 4. Aspectos computacionais

Entrada: Matriz ∆t; vector µnt; funcao lk (.); comprimento da

sequencia l.Saıda: Valor aproximado de It.

1 inıcio2 para i = 1 : l faca3 Gerar um numero xi

1 de acordo com uma distribuicaot-Student de parametros

(µ1

nt,∆11

t , glt);

4 Obter lk(xi

1

);

5 Obter µX2|X1=x1

t de acordo com (4.19) ;

6 Obter ∆X2|X1=x1

t de acordo com (4.20);

7 Obter FX2|X1=x1;T=t;D

[lk(xi

1

)]tendo em conta a expressao

(4.18);

8 fim

9 Calcular 1l

∑li=1 FX2|X1=x1;T=t;D

[lk(xi

1

)];

10 fim

Algoritmo 4: Procedimento para aproximar It pelo metodo deMonte Carlo.

onde (Xj , Tj), 1 ≤ j ≤ n com Xj = (X1j , X2j)′

e uma amostra aleatoriaproveniente de uma populacao com a densidade p(.|T = t;D) e nt e o numerode elementos da amostra para os quais Tj = t, t = 0, 1 (n = n0 + n1).

Considerando a funcao nucleo que costuma ser adoptada (a funcao densi-dade Normal padrao bivariada) obtem-se para a expressao anterior

p (x|T = t;D) ≈ n−1t

j:Tj=t

j∈1,...,n

[|Ht|

−1/2 (2π)−1

× exp−

1

2(x − Xj)

Ht−1 (x − Xj)

]

= n−1t

j:Tj=t

j∈1,...,n

pj (x|T = t;D)

= n−1t

nt∑

j=1

pj (x|T = t;D) , (4.23)

equivalendo a uma mistura de distribuicoes Normais bivariadas com vector demedias igual a cada um dos pontos amostrais e matriz de covariancia igual a

4.1. Construcao da regiao de especificacao optima 87

matriz largura de banda.

O modo de utilizar a formula de quadratura de Gauss-Kronrod para aproxi-mar os integrais It, t = 0, 1 desta abordagem e semelhante ao usado no quadroparametrico (ver Algoritmo 3).

Relativamente a estimacao das CO pelo metodo de Monte Carlo, o pro-cedimento proposto assenta na seguinte propriedade da famılia Normal:

Proposicao 3Considere-se que X = (X1, . . . , Xp) ∼ Np (µ,λ) com parametros µ e λ (µ ∈Rp representa o vector de medias; λ, matriz de precisao, e uma matriz p × psimetrica definida positiva). Seja X = (X1,X2) uma particao de X, onde Xi

tem dimensao pi, p = p1 +p2. Se as correspondentes particoes de µ e λ foremdadas por

µ =

[µ1

µ2

], λ =

[λ11 λ12

λ21 λ22

],

entao a distribuicao condicional de X1 dado X2 = x2 e ainda Normal, dedimensao p1, com vector de medias e matriz de precisao dados, repectivamente,por

µ1 − λ−111 λ12 (x2 − µ2) e λ11.

Tendo em conta a expressao (4.23), com

µtj = xt

j =

[µt

j1

µtj2

]e ∆t = H−1

t =

[∆11

t ∆12t

∆21t ∆22

t

],

e usando a Proposicao 3, os integrais It podem ser escritos na forma

It ≈

∫ ∞

−∞

∫ lk(x1)

−∞n−1

t

nt∑

j=1

pj (x1, x2|T = t;D) dx2dx1

= n−1t

nt∑

j=1

∫ ∞

−∞pj (x1|T = t;D)

∫ lk(x1)

−∞pj (x2|x1;T = t;D) dx2dx1

= n−1t

nt∑

j=1

∫ ∞

−∞F j

X2|X1=x1;T=t;D [lk (x1)] pj (x1|T = t;D) dx1

= n−1t

nt∑

j=1

EF j

X2|X1=x1;T=t;D [lk (X1)], (4.24)

onde, para cada j, a distribuicao preditiva marginal de X1|T = t e definida

88 Capıtulo 4. Aspectos computacionais

porX1|T = t;D ∼ N

(µt

j1,∆11t

)(4.25)

e a distribuicao preditiva condicional X2|X1 = x1;T = t e

X2|X1 = x1;T = t;D ∼ N(µ

X2|X1=x1

t,j ,∆X2|X1=x1

t,j

), (4.26)

em que

µX2|X1=x1

t,j = µtj2 − ∆22

t−1

∆21t

(x1 − µt

j1

)e (4.27)

∆X2|X1=x1

t,j = ∆22t . (4.28)

Suponha-se entao que, por metodos de simulacao, se obteve, para cada j,uma amostra pseudo-aleatoria da distribuicao pj (x1|T = t;D), (x1

1j , x21j , . . . ,

xl1j). Com efeito, o metodo de Monte Carlo aproxima o integral It por

It ≈ n−1t

nt∑

j=1

EF j

X2|X1=x1;T=t;D [lk (X1)]

= n−1t

nt∑

j=1

1

l

l∑

i=1

F jX2|X1=x1;T=t;D

[lk(xi

1j

)]

=1

l nt

nt∑

j=1

l∑

i=1

F jX2|X1=x1;T=t;D

[lk(xi

1j

)]. (4.29)

Este metodo conduz ao Algoritmo 5 para obter uma aproximacao de MonteCarlo dos integrais It, t = 0, 1.

Abordagem nao parametrica bayesiana

Os metodos de integracao usados nas duas subseccoes anteriores visam a apro-ximacao de It a custa do conhecimento da expressao analıtica da densidadep (x1, x2|T = t;D) (ou da expressao analıtica de uma sua estimativa). Comose viu no Capıtulo 2, na presente abordagem apenas se conhece o valor dep (x1, x2|T = t;D) num numero finito de pontos de R2, o que impossibilita aaplicacao das metodologias de integracao usadas nas abordagens anteriores.Metodos alternativos para a estimacao de It tornam-se, entao, necessarios.Com este proposito, usa-se aqui uma regra da famılia das formulas de Newton-Cotes fechadas: regra do trapezio, brevemente descrita na Subseccao 1.2.1 e

4.1. Construcao da regiao de especificacao optima 89

Entrada: Matriz ∆t; amostra observada xtj , j = 1, . . . , nt; funcao

l (.); comprimento da sequencia l.Saıda: Valor aproximado de It.

1 inıcio2 para j = 1 : nt faca3 para i = 1 : l faca4 Gerar um numero, xi

1j de acordo com uma distribuicao

Normal de parametros(µt

j1,∆11t

);

5 Obter lk(xi1j) ;

6 Obter µX2|X1=x1

t,j de acordo com (4.27) ;

7 Obter ∆X2|X1=x1

t,j de acordo com (4.28);

8 Obter F jX2|X1=x1;T=t;D

[lk(x

i1j)]

tendo em conta a

expressao (4.26);

9 fim

10 Calcular∑l

i=1 FjX2|X1=x1;T=t;D

[lk(x

i1j)];

11 fim

12 Calcular 1l nt

∑nt

j=1

∑li=1 F

jX2|X1=x1;T=t;D

[lk(x

i1j)];

13 fim

Algoritmo 5: Procedimento para aproximar It pelo metodo deMonte Carlo.

um metodo de Monte Carlo.

Para formalizar o primeiro procedimento considere-se que (x1,i, x2,i); i =1, . . . ,m representa o conjunto que contem os pontos que limitam superior-mente 1 a regiao optima onde a p (x1, x2|T = t;D) e conhecida, e admita-seque x1,1 = a, x1,m = b e x2,0 = c (a e b correspondem, respectivamente asabcissas de menor e maior valor dos pontos da grelha G e c e a ordenada demenor valor dos pontos da grelha). O integral It pode ser estimado por

It =m−1∑

i=1

∫ x1,i+1

x1,i

∫ x2,i

x2,0

p (x1, x2|T = t;D) dx2dx1 (4.30)

1Relembra-se que se admitiu que a regiao de especificacao procurada e da forma(x1, x2) ∈ R

2 : x1 ∈ R, x2 ∈] −∞, lk(x1)].

90 Capıtulo 4. Aspectos computacionais

=m−1∑

i=1

∫ x1,i+1

x1,i

It (x1) dx1, (4.31)

onde, pela regra do trapezios

It (x1) ≈x2,i − x2,0

2[p (x1, x2,0|T = t;D) + p (x1, x2,i|T = t;D)] .

Aplicando-se novamente a formula dos trapezios, a estimativa de It podeser expressa por

It =m−1∑

i=1

x1,i+1 − x1,i

2

x2,i − x2,0

2[p (x1,i+1, x2,0|T = t;D)

+ p (x1,i+1, x2,i+1|T = t;D) + p (x1,i, x2,i|T = t;D)

+ p (x1,i, x2,0|T = t;D)]. (4.32)

Pode entao definir-se um algoritmo simples, Algoritmo 6, para obter umaaproximacao de It, t = 0, 1 baseada no metodo acima proposto.

A seguir, apresenta-se a alternativa ao uso da integracao numerica naaproximacao os integrais It. Trata-se de um metodo de simulacao estocasticaque usa uma amostra simulada da distribuicao limite que pretende ser a dis-tribuicao preditiva a posteriori de uma observacao futura no grupo T = t.

Considere-se o conjunto (x1,i, x2,i); i = 1, . . . ,m definido acima e su-ponha-se que, por metodos MCMC, se obteve uma amostra A = x⋆j =(x⋆j

1 , x⋆j2 ); j = 1, 2, . . . , l da distribuicao limite referida no paragrafo anterior.

O integral It pode ser aproximado por

It =m−1∑

i=1

∫ x1,i+1

x1,i

∫ (x2,i+1+x2,i)/2

x2,0

p (x1, x2|T = t;D) dx2dx1

=m−1∑

i=1

P (x1,i ≤ X1 ≤ x1,i+1, x2,0 ≤ X2 ≤ (x2,i+1 + x2,i)/2)

≈m−1∑

i=1

∑lj=1 S[j, Ri]

l, (4.33)

4.1. Construcao da regiao de especificacao optima 91

Entrada: Matriz m× 3 que contem na coluna 1 os valores de x1,i,na coluna 2 os valores de x2,i e na coluna 3 os valores dep (x1,i, x2,i|D;T = t) , i = 1, . . . ,m e valor de x2,0.

Saıda: Valor aproximado de It.1 inıcio2 para i = 1 : m− 1 faca

3 Calcular h1 (i) =x1,i+1 − x1,i

2;

4 Calcular h2 (i) =x2,i − x2,0

2;

5 Calcular

Vt (i) = h1 (i)h2 (i) [p (x1,i+1, x2,0|T = t;D)

+ p (x1,i+1, x2,i+1|T = t;D) + p (x1,i, x2,i|T = t;D)

+ p (x1,i, x2,0|T = t;D)] ;

6 fim

7 Calcular∑m−1

i=1 Vt (i);

8 fim

Algoritmo 6: Procedimento para aproximar It pela formula dotrapezio.

onde

Ri = (x1, x2) : x1,i ≤ x1 ≤ x1,i+1, x2,0 ≤ x2 ≤ (x2,i+1 + x2,i)/2) e (4.34)

S [j, Ri] =

0 se x⋆j /∈ Ri

1 se x⋆j ∈ Ri. (4.35)

Este metodo conduz ao seguinte algoritmo para obter o valor aproximadode It, t = 0, 1

4.1.4 Seleccao do valor optimo de k

No procedimento para aproximar a regiao de especificacao optima atras des-crito, depois de definidos os conjuntos Cx,k indexados por k (γ ≤ k < 1) enecessario seleccionar aquele que se julga ser “o melhor conjunto”. Com esteobjectivo, delineou-se um procedimento de seleccao que identifica a regiao deespecificacao optima Cx como sendo o conjunto Cx,k ao qual corresponde o

92 Capıtulo 4. Aspectos computacionais

Entrada: Matriz m× 2 que contem na coluna 1 os valores de x1,i ena coluna 2 os valores de x2,i i = 1, . . . ,m; valor de x2,0;

amostra A = x⋆j = (x⋆j1 , x

⋆j2 ); j = 1, 2, . . . , l

Saıda: Valor aproximado de It.1 inıcio2 para i = 1 : m− 1 faca3 para j = 1 : l faca4 Definir a regiao Ri de acordo com 4.34;5 Determinar S[j, Ri] de acordo com 4.35;

6 Calcular C(i) =∑l

j=1 S[j, Ri];

7 fim8 Calcular M(i) = C(i)/l

9 fim

10 Calcular∑m−1

i=1 M(i);

11 fim

Algoritmo 7: Procedimento para aproximar It pelo metodo demonte Carlo.

valor optimo de k, kopt . Neste trabalho, sugere-se o uso da Definicao 9 paraseleccionar kopt por parecer fiavel e facilmente aplicavel. No entanto, cre-seque outras definicoes podem tambem conduzir a resultados interessantes.

Definicao 9 Valor optimo de kO valor optimo de k, kopt, corresponde ao valor de k ∈ γ : 0.01 : 0.99 que

verifica simultaneamente o seguinte: origina o menor numero de indivıduosincorrectamente classificados (o menor erro aparente) e minimiza o quocienteentre a probabilidade preditiva de um indivıduo futuro ser sucesso quando naoe retido pelo procedimento de triagem ser sucesso e a probabilidade preditivade um indivıduo futuro retido pelo procedimento de triagem ser sucesso.

E evidente que o erro aparente de qualquer classificador deve tomar va-lores pequenos. Geralmente, a aplicacao deste erro no ambito do processode seleccao do kopt resulta num conjunto de valores candidatos de k, repre-sentado aqui por kcand, sendo pouco frequentes as situacoes em que a suaaplicacao conduz a um unico valor de k. No caso em que o criterio anteriorselecciona mais de que um k calcula-se, para cada k seleccionado, kcand, arazao ǫkcand

/δkcande escolhe-se para kopt o kcand ao qual corresponde o menor

valor dessa razao. E tambem obvio que o kcand a seleccionar deve ser o queapresenta o valor mais baixo da razao ǫkcand

/δkcand, uma vez que se esperam

4.1. Construcao da regiao de especificacao optima 93

valores baixos para a probabilidade preditiva ǫkcande valores elevados para a

probabilidade δkcand. Este raciocınio materializa-se no seguinte algoritmo

Entrada: coeficientes das expressoes analıticas das fronteiras declassificacao de cada um dos conjuntos Cx,k parak = γ : 0.01 : 0.99 e os dados xt

j , tnt

j=1, t = 0, 1.Saıda: Valor de kopt.

1 inıcio2 para k = γ : 0.01 : 0.99 faca3 Calcular o erro aparente;4 fim5 Escolher os valores de k, kcand, que conduzem ao menor valor

do erro de re-substituicao;6 para cada elemento de kcand faca7 Aproximar o valor das caracterısticas operacionais δkcand

eǫkcand

de acordo com a metodologia descrita Subseccao 4.1.3;

8 fim9 Seleccionar kopt de forma a que

kopt = arg minkcand

ǫkcand

δkcand

;

10 fim

Algoritmo 8: Procedimento de seleccao do k optimo.

94

Capıtulo 5Aplicacoes

Apos a abordagem teorica da metodologia proposta e do desenvolvimento te-cnico necessario para a sua implementacao, este e o capıtulo de aplicacoesdessa metodologia, que se circunscreve a ilustracoes das diferentes aborda-gens propostas apoiadas em varios conjuntos de dados reais e em estudos desimulacao.

5.1 Dados reais

Os conjuntos de dados (BD) usados para ilustrar a aplicacao dos metodosdesenvolvidos sao relativos a nıveis Y de expressao genetica resultantes datecnologia dos microarrays de DNA de oligonucleotidos. Estes dados foramrelatados em tres estudos, varias vezes referenciados na literatura, e aqui de-nominados de estudo I, estudo II e estudo III. O estudo I, descrito em Singhet al. (2002), tem como objectivo principal classificar um indivıduo numa dasclasses “tecido normal” ou “tecido com tumor”, a partir de nıveis de expressaode 12600 genes obtidos da tecnologia dos microarrays, de modo a fazer umaseleccao adequada para prostatectomia radical. O conjunto de dados e cons-tituıdo por n1 = 50 casos de tumor da prostata (T = 1) e n0 = 44 sem tumor(T = 0), seleccionados aleatoriamente entre varias centenas de indivıduos querealizaram uma prostatectomia radical.

Um dos principais objectivos do estudo II (Golub et al., 1999) e comparardois tipos de leucemia (leucemia linfocıtica aguda – ALL vs leucemia mielogenaaguda – AML). Este conjunto de dados contem os nıveis de expressao de 7129

95

96 Capıtulo 5. Aplicacoes

genes avaliados em 74 indivıduos e encontra-se dividido em amostra experi-mental e amostra de teste. A amostra experimental e constituıda por 28 casosALL e 11 AML. A amostra de teste consiste em 35 casos (20 ALL e 15 AML).Dado que este conjunto de dados e o unico que se encontra dividido em amostraexperimental e amostra de teste, e com o objectivo de usar o mesmo metodode validacao nos tres estudos reais, combinou-se estas duas amostras numaunica de dimensao 74 (48 ALL (T = 1) e 26 AML (T = 0)), que constitui aamostra experimental.

O conjunto de dados do estudo III (Huang et al., 2003) consiste em nıveisde expressao genetica medidos em 52 mulheres que sofreram de cancro damama. Para n0 = 35 destas nao foi verificada a recidiva do tumor no perıodode 3 anos apos a cirurgia (T = 0) e para n1 = 19 verificou-se recidiva do tumor(T = 1).

Seleccao dos pares de genes

Antes de realizar qualquer experiencia com os conjuntos de dados acima des-critos e necessario seleccionar os melhores pares de genes com capacidadesdiscriminativas dos grupos. Para esse fim, existem varias tecnicas que se po-dem utilizar, embora nao haja nenhuma que se possa aconselhar como sendoa melhor. Neste trabalho optou-se por duas tecnicas bastantes distintas de-vido a facilidade de implementacao. Uma e baseada no score proposto emGeman et al. (2004) e a outra em metodologia ROC (do ingles Receiver Op-erating Characteristic). A primeira foi usada nos conjuntos de dados dosestudos I e II e consiste, em termos gerais, na identificacao dos pares de genes(i, j), i, j = 1, 2, . . . , G, para os quais exista uma diferenca significativa entreprobabilidade de Yi < Yj para classe 0 e a mesma probabilidade na classe1. Para formalizar este metodo de seleccao, considere-se entao G genes cujosnıveis de expressao Y = Y1, Y2, . . . , YG admitem-se ser variaveis aleatoriase seja pij(c) = P (Yi < Yj |c), c = 0, 1, isto e, a probabilidade de se observarYi < Yj em cada classe. Na pratica estas probabilidades sao estimadas atravesda frequencia relativa de ocorrencia de Yi < Yj em cada classe. Designe-se por∆ij = |pij(0) − pij(1)| o score correspondente ao par (i, j).

Para fins ilustrativos do calculo do score considere-se um par de genes doestudo II, cuja correspondente tabela de contingencia e apresentada na Tabela5.1. Estes dados conduzem as estimativas pij(0) = 26/26 e pij(1) = 1/48,

donde decorre ∆ij =∣∣2626 − 1

48

∣∣ = 0.979.

Depois de obtidas as estimativas de ∆ij para todos os pares distintos (i, j)

5.1. Dados reais 97

Tabela 5.1: Frequencias observadas de Yi > Yj para as duas classes.

Yi < Yj Yi > Yj Total

classe 0 26 0 26

classe 1 1 47 48

da base de dados, e aplicada uma regra de seleccao baseada, em geral, namagnitude de ∆ij . Aqui esta regra consiste na seleccao dos pares de genes Y

aos quais corresponde o valor mais elevado de ∆ij .

A segunda tecnica de seleccao foi usada no conjunto de dados do estudoIII e consistiu no seguinte: para cada gene do conjunto de dados calculou-sea area abaixo da curva ROC (vulgarmente conhecida pela sigla inglesa AUC -Area Under Curve) com base nos correspondentes nıveis de expressao genetica.A seguir, ordenaram-se os genes por ordem decrescente do valor de AUC eseleccionou-se o par (ou pares) formado pelos genes aos quais correspondemos maiores valores de AUC.

A aplicacao de metodos de seleccao acima referidos resultou nos pares degenes apresentados na Tabela 5.2. Note-se que no estudo II foram selecciona-dos 3 pares de genes, ja que revelaram o mesmo valor de ∆ij . Para os outrosdois conjuntos de dados foi apenas seleccionado um par.

Tabela 5.2: Pares de genes com capacidade discriminativa dos grupos.

Estudo ID do gene 1 na BD ID do gene 12 na BD Score

I M84226 M55914 0.913

II D86976 X95735 0.979

II L11373 X95735 0.979

II J05243 M23197 0.979

III 38895 − i− at 32625 − at −

A inspeccao preliminar dos dados sugeriu que o uso de uma transformacaologarıtmica nos nıveis de expressao genetica torna mais razoavel o uso domodelo normal (pressuposto distribucional da abordagem parametrica). Comefeito, vai-se operar com a transformacao X = log(Y). Importa notar queno estudo II o conjunto de dados contem valores negativos, resultantes, muitoprovavelmente, da normalizacao ou correccao do background, sendo considera-da, neste caso, a transformacao X = log (Y + const), para valores apropriadosde const.

98 Capıtulo 5. Aplicacoes

5.2 Abordagem parametrica

A abordagem parametrica da metodologia proposta, apelidada de BOSc (Ba-yesian Optimal Screening classifier) foi inicialmente ilustrada atraves dos con-juntos de dados descritos na Seccao 5.1. Em seguida, as estimativas das taxasde erro produzidas por este classificador sao comparadas com as obtidas poroutros classificadores binarios de referencia, tais como a analise discriminantelinear (LDA), a analise discriminante quadratica (QDA) e as maquinas desuporte vectorial (SVM’s). Por fim, e realizado um estudo de simulacao quetem como objectivo averiguar se a incorporacao de informacao a priori, denatureza quer subjectiva quer objectiva, sobre a prevalencia de sucessos napopulacao (e.g., prevalencia da doenca ou tipo de doenca) tem influencia nodesempenho do classificador desenvolvido.

Para executar o classificador BOSc escreveu-se um conjunto de funcoesna linguagem de codigo aberto R que implementam os procedimentos apre-sentados no Capıtulo 4. Esta implementacao foi realizada de modo bastanteautomatico de forma a facilitar o uso da metodologia proposta por utilizadoresmenos familiarizados com as metodologias estatısticas bayesianas e com lin-guagens de programacao. O programa implementado considera uma grelha100 × 100.

5.2.1 Aplicacao aos dados reais

Perante a inexistencia de informacao a priori relevante, na aplicacao do clas-sificador BOSc aos dados reais descritos acima, os hiperparametros das dis-tribuicoes a priori do modelo estatıstico subjacente a este classificador (veja-se Seccao 2.1) foram fixados de modo a obter distribuicoes a priori para osparametros vagas, ou seja:

• considerou-se a = b = 0.001 para distribuicao a priori da probabilidadeamostral de sucesso θ; Note-se que na presenca de informacao a prioride teor mais ou menos substancial, os hiperparametos a e b sao eliciadosindirectamente de juızos apriorısticos do especialista sobre o valor medioe variancia da distribuicao ou sobre quantis desta distribuicao.

• para a distribuicao a priori para (µt,Λt), t = 0, 1 admitiu-se µ0t = [0 0];

ct = 0; αt = 4; βt =

[10−3 0

0 10−3

].

5.2. Abordagem parametrica 99

Resultados

A aplicacao dos procedimentos de seleccao acima descritos aos conjuntos dedados apresentados resultou em famılias P constituıdas por m pares distintos(m = 1 para os estudos I e III e m = 3 para os estudo III, veja-se Tabela 5.2).Para cada estudo, e para cada par de genes pertencente a correspondentefamılia P, obteve-se, para diferentes valores de k (definido no Lema 2 referidona Seccao 1.1), uma aproximacao para a regiao de especificacao optima e paraas correspondentes caracterısticas operacionais (CO).

Na Figura 5.1 (a) estao representados, para cada estudo, os valores dasestimativas da probabilidade preditiva P (T = 1|x;D) para os pontos pontosda grelha G. Nessa figura (Figura 5.1 (b)) encontra-se tambem uma apreciacaointuitiva da natureza das fronteiras de decisao definidas pelo procedimento doscreening optimo. Para cada estudo e para o valor de k optimo (no corres-pondente estudo), definido na Subseccao 4.1.4, a figura ilustra o diagrama dedispersao do logaritmo do nıvel expressao dos genes do par seleccionado, ounico par para os estudos I e III, e um dos tres pares seleccionados no estudoII. As fronteiras de classificacao, linear e quadratica, encontram-se tambemrepresentadas para cada estudo.

Na Tabela 5.3 apresentam-se as estimativas das CO correspondentes aregiao de screening optima definida por uma regra de decisao quadratica, paracada par de genes representado na Figura 5.1. Note-se que a estimacao das COfoi feita com recurso a dois procedimentos, um baseado em integracao numericae ou outro em simulacao estocastica, utilizando os Algoritmos 3 e 4 descritosno Capıtulo 4. Contudo, perante uma grande semelhanca entre os resultadosobtidos pelos dois metodos, optou-se por apresentar nesta seccao apenas asestimativas obtidas via integracao numerica. Esta escolha foi motivada pelarapidez de execucao do codigo que implementa a alternativa apoiada em in-tegracao numerica. Para exemplificacao da semelhanca dos valores obtidospelos dois procedimentos, a Tabela B.1, reproduzida no Apendice B, registaos resultados da estimacao das CO por simulacao estocastica correspondentesaos da Tabela 5.3.

Na avaliacao do desempenho da metodologia proposta no que respeita aerros de previsao, interessa estimar a probabilidade preditiva de um indivıduonao ser um sucesso quando e retido por triagem, P (T = 0|X ∈ Cx;D), jaque desta estimativa juntamente com a estimativa de P (T = 1|X /∈ Cx;D)resulta uma estimativa para a probabilidade de ma classificacao P (T = 0,X ∈Cx|D) +P (T = 1,X /∈ Cx|D) = α(1− δ) + ǫ(1− α). Para as regioes definidas

100 Capıtulo 5. Aplicacoes

Estudo I

M84

526

1.0

1.5

2.0

M559141.2 1.4 1.6 1.8 2.0

Estivativa da P

P

0.2

0.4

0.6

0.8

1.0

1.0 1.2 1.4 1.6 1.8 2.0

1.0

1.2

1.4

1.6

1.8

2.0

M84526

M55

914

+

+

+

+ ++

+

++

+

+

+

+

+

++

+

+++

++

+

+

++

+++

++

+++

+

+

++++

++

+

Estudo II

D86976

6

7

8

X9573556789

Estivativa da P

P

0.2

0.4

0.6

0.8

1.0

6.0 6.5 7.0 7.5 8.0 8.5 9.0

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

D86976

X95

735

+

+

+

+

++

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

Estudo III

38895_i_at

1.7

1.8

1.9

2.0

32625_at1.952.002.052.10

Estivativa da P

P

0.2

0.4

0.6

0.8

1.70 1.75 1.80 1.85 1.90 1.95 2.00

1.90

1.95

2.00

2.05

2.10

38895_i_at

3262

5_at

++

+

++

+

+ +

+

+

+

++

+

++ +

+

++

+

+

++++

+

+

++

+

+++

(a) (b)

Figura 5.1: Resultados correspondestes a abordagem parametrica: (a) esti-mativas da probabilidade preditiva P (T = 1|x;D), x ∈ G (PP); (b) regiaooptima e diagrama de dispersao correspondente a um par de genes seleccionadoem cada estudo. As classes estao representadas atraves pontos (C1) e cruzes(C0). Regra quadratica - linha a cheio; regra linear - linha a tracejado.

5.2. Abordagem parametrica 101

pela fronteira quadratica, as estimativas das probabilidades preditivas de maclassificacao sao as seguintes (os valores dentro de parenteses representam asprobabilidades preditivas de classificacao correcta): estudo I: 0.0991 (0.9009);estudo II: 0.0905 (0.9095); estudo III: 0.1354 (0.8646). As probabilidades pre-ditivas de classificacao correcta podem ser vistas como a exactidao do classi-ficador quando usado para classificar novos indivıduos.

Na Tabela 5.4, reproduzem-se as estimativas das CO correspondentes aregiao de classificacao optima definida por uma funcao linear das variaveisde screening. Para estas regioes, a estimativas da probabilidade preditiva dema classificacao sao as seguintes (estimativas das probabilidades preditivas decorrecta classificacao, entre parenteses): estudo I: 0.0863 (0.9137); estudo II:0.0947 (0.9053); estudo III: 0.1348 (0.8652).

Atraves de uma analise destes resultados, pode-se concluir que, no que dizrespeito ao estudo I, os dois tipos de regra de decisao, quadratica e linear,conduzem a desfechos similares. As estimativas da probabilidade preditivade um indivıduo futuro ser sucesso quando retido por triagem sao 0.9137 e0.9009 para a regra linear e quadratica, respectivamente. Como se pode vernas Tabelas 5.3 and 5.4 a capacidade preditiva do classificador de screening ebastante elevada. E de destacar que para a regra quadratica, a probabilidadepreditiva de sucesso passa de 0.5319 para 0.8956 quando X ∈ Cx e consideradoe a probabilidade preditiva de um indivıduo excluıdo pelo procedimento descreening ser um sucesso e 0.0931. Para o caso linear, a probabilidade preditivade sucesso passa de 0.5319 para 0.8937, sendo a probabilidade preditiva de umindivıduo nao retido por este esquema de triagem ser um sucesso de 0.0922.Verifica-se tambem valores elevados para as estimativas da sensibilidade e daespecificidade (β e η, respectivamente), o que sugere uma boa capacidadediscriminativa do classificador BOSc.

Relativamente o estudo II e novamente atraves de uma analise destes re-sultados pode-se tambem conjecturar que as duas fronteiras de decisao, line-ar e quadratica, conduzem a resultados similares. A probabilidade preditivade sucesso passa de 0.6486 para 0.9922 para o caso linear e de 0.6486 para0.9918 para a regiao quadratica. A capacidade discriminativa dos classifi-cadores BOSc e bastante satisfatoria neste estudo (vejam-se as Tabelas 5.3 e5.4).

No estudo III, o classificador BOSc foi construıdo com apenas um par degenes, tendo-se verificado que o comportamento conjunto deste par e altamentediscriminativo da ocorrencia de recidiva do tumor. Verificaram-se probabili-dades de classificacao correcta de 0.8646 e 0.8652 para as regras quadratica

102

Capıtulo

5.

Aplicacoes

Tabela 5.3: CO da regiao de classificacao optima definida por uma regra de decisao quadratica.

γ α δ ǫ β η

Estudo kopt P (Y =1|D) P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.63 0.5319 0.5267 0.8956 0.0931 0.8868 0.9170

II 0.86 0.6486 0.5675 0.9918 0.1985 0.8678 0.9865

III 0.42 0.3519 0.3128 0.8458 0.1269 0.7467 0.9258

Tabela 5.4: CO da regiao de classificacao optima definida por uma regra de decisao linear.

γ α δ ǫ β η

Estudo kopt P (Y =1|D) P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.65 0.5319 0.5469 0.8937 0.0922 0.9189 0.8787

II 0.85 0.6486 0.5628 0.9922 0.2064 0.8609 0.9874

III 0.43 0.3519 0.3072 0.8532 0.1295 0.7448 0.9305

5.2. Abordagem parametrica 103

e linear, respectivamente. Os valores das estimativas das CO para as duasfronteiras de decisao sao muito similares (Tabelas 5.3 e 5.4). Para este es-tudo, os classificadores BOSc fornecem valores elevados para as estimativas daespecificidade e valores mais baixos para as estimativas da sensibilidade.

Comparacao com outros metodos de classificacao binaria

Com o objectivo de comparar o desempenho do classificador BOSc com o deoutros classificadores tradicionais foram estimadas taxas de erro para cadaestudo. Sao comparados resultados obtidos a partir de quatro metodologiasde classificacao: BOSc (com a fronteira de decisao quadratica), LDA (LinearDiscriminant Analysis), QDA (Quadratic Discriminant Analisys) e SVM’s(Suport Vectorial Machines). A construcao dos classificadores SVM foi feitacom recurso a funcao svm implementada na biblioteca e1071 da linguagem R(Dimitriadou et al., 2006). Note-se que apenas as estimativas das taxas deerro correspondentes a classificadores baseados num unico par de genes podeser comparada com as probabilidades preditivas de ma classificacao referi-das acima. Na Tabela 5.5 apresentam-se estimativas da taxa de erro obtidasatraves do estimador bootstrap .632+ retratado na Subseccao 3.2.3 para osdiferentes metodos de classificacao e para os tres conjuntos de dados que setem vindo a estudar. Nesta tabela, as colunas Est e DP representam, res-pectivamente, a media e o desvio padrao das estimativas da taxa de erro.Utilizaram-se 200 estimativas para cada metodo. A Figura 5.2 ilustra o dia-grama em caixa das estimativas da taxa de erro para cada metodo de classi-ficacao e estudo considerados.

No estudo III, a menor media foi 0.1017 relativa ao classificador BOSc,seguido pelos metodos LDA, QDA e por fim SVM’s. Os valores mais elevadosdo desvio padrao foram obtidos com os classificadores QDA e BOSc. Para oestudo I, o melhor classificador parece ser sem duvida o LDA, apresentandouma media 0.0395 e desvio padrao 0.0031, seguindo do classificador BOSc commedia 0.0406. No estudo II, o classificador BOSc e as SVM’s apresentarama menor dispersao. A menor media foi obtida com as SVM’s, seguido dosclassificadores BOSc, LDA e por fim o QDA. Sumariando a informacao contidana Tabela 5.5 e Figura 5.2, pode concluir-se o seguinte: para o estudo I,o metodo LDA apresenta um melhor desempenho, seguido, muito de pertodo classificador BOSc; para o estudo II, o metodo SVM’s revela o melhordesempenho, novamente seguido do classificador BOSc. Finalmente, para oestudo III, o metodo BOSc revela o melhor desempenho em termos de media,seguido do classificador LDA.

104

Capıtulo

5.

Aplicacoes

Tabela 5.5: Media e desvio padrao das estimativas da taxa de erro.

BOSc LDA QDA SVM´s

Estudo Est DP Est DP Est DP Est DP

I 0.0406 0.0038 0.0395 0.0031 0.0539 0.0066 0.0560 0.0049

II 0.0416 0.0053 0.0420 0.0094 0.0462 0.0093 0.0287 0.0087

III 0.1017 0.0112 0.1081 0.0065 0.1269 0.0169 0.1293 0.0072

Os valores mınimos encontram-se a negrito.

5.2. Abordagem parametrica 105

Embora se tenham verificado bons desempenhos com os classificadoresSVM’s, estes metodos pecam em termos interpretabilidade, ja que nao fornecemexpressoes analıticas para as fronteiras de classificacao. Os classificadores LDAe QDA contemplam este problema atraves do uso de formas simples e fixaspara as regras de classificacao. Comparado com estes metodos, o classifi-cador BOSc tem a vantagem de fornecer fronteiras de decisao mais flexıveis,nomeadamente uma funcao parametrica apropriada que depende da forma deregiao(e.g. funcao polinomial, splines polinomiais). A abordagem propostatambem permite o calculo das CO, o que e ainda outra vantagem relativa-mente aos restantes metodos de classificacao.

5.2.2 Estudo de simulacao

Para um melhor conhecimento sobre a vantagem da introducao de informacaoa priori relevante sobre a prevalencia da doenca (ou tipo de doenca) no pro-cesso de classificacao, efectou-se um estudo de simulacao com dois cenarios.Em ambos os casos foi considerado o paradigma da amostragem. De acordocom este paradigma, as amostras sao obtidas separadamente a partir de cadaum dos grupos/populacoes, o que implica que a prevalencia da doenca ou dotipo de doenca nao esteja reflectida nos dados em estudo. A informacao a pri-ori foi eliciada atraves dos hiperparametros a e b (parametros da distribuicaoa priori da probabilidade de sucesso θ) obtidos apos decisao sobre o valormedio e variancia da distribuicao a priori de θ. Foram calculadas estimati-vas das CO para os varios classificadores BOSc construıdos. Na avaliacao dodesempenho dos diferentes classificadores foram consideradas as estimativasda taxa de erro de classificacao obtidas pelo metodo treino-e-teste referido naSubseccao 3.2.1.

Os dados

Considerou-se N = 5000 e comecou-se por gerar um vector de zeros e uns apartir da distribuicao Bernoulli(p), onde p representa a prevalencia de sucessosna populacao. Admitiu-se que N1 representa o numero de sucessos (numero deelementos do vector gerado que assumem o valor um) e N0 = N−N1 o numerode insucessos. Em seguida, geraram-se N0 observacoes a partir da distribuicao

normal bivariada N2

([−0.50

0.50

],

[0.44 0.110.11 0.44

])e N1 observacoes a par-

tir da mistura1

3N2

([0.50

−0.50

],

[0.80 −0.40

−0.40 0.80

])+

2

3N2

([−2.00−0.50

],

106 Capıtulo 5. Aplicacoes

BOSc LDA QDA SVM.s

0.03

0.04

0.05

0.06

0.07

Estudo I

estm

ativ

as d

a ta

xa d

e er

ro

BOSc LDA QDA SVM.s

0.00

0.02

0.04

0.06

Estudo II

estm

ativ

as d

a ta

xa d

e er

ro

BOSc LDA QDA SVM.s

0.08

0.10

0.12

0.14

0.16

Estudo III

estm

ativ

as d

a ta

xa d

e er

ro

Figura 5.2: Diagrama em caixa das estimativas das taxas de erro de classi-ficacao por metodo de classificacao e para cada estudo.

5.2. Abordagem parametrica 107

[0.67 −0.20

−0.20 0.44

]). Os contornos das densidades consideradas neste estudo

de simulacao estao apresentadas na Figura 5.3.

X1

X2

−4 −2 0 2 4

−4

−2

02

4

Figura 5.3: Contornos das densidades consideradas no estudo de simulacao.Linhas a tracejado - populacao correspondente a classe C1, linhas a cheios -populacao populacao correspondente a classe C0.

Seleccionaram-se, segundo um processo de amostragem aleatoria simplesdos dois conjuntos simulados, duas amostras de dimensao M = 100, que con-juntamente constituem a amostra experimental. Para a amostra de teste,considerou-se uma amostra de dimensao 200 retirada dos dois conjuntos simu-lados (em conjunto), estando assim a prevalencia de sucessos reflectida nestaamostra. Este estudo de simulacao considerou 200 simulacoes de Monte Carlo,isto e, foram construıdos 200 classificadores com amostras experimental e testeindependentes.

Resultados

Foram construıdos dois tipos de classificadores BOSc que confrontam a ausen-cia contra presenca de informacao a priori sobre a prevalencia de sucessos napopulacao. A Tabela 5.6 apresenta estimativas das OC obtidas para uma si-mulacao de Monte Carlo seleccionada aleatoriamente entre as 200. Para estasregioes, as probabilidades preditivas de classificacao correcta, considerando

108 Capıtulo 5. Aplicacoes

e nao considerando informacao a priori, respectivamente, sao as seguintes:0.8169 e 0.8170 for p = 0.1 e 0.8140 e 0.8153 para p = 0.3. A Figura 5.4contem, para o estudo de simulacao completo, o tracado correspondente aosvalores das estimativas das OC por numero de simulacao.

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

p=0.1 (sem inf. a priori)

número da simulação

prob

abili

dade

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

p=0.1 (com inf. a priori)

número da simulação

prob

abili

dade

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

p=0.3 (sem inf. a priori)

número da simulação

prob

abili

dade

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

p=0.3 (com inf. a priori)

número da simulação

prob

abili

dade

Figura 5.4: Estimativas das CO, com e sem informacao a priori sobre aprevalencia, por numero de simulacao. α - linha cinzenta, ǫ - linha verde,δ - linha vermelha, γ - linha a tracejado preta, sensibilidade - linha azul,especilicidade - linha a cheio preta.

O efeito de se considerar informacao a priori sobre a prevalencia pode serobservado principalmente no valor de δ e ǫ, como era esperado. Quando estainformacao nao e considerada, γ e simplesmente a proporcao de indivıduossucesso observada na amostra experimental (0.5 neste caso). A estimativa daprobabilidade preditiva de um indivıduo futuro ser retido por triagem (α) e

5.2

.A

bord

agem

para

metric

a109

Tabela 5.6: Estimativas das CO para a regiao optima definida por uma regra de decisao quadratica.

Informacao a priori sobre a prevalencia considerada

γ α δ ǫ β η

Cenario P (Y = 1|D) P (X ∈ Cx|D) P (Y = 1|X ∈ Cx,D) P (Y = 1|X /∈ Cx,D) P (X ∈ Cx|Y = 1,D) P (X /∈ Cx|Y = 0,D)

p = 0.1 0.3667 0.3302 0.8101 0.1798 0.7295 0.8674

p = 0.3 0.4333 0.3590 0.8444 0.2031 0.6996 0.9014

Informacao a priori sobre a prevalencia nao considerada

γ α δ ǫ β η

Cenario P (Y = 1|D) P (X ∈ Cx|D) P (Y = 1|X ∈ Cx,D) P (Y = 1|X /∈ Cx,D) P (X ∈ Cx|Y = 1,D) P (X /∈ Cx|Y = 0,D)

p = 0.1 0.5 0.4213 0.8762 0.2261 0.7383 0.8957

p = 0.3 0.5 0.4233 0.9065 0.2516 0.7674 0.8632

110 Capıtulo 5. Aplicacoes

menor quando se considera informacao a priori sobre a prevalencia. Emboraos valores de δ e ǫ decrescam quando informacao sobre a prevalencia e con-siderada, os valores da sensibilidade e da especificidade sao, em geral, poucoinfluenciados.

Note-se que quando se constroem classificadores baseados em amostra ex-perimentais equilibradas (com igual numero de elementos sucesso e elementosnao sucesso), e esperado um valor de δ menor se a informacao a priori sobre aprevalencia indicar que p e menor do que 0.5, para valores da prevalencia supe-riores a 0.5, espera-se que δ aumente, ja que a informacao sobre a prevalencia“corrige” de alguma forma a informacao amostral. Argumentos similaresjustificam as possıveis variacoes em ǫ.

O desempenho dos classificadores BOSc foi comparado com o desempenhodos classificadores LDA, QDA e SVM’s. Na Tabela 5.7 apresenta-se a media(Est) e o desvio padrao (DP) das estimativas da taxa de erro para 200 simu-lacoes. Os melhores resultados, em termos de valores medios e de dispersao,foram obtidos usando o classificador BOSc que incorpora informacao sobrea prevalencia. Quando a informacao sobre a prevalencia nao e considerada,o classificador BOSc continua a apresentar melhor desempenho comparativa-mente com os classificadores LDA, QDA e SVM’s.

5.3 Abordagem nao parametrica classica

A semelhanca da abordagem parametrica da metodologia proposta (classifi-cador BOSc), a ilustracao da abordagem nao parametrica classica (ANPC)e apoiada nos dados reais descritos no inıcio do presente capıtulo. E aindarealizada uma comparacao do desempenho desta abordagem com a do classi-ficador BOSc. Na execucao computacional da ANPC utilizaram-se as rotinasescritas para implementar o classificador BOSc, devidamente adaptadas parao cenario em estudo, mantendo-se o espırito da analise aprioristicamente naoinformativa usada na abordagem anterior.

5.3.1 Aplicacao aos dados reais

As matrizes largura de banda, H, foram estimadas de acordo com o metodode validacao cruzada enviesada (BCV) descrito na Seccao 2.4.2. Na Tabela5.8 encontram-se os valores obtidos para HBCV por classe e para cada umdos conjunto de dados reais considerados.

5.3

.A

bord

agem

nao

para

metric

acla

ssica

111

Tabela 5.7: Estimativa da taxa de erro e desvio padrao baseadas em 200 simulacoes de Monte Carlo.BOSc† BOSc‡ LDA QDA SVM’s

Scenario Est DP Est DP Est DP Est DP Est DP

p = 0.1 0.1379 0.0219 0.1408 0.0271 0.2173 0.0329 0.1874 0.0301 0.1783 0.0356p = 0.3 0.1600 0.0296 0.1614 0.0301 0.2185 0.0323 0.1851 0.0318 0.1810 0.0317

†− com informacao a priori ; ‡− sem informacao a priori ; valores mınimos encontram-se a negrito.

112

Capıtulo

5.

Aplicacoes

Tabela 5.8: Estimativas BCV de matrizes largura de banda, HBCV.

Estudo I Estudo II Estudo III

classe 0 classe 1 classe 0 classe 1 classe 0 classe 1

[0.0044 0.0022

0.0022 0.0037

][0.0078 −0.0015

−0.0015 0.0022

] [0.0892 0.0603

0.0603 0.1013

][0.0562 0.0285

0.0285 0.0922

] [0.0002 0.0000

0.0000 0.0001

][0.0008 0.0002

0.0002 0.0002

]

Tabela 5.9: CO da regiao de classificacao optima definida por uma regra de decisao quadratica.

γ α δ ǫ β η

Estudo kopt P (Y =1|D) P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.67 0.5319 0.5186 0.9420 0.0921 0.9392 0.9337

II 0.79 0.6486 0.5796 0.9896 0.1786 0.8843 0.9827

III 0.51 0.3519 0.3640 0.7638 0.1161 0.7901 0.8674

5.3. Abordagem nao parametrica classica 113

Resultados

Reproduzem-se aqui resultados da ANPC da metodologia proposta quandoaplicada aos dados de nıveis de expressao genetica. Em virtude de ser razoaveladmitir que a distribuicao subjacente ao logaritmo dos nıveis de expressaogenetica X (dados usados na ilustracao da abordagem parametrica) e normalbivariada, e de esperar que tais resultados sejam bastantes semelhantes aosda abordagem parametrica, exibidos na seccao anterior. Para cada estudo,e para cada par de genes pertencentes as famılias P referidas anteriormente,executou-se o programa computacional que implementa a ANPC, resultandoas aproximacoes das regioes optimas e as estimativas das CO. Na Figura 5.5encontram-se, para o par de genes seleccionado (o unico dos estudos I e IIIe um dos tres pares seleccionados no estudo II), os contornos das estimativasdo nucleo para as densidades de X|T = t, t = 0, 1 (a) e as estimativas dasprobabilidades preditivas de sucesso dados os pontos x = (x1, x2) da grelhaG, P (T = 1|x;D) (b). As regioes optimas correspondentes aos pares repre-sentados, definidas pelos pontos x de G tais que P (T = 1|x;D) ≥ kopt, eas fronteiras de classificacao definidas por uma regra de decisao quadraticaencontram-se tambem reproduzidas na Figura 5.5 (coluna (c)). Para estasregioes as estimativas das probabilidades preditivas de ma classificacao sao asseguintes (estimativas das probabilidades preditivas de classificacao correctaentre parenteses): estudo I: 0.0744 (0.9256); estudo II: 0.0811 (0.9188); estudoIII: 0.1598 (0.8402).

Na Tabela 5.9 reproduzem-se as estimativas das CO (obtidas via integracaonumerica) correspondentes as regioes optimas representadas na Figura 5.5 (c).Importa notar que a semelhanca da abordagem parametrica, da aplicacao dasduas metodologias – integracao numerica e simulacao estocastica – usadas naestimacao das CO resultaram estimativas muito semelhantes, pelo que paraevitar repeticoes desnecessarias optou-se por apresentar aqui apenas os re-sultados obtidos por integracao numerica. Esta escolha, e mais uma vez asemelhanca da abordagem parametrica, foi motivada pelo reduzido tempo deexecucao do programa computacional que implementa o metodo de integracaonumerica, comparativamente ao que se obtem com o metodo alternativo. ATabela B.3, reproduzida no Apendice B, e a versao da Tabela 5.9 para a es-timacao por simulacao estocastica, considerando o Algoritmo 7 introduzido noCapıtulo 4.

No estudo I o valor da estimativa da probabilidade preditiva de sucessopassa de 0.5319 para 0.9420 quando X ∈ Cx e considerado, no estudo II passade 0.6486 para 0.9896 e de 0.3519 para 0.7638 no estudo III. E de destacar os

114 Capıtulo 5. Aplicacoes

valores elevados, especialmente nos estudos I e II, das estimativas da probabi-lidade preditiva de um elemento retido pelo procedimento de triagem ser umsucesso, assim como o das estimativas da sensibilidade e da especificidade, oque tambem e verificado na abordagem parametrica. A identidade de resul-tados propaga-se previsivelmente aos valores das estimativas da probabilidadepreditiva de um indivıduo nao retido por este esquema de triagem ser sucesso.De facto, nesta abordagem estas estimativas admitem tambem valores reduzi-dos.

Em suma, os resultados apresentados parecem abonatorios da tese de iden-tidade de resultados das abordagens parametrica (classificador BOSc) e naoparametrica classica quando ilustradas com dados descritos pela distribuicaonormal bivariada.

5.4 Abordagem nao parametrica bayesiana

Nesta seccao ilustra-se a abordagem nao parametrica bayesiana (ANPB) dametodologia proposta com os tres conjuntos de dados reais descritos anteri-ormente e com conjuntos de dados simulados. Comecar-se-a com o estudo daavaliacao do desempenho da abordagem em estudo, utilizando para tal repre-sentacoes graficas das regioes optimas e estimativas das CO correspondentesaos dados reais. Dado que nesta abordagem os valores da densidade preditivade uma observacao futura no grupo T = t, t = 0, 1, quando avaliada nospontos da grelha G, sao obtidos por metodo de Monte Carlo via Cadeias deMarkov (MCMC), foi possıvel construir intervalos de credibilidade HPD parafuncionais desta densidade, nomeadamente para as CO das regioes optimas.

Para a execucao computacional da abordagem que se esta a ilustrar, foramescritas funcoes em R semelhantes as usadas na ilustracao das abordagensanteriores. Na simulacao dos valores das densidades preditivas p(x|T = t,D),quando avaliadas nos pontos de G, consideraram-se arvores de Polya com 5nıveis e executou-se atraves de uma adaptacao da funcao PTdensity da biblio-teca do R DPpackage (Jara, 2007). Como o objectivo de maximizar a eficienciacomputacional, os metodos MCMC necessarios para realizar as simulacoes deinteresse sao implementados na linguagem compilada FORTRAN. Tal comonas abordagens anteriores, a ilustracao partiu de distribuicoes a priori naoinformativas para os parametros do modelo estatıstico subjacente a presenteabordagem.

Os intervalos de credibilidade HPD para as CO sao obtidos no pacote

5.4. Abordagem nao parametrica bayesiana 115

Estudo I

1.0 1.2 1.4 1.6 1.8 2.0

1.0

1.2

1.4

1.6

1.8

2.0

M84526

M55

914 10

25

50 75

90

10 25 50

75

90

90

+

+

+

+ ++

+

++

+

+

+

+

+

++

+

+++

++

+

+

++

+++

++

+++

+

+

++++

++

+

M84

526

1.0

1.5

2.0

M559141.2 1.4 1.6 1.8 2.0

Estivativa da P

P

0.0

0.2

0.4

0.6

0.8

1.0

1.0 1.2 1.4 1.6 1.8 2.0

1.0

1.2

1.4

1.6

1.8

2.0

M84526

M55

914

+

+

+

+ ++

+

++

+

+

+

+

+

++

+

+++

++

+

+

++

+++

++

+++

+

+

++++

++

+

Estudo II

6.0 6.5 7.0 7.5 8.0 8.5 9.0

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

D86976

X95

735

10 25

50

75

90

10 25

50

75 90

+

+

+

+

++

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

D86976

6

7

8

X9573556789

Estivativa da P

P

0.0

0.2

0.4

0.6

0.8

1.0

6.0 6.5 7.0 7.5 8.0 8.5 9.0

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

D86976

X95

735

+

+

+

+

++

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

Estudo III

1.70 1.75 1.80 1.85 1.90 1.95 2.00

1.90

1.95

2.00

2.05

2.10

38895_i_at

3262

5_at

10 25

50

75

90

10

25

50 75

90

++

+

++

+

+ +

+

+

+

++

+

++ +

+

++

+

+

++++

+

+

++

+

+++ 38895_i_at

1.7

1.8

1.9

2.0

32625_at1.952.002.052.10

Estivativa da P

P

0.2

0.4

0.6

0.8

1.0

1.70 1.75 1.80 1.85 1.90 1.95 2.00

1.90

1.95

2.00

2.05

2.10

38895_i_at

3262

5_at

++

+

++

+

+ +

+

+

+

++

+

++ +

+

++

+

+

++++

+

+

++

+

+++

(a) (b) (c)

Figura 5.5: Resultados correspondentes a ANPC: (a) contornos das estimati-vas das densidades preditivas de X|T = t, t = 0, 1 e diagrama de dispersaopara o par de genes seleccionado em cada estudo. As classes estao repre-sentadas usando pontos (C1) e cruzes (C0); (b) estimativas da probabilidadepreditiva P (T = 1|x;D), x ∈ G (PP) para cada estudo; (c) regioes optimas(x ∈ G : P (T = 1|x;D) ≥ kopt) e regra de decisao quadratica (linha a cheio)para cada estudo.

116 Capıtulo 5. Aplicacoes

CODA (Best et al., 1997) atraves do metodo descrito em Chen e Shao (1999)para funcoes densidade de probabilidade unimodais.

5.4.1 Aplicacao aos dados reais

A monitorizacao da convergencia foi realizada com recurso ao software CODA.Verificou-se um desempenho satisfatorio nos testes de diagnostico de con-vergencia para a distribuicao a posteriori em vista apos um curto perıodode aquecimento. Para exemplificacao, apresenta-se na Figura 5.6 os tracos eos graficos das densidades marginais dos parametros do modelo 2.28 correspon-dente a classe C1 no estudo II. Estes graficos foram obtidos de uma amostrafinal de 10000, ja livre das 5000 simulacoes do perıodo de aquecimentos e dosvalores consecutivos (considerou-se um espacamento de 10 iteracoes) visandoa eliminacao de autocorrelacoes. Os graficos correspondentes aos restantescasos (restantes classes e estudos) sao apresentados no Apendice B.

Resultados

Os resultados da ilustracao da ANPB quando aplicada aos conjuntos de dadosreais encontram-se na Figura 5.7 e na Tabela 5.10. A Figura 5.7 ilustra, parao par de genes seleccionado (o unico dos estudos I e III e um dos tres paresseleccionados no estudo II), os contornos das estimativas bayesianas das densi-dades de X|T = t, t = 0, 1 (a) e as estimativas das probabilidades preditivas desucesso dados os pontos x = (x1, x2) da grelha G (b). As regioes optimas cor-respondentes aos pares representados e as fronteiras de classificacao definidaspor uma regra de decisao quadratica encontram-se tambem reproduzidas naFigura 5.5 (coluna (c)), sugerindo um bom desempenho da presente abor-dagem, quase identico ao obtido com as abordagens anteriores. Em virtude deser razoavel admitir que os dados em estudo sao distribuıdos segundo uma dis-tribuicao normal bivariada, e de esperar que os resultados aqui reproduzidossejam bastante semelhantes aos da abordagem parametrica.

A Tabela 5.10 fornece estimativas pontuais das CO correspondentes asregioes optimas representadas na Figura 5.7(c). Para estas regioes as esti-mativas das probabilidades preditivas de ma classificacao sao as seguintes:estudo I: 0.0502(0.9498); estudo II: 0.0925(0.9075); estudo III: 0.1748(0.8252)(entre parenteses encontram-se as estimativas das probabilidades preditivasde classificacao correcta). Reproduzem-se ainda na Tabela 5.10 e na Figura5.8 os intervalos de credibilidade HPD a 95% para as CO. O procedimento

5.4. Abordagem nao parametrica bayesiana 117

0 2000 4000 6000 8000 10000

7.4

7.6

7.8

Trace of mu:V1

MCMC scan

Density of mu:V1

values

dens

ity

7.47 7.58 7.70

0.00

3.44

6.88

0 2000 4000 6000 8000 10000

6.4

6.8

7.2

Trace of mu:V2

MCMC scan

Density of mu:V2

values

dens

ity6.45 6.74 7.03

0.00

1.60

3.21

0 2000 4000 6000 8000 10000

0.10

0.25

0.40

Trace of sigma:V1

MCMC scan

Density of sigma:V1

values

dens

ity

0.08 0.19

0.00

7.40

14.8

1

0 2000 4000 6000 8000 10000

−0.

10.

10.

3

Trace of sigma:V1−V2

MCMC scan

Density of sigma:V1−V2

values

dens

ity

−0.01 0.08 0.18

0.00

4.20

8.39

0 2000 4000 6000 8000 10000

0.2

0.8

1.4

Trace of sigma:V2

MCMC scan

Density of sigma:V2

values

dens

ity

0.32 0.55 0.83

0.00

1.64

3.29

0 2000 4000 6000 8000 10000

1020

3040

Trace of alpha

MCMC scan

Density of alpha

values

dens

ity

10.82 19.04 28.19

0.00

0.04

0.09

Figura 5.6: Tracos e graficos das densidade marginais dos parametros do mo-delo para a classe 1 no estudo II

118 Capıtulo 5. Aplicacoes

implementado para a obtencao destas regioes de credibilidade e o seguinte:

• Aproxima-se a regiao de especificacao optima;

• Obtem-se os pontos que definem a fronteira de decisao;

• Geram-se para cada grupo T = t, usando o metodo MCMC m amostrasda distribuicao preditiva de uma observacao futura no grupo T = t;

• Calculam-se, com base nas amostras geradas, as estimativas das COcorrespondentes a regiao optima aproximada, obtendo-se desta amostrasde dimensao m com valores das CO;

• Calcula-se as regioes de credibilidade HPD para as CO atraves do metodode Monte Carlo descrito em Chen e Shao (1999).

Note-se que a semelhanca das abordagens anteriores, nesta abordagemforam usados dois metodos numericos na estimacao das CO – a integracaonumerica e um metodo de simulacao estocastica. Optou-se no entanto, porapresentar os resultados obtidos por simulacao estocastica, uma vez que ometodo de integracao numerica proposto no ambito da presente abordagemconduziu a estimativas pouco fiaveis, eventualmente perturbadas pela propa-gacao dos erros de aproximacao.

No estudo I o valor da estimativa da probabilidade preditiva de sucessopassa de 0.5319 para 0.9811 (IC HPD: 0.9733−0.9884) quando X ∈ CX e con-siderado, no estudo II passa de 0.6486 para 0.9844 (IC HPD: 0.9778−0.9906) ede 0.3519 para 0.8428 (IC HPD: 0.8293−0.8565) no estudo III. A semelhancadas abordagens anteriores e de destacar os elevados valores das estimativas daprobabilidade preditiva de um elemento retido pelo procedimento de triagemser um sucesso, caracterıstica que e ainda partilhada pelas estimativas da sen-sibilidade e da especificidade. De novo se constata haver identidade de resul-tados nos valores das estimativas da probabilidade preditiva de um indivıduonao retido por este esquema de triagem ser sucesso. E de notar no entanto queno estudo III , estudo onde as classes se encontram mais misturadas, observou-se uma probabilidade de triagem inferior (0.2499 (IC HPD: 0.2461 − 0.2540))a observada nas outras abordagens e consequentemente uma probabilidadepreditiva superior de um indivıduo nao retido por este esquema de triagem sersucesso (0.1807 (IC HPD: 0.1729 − 0.1889)). Em suma, apesar das pequenasdiferencas observadas, os resultados exibidos parecem evidenciar identidadede resultados das tres abordagens quando ilustradas com dados normalmentedistribuıdos.

5.4. Abordagem nao parametrica bayesiana 119

Estudo I

M84526

M55

914 5

15

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

1.2

1.4

1.6

1.8

2.0

2

4

6

8

10

10

10

12

12

+

+

+

+ ++

+

++

+

+

+

+

+

++

+

+++

++

+

+

++

+++

++

+

++

+

+

++++

++

+

M84

526

1.0

1.5

2.0

M559141.2 1.4 1.6 1.8 2.0

Estim

ativa da PP

0.2

0.4

0.6

0.8

1.0 1.2 1.4 1.6 1.8 2.0

1.0

1.2

1.4

1.6

1.8

2.0

M84526

M55

914

+

+

+

+ ++

+

++

+

+

+

+

+

++

+

+++

++

+

+

++

+++

++

+++

+

+

++++

++

+

Estudo II

D86976

X95

735

0.2

0.6

6.0 6.5 7.0 7.5 8.0 8.5 9.0

45

67

89

10

0.2

0.4

0.6

0.8

1

1 +

+

+

++

++

+

+

++

+

+

+

++

++

+++

+

++

+

D86976

6

7

8

X9573556789

Estim

ativa da PP

0.2

0.4

0.6

0.8

1.0

6.0 6.5 7.0 7.5 8.0 8.5 9.0

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

D86976

X95

735

+

+

+

+

++

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

Estudo III

38895_i_at

3262

5_at

50

100

200

1.7 1.8 1.9 2.0

1.95

2.00

2.05

2.10

50

100 200

200

500 ++

+

++

+

+ +

+

+

+

++

+

++ +

+

++

+

+

++++

+

+

++

+

+++

38895_i_at

1.7

1.8

1.9

2.0

32625_at 1.952.002.052.10

Estim

ativa da PP

0.2

0.4

0.6

0.8

1.70 1.75 1.80 1.85 1.90 1.95 2.00

1.90

1.95

2.00

2.05

2.10

38895_i_at

3262

5_at

++

+

++

+

+ +

+

+

+

++

+

++ +

+

++

+

+

++++

+

+

++

+

+++

(a) (b) (c)

Figura 5.7: Resultados correspondentes a ANPB: (a) contornos das estimativasbayesianas nao parametricas das densidades preditivas de X|T = t, t = 0, 1 ediagrama de dispersao para o par de genes seleccionado em cada estudo. Asclasses estao representadas usando pontos (C1) e cruzes (C0); (b) estimativasda probabilidade preditiva P (T = 1|x;D), x ∈ G (PP) para cada estudo;(c) regioes optimas (x ∈ G : P (T = 1|x;D) ≥ kopt) e regra de decisaoquadratica (linha a cheio) para cada estudo.

120

Capıtulo

5.

Aplicacoes

Tabela 5.10: Estimativas das CO.α δ ǫ β η

Estudo kopt P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.64 M 0.5014 0.9811 0.0816 0.9236 0.9797

DP 0.0020 0.0037 0.0070 0.0069 0.0039

IC (0.4968; 0.5049) (0.9733; 0.9884) (0.0691; 0.0989) (0.9064; 0.9357) (0.9717; 0.9875)

II 0.82 M 0.5780 0.9847 0.1982 0.8718 0.9745

DP 0.0032 0.0037 0.0099 0.0073 0.0060

IC (0.5723; 0.5839) (0.9778; 0.9906) (0.1793; 0.2169) (0.8579; 0.8861) (0.9633; 0.9841)

III 0.52 M 0.2499 0.8428 0.1807 0.9236 0.9797

DP 0.0023 0.0068 0.0041 0.0069 0.0039

IC (0.2461; 0.2540) (0.8293; 0.8565) (0.1729; 0.1889) (0.9063; 0.9357) (0.9717; 0.9875)

M - media, DP - desvio padrao, IC - intervalo de credibilidade HPD 95%.

5.4

.A

bord

agem

nao

para

metric

abayesia

na

121

Estu

do

IEstu

do

IIEstu

do

III

Alpha

Densidade

0.49680.5014

0.5049

0.00 58.35 116.71 175.06 233.42A

lpha

Densidade

0.57230.5780

0.5839

0.00 36.79 73.58 110.37 147.16

Alpha

Densidade

0.24610.2499

0.2540

0.00 37.55 75.10 112.65 150.21

Delta

Densidade

0.97330.9811

0.9884

0.00 29.38 58.76 88.14 117.51

Delta

Densidade

0.97780.9847

0.9906

0.00 25.61 51.22 76.84 102.45

Delta

Densidade

0.82930.8428

0.85650.00 14.28 28.57 42.85 57.14

Epsilon

Densidade

0.06910.0816

0.0990

0.00 16.41 32.82 49.24 65.65

Epsilon

Densidade

0.17930.1982

0.2169

0.00 9.89 19.78 29.67 39.56

Epsilon

Densidade

0.17290.1807

0.1890

0.00 22.43 44.85 67.28 89.70

Sensibilidade

Densidade

0.90630.9236

0.9357

0.0 16.8 33.6 50.4 67.2

Sensibilidade

Densidade

0.85790.8718

0.8861

0.00 13.43 26.86 40.29 53.72

Sensibilidade

Densidade

0.90630.9236

0.9357

0.0 16.8 33.6 50.4 67.2

Especificidade

Densidade

0.97170.9797

0.9875

0.00 27.80 55.61 83.41 111.22

Especificidade

Densidade

0.96330.9745

0.9841

0.00 15.48 30.97 46.45 61.94

Especificidade

Densidade

0.97170.9797

0.9875

0.00 27.80 55.61 83.41 111.22

Figu

ra5.8:

Estim

ativasdo

nucleo

para

asfu

ncoes

den

sidad

edas

CO

ein

ter-valos

HP

D.

122 Capıtulo 5. Aplicacoes

5.5 Estudo de simulacao comparativo

Nesta seccao leva-se a cabo um pequeno estudo de simulacao como o objectivode avaliar e comparar o comportamento das tres abordagens propostas, emsituacoes onde as classes nao sao separaveis por funcoes parametricas simples(e.g., polinomios de baixa ordem) e em situacoes onde as amostras subjacentesa construcao do classificador sao provenientes de populacoes nao normais.O desempenho das diferentes abordagens foi apenas avaliado e comparadoatraves de analises graficas das regioes de especificacao optimas, uma vez queos procedimentos computacionais propostos para estimar as quantidades pre-ditivas associadas com as regioes de especificacao necessitam de generalizacaopara contemplar a todas as situacoes aqui apresentadas.

Note-se que o Algoritmo 7, proposto na Subseccao 4.1.3 no ambito daabordagem nao parametrica bayesiana, pode ser generalizado sem dificuldadesacrescidas de modo a acomodar o calculo de estimativas das caracterısticasoperacionais associadas com regioes de classificacao com as mais variadas for-mas. A generalizacao desse algoritmo pode tambem ser usada nas restantesabordagens, desde que se consiga simular amostras das distribuicoes preditivasde uma observacao futura condicional ao grupo.

As tres abordagens foram avaliadas em tres cenarios de simulacao distin-tos (A, B e C) baseados em distribuicoes gaussianas bivariadas, misturas dedistribuicoes gaussianas bivariadas e distribuicoes nao Normais. Foram con-sideradas amostras de tamanho 30 e 100 para cada classe.

Neste estudo foi mantido o espırito da analise aprioristicamente nao in-formativa considerada nas ilustracoes anteriores. Na monitorizacao da con-vergencia das cadeias construıdas no ambito destas simulacoes usou-se umprocedimento analogo ao usado na Subseccao 5.4.1. Em todas os casos foiobtida uma boa convergencia.

Dados

O cenario A considera amostras provenientes de populacoes modeladas pormisturas de distribuicoes normais bivariadas e representa uma situacao ondeas duas classes nao sao separaveis por funcoes parametricas simples. Os da-dos que constituem o cenario B sao provenientes de uma populacao com umadistribuicao normal bastante dispersa e de uma populacao modelada por umamistura de distribuicoes normais bivariadas. Neste cenario, os metodos tradi-cionais como a ADL e ADQ revelaram um desempenho pobre, ja que e difıcil

5.5. Estudo de simulacao comparativo 123

definir regioes de classificacao eficientes para este caso, baseadas em funcoeslineares ou quadraticas. Por fim, no cenario C consideram-se amostras prove-nientes de populacoes com distribuicoes de Pareto e gama bivariadas. NaFigura 5.9 encontram-se, para cada cenario, os contornos das densidades con-sideradas neste estudo de simulacao.

Cenário A

X1

X2

−4 −2 0 2 4

−4

−2

02

4

Cenário B

X1

X2

−4 −2 0 2 4

−4

−2

02

4

Cenário C

X1

X2

−1 0 1 2 3 4

−1

01

23

4Figura 5.9: Contornos das densidades consideradas no estudo de simulacao.Linhas a tracejado - populacao correspondente a classe C1, linhas a cheios -populacao populacao correspondente a classe C0.

Resultados

Ilustram-se nas Figuras 5.10 e 5.11 as regioes de especificacao optimas paracada cenario e para amostras de dimensao 100 e 30 para cada grupo, respe-ctivamente. Pela analise desta figuras, observa-se que, de uma forma geralas abordagens nao parametricas – a classica e a bayesiana – parecem ser asmais adequadas para os dados em estudo, mesmo na presenca de amostras depequena dimensao.

No cenario A, a regioes de especificacao obtidas pelas diferentes abor-dagens apresentam formas bastante semelhantes, embora as abordagens naoparametricas, principalmente a bayesiana, fornecam os melhores resultados noque respeita a taxas de erro aparente. A dimensao das amostra parece naoinfluenciar o desempenho das diferentes abordagens.

No cenario B, o classificador parametrico apresenta um mau desempenho,principalmente na presenca de amostras de pequena dimensao. Por outro lado,as alternativas nao parametricas revelaram um desempenho bastante satis-fatorio, embora tenham conduzido, quando ilustradas com base em amostrasde pequena dimensao, a regioes de especificacao com formas bastante distintas.

124 Capıtulo 5. Aplicacoes

Cenario A

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2 +

+

+

++

++

+ ++

++

+

+

++

+++

+

++

+ +

+

+

+++++

+ ++

+++ +

++

++ ++

++

++

+

+++

++

++++

+

++

+++

+

+

++++ ++

+

+

+

+

+ ++ ++++

+

+

+

++ +

+

++

+

+

++++

++

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2 +

+

+

++

++

+ ++

++

+

+

++

+++

+

++

+ +

+

+

+++++

+ ++

+++ +

++

++ ++

++

++

+

+++

++

++++

+

++

+++

+

+

++++ ++

+

+

+

+

+ ++ ++++

+

+

+

++ +

+

++

+

+

++++

++

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2 +

+

+

++

++

+ ++

++

+

+

++

+++

+

++

+ +

+

+

+++++

+ ++

+++ +

++

++ ++

++

++

+

+++

++

++++

+

++

+++

+

+

++++ ++

+

+

+

+

+ ++ ++++

+

+

+

++ +

+

++

+

+

++++

++

Cenario B

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2

+

+

++ +

+

+

+ +

+

+

+

+

+

+

+

++

+

++

+

+

+

++

+

+

++

+

++

+

+

+

+

+

++

++

++

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

++

+

++

+

+

+

+

+

+

++

+

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2

+

+

++ +

+

+

+ +

+

+

+

+

+

+

+

++

+

++

+

+

+

++

+

+

++

+

++

+

+

+

+

+

++

++

++

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

++

+

++

+

+

+

+

+

+

++

+

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2

+

+

++ +

+

+

+ +

+

+

+

+

+

+

+

++

+

++

+

+

+

++

+

+

++

+

++

+

+

+

+

+

++

++

++

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

++

+

++

+

+

+

+

+

+

++

+

Cenario C

−2 0 2 4 6

01

23

X1

X2

+

+

++

+

+

+

++

++

+

+

+

+ +

+

+

+++ ++

+

+

+

+

+

++

+

+

++

+

+ +

+

+

+

+

+

+ ++++

+

+

++

+

++

+

+

+

+

++

+

+

++

+

+

+

+

+

+

+++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

++

+

+

−2 0 2 4 6

01

23

X1

X2

+

+

++

+

+

+

++

++

+

+

+

+ +

+

+

+++ ++

+

+

+

+

+

++

+

+

++

+

+ +

+

+

+

+

+

+ ++++

+

+

++

+

++

+

+

+

+

++

+

+

++

+

+

+

+

+

+

+++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

++

+

+

−2 0 2 4 6

01

23

X1

X2

+

+

++

+

+

+

++

++

+

+

+

+ +

+

+

+++ ++

+

+

+

+

+

++

+

+

++

+

+ +

+

+

+

+

+

+ ++++

+

+

++

+

++

+

+

+

+

++

+

+

++

+

+

+

+

+

+

+++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

++

+

+

(a) (b) (c)

Figura 5.10: Regioes de especificacao optimas por abordagem ((a) - abordagemparametrica, (b) - abordagem nao parametrica classica e (c) - abordagemnao parametrica bayesiana), para os diferentes cenarios considerados e paraamostras de dimensao 100 para cada classe. As classes estao representadasusando pontos (C1) e cruzes (C0);

5.5. Estudo de simulacao comparativo 125

Cenario A

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2 +

++ +++ ++ ++ +

++

++

+++

+

++

+

++

+

+

+

+

++

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2 +

++ +++ ++ ++ +

++

++

+++

+

++

+

++

+

+

+

+

++

−6 −4 −2 0 2 4 6

−4

−2

02

4

X1

X2 +

++ +++ ++ ++ +

++

++

+++

+

++

+

++

+

+

+

+

++

Cenario B

−4 −2 0 2 4 6

−6

−4

−2

02

46

X1

X2

+

+

+

+

+ +++

++

++

++

+

++

+

++

+

++

++

+

+

+

+

+

−4 −2 0 2 4 6

−6

−4

−2

02

46

X1

X2

+

+

+

+

+ +++

++

++

++

+

++

+

++

+

++

++

+

+

+

+

+

−4 −2 0 2 4 6

−6

−4

−2

02

46

X1

X2

+

+

+

+

+ +++

++

++

++

+

++

+

++

+

++

++

+

+

+

+

+

Cenario C

−2 0 2 4

0.0

0.5

1.0

1.5

2.0

2.5

3.0

X1

X2

+

++

+

+

++

+

+

+

+

+

+

+++

+++

++

+

+++

+

+

+

+

+

−2 0 2 4

0.0

0.5

1.0

1.5

2.0

2.5

3.0

X1

X2

+

++

+

+

++

+

+

+

+

+

+

+++

+++

++

+

+++

+

+

+

+

+

−2 0 2 4

0.0

0.5

1.0

1.5

2.0

2.5

3.0

X1

X2

+

++

+

+

++

+

+

+

+

+

+

+++

+++

++

+

+++

+

+

+

+

+

(a) (b) (c)

Figura 5.11: Regioes de especificacao optimas por abordagem ((a) - abordagemparametrica, (b) - abordagem nao parametrica classica e (c) - abordagemnao parametrica bayesiana), para os diferentes cenarios considerados e paraamostras de dimensao 30 para cada classe. As classes estao representadasusando pontos (C1) e cruzes (C0);

126 Capıtulo 5. Aplicacoes

Os resultados da ilustracao das tres abordagens propostas, quando apli-cadas a amostras de dimensao elevada provenientes das populacoes que de-finem o cenario C, revelaram-se satisfatorios e semelhantes. Em oposicao,quando essas amostras apresentam uma dimensao reduzida, as varias abor-dagens conduzem a regioes com formas bastante distintas, sendo os melhoresresultados obtidos com a abordagem nao parametrica bayesiana, seguindo-sea abordagem nao parametrica classica. Note-se que os dados que constituemeste cenario sao provenientes de populacoes nao gaussianas, mas razoavel-mente separaveis por uma funcao parametrica simples (por exemplo, por umpolinomio de 2o grau). Aqui a abordagem parametrica parece resistir a vi-olacao do pressuposto distribucional quando as amostras tem dimensao ele-vada, no entanto o desempenho desta abordagem e comprometido quando asamostras sao constituıdas por poucos elementos (situacao muito frequente napratica).

Em suma, neste estudo os melhores resultados foram obtidos atraves dasabordagens nao parametricas, com destaque para a abordagem nao parame-trica bayesiana que revelou o melhor desempenho na maioria dos caso. Defacto, em qualquer cenario, estas abordagens conduziram a valores da taxade erro aparente menores do que os observados na abordagem parametrica,mesmo quando as amostras em estudo apresentavam dimensao reduzida. Aviolacao do pressuposto de normalidade parece apenas afectar o desempenhoda abordagem parametrica quando as amostras sao de dimensao reduzida.

Capıtulo 6Discussao e Conclusoes

Neste trabalho desenvolveu-se um novo metodo de classificacao supervisiona-da, tendo como fundamento teorico a abordagem bayesiana preditivista doproblema de screening introduzida por Boys e Dunsmore (1986, 1987), e maistarde generalizada por Turkman e Amaral Turkman (1989). A metodologiaintroduzida consistiu na construcao de uma regiao de especificacao optimabaseada num vector de caracterısticas bidimensional e no calculo de um con-junto de probabilidades preditivas associadas com essa regiao. O trabalho foidesenvolvido em quatro fases. Numa primeira etapa, apresentada no Capıtulo2, o metodo de screening foi teoricamente adaptado para acomodar o proble-ma da classificacao supervisionada num cenario bivariado, destacando-se tresabordagens:

1. A abordagem parametrica, onde se admitiu um modelo gaussiano bivari-ado para o par de variaveis preditores condicional a classe. O uso destafamılia de distribuicoes permitiu a obtencao de expressoes analıticas paraas densidades preditivas necessarias para adequada formulacao do pro-blema de screening.

2. A abordagem nao parametrica classica, introduzida com o objectivo deflexibilizar a abordagem parametrica no que respeita a pressupostos dis-tribucionais. Aqui, nao se especificou qualquer famılia de distribuicoespara X|T = t, tendo as densidades preditivas de interesse sido estimadasa luz de metodos de estimacao frequencistas multivariados, nomeada-mente metodos de estimacao de nucleo.

127

128 Capıtulo 6. Discussao e Conclusoes

3. A abordagem nao parametrica bayesiana surgiu como uma alternativaaos metodos classicos de estimacao de densidades. Adoptaram-se nestaabordagem, para ultrapassar o problema da violacao de pressupostosdistribucionais, modelos bayesianos nao parametricos, em particular usa-ram-se distribuicoes arvores de Polya multivariadas. Este modelos tema vantagem de possibilitar calculo de regioes de credibilidade HPD parafuncionais de densidades preditivas, uma vez que, nesta abordagem otracado das inferencias de interesse e realizada com base em metodos desimulacao de Monte Carlo via Cadeias de Markov.

A segunda fase do trabalho, apresentada no Capıtulo 3, debrucou-se, essen-cialmente sobre uma regra de classificacao para contemplar situacoes em queestao disponıveis varios pares de variaveis preditoras para a construcao do clas-sificador. A regra resultou da combinacao da classificacao e de probabilidadespreditivas resultantes da aplicacao do metodo a cada par de variaveis. Relati-vamente a alternativas concorrentes, nomeadamente classificacao final na ca-tegoria com o maior numero de atribuicoes, a regra proposta tem a vantagemde, em situacoes de empate, nao sofrer de indefinicao quanto a classificacaofinal.

Na terceira fase do trabalho, a atencao foi voltada para aspectos computa-cionais. Dado que, em qualquer uma das abordagens propostas, a regiao deespecificacao optima nao e descrita por uma expressao analiticamente tratavel,desenvolveu-se um procedimento computacional alternativo para aproximaressa regiao. A solucao obtida revelou-se extremamente eficiente. O calculode probabilidades preditivas a posteriori associadas com as regioes optimas eum problema nao resoluvel analiticamente. Como resposta a esta dificuldade,foram propostos e implementados um conjuntos de algoritmos assentes emmetodos de integracao numerica e metodos de Monte Carlo. Os programascomputacionais usados na execucao do metodo proposto foram implementa-dos de forma automatica, de modo a possibilitar o seu uso por utilizadoresmenos familiarizados com a corrente Estatıstica Bayesiana e com linguagensde programacao.

A ilustracao da aplicacao do metodo proposto a conjuntos de dados reaisde nıveis de expressao genetica e a conjuntos de dados simulados, constitui oambito da quarta fase do trabalho. Contrariamente ao desejavel, nenhum dosconjuntos de dados reais analisados e original, sendo por isso difıcil incluir nomodelo proposto informacao a priori relevante, de natureza quer subjectivaquer objectiva. Assim, foi inevitavel recorrer a cenarios nao-informativos. A

129

ilustracao da aplicacao do novo classificador aos dados reais1 revelou uma iden-tidade de resultados entre as tres abordagens propostas. Para simplificacao,foram consideradas fronteiras de decisao lineares e quadraticas, que se revela-ram bastante satisfatorias, apesar do metodo proposto permite o uso de outrasfuncoes parametricas.

A abordagem parametrica, denominada de classificador BOSc, foi com-parada, em termos de taxas de erro, com tres classificadores binarios usadosfrequentemente na pratica. Os resultados obtidos mostram claramente que oclassificador BOSc tem um desempenho tao bom ou melhor do que os restantes.Por outro lado, os resultados de um pequeno estudo de simulacao, revelam queo classificador BOSc produz um desempenho muito superior ao obtido com ostradicionais classificadores, quando os dados usados nao refletem a prevalenciade sucessos na populacao (situacao muito frequente na pratica) e o modeloproposto tem em conta informacao a priori sobre essa quantidade.

Um segundo estudo de simulacao mostrou que as abordagens nao para-metricas, com destaque para a bayesiana, apresentam um bom desempenhona presencas de classes que nao sao razoavelmente separaveis por funcoesparametricas simples, tais como, por exemplo, polinomios de baixa ordem.Esta conclusao nao se alterou quando as amostras subjacentes aos classifi-cadores sao provenientes de populacoes nao normais. Este estudo mostrouainda que, a abordagem parametrica apresenta um desempenho pobre quandoaplicada em cenarios que englobam classes separaveis de forma razoavel ape-nas por fronteiras complexas. O mesmo se concluiu, quando esta abordagemfoi ilustrada com bases em amostras de dimensao reduzida e provenientes depopulacoes nao normais. No entanto, se as amostras forem elevadas e asclasses razoavelmente separaveis por funcoes parametricas simples, a violacaodo pressuposto de normalidade pareceu nao influenciar o desempenho dessaabordagem.

Em suma, as contribuicoes propostas neste trabalho, algumas ja publicadasem Ramos et al. (2010), constituem um conjunto de desenvolvimentos quepermitiram a construcao de um novo classificador bayesiano binario segundotres abordagens, com a preocupacao de realizar a sua implementacao de formaautomatica. Em relacao as alternativas concorrentes referidas no texto, ometodo proposto tem a vantagem de fornecer expressoes analıticas simplespara as fronteiras de classificacao, sem que seja necessario fixar a sua formapreviamente. Para alem dessa vantagem, a nova metodologia permite o calculo

1Note-se que o uso de uma transformacao logarıtmica nos nıveis de expressao geneticatornou razoavel o uso do modelo normal.

130 Capıtulo 6. Discussao e Conclusoes

de um conjunto de probabilidades preditivas a posteriori para avaliacao dodesempenho do classificador.

O classificador BOSc que se encontra (por ja estar optimizado) divul-gado e o que possibilita o uso de fonteiras de classificacao com forma linear equadratica. Pretende-se a curto prazo optimizar o codigo de modo a acomodaroutras formas de fronteira de decisao.

Por fim, julga-se que o desenvolvimento aqui apresentado pode dar origema outros trabalhos de investigacao. As perspectivas futuras incluem, natural-mente, a extensao das ideias subjacentes ao metodo de screening binario a pro-blemas multiclasses. Esta extensao implica a reformulacao do princıpio em queassentou a construcao do problema de screening – o lema de Neyman-Person.Outro ponto de possıvel interesse futuro e a generalizacao da metodologiaaqui estabelecida para o caso em que d > 2, atraves da modelacao explıcitado vector X = (X1, X2, . . . , Xd).

Apendice AMaterial Suplementar para o

Capıtulo 3

A.1 Estimacao bootstrap da variancia e vies de um

estimador

No contexto considerado na Subseccao 3.2.2 e para a maioria das situacoespraticas, a distribuicao de T ∗

n e obtida aproximadamente recorrendo a simula-coes de Monte Carlo. Para isso geram-se realizacoes repetidas de X∗, tomandoamostras de dimensao n de F e obtem-se a amostra t∗,bn = Tn(x∗,b, F ), b =1, 2, . . . , B. O valor de B deve ser razoavelmente elevado, para que a funcaodistribuicao empırica associada a amostra (t∗,1n , t∗,2n . . . , t∗,Bn ) seja uma boaaproximacao da funcao de distribuicao de T ∗

n , i.e da funcao de distribuicaobootstrap. Deste modo, pode entao obter-se estimativas para (3.5) e (3.6). O

Algoritmo 9 devolve estas estimativas. Neste algoritmo t∗n =∑B

b=1 t∗,bn /B.

Observe-se que este procedimento permite genericamente determinar a dis-tribuicao de amostragem de qualquer v.a. R(X, F ), que pode ser aproximadapela distribuicao de R∗ = R(X∗, F ). A distribuicao de R∗ = R(X∗, F ) socoincide com a distribuicao de R(X, F ), quando F = F e a forma como seaproxima depende da forma de R(X, F ).

131

132 Apendice A. Material Suplementar para o Capıtulo 3

Entrada: Amostra x = (x1, x2, . . . , xn).

Saıda: Vies∗B e σ∗B.1 inıcio

2 Constuir F a cada xi peso 1/n;3 para b = 1 : B faca4 Gerar uma amostra bootstrap x∗ = (x∗1, x

∗2, . . . , x

∗n), de

variaveis X∗i

iid∼ F ;

5 Calcular t∗,bn = Tn(x∗1, x∗2, . . . , x

∗n);

6 fim7 Calcular as estimativas do vies e do desvio padrao

Vies∗B =B∑

b=1

t∗,bn /B − θ(F );

σ∗B =

√√√√ 1

B − 1

B∑

b=1

(t∗,bn − t∗n

)2;

8 fim

Algoritmo 9: Procedimento para obter estimativas para o vies edesvio padrao de um estimador atraves de metodologia bootstrap.

Apendice BMaterial Suplementar para o

Capıtulo 5

B.1 Estimativas bayesiana das caracterısticas ope-

racionais obtidas via simulacao estocastica

B.2 Monitorizacao da convergencia das cadeias de

Markov

133

134

Apendic

eB

.M

ate

rialSuple

menta

rpara

oC

apıtulo

5Tabela B.1: CO da regiao de classificacao optima definida por uma regra de decisao quadratica (abordagemparametrica).

γ α δ ǫ β η

Estudo kopt P (Y =1|D) P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.63 0.5319 0.5232 0.8979 0.0911 0.8832 0.9257

II 0.86 0.6486 0.5684 0.9932 0.1962 0.8704 0.9872

III 0.42 0.3519 0.3112 0.8444 0.1252 0.7467 0.9295

Tabela B.2: CO da regiao de classificacao optima definida por uma regra de decisao linear (abordagemparametrica).

γ α δ ǫ β η

Estudo kopt P (Y =1|D) P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.65 0.5319 0.5473 0.8942 0.0902 0.9200 0.8799

II 0.85 0.6486 0.5651 0.9940 0.2005 0.8660 0.9894

III 0.43 0.3519 0.3082 0.8541 0.1281 0.7488 0.9307

Tabela B.3: CO da regiao de classificacao optima definida por uma regra de decisao quadratica (abordagem naoparametrica classica).

γ α δ ǫ β η

Estudo kopt P (Y =1|D) P (X∈Cx|D) P (Y =1|X∈Cx;D) P (Y =1|X/∈Cx;D) P (X∈Cx|Y =1;D) P (X/∈Cx|Y =0;D)

I 0.67 0.5319 0.5155 0.9412 0.0945 0.9122 0.9372

II 0.79 0.6486 0.5779 0.9880 0.1797 0.8803 0.9853

III 0.51 0.3519 0.3645 0.7642 0.1153 0.7917 0.8675

B.2. Monitorizacao da convergencia das cadeias de Markov 135

0 2000 4000 6000 8000 10000

7.4

7.6

7.8

Trace of mu:V1

MCMC scan

Density of mu:V1

values

dens

ity

7.47 7.58 7.70

0.00

3.44

6.88

0 2000 4000 6000 8000 10000

6.4

6.8

7.2

Trace of mu:V2

MCMC scan

Density of mu:V2

values

dens

ity6.45 6.74 7.03

0.00

1.60

3.21

0 2000 4000 6000 8000 10000

0.10

0.25

0.40

Trace of sigma:V1

MCMC scan

Density of sigma:V1

values

dens

ity

0.08 0.19

0.00

7.40

14.8

1

0 2000 4000 6000 8000 10000

−0.

10.

10.

3

Trace of sigma:V1−V2

MCMC scan

Density of sigma:V1−V2

values

dens

ity

−0.01 0.08 0.18

0.00

4.20

8.39

0 2000 4000 6000 8000 10000

0.2

0.8

1.4

Trace of sigma:V2

MCMC scan

Density of sigma:V2

values

dens

ity

0.32 0.55 0.83

0.00

1.64

3.29

0 2000 4000 6000 8000 10000

1020

3040

Trace of alpha

MCMC scan

Density of alpha

values

dens

ity

10.82 19.04 28.19

0.00

0.04

0.09

Figura B.1: Tracos e graficos das densidade marginais dos parametros domodelo para a classe 0 no estudo II

136 Apendice B. Material Suplementar para o Capıtulo 5

0 2000 4000 6000 8000 10000

1.25

1.35

Trace of mu:V1

MCMC scan

Density of mu:V1

values

dens

ity

1.28 1.32 1.36

0.00

11.2

422

.48

0 2000 4000 6000 8000 10000

1.54

1.60

1.66

Trace of mu:V2

MCMC scan

Density of mu:V2

values

dens

ity

1.57 1.60 1.63

0.00

13.2

126

.42

0 2000 4000 6000 8000 10000

0.01

0.03

0.05

Trace of sigma:V1

MCMC scan

Density of sigma:V1

values

dens

ity0.01 0.02 0.03

0.00

49.6

299

.23

0 2000 4000 6000 8000 10000

−0.

020

−0.

005

Trace of sigma:V1−V2

MCMC scan

Density of sigma:V1−V2

values

dens

ity

−0.01 0.00

0.00

97.0

0

0 2000 4000 6000 8000 10000

0.00

50.

015

Trace of sigma:V2

MCMC scan

Density of sigma:V2

values

dens

ity

0.01

0.00

112.

18

0 2000 4000 6000 8000 10000

1030

Trace of alpha

MCMC scan

Density of alpha

values

dens

ity

11.49 19.74 28.16

0.00

0.05

0.10

Figura B.2: Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 1 do estudo I

B.2. Monitorizacao da convergencia das cadeias de Markov 137

0 2000 4000 6000 8000 10000

1.25

1.35

Trace of mu:V1

MCMC scan

Density of mu:V1

values

dens

ity

1.28 1.32 1.36

0.00

11.2

422

.48

0 2000 4000 6000 8000 10000

1.54

1.60

1.66

Trace of mu:V2

MCMC scan

Density of mu:V2

values

dens

ity1.57 1.60 1.63

0.00

13.2

126

.42

0 2000 4000 6000 8000 10000

0.01

0.03

0.05

Trace of sigma:V1

MCMC scan

Density of sigma:V1

values

dens

ity

0.01 0.02 0.03

0.00

49.6

299

.23

0 2000 4000 6000 8000 10000

−0.

020

−0.

005

Trace of sigma:V1−V2

MCMC scan

Density of sigma:V1−V2

values

dens

ity

−0.01 0.00

0.00

97.0

0

0 2000 4000 6000 8000 10000

0.00

50.

015

Trace of sigma:V2

MCMC scan

Density of sigma:V2

values

dens

ity

0.01

0.00

112.

18

0 2000 4000 6000 8000 10000

1030

Trace of alpha

MCMC scan

Density of alpha

values

dens

ity

11.49 19.74 28.16

0.00

0.05

0.10

Figura B.3: Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 0 do estudo I

138 Apendice B. Material Suplementar para o Capıtulo 5

0 2000 4000 6000 8000 10000

1.76

1.82

1.88

Trace of mu:V1

MCMC scan

Density of mu:V1

values

dens

ity

1.81 1.86

0.00

15.6

631

.33

0 2000 4000 6000 8000 10000

1.98

2.01

Trace of mu:V2

MCMC scan

Density of mu:V2

values

dens

ity

2.00 2.01 2.02

0.00

33.3

966

.79

0 2000 4000 6000 8000 10000

0.00

20.

010

Trace of sigma:V1

MCMC scan

Density of sigma:V1

values

dens

ity0

0.00

238.

05

0 2000 4000 6000 8000 10000

0.00

00.

003

Trace of sigma:V1−V2

MCMC scan

Density of sigma:V1−V2

values

dens

ity

0

0.00

580.

75

0 2000 4000 6000 8000 10000

0.00

050.

0025

Trace of sigma:V2

MCMC scan

Density of sigma:V2

values

dens

ity

0

0.00

1560

.43

0 2000 4000 6000 8000 10000

1020

30

Trace of alpha

MCMC scan

Density of alpha

values

dens

ity

11.40 19.83 28.69

0.00

0.04

0.09

Figura B.4: Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 1 do estudo III

B.2. Monitorizacao da convergencia das cadeias de Markov 139

0 2000 4000 6000 8000 10000

1.76

1.82

1.88

Trace of mu:V1

MCMC scan

Density of mu:V1

values

dens

ity

1.81 1.86

0.00

15.6

631

.33

0 2000 4000 6000 8000 10000

1.98

2.01

Trace of mu:V2

MCMC scan

Density of mu:V2

values

dens

ity2.00 2.01 2.02

0.00

33.3

966

.79

0 2000 4000 6000 8000 10000

0.00

20.

010

Trace of sigma:V1

MCMC scan

Density of sigma:V1

values

dens

ity

0

0.00

238.

05

0 2000 4000 6000 8000 10000

0.00

00.

003

Trace of sigma:V1−V2

MCMC scan

Density of sigma:V1−V2

values

dens

ity

0

0.00

580.

75

0 2000 4000 6000 8000 10000

0.00

050.

0025

Trace of sigma:V2

MCMC scan

Density of sigma:V2

values

dens

ity

0

0.00

1560

.43

0 2000 4000 6000 8000 10000

1020

30

Trace of alpha

MCMC scan

Density of alpha

values

dens

ity

11.40 19.83 28.69

0.00

0.04

0.09

Figura B.5: Tracos e graficos das densidade marginais dos parametros domodelo correspondente a classe 0 do estudo III

140

Referencias

Aitchison, J. e Dunsmore, I.R. (1975). Statistical prediction analysis. Camb-dridge University Press.

Amaral Turkman, M.A. e Turkman, K.F. (1997). Optimal screening methodsin detection of water contamination. In V. Barnett and K.F. Turkman,editors, Statistics and Environment 3:. Chichester John Wiley & Sons.

Amaral Turkman, M.A. e Turkman, K.F. (1990). Optimal alarm systems forautorregressive processes. A Bayesian approach. Computational Statisticsand Data Analysis, 10, 307–314.

Antoniak, C.E. (1973). Mixtures of Dirichlet processes with applications toBayesian nonparametric problems. The Annals of Statistics, 2, 1152–1174.

Antunes, M., Amaral Turkman, M.A. e Turkman, K.F. (2003). A Bayesianapproach to event prediction. Journal of Times Series Analysis, 24, 631–646.

Barron, A., Schervish, M.J. e Wasserman, L. (1999). Posterior distributionsin nonparametric problems. The Annals of Statistics, 27, 536–561.

Berger, J.O. e Guglieni, A. (2001). Bayesian testing of a parametric modelversus nonparametric alternatives. Journal of the American Statistical As-sociation, 96, 174–184.

Bernardo, J.M. e Smith, A.F. (1994). Bayesian theory. New York: Wiley.

Besag, J. 1974. Spatial interaction and the statistical analysis of lattice systems(with discussion). Journal of the Royal Statistical Society B, 36, 192–236.

141

142 Referencias

Best, N., Cowles, M.K. e Vines, K. (1997). CODA - Convergence diagnosticand output analysis software. Version 0.4. Cambrigde: MRC BiostatisticsUnit.

Bo, T.H. e Jonassen, I. (2002). New feature subset selection procedures forclassification of expression profiles. Genome Biology, 3(4): research0017.1-0017.11.

Bowman, A.W., 1984. An alternative method of cross-validation for thesmoothing of density estimates. Biometrika, 71, 353–360.

Boys, R.J. e Dunsmore, I.R. (1986). Screening in a normal model. Journal ofthe Royal Statistical Society. B, 48, 60–69.

Boys, R.J. e Dunsmore, I.R. (1986). Diagnostic and sampling models in screen-ing. Biometrika, 74, 365–374.

Breiman, L., Friedman, J., Olshen, R. e Stone, C. (1984). Classification andregression trees. Pacific Grove, CA: Wadsworth.

Calvetti, D., Golub, G.H., Gragg, W.B. e Reichel, L. (2000). Computation ofGauss-Kronrod quadrature rules. Math. Comput., 69, 1035–1052.

Chen, M.H. e Shao, Q.M. (1999). Monte Carlo estimation of Bayesian credibleand HPD intervals. Journal of Computational and Graphical Statistics, 8,69–92.

Chib, S. e Greenberg, E. (1995). Understanding the Metropolis-Hasting algo-rithm. The American Statistician, 49, 327–335.

Costa, C., Scotto, M.G. e Pereira, I. (2009). Sistemas de alarme optimos paraprocessos FIAPARCH. Actas do XVI Congresso da Sociedade Portuguesade Estatıstica, 205–216.

Davis, P.J. e Rabinowitz, P. (1984). Methods of numerical integration. NewYork: Academic Press.

Dawid, A.P. (1976). Properties of diagnostic data distributions. Biometrics,32, 647–658.

De Iorio, M., Johnson, W.O., Muller, P. e Rosner, G.L. (2009). Bayesiannonparametric non-proportional hazards survival modelling. Biometrics, 65,762–771.

Referencias 143

Dennis, J.E. e Schnabel, R.B. (1983). Numerical methods for unconstrainedoptimization and nonlinear equation. Printice-Hall, Englewood Cliffs, NJ.

Devroye, L. e Gyorfil, L. (1985). Nonparametric density estimation: the L1

view. John Wiley and Sons, New York.

Dey, D., Muller, P. e Sinha, D. (1998). Practical nonparametric and semipara-metric Bayesian statistics. Springer, New York.

Dimitriadou, E., Hornik, K., Leisch, F., Meyer, D. and Weingessel A. (2006).The e1071 Package. Department of Statistics (e1071), TU Wien. URLhttp://cran.r-project.org/web/packages/e1071/index.html.

Dudoit, S. e Fridlyand, J. (2003). Classification in microarrays experiments. InT. Speed, editor, Statistical Analysis of Gene Expression Microarray Data.Chapman and Hall.

Dunson, D. (2009). Nonparametric Bayes applications to biostatistics. inHjort, N., Holmes, C., Muller, P. e Wlaker, S. (eds), Bayesian Nonpara-metrics in Practice, CPU.

Duong, T. e Hazelton, M.L. (2003). Plug-in bandwidth matrices for bivariatekernel density estimation. Journal of Nonparametrics Statistics, 15, 17–30.

Duong, T. e Hazelton, M.L. (2005). Convergence rates for unconstrained band-with matrix selectors in multivariate kernel density estimation. Journal forMultivariate Analysis, 93, 417–433.

Duong, T. e Hazelton, M.L. (2005). Cross-validation bandwidth matrices formultivariate kernel density estimation. Scandinavian Journal of Statistics,32, 485–506.

Duong, T. (2007). ks: kernel density estimation and kernel discriminant anal-ysis for multivariate data in R. Journal of Statistical Software, 21.

Eddy, D.M. (1980). Screening for cancer: theory, analysis and design. NewJersey: Prentice-Hall.

Efron, B. (1983). Estimating the error rate of a prediction rule: some improve-ments on cross-validation. Journal of the American Statistical Association,81, 461–470.

Efron, B. e Tibshirani R.J. (1993). An introduction to the bootstrap. Chapman& Hall, New York.

144 Referencias

Efron, B. e Tibshirani R.J. (1997). Improvements on cross-validation: thee.632+bootstrap method. Journal of American Statistical Association, 92,548–560.

Escobar, M.D. (1994). Estimating normal means with a Dirichlet process prior.Journal of the American Statiscal Association, 89, 268–277.

Evans, M. e Swartz, T. (1995). Methods for approximating integrals in statis-tics with special emphasis on Bayesian integration problems. Statistical Sci-ence, 10, 254–272.

Fabius, J. (1964). Asymptotic behavior of Bayes’ estimates. The Annals ofMathematical Statistics, 35, 846–856.

Ferguson, T.S. (1974). Prior distributions on spaces of probability measures.The Annals of Statistics, 2, 615–230.

Ferguson, T.S. (1973). A Bayesian analysis of some nonparametric problems.The Annals of Statistics, 1, 209–230.

Flournoy, N. e Tsutakawa, R.K. (1991). Statistical multiple integration, con-temporary mathematics 115. American Mathematical Society.

Friedman, J., Hastie, T. e Tibshirani R.J. (2000). The elements of statisticallearning. Springer, New York.

Fukunaga, k. e Hayes, R.R. (1989). Estimation of classifier performance IEEETransactions on Pattern Analysis and Machine Intelligence, 11, 1087–1101.

Gamerman, D. (1996). Simulacao estocastica via Cadeias de Markov. IME -UFRJ.

Gautschi, W. (1987).Gauss-Kronrod quadrature - a survey. In G.V. Milo-vanovic, editor. Numerical methods and approximation theory III, 39–66.

Gelfand, A.E. e Smith, A.F.M. (1990). Sampling-based approaches to calcu-lating marginal densities. Journal of the American Statiscal Association, 44,335–341.

Gelman, A., Carlin, J.B., Stern, H.S. e Rubin, D.B. (1996). Bayesian dataanalysis. Chapman & Hall. New york.

Gelman, A. e Gelman, D.B. (1992). Inference from iterative simulation usingmultiple sequences (with discussion). Statistical Science, 7, 457–511.

Referencias 145

Gelman, A. e Gelman, D.B. (1992). A single series from the Gibbs samplerprovides a false sense of security. In Bayesian Statistics 4 (J.M. Bernardo,J.O. Berger, A.P. Dawid e A.F.M. Smith, eds.), 625–631. University press,Oxford.

Geman, S. e Geman, D. (1984). Stochastic relaxation, Gibbs distributions andthe Bayesian restoration of images. IEEE Transitions on Pattern Analysisand machine Intelligence, 6, 721–741.

Geman, D., d’Avignon, C., Naiman, D. e Winslow, R. (2004). Classificationgene expression profiles from pairwise mRNA comparisons. Statistical Ap-plications in Genetics and Molecular Biology, 3 (1).

Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches tothe calculation of posterior moments (with discussion). In Bayesian Statis-tics 4 (J.M. Bernardo, J.O. Berger, A.P. Dawid e A.F.M. Smith, eds.),169–193. University press, Oxford.

Gilks, W.R., Richardson, S. e Spiegelhalter, D.J., eds. (1996). Markov ChainMonte Carlo in Pratice. Chapman and Hall, London.

Golub, T.R., Slomin, D.K., Tamayo, P., Huard, C., Gasenbeek, M., Mesirov,J.P., Collier, H., Loh, M.L., Downing, J.R., Caligiuri, M.A., Bloomfield andLander, E.S. (1999). Molecular classification of cancer: class discovery andclass prediction by gene expression monitoring. Science, 286, 531-537.

Guyen, I. e Elisseeff, A. (2003). An introduction to variable and feature selec-tion. Journal of Machine Learning Research, 1157–1182.

Hanson, T., Branscum A. e Johnson, W. (2005). Bayesian nonparametricmodeling and data analysis: an introduction. In DK Dey, CR Rao (eds),Bayesian thinking: modeling and computation (Handbook of statistics), 25,245–278. Elsevier, Amsterdam, The Netherlands.

Hanson, T. e Johnson, W.O (2002). Modeling regression error with a mixtureof Polya trees. Journal of the American Statistical Association, 97, 1020–1033.

Hanson, T. (2006). Inference for mixtures of finite Polya tree models. Journalof the American Statistical Association, 101, 1548–1565.

Hanson, T., Monteiro, J.V. e Jara, A. (2009). the Polya tree sampler: towardsefficient and automatic independent Metropolis proposals (a aguardar pub-licacao).

146 Referencias

Hardle, W., Muller, M., Sperlich, S e Werwatz, A. (2004). Nonparametric andsemiparametric models. Springer-Verlang.

Hastings, W. (1970). Monte Carlo sampling methods using Markov Chainsand their applications.Biometrika, 57, 97–109.

Heidelberger, P. e Welch, P. (1983). Simulation run length control in the pres-ence of an inicial transient. Operations Research, 31, 1109–1144.

Huang, E., Cheng, S.H., Dressman, H., Pittman, J., Tsou, M., Horng, C., Bild,A., Inversen, E., Liao, M. and Chen, C. (2003). Gene expression predictorsof breast cancer outcomes. The Lancet, 361(9369), 1590-1596.

Jara, A. (2007). Applied bayesian non- and semi-parametric inference usingDPpackage. Rnews, 17–26.

Lachenbruch, P.A. e Mickey, M.R. (1968). Estimation of erro rates in discrim-inant analysis. Technometrics, 10, 1–11.

Lavine, M. (1992). Some aspects of Polya Tree distributions for statisticalmodeling. The Annals of Statistics, 20, 1222–1235.

Lavine, M. (1994). More aspects of Polya Tree distributions for statisticalmodeling. The Annals of Statistics, 22, 1161–1176.

Larry, W. e Kathryn, R. (2009). High-dimensional variable selection. The An-nals of Statistics, 37, 2178–2201.

Lijoi, A. e Prunster, I. (2009). Models beyond the Dirichlet process, in Hjort,N., Holmes, C., Muller, P. e Wlaker, S. (eds), Bayesian Nonparametrics inPractice, CPU.

Kahaner, D.K. (1991). A survey of existing multidimensional quadrature rou-tines, in statistical multiple integration. Contemporany Mathematics 115,Americam Mathemetical Society, 9–22.

Kraft, C.H. (1964). A class of distribution function processes which havederivates. Journal of Applied Probability, 1, 385–388.

Kronrod, A.S. (1965). Nodes and weights of quadrature formulas. ConsultantsBureau, New York.

Mauldin, R.D., Sudderth, W.D. e Williams, S.C. (1992). Polya trees and ran-dom distributions.Annals of Statistics, 20, 1203–1221.

Referencias 147

Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A. e Teller, E. (1953).Equations of state calculations by fast computing machine.Journal Chem.Phys, 21, 1087–1091.

Metropolis, N. e Ulam, S. (1949). The Monte Carlo method.Journal of theAmerican Statiscal Association, 44, 335–341.

Monteiro, M., Scotto, M.G. e Pereira, I. (2007). Sistemas de alarme optimospara processos de constagem DSINAR(1). Actas do XIV Congresso da So-ciedade Portuguesa de Estatıstica, 539–550.

Morrison, A.S. (1985). Screening in chronic disiase. New York: Oxford Uni-versity Press.

Muller, P. e Quintana, F. A. (2004). Nonparametric Bayesian data analysis.Statistical Science, 19, 95–110.

Owen, D.B., Li, L. e Chou, Y.M. (1981). Prediction intervals for screeningusing a measured correlated variables.Technometrics, 23, 165–170.

Paddock, S.M., Ruggeri, F., Lavine, M. e West, M. (2003). Randomized polyatrees models for nonparametric Bayesian inference. Statistica Sinica, 13,443–60.

Paddock, S.M. (1999). Randomized polya trees: bayesian nonparametrics formultivariate data analysis. Ph.D. thesis, Duke University.

Paulino, C.D., Amaral Turkman, M.A. e Murteira, B. (2003). Estatısticabayesiana. Fundacao Calouste Gulbenkian, Lisboa.

Piessens, R., deDoncker-Kapenga, E., Uberhuber, C., and Kahaner, D. (1983).QUADPACK: A subroutine package for automatic integration. Springer Ver-lag, New York.

Press, W.H., Teukolsky, S.A., Vetterling, W.T. e Flaanney, B.P. (1993). Nu-merical recipes in C: The art of scientific computing. Cambridge: CambridgeUniversity Press.

R: A language and environment for statistical computing (2006). R Founda-tion for satistical computing. Vienna, Austria, ISBN 3-900051-07-0, URLhttp://www.R-project.org.

Raftery, A.E. e Lewis, S.M. (1992). How many iterations in the Gibbs sampler?In Bayesian Statistics 4 (J.M. Bernardo, J.O. Berger, A.P. Dawid e A.F.M.Smith, eds.), 763–773. University press, Oxford.

148 Referencias

Ramos, S., Amaral Turkman, M.A. e Antunes, M. (2010). Bayesian classifi-cation for bivariate normal gene expression. Computational Statistics andData Analysis, 54, 2012–2010.

Ripley, B.D. (1987). Stochastic Simulation. Wiley, New York.

Sian, S.R., Baggerly, K.A. e Scott, D.W. (1994). Cross-validation of multivari-ate densities. Journal of the American Statiscal Association, 89, 807–817.

Silverman, B.W. (1985). Density estimation for statistics and data analysis.Chapman & Hall. London.

Singh, D., Febbo, P.G., Jackson, D.G., Manola, J., Ladd, C., Tamayo, P., Ren-shaw, A.A., D’Amico, A.V., Richie, J.P., Lander, E.S., Loda, M., Kantoff,P.W., Golub, T.R. and Sellers, W.R. (2002). Gene expression correlates ofclinical prostate cancer behaviour. Cancer Cell, 1(2): 203-209.

Smith, A. e Roberts, G. (1993). Bayesian computation via the Gibbs sam-pler and related Markov Chain Monte Carlo methods. Journal of the RoyalStatistical Society B, 55, 3–23.

Smith, B.J. (2007). Boa: An r package for MCMC output convergence assess-ment and posterior inference. Journal of Statistical Software, 21, 1–37.

Simonoff, J.S. (1996). Smoothing methods in statistics. Springer-Verlag.

Taylor, H.C. e Russel, J.T. (1939). The relashionship of validity coefficientson the practical effectiveness of testes in selection: discussion and tables.Journal of Applied Psychology, 23, 565–578.

Tibshirani, R., Hastie, T., Narasimhan, B. and Chu, G. (2003). Class pre-diction by nearest shrunken centroids, with applications to DNA microar-ray.Statistical Science, 18, 104-117.

Turkman, K.F. e Amaral Turkman, M.A. (1989). Optimal screening methods.Journal of the Royal Statistical Society. B, 51, 287–295.

Wand, M.P. e Jones, M.C. (1994). Multivariate plug-in bandwidth selection.Computational Statistics. 9, 97–116.

Wand, M.P. e Jones, M.C. (1995). Kernel smoothing. Chapman & Hall. Lon-don.

Wong, A., Meeker, J.B. e Selwyn, M.R. (1985). Screening on correlated vari-ables: a Bayesian approach. Technometrics, 27, 423–431.

Referencias 149

Yang, M., Hanson, T. e Christensen, R. (2008). Nonparametric Bayesian es-timation of a bivariate density with interval censored data. ComputationalStatistics and Data Analysis , 52, 5202–5214.