Critérios para seleção de modelos baseados na razão de verossimilhança

 

Prelecionista: Claudomiro Moura Gomes André

Orientador: Adair José Regazzi

 

A escolha do modelo apropriado, do ponto de vista estatístico, é um tópico extremamente importante na análise de dados (Bozdangan, 1987). Busca-se o modelo mais parcimonioso, isto é, o modelo que envolva o mínimo de parâmetros possíveis a serem estimados e que explique bem o comportamento da variável resposta. Nesta linha, diversos critérios para seleção de modelos são apresentados na literatura (ver Bozdogan, 1987; Wolfinger, 1993, Littel et. al, 2002). Dentre os critérios para seleção de modelos, os critérios baseados no máximo da função de verossimilhança (MFV) são os mais utilizados, com maior ênfase o Teste da Razão de Verossimilhança (TRV), o Critério de Informação de Akaike (AIC) e o Critério Bayesiano de Schwarz (BIC).

O teste da razão de verossimilhança é apropriado para testar dois modelos, desde que um dos modelos seja um caso especial do outro (modelos aninhados). O TRV usa a estatística  dada por:  sendo  o máximo do logaritmo natural da função de verossimilhança (MLFV) para o modelo mais parametrizado () e  MLFV para modelo mais simples (). Se  for o modelo de melhor ajuste ao conjunto de dados  tem distribuição assintótica , com  o parâmetro de não centralidade e  graus de liberdade, e  a diferença entre o número de parâmetros dos modelos. A hipótese que o modelo  apresenta melhor ajuste é rejeitada caso .

O Critério de Informação de Akaike (AIC) admite a existência de um modelo “real” que descreve os dados que é desconhecido, e tenta escolher dentre um grupo de modelos avaliados, o que minimiza a divergência de Kullback-Leibler (K-L). O valor de K-L para um modelo  com parâmetros , em relação ao modelo “real” representado por  é . Esta divergência está relacionada à informação perdida por se usar um modelo aproximado e não o “real”. A estimativa do AIC para um determinado modelo é dada por:  em que,  o MLFV do modelo com os parâmetros  e  o número de parâmetros. O modelo com menor valor e AIC é considerado o modelo de melhor ajuste.

O Critério Bayesiano de Schwarz (BIC) tem como pressuposto a existência de um “modelo verdadeiro” que descreve a relação entre a variável dependente e as diversas variáveis explanatórias entre os diversos modelos sob seleção. Assim o critério é definido como a estatística que maximiza a probabilidade de se identificar o verdadeiro modelo dentre os avaliados. O valor do critério BIC para um determinado modelo é dado por: , com  o número de observações. O modelo com menor BIC é considerado o de melhor ajuste.

Os três critérios apresentados apesar de conceitualmente diferentes acerca dos modelos em avaliação, utilizam o mesmo critério estatístico, o máximo da função de verossimilhança como medida do ajustamento, entretanto, definem valores críticos diferentes. Esta é a diferença fundamental entre os três métodos. Com o teste da razão de verossimilhança, considera-se por hipótese que o modelo mais simples é o de melhor ajuste, até que se observem, dado um nível  de significância, diferenças estatísticas para um modelo mais completo. Utilizando-se o AIC admite-se que dentre os modelos avaliados nenhum é considerado o que realmente descreve a relação entre a variável dependente e as variáveis explanatórias, ou o “modelo verdadeiro” e então, tenta-se escolher o modelo que minimize a divergência (K-L). Com o Critério Bayesiano de Schwarz (BIC), está implícito que existe o modelo que descreve a relação entre as variáveis envolvidas e o critério tenta maximizar a probabilidade de escolha do verdadeiro modelo.

 

 

 

 

Referências

 

Bozdongan. H. Model selection and Akaike's Information Criterion (AIC): The general theory and its analytical extensions. Psychometrika. v.52, n.3, 345-370, Sep. 1987.

Wolfinger, R. D. Covariance estruture selection in general mixed models. Comunications in Statistics. V.22. p1079-1106. 1993.

Littell, R. C.; Milliken, G. A. Stroup, W. W & Wolfinger, R. D. SAS System for Mixed Models. Cary: Statistical Analysis System Institute, 2002. 633p.

 

 

 

 

Claudomiro Moura Gomes André                    Adair José Regazzi