Figure 4,10: régression logistique ajustée par rapport à un modèle saturé (plusieurs sont possibles en fonction de l`interpolation entre les points) et du modèle null. Cette mesure globale de l`ajustement partage certaines propriétés importantes avec le coefficient de détermination dans la régression linéaire: Toutefois, la procédure la plus optimale pour la régression logistique consisterait à utiliser le test du ratio de vraisemblance (LRT) pour tester l`élimination des variables, comme Nous avons décrit avec l`exemple Scout de garçons. S`il y a beaucoup de prédicteurs catégoriques, le sparrelâchement peut être un problème pour ces algorithmes automatisés. Vous pouvez également utiliser AIC et BIC pour la sélection du modèle. Ces derniers seront discutés en même temps que les modèles log-linéaires plus tard. Pour obtenir un exemple d`un ensemble de données plus volumineux, et plus sur la sélection de modèles, consultez les documents pertinents pour les informations sur l`étude du niveau d`eau (Water. SAS et Water. txt): modèle fit: le modèle saturé a un ajustement préfet, G2 = 0, DF = 0. DF = nombre de cellules − nombre de paramètres uniques dans le modèle. La déviance est un concept clé dans la régression logistique.
Intuitivement, il mesure la déviance du modèle logistique ajusté par rapport à un modèle parfait pour (mathbb{P} [Y = 1 | X_1 = X_1, ldots, X_k = X_k] ). Ce modèle parfait, connu sous le nom de modèle saturé, désigne un modèle abstrait qui correspond parfaitement à l`échantillon, c`est le modèle tel que [hat{mathbb{P}} [Y = 1 | X_1 = x_ {I1}, ldots, X_k = x_ {ik}] = Y_i, quad i = 1, ldots, n. ] ce modèle attribue la probabilité (0 ) ou (1 ) à (Y ) en fonction de la valeur réelle de (Y_i ). Pour clarifier ce concept, la figure 4,10 montre un modèle saturé et une régression logistique ajustée. Il s`agit d`un exemple particulier d`une régression logistique multiple où nous avons plus d`une variable explicative, mais elles sont toutes catégoriques. C`est exactement similaire à tester si un modèle réduit est vrai par rapport à savoir si le modèle complet est vrai, pour la régression linéaire. Rappelez-vous que le modèle complet a plus de paramètres et de définir certains d`entre eux égal à zéro le modèle réduit est obtenue. Ces modèles sont imbriqués ou hiérarchiques.
La méthode décrite ici ne contient que pour les modèles imbriqués. Indépendamment des variables prédictifs étant catégoriques, continues ou une combinaison, lorsqu`il s`agit de plusieurs prédicteurs, la sélection du modèle devient importante. Avec la régression logistique comme dans la régression linéaire multiple ordinaire, nous pouvons utiliser des procédures automatisées telles que la procédure STEPwise ou l`élimination descendante. Ceux-ci sont analogues à ceux dans la régression multiple ordinaire, mais avec un changement de statistique utilisé. Le tableau ci-dessus est un exemple de tableau «analyse de déviance». C`est comme la table ANOVA que vous avez vu dans les régressions linéaires ou des modèles similaires, où nous regardons la différence dans les statistiques d`ajustement, par exemple F-statistique, en raison de la chute ou l`ajout d`un paramètre. Dans ce cas, nous vérifions le changement de déviance et s`il est significatif ou non. Sélection du modèle: pertinent lors de la comparaison avec des modèles plus simples. Le modèle saturé est le modèle le plus complexe possible!! Dans la prochaine leçon, nous traiteront de la régression logistique avec des covariables continues et d`autres sujets avancés.
Dans la régression logistique, R2 n`a pas la même interprétation que dans la régression linéaire: comment interpréter ces effets? En renvoyant à l`équation (5), l`intervalle de confiance de 95% pour l`estimation du paramètre, c`est-à-dire pour le rapport de cotes de log, est (− 0,4092, 0,7870).