INPIXON

Bandes de confiance

Intervalles de confiance et bandes de confiance

Principes de base

On nous demande parfois comment obtenir des intervalles de confiance dans les modèles linéaires dans SYSTAT. En fait, ce n’est pas très difficile et nous allons passer en revue la technique. Mais avant cela, passons en revue les idées de base qui sous-tendent un intervalle de confiance pour un modèle linéaire.

Tout d’abord, si nous avons une régression linéaire de Y sur la variable X, nous disons en fait que, pour une valeur donnée de X, la valeur de Y est donnée par Y=aX+b+e où e est un « terme de bruit ».

Le terme de bruit est généralement supposé être normalement distribué avec une moyenne de 0 et une variance de s^2. L’astuce pour un ensemble de données réelles consiste à estimer a et b, puis à effectuer des déductions sur ces estimations à l’aide d’une valeur estimée de s^2.

Parfois, cependant, nous aimerions trouver un intervalle de confiance pour la moyenne de Y à une valeur spécifiée de X. Selon l’équation ci-dessus, la moyenne de Y à X est aX+b.

Cependant, dans un ensemble de données réelles, nous ne connaissons jamais les « vraies » valeurs de a et b ; tout ce que nous savons, ce sont nos estimations. Par conséquent, il convient de trouver un intervalle dans lequel nous pouvons être relativement sûrs que la véritable moyenne de Y se produit.

Il existe des formules très compliquées pour calculer cet intervalle, mais nous ne les aborderons pas ici. Après tout, l’ordinateur doit faciliter le calcul. Supposons donc que nous prenions l’échantillon de données USSTATES.SYD, avec 48 cas valides pour les variables CARDIO et CANCER. Utilisez la boîte de dialogue Statistics > Regression > Linear pour configurer le modèle de régression ou lancer les commandes :

REGRESS
USE usstates
SAUVEGARDE régression/modèle
MODÈLE cancer=CONSTANT+cardio
ESTIMATION

L’ordinateur estime alors le modèle, en trouvant des valeurs estimées pour la constante et le coefficient de CARDIO et en imprimant un tableau d’analyse de la variance.

Dans ce cas, il enregistre également un fichier, REGRESS.SYD, qui contient les résidus du modèle, les estimations de CANCER basées sur CARDIO pour le modèle (la variable nommée ESTIMATE) et une valeur mystérieuse appelée SEPRED. C’est SEPRED que nous utiliserons pour calculer nos intervalles de confiance.

SEPRED signifie « Erreur standard de la valeur prédite ». Le fichier contiendra également les valeurs des données originales. Ils sont sauvegardés parce que nous avons ajouté l’option MODEL à la commande SAVE.

Pour calculer les limites SUPÉRIEURE et INFÉRIEURE d’un intervalle de confiance à 95 % pour les valeurs prédites de CANCER, utilisez la boîte de dialogue Data > Transform > Let ou entrez dans le module BASIC et lancez les commandes :
BASIC
USE regress
LET n=48
LET nvars=2
LET upper = estimate+TIF(.975,n-nvars)*sepred
LET lower = estimate-TIF(.975,n-nvars)*sepred
PRINT supérieur inférieur
RUN

Les limites de confiance SUPÉRIEURE et INFÉRIEURE de la valeur estimée de CANCER pour chaque cas seront alors imprimées. Dans l’exemple ci-dessus, TIF est l’abréviation de « Inverse t-distribution ».

Les idées ci-dessus peuvent être généralisées de différentes manières. Par exemple, si vous souhaitez trouver un intervalle de confiance pour la moyenne de Y pour une régression sur deux variables, il vous suffit d’ajouter ces variables à l’instruction MODEL dans REGRESS et de changer NVARS de 2 à 3 dans le module BASIC. (Note : N-NVARS représente le nombre de cas valides moins le nombre de variables dans le modèle. Définissez N et NVARS ci-dessus comme étant le nombre correct de cas et de variables pour votre modèle.

Intervalles de confiance pour la moyenne de Y à de nouvelles valeurs de X

Il peut arriver que vous souhaitiez trouver l’intervalle de confiance pour la moyenne de Y pour une ou plusieurs nouvelles valeurs de votre variable X. Mettez les nouvelles valeurs de X à la fin de votre fichier et mettez à zéro les valeurs de Y associées. (Vous ne devez pas vous préoccuper de la valeur Y réelle. Cette valeur Y n’est qu’un espace réservé et n’entrera pas dans les calculs).

Ensuite, ajoutez une nouvelle variable dans votre fichier, appelée WT. WT doit avoir la valeur 1 pour les cas pour lesquels vous avez des données à la fois pour X et Y, et 0 pour les cas avec de nouvelles valeurs de X. Après avoir enregistré le fichier, utilisez la boîte de dialogue Data > Frequency pour sélectionner WT comme variable de pondération, ou lancez la commande :

FREQUENCE=WT

En utilisant la boîte de dialogue Statistics > Regression > Linear ou un fichier de commandes, estimez à nouveau votre modèle de régression, en n’oubliant pas d’enregistrer les résultats dans un fichier de données avec l’option MODEL. La commande FRÉQUENCE est très utile dans ce contexte ; lors du calcul de la régression, les points de poids 1 seront utilisés une fois, les points de poids zéro seront utilisés zéro fois.

Ainsi, la régression sera calculée pour les cas dont les valeurs de Y et X sont connues. Cependant, la valeur d’ESTIMATION sera calculée pour tous les cas. En utilisant le fichier des résultats enregistrés, vous pouvez utiliser le calcul ci-dessus pour dériver l’intervalle de confiance pour la moyenne estimée d’une inconnue Y à une valeur connue de X pour les nouveaux cas.

Subtilités

Il convient de noter quelques subtilités concernant ce type d’intervalle de confiance. Tout d’abord, il s’agit d’un intervalle pour la moyenne de Y à une valeur particulière de X, et non d’un intervalle de confiance ou d’une bande pour la droite de régression. Si vous tracez les limites de confiance SUPÉRIEURE et INFÉRIEURE, vous verrez deux lignes courbes autour de la ligne de régression. Pour revenir à l’exemple original utilisant le fichier USSTATES.SYD, calculez les valeurs de l’intervalle de confiance et tracez-les :
DÉBUT
PLOT cancer*x(1) /SIZE=0 SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 ,
XMIN=100 XMAX=500 XLABEL=’CARDIO’ COLOR=BLUE
PLOT upper,lower*x(1) /SIZE=0 SMOOTH=SPLINE SHORT YMIN=100 YMAX=300,
XMIN=100 XMAX=500 YLABEL=’ ‘ XLABEL=’ ‘ COLOR=RED,
SURCOUVERTURE
FIN

(En sauvegardant les résultats du modèle estimé, SYSTAT renomme les variables indépendantes X(1). . . X(n), de sorte que CARDIO est renommé X(1) dans cet exemple).

Il est tentant de penser que ces lignes forment une bande de confiance pour l’ensemble de la ligne. Ce n’est pas vrai. Le problème est que les limites de confiance supérieure et inférieure sont calculées en utilisant un point à la fois. Pour calculer une bande ou un intervalle de confiance pour une ligne entière, il faut tenir compte du fait que deux paramètres, la constante et le coefficient X, sont calculés pour cette ligne. Par conséquent, les bandes de confiance supérieures et inférieures pour l’ensemble de la ligne seraient données par :
BASIC
LET n=48
LET nvars=2
LET upperband = estimate+SQRT(2*FIF(.95,2,n-nvars))*sepred
LET lowerband = estimate+SQRT(2*FIF(.95,2,n-nvars))*sepred
PRINT bande supérieure bande inférieure
RUN

Lorsque vous représentez les intervalles de confiance pour les valeurs estimées de CANCER et les bandes de confiance pour la ligne de régression, vous verrez que la bande de confiance est plus large que l’intervalle de confiance :

DÉBUT
PLOT cancer*x(1) / SIZE=0 SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 ,
XMIN=100 XMAX=500 XLABEL=’CARDIO’ COLOR=BLUE
PLOT upper,lower*x(1) /SIZE=0 SMOOTH=SPLINE SHORT YMIN=100,
YMAX=300 XMIN=100 XMAX=500 YLABEL=’ ‘,
XLABEL=’ ‘ COLOR=RED OVERLAY
PLOT bande supérieure,bande inférieure*x(1) /SIZE=0 SMOOTH=SPLINE SHORT,
YMIN=100 YMAX=300 XMIN=100 XMAX=500 YLABEL=’ ‘,
XLABEL=’ ‘ COLOR=GREEN OVERLAY
FIN

Comme la relation entre CANCER (décès par 100 000 dus au cancer) et CARDIO (décès par 100 000 dus aux maladies cardiovasculaires) est linéaire, la différence entre les intervalles de confiance pour les valeurs estimées de CANCER et les intervalles de confiance pour la ligne de régression est faible, mais même avec des données qui se comportent bien comme celle-ci, la différence est apparente.

Deuxièmement, il est également tentant de penser que 95 % de toutes les observations devraient se situer à l’intérieur des intervalles de confiance. Ce n’est pas vrai non plus. Il s’agit de bandes de confiance pour la moyenne uniquement. Si vous souhaitez trouver des bandes de confiance pour les observations, vous devez modifier le calcul comme indiqué ci-dessous.

BASIC
LET n=48
LET nvars=2
LET s_square=177.065
LET upperband = estimate+TIF(.975,n-nvars)*SQR(sepred^2+s_square)
LET lowerband = estimate-TIF(.975,n-nvars)*SQR(sepred^2+s_square)
PRINT bande supérieure bande inférieure
RUN

où S_SQUARE est le résidu quadratique moyen de la régression. Ces intervalles sont parfois appelés intervalles de prédiction. Lorsque vous saisissez les valeurs de N et NVARS, saisissez également la valeur de S_SQUARE, que vous trouverez dans le tableau d’analyse de la variance du résultat de la régression.

Maintenant, si vous souhaitez voir les résultats de ce calcul, lancez la séquence de commandes suivante :

DÉBUT
PLOT cancer*x(1) /SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 XMIN=100,
XMAX=500 XLABEL=’CARDIO’ COLOR=BLUE
PLOT bande supérieure,bande inférieure*x(1) / SIZE=0 SMOOTH=SPLINE SHORT,
YMIN=100 YMAX=300 XMIN=100 XMAX=500 YLABEL=’ ‘,
XLABEL=’ ‘ COLOR=GREEN OVERLAY
FIN

Cela permet de tracer les bandes de confiance ou les intervalles de prédiction autour des données.

Panier
Retour en haut