INPIXON

Vertrauensbänder

Konfidenzintervalle und Konfidenzbänder

Grundlagen

Manchmal werden wir gefragt, wie man Konfidenzintervalle in linearen Modellen in SYSTAT erhält. Es ist eigentlich gar nicht so schwer, und wir werden hier die Technik besprechen. Bevor wir dies tun, sollten wir jedoch die grundlegenden Ideen hinter einem Konfidenzintervall für ein lineares Modell betrachten.

Erstens, wenn wir eine lineare Regression von Y auf die Variable X haben, dann sagen wir eigentlich, dass für einen bestimmten Wert von X der Wert von Y durch Y=aX+b+e gegeben ist, wobei e ein „Rauschterm“ ist.

Der Rauschtext wird normalerweise als normalverteilt mit einem Mittelwert von 0 und einer Varianz von s^2 angenommen. Der Trick bei einem realen Datensatz besteht darin, a und b zu schätzen und dann anhand eines geschätzten Wertes von s^2 Rückschlüsse auf diese Schätzungen zu ziehen.

Manchmal möchte man jedoch ein Konfidenzintervall für den Mittelwert von Y bei einem bestimmten Wert von X finden. Nach der obigen Gleichung ist der Mittelwert von Y bei X aX+b.

In einem realen Datensatz kennen wir jedoch nie die „wahren“ Werte von a und b; wir kennen nur unsere Schätzungen. Daher ist es angebracht, ein Intervall zu finden, in dem wir relativ sicher sein können, dass der wahre Mittelwert von Y auftritt.

Für die Berechnung dieses Intervalls gibt es einige sehr unübersichtliche Formeln, auf die wir hier aber nicht näher eingehen wollen. Schließlich soll der Computer das Rechnen leicht machen. Nehmen wir also den Musterdatensatz USSTATES.SYD mit 48 gültigen Fällen für die Variablen CARDIO und CANCER. Verwenden Sie das Dialogfeld Statistik > Regression > Linear, um das Regressionsmodell einzurichten oder die Befehle zu erteilen:

REGRESS
USE usstates
SAVE regress/MODEL
MODELL Krebs=CONSTANT+Kardio
SCHÄTZUNG

Der Computer schätzt dann das Modell, indem er geschätzte Werte sowohl für die Konstante als auch für den Koeffizienten von CARDIO ermittelt und eine Varianzanalysetabelle ausdruckt.

In diesem Fall wird auch eine Datei, REGRESS.SYD, gespeichert, die die Residuen des Modells, die Schätzungen von CANCER auf der Grundlage von CARDIO für das Modell (die Variable ESTIMATE) und einen mysteriösen Wert namens SEPRED enthält. SEPRED wird zur Berechnung unserer Konfidenzintervalle verwendet.

SEPRED steht für „Standard Error of the Predicted Value“. Die Datei enthält auch die Werte der Originaldaten. Diese werden gespeichert, weil wir dem Befehl SAVE die Option MODEL hinzugefügt haben.

Um die obere und untere Grenze eines 95 %-Konfidenzintervalls für die vorhergesagten Werte von KREBS zu berechnen, verwenden Sie das Dialogfeld Daten > Transformieren > Lassen oder rufen Sie das BASIC-Modul auf und geben Sie die Befehle ein:
BASIC
USE regress
LET n=48
LET nvars=2
LET upper = Schätzung+TIF(.975,n-nvars)*sepred
LET lower = estimate-TIF(.975,n-nvars)*sepred
PRINT oben unten
LAUFEN

Die oberen und unteren Konfidenzgrenzen für den geschätzten Wert von KREBS für jeden Fall werden dann ausgedruckt. In der obigen Darstellung steht TIF für die „Inverse t-Distribution“.

Die oben genannten Ideen können auf verschiedene Weise verallgemeinert werden. Wenn Sie beispielsweise ein Konfidenzintervall für den Mittelwert von Y für eine Regression auf zwei Variablen finden möchten, müssen Sie nur diese Variablen zur MODEL-Anweisung in REGRESS hinzufügen und NVARS im BASIC-Modul von 2 auf 3 ändern. (Anmerkung: N-NVARS ist die Anzahl der gültigen Fälle abzüglich der Anzahl der Variablen im Modell. Setzen Sie N und NVARS oben auf die richtige Anzahl von Fällen und Variablen für Ihr Modell.

Konfidenzintervalle für den Mittelwert von Y bei neuen Werten von X

Es kann vorkommen, dass Sie das Konfidenzintervall für den Mittelwert von Y bei einem oder mehreren neuen Werten Ihrer X-Variablen finden möchten. Fügen Sie die neuen X-Werte am Ende Ihrer Datei ein und setzen Sie die zugehörigen Y-Werte auf Null. (Sie müssen sich nicht darum kümmern, wie hoch der Y-Wert tatsächlich ist. Dieser Y-Wert ist nur ein Platzhalter und wird nicht in die Berechnungen einbezogen).

Als Nächstes fügen Sie in Ihrer Datei eine neue Variable mit der Bezeichnung WT hinzu. WT sollte den Wert 1 für die Fälle haben, für die sowohl X- als auch Y-Daten vorliegen, und 0 für die Fälle mit neuen X-Werten. Verwenden Sie nach dem Speichern der Datei das Dialogfeld Daten > Häufigkeit, um WT als Gewichtungsvariable auszuwählen, oder geben Sie den Befehl:

FREQUENZ=WT

Verwenden Sie das Dialogfeld Statistik > Regression > Linear oder eine Befehlsdatei, um Ihr Regressionsmodell erneut zu schätzen, und denken Sie daran, die Ergebnisse mit der Option MODELL in einer Datendatei zu speichern. Der Befehl FREQUENCY ist in diesem Zusammenhang sehr nützlich; bei der Berechnung der Regression werden Punkte mit dem Gewicht 1 einmal verwendet, Punkte mit dem Gewicht Null werden nullmal verwendet.

Die Regression wird also für die Fälle mit bekannten Werten von Y und X berechnet. Der Wert von ESTIMATE wird jedoch für alle Fälle berechnet. Anhand der Datei mit den gespeicherten Ergebnissen können Sie die obige Berechnung verwenden, um das Konfidenzintervall für den geschätzten Mittelwert eines unbekannten Y bei einem bekannten Wert von X für die neuen Fälle abzuleiten.

Feinheiten

Bei dieser Art von Konfidenzintervall gibt es einige Feinheiten, die Sie beachten sollten. Erstens handelt es sich um ein Intervall für den Mittelwert von Y bei einem bestimmten Wert von X, nicht um ein Konfidenzintervall oder eine Bandbreite für die Regressionslinie. Wenn Sie die obere und untere Konfidenzgrenze einzeichnen, sehen Sie zwei gekrümmte Linien um die Regressionslinie. Kehren Sie zum ursprünglichen Beispiel zurück und verwenden Sie die Datei USSTATES.SYD, um die Werte des Konfidenzintervalls zu berechnen und darzustellen:
BEGIN
PLOT Krebs*x(1) /SIZE=0 SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 ,
XMIN=100 XMAX=500 XLABEL=’CARDIO‘ COLOR=BLUE
PLOT upper,lower*x(1) /SIZE=0 SMOOTH=SPLINE SHORT YMIN=100 YMAX=300,
XMIN=100 XMAX=500 YLABEL=‘ ‚ XLABEL=‘ ‚ COLOR=RED,
OVERLAY
ENDE

(Beim Speichern der Ergebnisse des geschätzten Modells benennt SYSTAT die unabhängigen Variablen X(1) um. . . X(n), so dass CARDIO in diesem Beispiel in X(1) umbenannt wird).

Es ist verlockend zu denken, dass diese Linien ein Vertrauensband für die gesamte Linie bilden. Das ist nicht wahr. Das Problem besteht darin, dass die oberen und unteren Konfidenzgrenzen jeweils anhand eines Punktes berechnet werden. Um ein Konfidenzintervall für eine ganze Linie zu berechnen, müssen wir berücksichtigen, dass zwei Parameter, die Konstante und der Koeffizient von X, für diese Linie berechnet werden. Die oberen und unteren Konfidenzintervalle für die gesamte Linie würden sich daher wie folgt ergeben:
BASIC
LET n=48
LET nvars=2
LET oberes Band = Schätzung+SQRT(2*FIF(.95,2,n-nvars))*sepred
LET lowerband = Schätzung+SQRT(2*FIF(.95,2,n-nvars))*sepred
PRINT oberes Band unteres Band
LAUFEN

Wenn Sie die Konfidenzintervalle für die geschätzten Werte von KREBS und die Konfidenzbänder für die Regressionslinie aufzeichnen, werden Sie sehen, dass das Konfidenzband breiter ist als das Konfidenzintervall:

BEGIN
PLOT Krebs*x(1) / SIZE=0 SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 ,
XMIN=100 XMAX=500 XLABEL=’CARDIO‘ COLOR=BLUE
PLOT upper,lower*x(1) /SIZE=0 SMOOTH=SPLINE SHORT YMIN=100,
YMAX=300 XMIN=100 XMAX=500 YLABEL=‘ ‚,
XLABEL=‘ ‚ COLOR=RED OVERLAY
PLOT oberes Band,unteres Band*x(1) /SIZE=0 SMOOTH=SPLINE SHORT,
YMIN=100 YMAX=300 XMIN=100 XMAX=500 YLABEL=‘ ‚,
XLABEL=‘ ‚ COLOR=GRÜN OVERLAY
ENDE

Da die Beziehung zwischen KREBS (Todesfälle pro 100000 aufgrund von Krebs) und KARDIO (Todesfälle pro 100000 aufgrund von Herz-Kreislauf-Erkrankungen) linear ist, ist der Unterschied zwischen den Konfidenzintervallen für die geschätzten Werte von KREBS und den Konfidenzbändern für die Regressionslinie gering, aber selbst bei gut verhaltenen Daten wie diesen ist der Unterschied offensichtlich.

Zweitens ist es auch verlockend zu denken, dass 95 % aller Beobachtungen in die Konfidenzbereiche fallen sollten. Auch dies ist nicht wahr. Dies sind Konfidenzbänder nur für den Mittelwert. Wenn Sie Konfidenzintervalle für Beobachtungen ermitteln möchten, müssen Sie die Berechnung wie unten dargestellt ändern.

BASIC
LET n=48
LET nvars=2
LET s_square=177.065
LET oberes Band = Schätzung+TIF(.975,n-nvars)*SQR(sepred^2+s_square)
LET lowerband = estimate-TIF(.975,n-nvars)*SQR(sepred^2+s_square)
PRINT oberes Band unteres Band
LAUFEN

wobei S_SQUARE der mittlere quadratische Rest aus der Regression ist. Diese werden manchmal als Vorhersageintervalle bezeichnet. Geben Sie bei der Eingabe Ihrer Werte für N und NVARS auch den Wert für S_SQUARE ein, den Sie in der Varianzanalysetabelle der Regressionsausgabe finden.

Wenn Sie nun die Ergebnisse dieser Berechnung sehen möchten, geben Sie die folgende Befehlsfolge ein:

BEGIN
PLOT cancer*x(1) /SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 XMIN=100,
XMAX=500 XLABEL=’CARDIO‘ COLOR=BLUE
PLOT oberes Band,unteres Band*x(1) / SIZE=0 SMOOTH=SPLINE SHORT,
YMIN=100 YMAX=300 XMIN=100 XMAX=500 YLABEL=‘ ‚,
XLABEL=‘ ‚ COLOR=GRÜN OVERLAY
ENDE

Dadurch werden die Konfidenzbänder oder Vorhersageintervalle um die Daten herum dargestellt.

Warenkorb
Nach oben scrollen